Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Microsoft открыла доступ к экспериментальному веб-инструменту Copilot 3D, который позволяет конвертировать статичные изображения в трехмерные модели. Сервис доступен бесплатно через портал Copilot Labs.
Инструмент поддерживает на входе PNG и JPG размером до 10 МБ. Созданные модели сохраняются на странице пользователя в течение 28 дней и могут быть скачаны в формате GLB. Copilot 3D является новой попыткой Microsoft популяризировать 3D-творчество после закрытия проектов Paint 3D и Remix3D.
copilot.microsoft.com
Команда, занимавшаяся разработкой суперкомпьютера Dojo расформирована, а ее руководитель Питер Бэннон покидает компанию.
Этот шаг завершает многолетнюю попытку Tesla создать кастомные чипы и процессоры "размером с кремниевую пластину" для обучения моделей автономного вождения и робототехники. Вместо этого компания перейдет на решения Nvidia и AMD, а производством чипов нового поколения займется Samsung.
Около 20 инженеров из команды Dojo уже основали собственный стартап DensityAI, а остальные сотрудники будут переведены на другие проекты внутри Tesla.
bloomberg.com
Apple подтвердила, что осенние обновления: iOS, iPadOS и macOS получат поддержку GPT-5. Она заменит текущую GPT-4o в тех случаях, когда собственным моделям Apple потребуется помощь в обработке сложных запросов. Это коснется ответов Siri, инструментов для письма и визуального поиска.
Использование GPT-5 останется опциональным: пользователи должны будут явно дать согласие на передачу запросов в ChatGPT. Apple продолжит скрывать IP-адреса и запрещать OpenAI хранить данные, однако оставит возможность привязать платную подписку OpenAI для доступа к дополнительным функциям.
Кроме того, обновления ОС принесут функцию Live Translation для перевода разговоров в реальном времени и расширят возможности сквозного поиска по контенту.
9to5mac.com
Техногигант приобрел WaveForms AI - молодой стартап, чье программное обеспечение способно идентифицировать и воспроизводить эмоциональные оттенки в человеческой речи. Команда WaveForms присоединится к подразделению Superintelligence Labs.
Стартап был основан в декабре 2024 года, но уже успел привлечь 40 миллионов долларов инвестиций при оценке в 160 миллионов. Компания работала над "Тестом Тьюринга для речи" и так называемым "эмоциональным AGI", чтобы сделать голоса, сгенерированные ИИ, неотличимыми от человеческих.
Для Цукерберга это уже вторая сделка в области ИИ-аудио за последние месяцы после июльского поглощения PlayAI. Финансовые условия покупки не разглашаются.
theinformation.com
Google приступил к тестированию редизайна сервиса Google Finance, в центре которого теперь находится ИИ. В ближайшие недели пользователи из США получат доступ к новой версии со встроенным чат-ботом. Он сможет отвечать на сложные вопросы о рынках, предоставляя обобщенные ответы со ссылками на внешние источники.
Помимо ИИ-помощника, обновление включает расширенные инструменты для построения графиков и добавляет рыночные данные в реальном времени для сырьевых товаров и криптовалют.
Появится и постоянно обновляемая новостная лента, которая позволит отслеживать важные заголовки, не покидая платформу. Во время тестового периода пользователи смогут переключаться между новым и классическим интерфейсами.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥5
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
OpenAI ведет переговоры об инвестициях в Merge Labs, стартап в области нейрокомпьютерных интерфейсов, который планирует создание высокоскоростных BCI-систем.
Merge Labs планирует привлечь 250 миллионов долларов при оценке в 850 миллионов. Сэм Альтман будет числиться сооснователем вместе с бывшим топ-менеджером Neuralink Алексом Бланиа, однако не будет заниматься операционной деятельностью. Ожидается, что основное финансирование поступит от венчурного подразделения OpenAI.
Этот шаг еще больше обостряет давнее соперничество между Альтманом и Маском, которые в 2015 году вместе основали OpenAI, но позже разошлись во взглядах.
ft.com
Anthropic объявила о значительном увеличении контекстного окна для Claude Sonnet 4 до одного миллиона токенов. Это в 5 раз больше предыдущего лимита и позволит обрабатывать за один проход целые кодовые базы или большие массивы документов. Новая возможность уже доступна в публичной бете через API Anthropic, Amazon Bedrock, а в скором времени появится и в Google Cloud Vertex AI.
За расширение придется платить больше. Для запросов свыше 200 тыс. входных токенов цена удваивается и составит 6 долларов за миллион токенов. Стоимость выходных токенов также вырастет с 15 до 22.50 долларов за миллион.
anthropic.com
Согласно внутренним документам, Microsoft составила список конкретных сотрудников с указанием их имен, ролей и принадлежности к командам: Reality Labs, GenAI Infrastructure и AI Research. Корпорация готова предложить им многомиллионные компенсационные пакеты - крупные бонусы при найме, конкурентные зарплаты, значительные пакеты акций и высокие годовые премии.
Для ускорения процесса в Microsoft внедрили специальную процедуру. Рекрутеры могут помечать кандидатов как "критически важные ИИ-таланты" и тогда процесс рассмотрения и утверждения на уровне руководства возможен в течение 24 часов.
businessinsider.com
Институт искусственного интеллекта Аллена представил MolmoAct 7B — опенсорсную модель для планирования движений роботов в трехмерном пространстве. Система интерпретирует команды на естественном языке, создает 3D-реконструкцию сцены и прокладывает траекторию движения, которую разработчик может просмотреть и скорректировать до того, как робот начнет действовать.
Модель на 7 млрд. параметров была обучена на 18 млн. примеров, в которых были включены 12 тыс. эпизодов из реального мира. В бенчмарке SimPLER система показала успешность выполнения задач в 72.1%, обойдя решения от Nvidia, Google и Microsoft.
AI2 опубликовал техотчет, веса и датасеты, позиционируя MolmoAct как свободно доступную альтернативу проприетарным решениям.
allenai.org
Платформа создает полноценные, играбельные проекты на основе текстового описания на естественном языке, не требуя навыков программирования. Система использует большие модели для автоматической генерации всех ключевых элементов: 3D-сцен, персонажей и игровой логики, интегрируя текст, 3D-моделирование и физические движки.
Помимо основной генерации, инструмент поддерживает персонализацию созданных игр, предварительный просмотр в реальном времени и возможность оптимизации. SEELE AI позиционирует свой сервис не только как игровой инструмент, но и как платформу для создания контента в сфере образования, маркетинга и социальных сетей.
Попробовать инструмент можно на официальном сайте.
Seele AI в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍4🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Stand-In (BowenXue) — лёгкий и plug-and-play фреймворк для генерации видео с сохранением личности
📌 Что делает:
- Генерирует видео, сохраняя лицо или стиль персонажа, обучив всего ~1 % новых параметров на базе модели генерации видео. Результат сопоставим с полным переобучением, но быстрее и легче.
- Поддерживает генерацию по тексту с контролем идентичности, смену стиля, pose-guidance, face-swap, стилизацию и даже генерацию не-людей.
- Лицензия Apache-2.0 — открытое использование и модификация.
Что нового:
- Версия v1.0 (153 M параметров) с весами на базе Wan2.1-14B-T2V и кодом для инференса.
- Интеграция с ComfyUI: выпущен preprocessing-нод для улучшенной поддержки, особенно после сторонней интеграции.
https://huggingface.co/BowenXue/Stand-In
#opensource #ai #ml
- Генерирует видео, сохраняя лицо или стиль персонажа, обучив всего ~1 % новых параметров на базе модели генерации видео. Результат сопоставим с полным переобучением, но быстрее и легче.
- Поддерживает генерацию по тексту с контролем идентичности, смену стиля, pose-guidance, face-swap, стилизацию и даже генерацию не-людей.
- Лицензия Apache-2.0 — открытое использование и модификация.
Что нового:
- Версия v1.0 (153 M параметров) с весами на базе Wan2.1-14B-T2V и кодом для инференса.
- Интеграция с ComfyUI: выпущен preprocessing-нод для улучшенной поддержки, особенно после сторонней интеграции.
https://huggingface.co/BowenXue/Stand-In
#opensource #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍7🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Anthropic добавила в Claude Opus 4 и 4.1 возможность принудительно завершать беседу. Эта функция предназначена для редких, крайних случаев постоянно враждебного или оскорбительного поведения со стороны пользователя.
Это крайняя мера, к которой чат-бот прибегнет только после многократных безуспешных попыток перенаправить разговор в продуктивное русло или по прямой просьбе пользователя. При этом система не будет использовать эту возможность, если есть риск, что пользователь может причинить вред себе или окружающим.
Когда Claude завершает диалог, пользователь не сможет отправлять новые сообщения в этой ветке, но сможет начать новый чат или отредактировать старые сообщения для создания новых ветвей.
anthropic.com
Согласно данным компании Appfigures, мобильное приложение ChatGPT сгенерировало 2 млрд. долларов потребительских расходов с момента запуска в мае 2023 года. В среднем каждый из 690 млн. пользователей потратил в приложении 2.91 доллара. Это говорит о готовности аудитории платить за ИИ-сервисы на мобильных устройствах.
Темпы роста выручки резко ускорились в этом году. С января по июль 2025 года пользователи потратили в приложении 1.35 млрд. долларов, на 673% больше, чем за аналогичный период прошлого года. Это эквивалентно примерно 193 млн. долларов в месяц. США лидируют по доходам (38%), а Индия — по количеству установок (14%).
Эти метрики показывают отрыв ChatGPT от конкурентов. Для сравнения, Grok заработал в этом году 25.6 млн., а доходы Claude и Copilot вместе взятых составляют лишь одну тридцатую от мобильной выручки OpenAI.
techcrunch.com
Tencent представила Hunyuan World Model 1.0-Lite оптимизированную версию своей модели для генерации трехмерных сцен, которая может работать на потребительских GPU. Разработчики снизили требования к видеопамяти на 35% (с 26 до 17 ГБ) благодаря динамическому FP8-квантованию.
За счет использования SageAttention и оптимизации кэширования удалось ускорить инференс более чем в 3 раза с потерей точности менее 1%.
Как и оригинальная версия, 1.0-Lite имеет открытый исходный код и уже доступна на GitHub, Hugging Face, а также в виде демо SceneTo3D.
Tencent Hunyuan в сети X
В подкасте на Youtube OpenAI рассказали о разработке нового класса моделей, ориентированных на долгосрочное мышление. Системы на их основе смогут планировать, рассуждать и экспериментировать над одной проблемой на протяжении длительного времени, от нескольких часов до нескольких дней.
По словам OpenAI , первые проблески этого подхода уже видны в моделях, которые недавно завоевали золото на международных олимпиадах по математике и информатике. Конечная цель - автоматизировать исследования, например, для поиска новых идей в медицине или в области безопасности самого ИИ.
В OpenAI признают, что реализация этой концепции потребует значительно больших вычислительных мощностей, чем доступны сегодня. Это объясняет готовность Сэма Альтмана инвестировать в строительство дата-центров в ближайшие годы.
OpenAI на платформе Youtube
Google запустил новый инструмент Flight Deals. Он использует ИИ для поиска выгодных перелетов по запросам на естественном языке, а не через стандартные фильтры. Пользователи могут описать свои пожелания в свободной форме, например, «недельная поездка этой зимой в город с хорошей едой, только прямые рейсы». Инструмент ориентирован на путешественников с гибкими планами, для которых приоритетом является цена.
По заявлению Google, система использует продвинутый ИИ для понимания нюансов запроса, а затем анализирует данные Google Flights в реальном времени, чтобы показать актуальные варианты. Сервис запускается в бета-режиме и в течение недели станет доступен пользователям в США, Канаде и Индии.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍4🤩2🌭2🥰1
Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍8🔥7
Forwarded from Machinelearning
Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.
По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.
Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.
@ai_machinelearning_big_data
#AI #ML #ASR #OLMoASR #AI2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍6🔥5
🚀 Release: TimesFM 2.5
Google Research представила обновлённую версию TimesFM 2.5 на Hugging Face (скоро также в BigQuery и **Model Garden**).
TimesFM (Time Series Foundation Model) - модель от Google для прогнозирования временных рядов.
Что нового:
- Существенное повышение точности по сравнению с TimesFM 2.0
- Увеличенная максимальная длина контекста
- Лидерство на GiFT-Eval — TimesFM 2.5 занимает первое место по всем accuracy-метрикам среди zero-shot foundation-моделей
🟠 Репозиторий: https://github.com/google-research/timesfm)
🟠 HF: http://huggingface.co/google/timesfm-2.5-200m-pytorch
@data_analysis_ml
#AI #ML #TimesFM #forecasting #GoogleResearch
Google Research представила обновлённую версию TimesFM 2.5 на Hugging Face (скоро также в BigQuery и **Model Garden**).
TimesFM (Time Series Foundation Model) - модель от Google для прогнозирования временных рядов.
Что нового:
- Существенное повышение точности по сравнению с TimesFM 2.0
- Увеличенная максимальная длина контекста
- Лидерство на GiFT-Eval — TimesFM 2.5 занимает первое место по всем accuracy-метрикам среди zero-shot foundation-моделей
@data_analysis_ml
#AI #ML #TimesFM #forecasting #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥6👍4
Forwarded from Machinelearning
Физики Гарварда создали первый в мире квантовый компьютер, который работает непрерывно без перезапуска.
Ранее квантовые машины держались миллисекунды, максимум - около 13 секунд.
Новая установка работает более 2 часов и может функционировать бесконечно.
Ключевое новшество - решение проблемы потери атомов: система в реальном времени пополняет кубиты, впрыскивая 300 000 атомов в секунду с помощью оптических инструментов.
Учёные считают, что практические, постоянно работающие квантовые компьютеры могут появиться уже в течение 2 лет - с огромным влиянием на медицину, финансы и научные исследования.
thecrimson
По данным The Information, Anthropic продвигает свою модель Claude как основу для создания enterprise-замен привычных приложений вроде Slack. Компания делает ставку на обучение с подкреплением, чтобы улучшить способности модели к программированию.
Похожую стратегию развивает и xAI Илона Маска, но эксперты сомневаются, что крупные корпорации откажутся от укоренившихся систем вроде SAP или ServiceNow. Более вероятно, что первыми такие AI-first инструменты начнут использовать небольшие стартапы.
Тем временем JPMorgan и другие банки активно заявляют об интеграции решений OpenAI, Anthropic и Google, хотя реальные масштабы затрат пока не соответствуют публичному энтузиазму.
theinformation
Comet, запущенный в июле 2025 года, работает как встроенный ассистент: он умеет анализировать страницы, вытаскивать ключевые детали и сердить по ссылкам, проводя многошаговые исследования.
Perplexity также представила Comet Plus за $5 — партнёрскую подписку, которая открывает доступ к контенту от CNN, The Washington Post, Fortune, Los Angeles Times и Condé Nast (The New Yorker, Wired и др.).
Однако запуск совпал с продолжающимися исками от крупных издателей, включая Dow Jones (The Wall Street Journal) и New York Post, обвиняющих стартап в использовании их материалов для обучения ИИ.
Скачать Comet
TechCrunch пишет, что запуск нового соцприложения Sora 2 вызвал тревогу внутри самой OpenAI. Это TikTok-подобная лента, наполненная видео, созданными ИИ, включая дипфейки самого Сэма Альтмана.
Часть исследователей OpenAI считает, что компания уходит от своей миссии ради хайпового контента. Один из сотрудников прямо заявил: «AI-ленты - пугающие. Я был шокирован, узнав, что мы выпускаем Sora 2…»
Сторонники проекта объясняют, что такие продукты нужны, чтобы финансировать фундаментальные исследования и дать пользователям почувствовать силу технологий. В OpenAI утверждают, что хотят «показать людям что-то классное, чтобы они улыбнулись».
Но вместе с ростом Sora OpenAI рискует повторить судьбу классических соцсетей: зависимость, манипуляции c информацией, проблемы с дипфейками и давлением на метрики вовлечённости.
techcrunch
Китай в 2025 году вложит до 98 млрд долларов, но экспортные ограничения на топовые чипы Nvidia и AMD тормозят прогресс.
Huawei продвигает Ascend 910C, однако по памяти, пропускной способности и софту он уступает решениям Nvidia. США разрешили ограниченные продажи H20 и MI308 в Китай с 15% налогом, но топовые GPU недоступны китацы, и разрыв в производительности всё ещё в пользу американцев.
X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🔥2🥰2🤣1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Модель GPT-5 Pro заняла первое место среди всех проверенных frontier-LLM на закрытом бенчмарке ARC-AGI Semi-Private. Этот тест оценивает способность моделей к абстрактному рассуждению и решению сложных задач.
Интересно, что GPT-5 Pro всё ещё уступает результатам старого o3-preview, который OpenAI тестировал ещё в декабре прошлого года. Однако тот экспериментальный вариант был почти в 50 раз дороже в вычислительных затратах и никогда не был публично выпущен.
Версия o3-preview (high) достигала впечатляющих 87,5 % точности на ARC-AGI-1, но потребляла 172 раза ресурсов, чем версия (low). Из-за этого она не попала в официальный лидерборд - по правилам, тесты с compute-стоимостью выше $10 000 не публикуются.
GPT-5 Pro является самой мощной из доступных и подтверждённых моделей на Semi-Private ARC-AGI.
В список вошли достижения в самых разных областях: ИИ робототехника, медицина, экология, образование, энергетика и дизайн. Среди ключевых технологий - Claude Sonnet 4 от Anthropic, новая версия ИИ-модели, которая продемонстрировала более точные и безопасные ответы; NVIDIA DGX Spark - «настольный» AI-суперкомпьютер, делающий высокопроизводительные вычисления доступнее; UiPath Agentic Automation, объединяющая работу AI-агентов; и XReal One - компактные AR-очки, приближающие смешанную реальность к массовому использованию.
TIME отметили разработки в области биотехнологий, биопечати тканей, устойчивых источников энергии и переработки отходов. Эти изобретения демонстрируют, как технологии становятся не просто инструментами, а основой будущего образа жизни.
time
Google Cloud опубликовал обновлённый список из 321 корпоративного примера применения генеративного ИИ, что в 10 раз больше, чем годом ранее. Это показывает, что AI уже массово используется в продакшене по всему миру.
В банках и ритейле Commerzbank ИИ обрабатывает 2 млн клиентских чатов с 70% успешных решений, Best Buy ускоряет анализ отзывов, а Mercedes внедрил голосового ассистента на базе Gemini.
Внутри компаний ИИ автоматизирует рутину: Toyota экономит более 10 000 часов в год, Manipal Hospitals сократил передачу смен с 90 до 20 минут, Equifax - 97% сотрудников хотят сохранить AI-лицензии.
Wayfair ускорил настройку окружений на 55%, CME сэкономил 10,5 часов в месяц, а BMW и UPS используют цифровых двойников для моделирования логистики и производств.
Подробнее
Министр экономики Тайваня заявил, что TSMC сохранит свои самые передовые технологии и основное производство на острове, несмотря на предложение США сделать «50 на 50».
Компания вкладывает $165 млрд в шесть фабрик в США, но строит десять на Тайване и планирует новые - там останутся ведущие технологические узлы.
По словам министра, зарубежные заводы допустимы только при реальных заказах, прибыли и отсутствии рисков для безопасности.
Идея «50-50» возникла из-за стремления США увеличить долю внутренних чипов после кризиса поставок 2020–2021 годов.
Аналитики считают, что перенос производства в США слишком дорог и займёт годы, поэтому Вашингтон делает ставку на «friendshoring» - распределённые цепочки поставок между союзниками.
times
Microsoft представила новую модель UserLM-8B, созданную для симуляции поведения пользователя в диалоге. В отличие от обычных LLM, эта модель генерирует реплики от лица человека, включая уточнения, эмоции и ошибки, как в реальном общении.
Модель построена на базе Llama3.1 8B и дообучена на корпусе WildChat-1M, где она анализировала сотни тысяч реальных и синтетических диалогов. Такой подход позволяет создавать реалистичные сценарии общения для тестирования чат-ботов, обучения ассистентов и генерации синтетических данных.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Google анонсировала проект Suncatcher, который будет строить ML-инфраструктуру в космическом пространстве. Концепция состоит из развертывания группировок спутников, оснащенных TPU и связанных оптическими каналами. Идея проекта в том, что на правильной орбите солнечная панель может быть до 8 раз продуктивнее, чем на Земле, а значит космос - это лучшее место для масштабирования вычислений.
Для реализации еще предстоит решить как поддерживать высокоскоростную межспутниковую связь, которая требует полета аппаратов в очень плотном строю (километр или менее). К началу 2027 года планируют запуск двух прототипов спутников для проверки работы оборудования на орбите.
research.google
Новый рекорд производительности был получен на виртуальных машинах Azure ND GB300 v6, запущенных на стоечной системе NVIDIA GB300 NVL72. В ходе тестов была достигнута совокупная скорость инференса модели Llama 2 70B в 1.1 млн токенов в секунду. Это на 27% больше предыдущего рекорда, установленного на GB200.
Новая конфигурация дала почти пятикратный прирост пропускной способности на один GPU по сравнению с поколением H100. Ключевыми факторами стали возможности архитектуры Blackwell, использование FP4 и оптимизация библиотеки NVIDIA TensorRT-LLM. Результаты были подтверждены независимой аналитической компанией Signal 65. Логи запуска тестового инстанса можно посмотреть на Github.
techcommunity.microsoft.com
Платформа вводит новые, более строгие правила для раздела Computer Science. Причиной стал резкий рост числа обзорных и концептуальных статей низкого качества, многие из которых созданы с помощью нейросетей.
Теперь работы будут приниматься к публикации только после того, как их одобрят в рецензируемом научном журнале или на конференции. Авторам потребуется предоставить соответствующее подтверждение при загрузке работы, в противном случае статья будет отклонена. Новая политика не затрагивает обычные исследовательские статьи, однако в будущем может быть распространена и на другие научные области, если там возникнет схожая проблема.
blog.arxiv.org
AgiBot в партнерстве с Longcheer Technology развернула систему обучения с подкреплением в реальном мире (RW-RL) на пилотной производственной линии. Это первый подтвержденный случай промышленного применения технологии, которая позволяет роботам обучаться непосредственно в процессе работы, а не следовать жестким инструкциям.
С RW-RL роботы AgiBot осваивают новые навыки за минуты, автономно адаптируясь к изменениям в деталях или производственных допусках. Система поддерживает стабильность промышленного уровня и не требует сложной аппаратной модификации при смене продукта. После успешного пилотного проекта компании планируют расширить применение RW-RL на сборку потребительской электроники и автомобильных компонентов.
gizmochina.com
Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность ИИ выполнять реальную работу фрилансеров. В рамках теста исследователи взяли 240 завершенных проектов с биржи Upwork и поставили идентичные задачи 6 топовым ИИ-системам.
Результаты показали, что даже лучшие модели справились с заданиями на человеческом уровне лишь в 2.5% случаев. Почти 97% работ были признаны неудовлетворительными из-за низкого качества, неполных данных или поврежденных файлов. ИИ справился только с узкими задачами: создание логотипов или сведение аудио.
Тест наглядно подсветил огромный разрыв между показателями ИИ на синтетических бенчмарках и его реальной готовностью к автоматизации сложных проектов.
scale.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍8🔥8😢1
Forwarded from Machinelearning
GPT-5-Codex-Mini - более доступная версия флагманского Codex, она в 4 раза эффективней по затратам по сравнению с полной версией GPT-5-Codex при небольшом компромиссе в производительности.
Разница в возможностях минимальна: на SWE-bench Verified версия Mini набрала 71.3%, в то время как старшая GPT-5-Codex - 74.5%. OpenAI рекомендует переключаться на Mini для решения более простых задач или для экономии ресурсов при приближении к лимитам. Старший Codex будет автоматически предлагать переход на Mini, когда пользователь достигнет 90% своего лимита.
Модель уже доступна в CLI и расширении для IDE, а в скором времени появится и поддержка через API.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤4
Forwarded from Machinelearning
Miles - фреймворк для RL-обучения от команды LMSYS ORG, ориентированный на энтерпрайз-уровень.
Если вы следите за опенсорс разработками, вы наверняка слышали о предшественнике этой системы, проекте slime. Это легкий инструмент, который используют во многих современных пайплайнов пост-трейна. На нем, кстати, запускали GLM-4.6.
Slime доказал, что легковесный дизайн работает, и Miles делает следующий шаг - масштабное обучение архитектур MoE и поддержка тяжелых промышленных нагрузок.
Miles предлагает то, что называют "True On-Policy". Раньше между тренировкой и инференсом часто возникало расхождение. Теперь же, благодаря инфраструктурному подходу, LMSYS добилась нулевой дивергенции. Это стало возможным благодаря использованию Flash Attention 3, библиотеки DeepGEMM и ядер от Thinking Machines Lab, работающих в связке с
torch.compile.Вторая особенность - в использовании спекулятивного декодирования. Обычно в RL черновая модель замораживается, что мешает ей следовать политике целевой модели. LMSYS добавили онлайн-обучение черновой модели.
Результаты на тестах положительные: ускорение генерации более чем на 25%, особенно на поздних стадиях обучения.
Для энтерпрайза память - это деньги. В Miles включили механизмы, предотвращающие падение системы при некритичных ошибках OOM и исправили чрезмерное потребление памяти в FSDP.
В дорожной карте проекта обещают поддержку мультимодального обучения, совместимость со SGLang v2 и расширенное спекулятивное декодирование.
@ai_machinelearning_big_data
#AI #ML #RL #Miles #LMSYS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥3❤2🥰1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
OpenAI представила GPT-5.2-Codex, которую называет самым продвинутым инструментом для реальной программной инженерии на сегодняшний день. Модель получила нативную поддержку сжатия контекста, улучшенную интеграцию с терминалом Windows и способность проводить глубокий рефакторинг крупных репозиториев без потери логической нити.
Ключевой апдейт коснулся сферы безопасности - Codex резко прибавил способностей в анализе защищенности кода. Модель уже доступна платным пользователям ChatGPT, а API будет открыт в ближайшие недели.
openai.com
Компания Илона Маска открыла публичный доступ к Grok Voice Agent API — нативному интерфейсу speech-to-speech для создания голосовых ассистентов. Решение построено на полностью собственной архитектуре, что позволило достичь задержки ответа менее 1 секунды.
API поддерживает вызов внешних инструментов, веб-поиск, прямую интеграцию с телефонией через SIP и понимает более 100 языков. В бенчмарке Big Bench Audio модель заняла 1 место с точностью 92,3%, опередив Gemini 2.5 Flash и GPT Realtime.
Главной фишкой стала ценовая политика: единый тариф составляет $0.05 за минуту. Это значительно дешевле, чем у OpenAI и ElevenLabs.
x.ai
В VS Code Insiders появилась поддержка Agent Skills - открытого протокола, разработанного Anthropic. Технология позволяет упаковывать инструкции, скрипты и вспомогательные ресурсы в модули, которыми можно пользоваться в разных ИИ-инструментах.
Главное отличие Agent Skills от привычных кастомных инструкций в функциональности: это не текстовые гайдлайны по стилю кода, а полноценные наборы инструментов для автоматизации задач, которые подгружаются в контекст модели динамически и только при необходимости.
Стандарт дает кросс-платформенность: созданный один раз скилл будет работать одинаково как в интерфейсе редактора, так и в CLI-агентах.
code.visualstudio.com
T5Gemma 2 получила серьезные архитектурные изменения по сравнению с первой версией. Чтобы снизить потребление памяти, инженеры внедрили
tied word embeddings для энкодера и декодера, а также объединили механизмы self-attention и cross-attention в единый слой. Модели доступны в компактных конфигурациях на 270M, 1B и 4B параметров.Новинка поддерживает контекстное окно до 128 тыс. токенов и умеет обрабатывать не только текст на 140 языках, но и изображения. В бенчмарках T5Gemma 2 обошла базовую Gemma 3 в задачах на длинный контекст, кодинг и мультимодальное понимание. Модели доступны на Hugging Face и Kaggle для исследовательских целей.
blog.google
Perception Encoder Audiovisual (PE-AV) - техническое ядро, лежащее в основе SAM Audio. Это мультимодальная модель, которая объединяет аудио, видео и текст в единое пространство эмбеддингов.
PE-AV умеет извлекать векторы признаков из аудио или видеокадров и формировать совместные аудиовизуальные представления. Это повышает точность в задачах кросс-модального поиска, детекции звуков и глубокого понимания сцен, где важен синхронный контекст изображения и звука.
В открытом доступе - 6 чекпоинтов модели разного размера (от Small до Large) с вариациями по количеству обрабатываемых кадров. Код опубликован на GitHub, а веса - на Hugging Face.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤5🔥2
Вчера, на просторах сети Х, Tongyi Lab запостила тизер "новогоднего подарка, который уже в пути".
Так как все очень сильно и давно ждут Z-Image Base
Розыскную бригаду собирать не пришлось - новинку спойлернул gemini-code-assist в репозитории Modelscope : это будет qwen-image-2512
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🥰2
Forwarded from Machinelearning
DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо
Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:
DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):
Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:
DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:
Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.
На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.
Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.
Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.
Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.
Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к
Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.
@ai_machinelearning_big_data
#AI #ML #LLM #Engram #Deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35👍14🔥8
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
В обновленном коллективном иске против Nvidia всплыли неожиданные подробности: техногигант напрямую контактировал с крупнейшей теневой библиотеки Anna’s Archive. Согласно судебным документам, инженеры компании искали способ получить приоритетный доступ к массиву данных книг, чтобы ускорить обучение своих языковых моделей.
Ситуация выглядит парадоксально: авторы иска утверждают, что Anna’s Archive предупреждал Nvidia о нелегальном характере контента. Однако менеджмент Nvidia, ссылаясь на конкурентное давление и острую нехватку качественных текстов, дал добро на скачивание.
Речь шла о передаче 500 Тб информации, включающие материалы из LibGen и Sci-Hub, которые Nvidia планировала использовать для тренировки своих моделей.
torrentfreak.com
OpenAI внедряет предиктивный анализ системы защитных фильтров для подростков. Алгоритм оценивает не только данные, указанные при регистрации, но и косвенные признаки: время активности в чате, историю аккаунта и поведенческие паттерны.
Если нейросеть решит, что перед ней несовершеннолетний, ChatGPT ограничит генерацию взрослого контента, а в случае ошибочного срабатывания - придется подтверждать возраст через сервис Persona с помощью селфи.
Это часть новой стратегии по ослаблении цензуры для взрослой аудитории, которая откроет доступ к материалам, ранее заблокированным для всех. Первыми новую механику опробуют пользователи из ЕС уже в ближайшие недели.
openai.com
В свежем Economic Index Repot Anthropic выяснила, что ИИ берет на себя около четверти задач в половине всех профессий, но полное замещение сотрудников происходит менее чем в 10% компаний. Основной паттерн использования сместился от автоматизации к сотрудничеству.
В топе сценариев по-прежнему лидирует кодинг, однако характер работы изменился. Разработчики все чаще используют Claude не для генерации кода с нуля, а для обучения, получения фидбека и доработки решений.
Главный риск касается новичков. ИИ забрал на себя всю рутину, на которой традиционно набивали руку джуны и это создает проблему: продуктивность сеньоров растет, но у молодых специалистов исчезает полигон для получения первичного опыта.
anthropic.com
Платформа представила функцию паблишинга, которая берет на себя техническую рутину по развертыванию приложений. Инструмент не только компилирует код, но и полностью автоматизирует подготовку тестовых окружений для iOS и Android.
Для Android система генерирует готовый AAB-файл, который остается лишь загрузить в Google Play Console. С Apple интеграция еще глубже: Manus самостоятельно создает запись приложения в аккаунте разработчика, упаковывает сборку и отправляет ее в App Store Connect на ревью в TestFlight. Функция уже открыта для всех пользователей с доступом к Develop Apps.
manus.im
OptiMind — MoE-модель с 20B/3.6A параметров, которая умеет преобразовывать текстовые описания задач (планирование логистики, производство или цепочки поставок) в готовые математические формулировки, понятные профессиональному софту.
Несмотря на скромный размер, OptiMind не уступает крупным аналогам. Инженеры Microsoft вручную чистили датасеты от некорректных решений и задействовали систему экспертных подсказок, которая корректирует логику модели в процессе генерации. Модель доступна на Hugging Face под лицензией MIT.
microsoft.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍4🔥1🤨1
Forwarded from Machinelearning
Пока
В течении часа глава OpenAI отвечал на вопросы и рассказывал про видение ИИ сейчас и в будущем. Главный тезис стрима:
Мы входим в эпоху "радикального изобилия", где интеллект станет слишком дешевым, чтобы его измерять.
Сэм Альтман прогнозирует, что к 2027 году стоимость инференса упадет в 100 раз, а модели уровня GPT-5.ХX станут основой для создания сложнейшего софта силами одного человека.
Основным дефицитным ресурсом останется человеческое внимание и способность генерировать качественные идеи.
Ключевые моменты трансляции
Удешевление создания кода не снизит спрос на программистов, а наоборот, резко увеличит объем создаваемого софта. Инженеры будут тратить меньше времени на код и больше на проектирование.
ИИ станет дефляционным фактором. Софт, на разработку которого раньше уходили годы работы команд, теперь можно создать за пару сотен долларов инференса и одну хорошую идею.
Значительная часть мирового ВВП будет создаваться и потребляться через софт, генерируемый ИИ.
Цель — сделать интеллект "too cheap to meter". К концу 2027 года ожидается появление моделей уровня 5.2X со снижением стоимости в 100 раз.
Скорость важнее цены. Разрабатываются методы выдачи результата в 1/100 времени от текущего, даже если это будет стоить дороже.
В GPT-4.5 был упор на текстовый стиль. В GPT-5 команда сместила фокус на "ризонинг, кодинг и инжиниринг". Альтман признает, что сейчас стиль может казаться громоздким, но это исправят в будущих итерациях.
Будущее за приложениями, которые пишутся на лету под конкретного пользователя, т.е софт, который эволюционирует вместе с вашими привычками.
Готовится функция «Sign in with ChatGPT», которая позволит передавать ИИ контекст всей цифровой жизни пользователя (почта, файлы, история), чтобы он мог действовать как полноценный ассистент.
Обсуждается создание иерархии памяти: рабочая идентичность, личная и т.д., чтобы модель знала, какой контекст использовать в разных ситуациях.
Модели становятся слишком хороши в биологии. Старая стратегия блокировки доступа скоро перестанет работать. Нужен переход к стратегии устойчивости, как в пожарной безопасности.
Альтман признался, что сам быстро перешел от "никогда не дам ИИ доступ к компьютеру" до "пусть делает всё сам", потому что удобство перевешивает страх. Это создает риск скрытых уязвимостей, которые могут проявиться через недели работы агента.
Стройте продукты, предполагая, что GPT-6 будет «невероятным». Если ваш бизнес выиграет от новой модели - вы на верном пути. Если модель его съест - это плохой путь.
Софт-скилс - самые важные навыки сейчас: высокая субъектность, способность генерировать идеи, устойчивость и адаптивность.
Альтман советует амбициозным разработчикам ИИ уходить из университетов, так как текущая академическая среда не успевает за темпами индустрии.
Используйте ИИ как безлимитного аспиранта или партнера по брейн-шторму для проверки тысяч идей в режиме "поиска в ширину".
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15👍7🔥4🌚3🤣1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.
На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.
Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google
Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.
Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.
Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com
Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.
Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.
Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org
Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.
В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.
Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com
Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.
Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).
Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥7👍4
🚀 Mistral научили маленькие модели думать как большие
Mistral AI представила семейство Ministral - компактные модели, созданные с помощью подхода cascade distillation.
- Большая модель Mistral 3 выступает в роли «учителя»
- Дистилляция проходит в несколько этапов, а не за один раз
- Каждая следующая модель учится на результатах предыдущей
- Быстрее inference
- Дешевле запуск в продакшене
- Подходит для edge-устройств и локального запуска
- Можно масштабировать AI-сервисы без огромных затрат
- В итоге - меньше размер, ниже стоимость, высокая точность
Большие модели будут использоваться для обучения…
а в продакшене будут работать маленькие и эффективные.
https://www.deeplearning.ai/the-batch/mistral-uses-cascade-distillation-on-mistral-3-to-build-ministral-family
#ai #ml #llm #Mistral
Mistral AI представила семейство Ministral - компактные модели, созданные с помощью подхода cascade distillation.
- Большая модель Mistral 3 выступает в роли «учителя»
- Дистилляция проходит в несколько этапов, а не за один раз
- Каждая следующая модель учится на результатах предыдущей
- Быстрее inference
- Дешевле запуск в продакшене
- Подходит для edge-устройств и локального запуска
- Можно масштабировать AI-сервисы без огромных затрат
- В итоге - меньше размер, ниже стоимость, высокая точность
Большие модели будут использоваться для обучения…
а в продакшене будут работать маленькие и эффективные.
https://www.deeplearning.ai/the-batch/mistral-uses-cascade-distillation-on-mistral-3-to-build-ministral-family
#ai #ml #llm #Mistral
❤19👍12🔥6
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Новый инструмент сканирует кодовую базу и предлагает патчи для исправления найденных проблем. Сейчас он доступен в режиме ограниченного превью для Enterprise и Team клиентов, а мейнтейнеры репозиториев могут запросить приоритетный бесплатный доступ.
Обычный статический анализ ищет совпадения с известными паттернами уязвимостей. Этого достаточно, чтобы поймать торчащие наружу пароли или устаревшее шифрование.
Но прорехи в бизнес-логике или сломанный контроль доступа такие инструменты пропускают - там нужно понимать, как компоненты взаимодействуют между собой и куда движутся данные.
Claude Code Security делает именно это: читает и анализирует код так, как его читал бы человек-исследователь безопасности.
Каждая находка проходит многоступенчатую верификацию. Claude сам перепроверяет результаты, пытаясь опровергнуть собственные выводы и отсеять ложные срабатывания.
Финальные находки появляются в дашборде с оценкой серьезности и уровнем уверенности модели. Решение, применять предложенный патч или нет остается за людьми, без человеческого одобрения ничего не меняется.
За инструментом - более года исследований. Команда Frontier Red Team тестировала Claude на соревнованиях CTF и совместно с Pacific Northwest National Laboratory отрабатывала защиту критической инфраструктуры.
С Opus 4.6 команда обнаружила в open-source проектах более 500 уязвимостей, которые не замечали годами, несмотря на регулярный аудит.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤8🔥5😁2