Агенты, которые управляют браузером или правят код, решают каждую задачу с нуля. Провалился - забыл. Получилось - тоже забыл. Google Research предложил фреймворк ReasoningBank, который даёт агенту память и позволяет учиться на ошибках, а не только на победах.
Предшественники (Synapse, AWM) запоминали только успешные прогоны. Когда им скормили провальные - стало хуже: AWM потерял 2,2% точности. ReasoningBank, в свою очередь, из успешной траектории он берёт валидированную стратегию, а из провальной - урок, что пошло не так.
Агент получает задачу "найди дату первой покупки". Без системы памяти он заходит в "Последние заказы", видит свежий заказ и выдаёт неверный ответ.
С ReasoningBank - вспоминает стратегию из прошлого опыта: при поиске в истории проверяй все страницы, а не только первую. Переходит в полный список заказов, листает до конца и находит правильную дату.
Другой пример: задача "купи самый топовый товар из категории мужской обуви". Без памяти агент тратит 29 шагов, потому что не может найти фильтр по категории, а с памятью только 10, так как стратегия фильтрации уже в запасе.
После каждой задачи та же языковая модель оценивает, удалась попытка или нет. Из траектории извлекаются записи (заголовок, описание, содержание), намеренно абстрагированные от конкретного сайта.
Перед новой задачей агент ищет похожие записи через эмбеддинг-поиск и получает их как часть промпта.
Это метод (Memory-aware Test-Time Scaling) масштабирования вычислений на инференсе с учётом памяти.
Агент генерирует несколько попыток для одной задачи, сравнивает их между собой и выделяет устойчивые паттерны.
Получается цикл: хорошая память направляет попытки в перспективные области, а разнообразные попытки обогащают память.
На WebArena ReasoningBank поднимает процент успеха на 8,3 п.п. с Gemini-2.5-flash и на 7,2 п.п. с Gemini-2.5-pro, сокращая число шагов до 16%.
На SWE-Bench-Verified resolve rate увеличился с 54% до 57,4%, при этом расход токенов больше всего на 4,3%.
Фреймворк работает и на маленьких моделях: на WebArena-Shopping даже Gemma-3-12B с ReasoningBank улучшает показатель с 17,1% до 24,1%.
@ai_machinelearning_big_data
#AI #ML #Memory #Agents #ReasoningBank #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤩107💯32🔥28❤24👍14🤓14👏8⚡1
Это гибридный MoE с режимами быстрого и медленного мышления, и первая модель после полной перестройки инфраструктуры предобучения и RL.
Агент тянет цепочки до 495 шагов в продакшене, работает с документами, аналитикой данных и MCP-инструментами.
По скорости инференса: время до первого токена сократили на 54%, полное время ответа - на 47%. При этом на живых задачах CodeBuddy и WorkBuddy модель падает меньше чем раз на десять тысяч запросов.
На стандартных бенчах (SWE-bench Verified для кода, Terminal-Bench 2.0 для терминала, BrowseComp и WideSearch для веб-поиска) Hy3 идёт вровень с топовыми кодинговыми и поисковыми агентами.
Совместима с OpenClaw, OpenCode и KiloCode, запускается через vLLM и SGLang.
🤖 https://modelscope.cn/models/Tencent-Hunyuan/Hy3-preview
💻 https://github.com/Tencent-Hunyuan/Hy3-preview
@ai_machinelearning_big_data
#Hunyuan
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍20🔥8🥰1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Workspace Agents - это новый формат ИИ-помощников внутри ChatGPT, ориентированный на корпоративные команды. Согласно описанию, такие агенты выполняют многошаговые задачи без постоянных подсказок и могут продолжать работу даже в отсутствие пользователя.
OpenAI позиционирует Workspace Agents как эволюцию кастомных GPTs: вместо инструмента для одного человека команда может создать общего агента, использовать его в ChatGPT и постепенно дорабатывать.
Типовые сценарии - подготовка отчётов, обработка заявок на закупку ПО, маршрутизация клиентских отзывов, рассылки и проверка контрагентов.
Доступ к Workspace Agents ограничен тарифами Business, Enterprise, Edu и Teachers. До 6 мая использование бесплатное, затем OpenAI включат тарификацию по кредитам.
Кастомные GPT, по словам OpenAI, продолжат работать. В дальнейшем компания обещает упростить их перевод в формат Workspace Agents.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102👏27🤔17🎉9❤6🔥2👌2🆒1
МТС Web Services - трехкратный победитель CDO/CDTO Awards 2026.
🔥 22 апреля 2026 года на VII Российском саммите по цифровой трансформации объявили победителей премии CDO/CDTO Awards. MWS стала обладателем сразу трех наград.
🔘 «Digital‑платформа года» - MWS Cloud Platform
Публичная облачная платформа собственной разработки, экосистема инфраструктурных и платформенных сервисов для запуска и масштабирования цифровых продуктов любой сложности.
🔘 «Digital‑решение года» - MWS GPT
B2B‑платформа, которая объединяет около 90 больших языковых моделей для решения бизнес‑задач.
🔘 «CEO года цифровой компании» - Павел Воронин, генеральный директор MWS.
@ai_machinelearning_big_data
Публичная облачная платформа собственной разработки, экосистема инфраструктурных и платформенных сервисов для запуска и масштабирования цифровых продуктов любой сложности.
B2B‑платформа, которая объединяет около 90 больших языковых моделей для решения бизнес‑задач.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥69👏24🏆19👍11🤣11❤5🎉5🤔2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Agibot Expedition A3 - это полноразмерный гуманоидный робот, который может складываться в собственный контейнер для хранения.
Он рассчитан на использование в домах, отелях и ритейле.
Цена - около $45 000.
@ai_machinelearning_big_data
Он рассчитан на использование в домах, отелях и ритейле.
Цена - около $45 000.
@ai_machinelearning_big_data
🤔82😁42👍34👀14👏11🌭11❤6🤓4👨💻2🎅2😨1
Media is too big
VIEW IN TELEGRAM
Китайские военные провели испытания автономных четвероногих роботов, способных действовать скоординированными группами в условиях боевых действий.
Каждая машина передвигается со скоростью до 15 км/ч, несёт полезную нагрузку до 25 кг и преодолевает препятствия высотой до 30 см. За подвижность на неровном рельефе отвечают 12 независимых сочленений.
Роботы оснащены системами ИИ и обмениваются сенсорными данными в реальном времени, что позволяет стае действовать как единое целое.
Внутри группы роботы распределены по специализациям:
Несмотря самостоятельность, финальную команду на открытие огня отдает человек-оператор.
Управлять машинами можно голосом или через специальные перчатки с датчиками, считывающими жесты рук. В сеть стаи также интегрированы дроны — это расширяет радиус действия и создает связку наземных и воздушных единиц для работы в сложных сценариях.
Видеоматериал представляет собой постановочные военные учения. Ролик снят и распространён государственными СМИ Китая - Global Times и Shanghai Media Group.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔61🔥34👀19😨15💯11❤9👏6🤨4👨💻1🤝1
🚀 OpenAI представила GPT-5.5
Она заметно сильнее в самом главном: код, ресёрч, аналитика и работа с документами.
GPT 5.5 хороша в многоступенчатых задачах.
И почти во всём обходит конкурентов - например, на Terminal-Bench выбивает 82,7% против 69% у свежей Claude.
GPT-5.5 уже доступна пользователям Plus, Pro, Business и Enterprise - в ChatGPT и Codex.
Модель стала дороже: ~$5 / $30 за млн токенов.
Уже раскатывают на всех платных подписчиков.
Тестим! 🔥
https://openai.com/index/introducing-gpt-5-5/
Она заметно сильнее в самом главном: код, ресёрч, аналитика и работа с документами.
GPT 5.5 хороша в многоступенчатых задачах.
И почти во всём обходит конкурентов - например, на Terminal-Bench выбивает 82,7% против 69% у свежей Claude.
GPT-5.5 уже доступна пользователям Plus, Pro, Business и Enterprise - в ChatGPT и Codex.
Модель стала дороже: ~$5 / $30 за млн токенов.
Уже раскатывают на всех платных подписчиков.
Тестим! 🔥
https://openai.com/index/introducing-gpt-5-5/
🔥135❤25👏19🤩15🥱10👍6💯4🤣3🤨2
🚀 DeepSeek выкатили V4 и сделали то, к чему все шли последние два года.
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Антропии и ОпенАи будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала суперлешевой, и от это уже не отмотаешь.
В релизе есть упоминания - «950 supernodes» это отсылка к Huawei Atlas 950 SuperPoD, новой инференс-инфраструктуре Huawei на чипах Ascend. DeepSeek говорят, что во второй половине 2026 года, когда эти суперноды запустят в масштабе, цена Pro заметно упадёт. То есть они планируют гонять инференс не на Nvidia, а на китайском железе Huawei.
Тариф Pro стоит $0.145 за вход и $3.48 за выход на миллион токенов.
Flash - $0.028 за вход и $0.28 за выход, что делает его неверятно дешевым для модели, которая заявляет уровень конкуренции с передовыми системами.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Антропии и ОпенАи будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала суперлешевой, и от это уже не отмотаешь.
В релизе есть упоминания - «950 supernodes» это отсылка к Huawei Atlas 950 SuperPoD, новой инференс-инфраструктуре Huawei на чипах Ascend. DeepSeek говорят, что во второй половине 2026 года, когда эти суперноды запустят в масштабе, цена Pro заметно упадёт. То есть они планируют гонять инференс не на Nvidia, а на китайском железе Huawei.
Тариф Pro стоит $0.145 за вход и $3.48 за выход на миллион токенов.
Flash - $0.028 за вход и $0.28 за выход, что делает его неверятно дешевым для модели, которая заявляет уровень конкуренции с передовыми системами.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
1❤222👍80🔥62😁6
Media is too big
VIEW IN TELEGRAM
xAI открыла API-доступ к голосовому агенту grok-voice-think-fast-1.0, который позиционируется для клиентского сервиса и телемаркетинга.
В бенчмарке τ-Voice Bench на дуплексный режим с шумом, акцентами и перебиваниями, модель набрала 67,3%, оставив позади gpt-realtime-1.5 (35,3%), gemini-3.1-flash-live-preview-thinking-high(43,8%).
Архитектура поддерживает фоновый инференс без задержки ответа на 25+ языках, включая русский. Модель разработана совместно со Starlink, провайдер уже использует её в клиентской поддержке.
Протестировать новую модель можно в xAI Playground.
x.ai
ChatGPT for Clinicians - версия ассистента на базе GPT-5.4, адаптированная под клинические задачи. Сервис бесплатно доступен верифицированным медработникам в США. На внутренних тестах от практикующих врачей клиническая модель обошла по точности базовый GPT-5.4, сторонние решения и самих врачей.
Модель должна снять с врачей административную рутину: разбор профильной литературы, направления, инструкции пациентам, отчёты со ссылками на рецензируемые источники. Чаты не используются для обучения следующих моделей, поддержка HIPAA доступна опционально.
Вместе с релизом OpenAI открыла набор данных HealthBench Professional для оценки ИИ в здравоохранении.
openai.com
Microsoft открыла общий доступ к агентным функциям Copilot в Word, Excel и PowerPoint. Раньше ассистент жил в боковой панели и отвечал на вопросы - теперь он действует в приложениях и сам меняет содержимое файлов.
Обновленный Copilot может переформатировать и переписать текст, собрать сводную таблицу или применить формулу в Excel, сверстать презентацию по корпоративному шаблону. Все правки агента можно просмотреть, скорректировать или откатить до применения.
Функция уже работает по умолчанию на подписках Microsoft 365 Copilot, Premium, Personal и Family.
microsoft.com
Обновление принесло крупные изменения - модель больше не собирает объект за один проход: сначала формирует общую структуру, затем на её основе прорабатывает грани, стенки и сложную топологию.
За текстурирование отвечает PBR-модель с архитектурой MoE. VLM анализирует физические свойства поверхностей на исходном изображении, поэтому материалы адекватно реагируют на смену освещения в сцене.
В системе появилась декомпозиция: Seed3D 2.0 разделяет объект на функциональные и подвижные элементы и выгружает их с кинематическими связями в формате URDF. Ассеты экспортируются напрямую в игровые движки и физические симуляторы. Доступ открыт на платформе ByteDance.
bytedance.com
Бывший сотрудник OpenAI, проработавший у Сэма Альтмана 7 лет, открыл исследовательскую лабораторию Core Automation. Заявленная цель - автоматизировать процесс разработки ИИ.
Команда будет работать над новыми алгоритмами обучения за пределами RL и над архитектурами, которые масштабируются лучше трансформеров. Планируется, что небольшая группа инженеров плюс автономные ИИ-агенты закроют объём, который сегодня тянут крупные корпорации.
Core Automation встаёт в один ряд с Safe Superintelligence Ильи Суцкевера и Thinking Machines Lab Миры Мурати, стартапами выходцев из OpenAI, которые ищут архитектурную альтернативу подходу "больше параметров, больше железа".
Jerry Tworek в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96❤24🔥16👏7🤩5🎉2
Большие данные и ML часто идут рука об руку, но инфраструктура нередко становится узким местом. На митапе к трехлетию выхода YTsaurus в опенсорс команда показала, как платформа развивается в сторону более универсального инструмента для задач обучения и инференса моделей.
Разработку YTsaurus возглавляет Максим Бабенко, руководитель отдела технологий распределенных вычислений в Яндексе. Кандидат физико‑математических наук. Преподаватель и заместитель директора отделения компьютерных наук ШАДа, заведующий базовой кафедрой Яндекса на ФКН НИУ ВШЭ.
Команда проделала большую работу, чтобы YTsaurus можно было использовать как инфраструктуру для запуска GPU-вычислений. А еще много изменений произошло в системе хранения, а также команда активно развивает встроенные аналитические инструменты на базе ClickHouse и Apache Spark.
Разработку YTsaurus возглавляет Максим Бабенко, руководитель отдела технологий распределенных вычислений в Яндексе. Кандидат физико‑математических наук. Преподаватель и заместитель директора отделения компьютерных наук ШАДа, заведующий базовой кафедрой Яндекса на ФКН НИУ ВШЭ.
Команда проделала большую работу, чтобы YTsaurus можно было использовать как инфраструктуру для запуска GPU-вычислений. А еще много изменений произошло в системе хранения, а также команда активно развивает встроенные аналитические инструменты на базе ClickHouse и Apache Spark.
ytsaurus.tech
YTsaurus Блог
YTsaurus — платформа с открытым исходным кодом, способная хранить и обрабатывать большие данные для десятков тысяч пользователей одновременно. Выполняйте задачи по Batch-обработке, Ad hoc аналитике, OLTP, машинному обучению, построению хранилищ данных и ETL!
👍65👏25🤔14❤6🔥3🤣3😁2
Исследовательская команда ИИ-поисковика опубликовала техотчёт о деталях создания своего веб-поискового агента на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B.
При бюджете в 4 вызова инструмента итоговая Qwen3.5-397B-SFT-RL показывает 73,9% точности на FRAMES и стоит 2 цента за запрос против 67,8% за 8,5 цента у GPT-5.4 и 62,4% за 15,3 цента у Sonnet 4.6.
Сначала SFT закрепляет целевое поведение: следование инструкциям, формат ответа, языковую согласованность, корректные отказы.
Затем RL с GRPO оттачивает точность поиска и эффективность вызовов инструментов, не трогая поведение, заданное на первой стадии.
Попытка оптимизировать эти цели совместно в один этап обычно ломает либо качество поиска, либо продакшен-требования.
Первый - синтетические многошаговые вопросы с проверяемым ответом: из затравочного запроса выстраивают цепочку связанных сущностей, формулируют вопрос, а единственность ответа подтверждают несколько независимых решателей.
Второй - диалоги общего назначения, где требования к формату и инструкциям превращают в набор атомарных рубрик, проверяемых без субъективной оценки.
Итоговая смесь берётся в пропорции 90/10 в пользу верифицируемых QA, чтобы более лёгкий сигнал рубрик не перетягивал градиент на себя.
В основе системы вознаграждений - агрегирование со шлюзом по корректности: скор Bradley-Terry-модели учитывается только при условии, что базовый бинарный сигнал равен 1 (то есть ответ корректен или все рубрики выполнены).
Это блокирует взлом награды, когда стилистически удачная реплика компенсирует фактическую ошибку.
Штраф за эффективность привязан к GRPO: число вызовов инструмента и длина генерации сравниваются с победителями внутри группы, а не с фиксированной нормой.
На FRAMES при 1 вызове инструмента старшая Qwen3.5 показывает 57,3% (это +5,7 пункта к GPT-5.4 и +4,7 к Sonnet 4.6). Разрыв увеличивается в диапазоне 2–7 вызовов, а это и есть рабочий режим продакшена.
Расчёт использует публичные цены API без учёта кэширования. Perplexity отдельно оговаривает, что внутренние оптимизации инференса (повторное использование KV-кэша, префиксное кэширование, квантование MoE) снижают реальную стоимость ещё сильнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Train #Research #Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔72👍41👏27❤14🔥7🤓7🤣2✍1😎1