Machinelearning

🌟

Google собрал механизм памяти, который учит ИИ-агентов на собственных ошибках

Агенты, которые управляют браузером или правят код, решают каждую задачу с нуля. Провалился - забыл. Получилось - тоже забыл. Google Research предложил фреймворк ReasoningBank, который даёт агенту память и позволяет учиться на ошибках, а не только на победах.

Предшественники (Synapse, AWM) запоминали только успешные прогоны. Когда им скормили провальные - стало хуже: AWM потерял 2,2% точности. ReasoningBank, в свою очередь, из успешной траектории он берёт валидированную стратегию, а из провальной - урок, что пошло не так.

🟡

Как это работает на практике

Агент получает задачу "найди дату первой покупки". Без системы памяти он заходит в "Последние заказы", видит свежий заказ и выдаёт неверный ответ.

С ReasoningBank - вспоминает стратегию из прошлого опыта: при поиске в истории проверяй все страницы, а не только первую. Переходит в полный список заказов, листает до конца и находит правильную дату.

Другой пример: задача "купи самый топовый товар из категории мужской обуви". Без памяти агент тратит 29 шагов, потому что не может найти фильтр по категории, а с памятью только 10, так как стратегия фильтрации уже в запасе.

🟡

Техническая структура

После каждой задачи та же языковая модель оценивает, удалась попытка или нет. Из траектории извлекаются записи (заголовок, описание, содержание), намеренно абстрагированные от конкретного сайта.

Перед новой задачей агент ищет похожие записи через эмбеддинг-поиск и получает их как часть промпта.

🟡

Поверх ReasoningBank построили MaTTS

Это метод (Memory-aware Test-Time Scaling) масштабирования вычислений на инференсе с учётом памяти.

Агент генерирует несколько попыток для одной задачи, сравнивает их между собой и выделяет устойчивые паттерны.

Получается цикл: хорошая память направляет попытки в перспективные области, а разнообразные попытки обогащают память.

🟡

Цифры

На WebArena ReasoningBank поднимает процент успеха на 8,3 п.п. с Gemini-2.5-flash и на 7,2 п.п. с Gemini-2.5-pro, сокращая число шагов до 16%.

На SWE-Bench-Verified resolve rate увеличился с 54% до 57,4%, при этом расход токенов больше всего на 4,3%.

Фреймворк работает и на маленьких моделях: на WebArena-Shopping даже Gemma-3-12B с ReasoningBank улучшает показатель с 17,1% до 24,1%.

🟡

Статья

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #Memory #Agents #ReasoningBank #Google

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🤩107💯32🔥28❤24👍14🤓14👏8⚡1

21.6K views09:10

Machinelearning

✔️ Hunyuan выпустил превью Hy3 в опенсорсе: 295B параметров, 21B активных, контекст 256K.

Это гибридный MoE с режимами быстрого и медленного мышления, и первая модель после полной перестройки инфраструктуры предобучения и RL.

Агент тянет цепочки до 495 шагов в продакшене, работает с документами, аналитикой данных и MCP-инструментами.

По скорости инференса: время до первого токена сократили на 54%, полное время ответа - на 47%. При этом на живых задачах CodeBuddy и WorkBuddy модель падает меньше чем раз на десять тысяч запросов.

На стандартных бенчах (SWE-bench Verified для кода, Terminal-Bench 2.0 для терминала, BrowseComp и WideSearch для веб-поиска) Hy3 идёт вровень с топовыми кодинговыми и поисковыми агентами.

Совместима с OpenClaw, OpenCode и KiloCode, запускается через vLLM и SGLang.

🤖 https://modelscope.cn/models/Tencent-Hunyuan/Hy3-preview
💻 https://github.com/Tencent-Hunyuan/Hy3-preview

@ai_machinelearning_big_data

#Hunyuan

Please open Telegram to view this post

VIEW IN TELEGRAM

❤25👍20🔥8🥰1😁1

21.1K viewsedited 12:13

Machinelearning

1:10

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

OpenAI запустила в ChatGPT Workspace Agents

Workspace Agents - это новый формат ИИ-помощников внутри ChatGPT, ориентированный на корпоративные команды. Согласно описанию, такие агенты выполняют многошаговые задачи без постоянных подсказок и могут продолжать работу даже в отсутствие пользователя.

OpenAI позиционирует Workspace Agents как эволюцию кастомных GPTs: вместо инструмента для одного человека команда может создать общего агента, использовать его в ChatGPT и постепенно дорабатывать.

Типовые сценарии - подготовка отчётов, обработка заявок на закупку ПО, маршрутизация клиентских отзывов, рассылки и проверка контрагентов.

Доступ к Workspace Agents ограничен тарифами Business, Enterprise, Edu и Teachers. До 6 мая использование бесплатное, затем OpenAI включат тарификацию по кредитам.

Кастомные GPT, по словам OpenAI, продолжат работать. В дальнейшем компания обещает упростить их перевод в формат Workspace Agents.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍102👏27🤔17🎉9❤6🔥2👌2🆒1

20.3K views14:02

Machinelearning

МТС Web Services - трехкратный победитель CDO/CDTO Awards 2026.

🔥 22 апреля 2026 года на VII Российском саммите по цифровой трансформации объявили победителей премии CDO/CDTO Awards. MWS стала обладателем сразу трех наград.

🔘

«Digital‑платформа года» - MWS Cloud Platform

Публичная облачная платформа собственной разработки, экосистема инфраструктурных и платформенных сервисов для запуска и масштабирования цифровых продуктов любой сложности.

🔘

«Digital‑решение года» - MWS GPT

B2B‑платформа, которая объединяет около 90 больших языковых моделей для решения бизнес‑задач.

🔘

«CEO года цифровой компании» - Павел Воронин, генеральный директор MWS.

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥69👏24🏆19👍11🤣11❤5🎉5🤔2🆒1

19.8K views15:06

Machinelearning

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Agibot Expedition A3 - это полноразмерный гуманоидный робот, который может складываться в собственный контейнер для хранения.

Он рассчитан на использование в домах, отелях и ритейле.

Цена - около $45 000.

@ai_machinelearning_big_data

🤔82😁42👍34👀14👏11🌭11❤6🤓4👨‍💻2🎅2😨1

19.4K views16:09

✔️

Китай испытывает стаи вооружённых робо-собак с координацией через ИИ.

Китайские военные провели испытания автономных четвероногих роботов, способных действовать скоординированными группами в условиях боевых действий.

Каждая машина передвигается со скоростью до 15 км/ч, несёт полезную нагрузку до 25 кг и преодолевает препятствия высотой до 30 см. За подвижность на неровном рельефе отвечают 12 независимых сочленений.

Роботы оснащены системами ИИ и обмениваются сенсорными данными в реальном времени, что позволяет стае действовать как единое целое.

Внутри группы роботы распределены по специализациям:

🟢Разведывательные Dark Shadow сканируют окружение, строят динамические карты и передают данные в командный центр;

🟢Ударные Blood-Stained используют эту информацию для наведения вооружения;

🟢Модели Extreme Land отвечают за логистическую поддержку группы.

Несмотря самостоятельность, финальную команду на открытие огня отдает человек-оператор.

Управлять машинами можно голосом или через специальные перчатки с датчиками, считывающими жесты рук. В сеть стаи также интегрированы дроны — это расширяет радиус действия и создает связку наземных и воздушных единиц для работы в сложных сценариях.

🟡

Дисклеймер:

Видеоматериал представляет собой постановочные военные учения. Ролик снят и распространён государственными СМИ Китая - Global Times и Shanghai Media Group.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔61🔥34👀19😨15💯11❤9👏6🤨4👨‍💻1🤝1

25.8K views18:10

Machinelearning

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 OpenAI представила GPT-5.5

Она заметно сильнее в самом главном: код, ресёрч, аналитика и работа с документами.

GPT 5.5 хороша в многоступенчатых задачах.

И почти во всём обходит конкурентов - например, на Terminal-Bench выбивает 82,7% против 69% у свежей Claude.
GPT-5.5 уже доступна пользователям Plus, Pro, Business и Enterprise - в ChatGPT и Codex.

Модель стала дороже: ~$5 / $30 за млн токенов.

Уже раскатывают на всех платных подписчиков.

Тестим! 🔥

https://openai.com/index/introducing-gpt-5-5/

🔥135❤25👏19🤩15🥱10👍6💯4🤣3🤨2

41.5K views18:16

Machinelearning

🚀 DeepSeek выкатили V4 и сделали то, к чему все шли последние два года.

Длинный контекст больше не фича для демо. Теперь это базовый уровень.

Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.

Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.

Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.

По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.

Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.

И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.

Антропии и ОпенАи будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала суперлешевой, и от это уже не отмотаешь.

В релизе есть упоминания - «950 supernodes» это отсылка к Huawei Atlas 950 SuperPoD, новой инференс-инфраструктуре Huawei на чипах Ascend. DeepSeek говорят, что во второй половине 2026 года, когда эти суперноды запустят в масштабе, цена Pro заметно упадёт. То есть они планируют гонять инференс не на Nvidia, а на китайском железе Huawei.

Тариф Pro стоит $0.145 за вход и $3.48 за выход на миллион токенов.

Flash - $0.028 за вход и $0.28 за выход, что делает его неверятно дешевым для модели, которая заявляет уровень конкуренции с передовыми системами.

📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4

@ai_machinelearning_big_data

#DeepSeek

1❤222👍80🔥62😁6

55.6K views04:40

✔️

xAI релизнула флагманскую голосовую модель

xAI открыла API-доступ к голосовому агенту grok-voice-think-fast-1.0, который позиционируется для клиентского сервиса и телемаркетинга.

В бенчмарке τ-Voice Bench на дуплексный режим с шумом, акцентами и перебиваниями, модель набрала 67,3%, оставив позади gpt-realtime-1.5 (35,3%), gemini-3.1-flash-live-preview-thinking-high(43,8%).

Архитектура поддерживает фоновый инференс без задержки ответа на 25+ языках, включая русский. Модель разработана совместно со Starlink, провайдер уже использует её в клиентской поддержке.

Протестировать новую модель можно в xAI Playground.
x.ai

✔️

OpenAI выпустила ChatGPT для врачей

ChatGPT for Clinicians - версия ассистента на базе GPT-5.4, адаптированная под клинические задачи. Сервис бесплатно доступен верифицированным медработникам в США. На внутренних тестах от практикующих врачей клиническая модель обошла по точности базовый GPT-5.4, сторонние решения и самих врачей.

Модель должна снять с врачей административную рутину: разбор профильной литературы, направления, инструкции пациентам, отчёты со ссылками на рецензируемые источники. Чаты не используются для обучения следующих моделей, поддержка HIPAA доступна опционально.

Вместе с релизом OpenAI открыла набор данных HealthBench Professional для оценки ИИ в здравоохранении.
openai.com

✔️

Microsoft 365 Copilot превратился из чат-бота в полноценного ИИ-агента

Microsoft открыла общий доступ к агентным функциям Copilot в Word, Excel и PowerPoint. Раньше ассистент жил в боковой панели и отвечал на вопросы - теперь он действует в приложениях и сам меняет содержимое файлов.

Обновленный Copilot может переформатировать и переписать текст, собрать сводную таблицу или применить формулу в Excel, сверстать презентацию по корпоративному шаблону. Все правки агента можно просмотреть, скорректировать или откатить до применения.

Функция уже работает по умолчанию на подписках Microsoft 365 Copilot, Premium, Personal и Family.
microsoft.com

✔️

ByteDance обновил Seed3D до версии 2.0

Обновление принесло крупные изменения - модель больше не собирает объект за один проход: сначала формирует общую структуру, затем на её основе прорабатывает грани, стенки и сложную топологию.

За текстурирование отвечает PBR-модель с архитектурой MoE. VLM анализирует физические свойства поверхностей на исходном изображении, поэтому материалы адекватно реагируют на смену освещения в сцене.

В системе появилась декомпозиция: Seed3D 2.0 разделяет объект на функциональные и подвижные элементы и выгружает их с кинематическими связями в формате URDF. Ассеты экспортируются напрямую в игровые движки и физические симуляторы. Доступ открыт на платформе ByteDance.
bytedance.com

✔️

Джерри Творек запустил лабораторию Core Automation

Бывший сотрудник OpenAI, проработавший у Сэма Альтмана 7 лет, открыл исследовательскую лабораторию Core Automation. Заявленная цель - автоматизировать процесс разработки ИИ.

Команда будет работать над новыми алгоритмами обучения за пределами RL и над архитектурами, которые масштабируются лучше трансформеров. Планируется, что небольшая группа инженеров плюс автономные ИИ-агенты закроют объём, который сегодня тянут крупные корпорации.

Core Automation встаёт в один ряд с Safe Superintelligence Ильи Суцкевера и Thinking Machines Lab Миры Мурати, стартапами выходцев из OpenAI, которые ищут архитектурную альтернативу подходу "больше параметров, больше железа".
Jerry Tworek в сети Х

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍96❤24🔥16👏7🤩5🎉2

22.1K views07:12

Machinelearning

DeepSeek прямо в тех-репорте подкололи Анthropic и написали, что Claude «слишком любит буллет-поинты» 💀

Claude готовит ответ:

• Во-первых...
• Во-вторых...
• В-третьих...

Это не это, а это

🤣174👍43🔥28👏12😁11❤8😎5🆒1

24K viewsedited 09:01

Machinelearning

Большие данные и ML часто идут рука об руку, но инфраструктура нередко становится узким местом. На митапе к трехлетию выхода YTsaurus в опенсорс команда показала, как платформа развивается в сторону более универсального инструмента для задач обучения и инференса моделей.

Разработку YTsaurus возглавляет Максим Бабенко, руководитель отдела технологий распределенных вычислений в Яндексе. Кандидат физико‑математических наук. Преподаватель и заместитель директора отделения компьютерных наук ШАДа, заведующий базовой кафедрой Яндекса на ФКН НИУ ВШЭ.

Команда проделала большую работу, чтобы YTsaurus можно было использовать как инфраструктуру для запуска GPU-вычислений. А еще много изменений произошло в системе хранения, а также команда активно развивает встроенные аналитические инструменты на базе ClickHouse и Apache Spark.

ytsaurus.tech

YTsaurus Блог

YTsaurus — платформа с открытым исходным кодом, способная хранить и обрабатывать большие данные для десятков тысяч пользователей одновременно. Выполняйте задачи по Batch-обработке, Ad hoc аналитике, OLTP, машинному обучению, построению хранилищ данных и ETL!

👍65👏25🤔14❤6🔥3🤣3😁2

22.2K views09:10

Machinelearning

📌

Perplexity опубликовала рецепт посттрейна поискового агента на Qwen3.5

Исследовательская команда ИИ-поисковика опубликовала техотчёт о деталях создания своего веб-поискового агента на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B.

При бюджете в 4 вызова инструмента итоговая Qwen3.5-397B-SFT-RL показывает 73,9% точности на FRAMES и стоит 2 цента за запрос против 67,8% за 8,5 цента у GPT-5.4 и 62,4% за 15,3 цента у Sonnet 4.6.

🟡

Пайплайн

Сначала SFT закрепляет целевое поведение: следование инструкциям, формат ответа, языковую согласованность, корректные отказы.

Затем RL с GRPO оттачивает точность поиска и эффективность вызовов инструментов, не трогая поведение, заданное на первой стадии.

Попытка оптимизировать эти цели совместно в один этап обычно ломает либо качество поиска, либо продакшен-требования.

🟡

Данные для RL собраны из двух источников.

Первый - синтетические многошаговые вопросы с проверяемым ответом: из затравочного запроса выстраивают цепочку связанных сущностей, формулируют вопрос, а единственность ответа подтверждают несколько независимых решателей.

Второй - диалоги общего назначения, где требования к формату и инструкциям превращают в набор атомарных рубрик, проверяемых без субъективной оценки.

Итоговая смесь берётся в пропорции 90/10 в пользу верифицируемых QA, чтобы более лёгкий сигнал рубрик не перетягивал градиент на себя.

В основе системы вознаграждений - агрегирование со шлюзом по корректности: скор Bradley-Terry-модели учитывается только при условии, что базовый бинарный сигнал равен 1 (то есть ответ корректен или все рубрики выполнены).

Это блокирует взлом награды, когда стилистически удачная реплика компенсирует фактическую ошибку.

Штраф за эффективность привязан к GRPO: число вызовов инструмента и длина генерации сравниваются с победителями внутри группы, а не с фиксированной нормой.

На FRAMES при 1 вызове инструмента старшая Qwen3.5 показывает 57,3% (это +5,7 пункта к GPT-5.4 и +4,7 к Sonnet 4.6). Разрыв увеличивается в диапазоне 2–7 вызовов, а это и есть рабочий режим продакшена.

Расчёт использует публичные цены API без учёта кэширования. Perplexity отдельно оговаривает, что внутренние оптимизации инференса (повторное использование KV-кэша, префиксное кэширование, квантование MoE) снижают реальную стоимость ещё сильнее.

🔜

Полный рисерч можно почитать тут

@ai_machinelearning_big_data

#AI #ML #LLM #Train #Research #Perplexity

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔72👍41👏27❤14🔥7🤓7🤣2✍1😎1

25K views10:20

About

Blog

Apps

Platform