ML Underhood

Что показали на своих стендах участники NeurIPS 2025

На конференцию в США приехали и международные гиганты, и крохотные компании. Наш коллега, руководитель качества рекламы Максим Кузин собрал для вас самое интересное:

⚪Microsoft — большая часть стенда была посвящена их Copilot: показали новые функции и агентов.

⚪Shopify — подробный технический стенд. На постерах схематично расписали все основные компоненты:

• как устроен поиск на их сайтах,
• как обучалась ecom-foundation-модель и что нужно, чтобы сделать на её основе рекомендации для сайтов клиентов,
• на чём и как учились агенты, которые определяют оптимальное разбиение товаров на категории.

⚪JetBrains — тоже сделали акцент на своём Copilot. А ещё провели публичный опрос разработчиков с помощью канцелярских кнопок: используешь один из перечисленных инструментов? Проголосуй за него — воткни кнопку!

⚪ByteDance — показали демо генерации видео и 3D-моделей из текста, картинок, других видео и промптов.

⚪Amazon — предлагали напромптить себе коллекцию генеративных стикеров и распечатать их.

⚪Sony — рассказали, как обучили агента управлять всеми машинами в Gran Turismo. Можно было даже взять джойстик и посоревноваться с ИИ!

⚪Meta* — предлагали побеседовать о предметах на стенде со своим ИИ в очках RayBan.

⚪Tesla — в основном рассказывали про роботов и как делали реалистичные движения рук для Tesla Bot. Там же можно было посмотреть на самого робота, но двигает он только руками.

⚪Eigen AI — показывали сети, которые редактируют видео на лету: камера снимает прохожих и превращает их в плавные ролики в стиле аниме (я тоже попал в кадр!).

*Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

Больше интересного с NeurIPS ищите в наших каналах Душный NLP, 404 Driver Not Found и CV Time по хештегу #YaNeurIPS25.

ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5👍5

1.03K views07:49

ML Underhood

NeurIPS 2025: топ-3 академических постера с площадки в Сан-Диего

Конференция подошла к концу — подводим итоги. Сегодня уже знакомый вам по обзору стендов об индустрии Максим Кузин делится личным топом научных постеров из США.

Real-World Reinforcement Learning of Active Perception Behaviors
Исследователи из University of Pennsylvania, University of Liège и UC Berkeley добавляют в RL награду за «уменьшение неопределённости» модели после обучения на сгенерированном примере. Агента заставляют действовать проактивно, самому делать нужные «обучающие» попытки. А на бенчах сильно уменьшают количество сэмплов для обучения.

Generalizable, real-time neural decoding with hybrid state-space models
Команда учёных Mila — Quebec AI Institute, Université de Montréal, Columbia University, University of Pennsylvania и Canada CIFAR AI Chair обучают реалтайм-модель для предсказания сигналов. Трансформеры as is не подходят для случаев, когда важна скорость инференса. Поэтому авторы сделали быструю RNN и офлайн-компонент в виде трансформера с задержкой, который пересчитывается раз в некоторое время. Результат — по сравнению с онлайн-трансформером, качество практически не теряется.

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
Исследователи University of Pennsylvania, University of Central Florida и Johns Hopkins University выделяют сущности для работы агента с камерой и строят граф отношений между ними (например, «тостер стоит на полке»). Этот граф остаётся в промпте и помогает моделям лучше ориентироваться в пространстве, видя саммари помещения, а не выделяя его явно из кадров в контексте. Хотя подходи простой, он даёт хороший прирост на бенчах.

#YaNeurIPS25

ML Underhood

❤6🔥4👍3

1.17K views14:02

ML Underhood

Сегодня вышел техрепорт Alice AI

Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.

Alice AI LLM

На этапе претрейна улучшили качество данных: фильтрация и аугментация повысили фактологичность ответов (+4–7% на внутреннем бенчмарке). Также собрали специализированные данные по школьным предметам, что дало прирост на образовательных задачах — модель обошла конкурентов по истории, литературе, математике и русскому языку. Усилили навыки программирования и математики за счёт алгоритмических и кодовых данных (+4,5 п.п. на LiveCodeBench). В alignment-фазе перешли к единому RLHF-пайплайну с мультиаспектным ревордом (полезность, фактологичность и др.) вместо одного «суперсигнала».

Alice AI LLM Search

Пайплайн объединяет планировщик поисковых запросов, фильтрацию и ранжирование результатов и генерацию ответа, а также поддерживает мультимодальные источники — тексты, изображения, видео и геоданные — для более полных ответов. Для обучения использовали RLHF с мультиаспектными ревордами вместо одной метрики, что упростило оценку сложных ответов. В RL-тренировке перешли к онлайн-методу GRPO, сократили этапы обучения, повысили эффективность GPU и в итоге улучшили полезность и актуальность ответов.

Alice AI ART

Обучающий датасет проанализировали с помощью Alice AI VLM, извлекли структурированные JSON-описания изображений и выявили дисбалансы в данных. На основе этого датасет для файнтюна переработали и дополнили недостающими категориями запросов, чтобы лучше соответствовать реальным пользовательским сценариям. Архитектура модели сделана двухступенчатой: на первом этапе формируется общая композиция изображения, на втором — прорабатываются высокочастотные детали. Дополнительно обучили отдельный «рефразер» — компактную LLM, которая преобразует сырые пользовательские промпты в детализированное описание сцены, сохраняя исходный смысл перед генерацией.

Alice AI VLM

Объём данных претрейна увеличили с 400 до 600 млрд токенов и расширили контекст до 32 тыс. Обновили OCR-датасет, улучшив качество чтения текста с изображений, включая рукописный, и описание визуального контента. VLM тесно интегрирован с текстовой LLM и обучается с теми же RLHF-подходами. Дополнительно в систему добавлен специализированный VLM-«решатель» для задач, требующих глубокой визуально-математической экспертизы.

Инфраструктура инференса

Инференс оптимизировали, повторно использовав KV-кэш для одинаковых частей промпта. Также помогла полная FP8-квантизация весов, активаций и KV-кэша. За счёт этого объём KV-кэша сократился почти вдвое. Дополнительно внедрили спекулятивное декодирование EAGLE-3, повысив пропускную способность генерации.
В результате новый инференс-стек обеспечивает около 5,8× ускорение по сравнению с BF16 и примерно 1,3× относительно лучших открытых решений, что позволило достичь целевых показателей скорости.

ML Underhood

🔥29❤23👍20🤮4💩4🤡2👌1🤷1

16.2K viewsedited 11:33

ML Underhood

Впечатления от EurIPS в Копенгагене

Мы уже начали рассказывать о том, что в Европе в этом году впервые прошла конференция — почти как NeurIPS, только Eur. Вдогонку делимся ещё одной порцией заметок от исследователя Yandex Research Ивана Рубачёва.

— На конференции было около 2000 человек. Приехало много студентов и профессоров из Европы, но были и люди из Канады, например. Порадовал состав спикеров, как на воркшопах так и в main talks.

— Основные дни проходили в Bella Center. Но некоторые воркшопы, в том числе AI for Tabular Data, который был мне интересен, проводились в местных университетах: TU Copenhagen и South Campus U of Copenhagen.

— Sepp Hochreiter, один из авторов LSTM, а теперь и xLSTM, вместе со своими соавторами заметно форсил последнюю модель по всем направлениям. Правда, версию под табличные данные пока не показали.

— Gaël Varoquaux, один из руководителей группы SODA в Inria (люди, которые среди прочего стоят за sklearn), говорил про uncertainty estimation в эпоху LLM. Немного диссил тезис scale is all you need — в последнее время он действительно звучал отовсюду. Кстати, Gaël и его группа не остановились на sklearn и всё ещё занимаются табличными данными, исследователи из его команды были и на воркшопе.

— Мнения об основной программе заметно разнились. В целом конференция в этот раз ощущалась не такой масштабной: кому-то не хватало статей, а кому-то, наоборот, понравилось, что в основной программе больше «воркшопного» духа.

Первое фото взято из официального Twitter/X-аккаунта конференции.

#YaNeurIPS25

ML Underhood

👍8❤5❤‍🔥5🔥3🍾3🙏2

1.67K views09:41

ML Underhood

NeurIPS 2025: доклады и идеи, к которым хочется вернуться

Конференция завершилась, но интересного на ней было так много, что мы продолжаем рассказывать о работах и докладах, заслуживающих внимания. CTO Яндекс Поиска Екатерина Серажим тоже побывала на площадке в Сан-Диего и поделилась своим заметками.

The Oak Architecture: A Vision of SuperIntelligence from Experience

На первом фото — Сан-Диего, 8 утра. Все спешат на Invited Talk Ричарда Саттона :) Доклад рекомендую: Саттон говорит, нужно не запихивать знания в агентов, а строить их такими, чтобы они масштабируемо и непрерывно изучали мир. Предлагает концепцию того, как это может быть.

WebDancer: Towards Autonomous Information Seeking Agency

У команды есть целая серия работ про deep research: на NeurIPS попала эта статья, остальные планируют представить на ICLR 2026. Авторы хитро генерируют синтетические сложные запросы, которые требуют нескольких поисков: сначала с помощью ChatGPT и других моделей составляют цепочки поисковых шагов, затем отбирают запросы, где эти цепочки не слишком длинные и не короткие, и уже на них обучаются.

Я попросила одного из авторов посоветовать другие работы на ту же тему, которые кажутся ему стоящими, и делюсь списком:

— WebSailor;
— WebSailor v2;
— Tongyi Deep Research;
— WebThinker;
— Mind2Web;
— Mind2Web v2.

А ещё пригласила ребят к нам в Москву :)

The Lighthouse of Language: Enhancing LLM Agents via Critique-Guided Improvement

Checklists Are Better Than Reward Models For Aligning Language Models

Встретилось несколько интересных работ, где модели-генераторы улучшают с помощью моделей-критиков с текстовым фидбеком. Идея логичная: разбивать ответ на атомарные проблемы, просить модель их исправлять и учиться на этом.

ATLAS: Constraints-Aware Multi-Agent Collaboration for Real-World Travel Planning

Ребята из Google Cloud создали агента-планировщика путешествий. Командам, которые делают нейропродукты, будет полезно посмотреть на используемые пайплайны и промпты.

The Art of Artificial Reasoning for (Small) Language Models

Интересный кейноут Еджин Чой (Стэнфорд и NVIDIA) на тему маленьких языковых моделей. В докладе было не только визионерство, но и результаты. А ещё — мемы и трюки.

#YaNeurIPS25

ML Underhood

🔥9❤6👍6👀1

1.49K views13:07

About

Blog

Apps

Platform