Forwarded from Код Дурова
This media is not supported in your browser
VIEW IN TELEGRAM
В Сан-Франциско из-за масштабного отключения электроэнергии на сутки вышли из строя роботакси Waymo.
В городе перестали работать светофоры, из-за чего роботакси устроили пробки на дорогах.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2🤯2❤1
Forwarded from ML Underhood
Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,637 (img→text: 0,886, img→markdown: 0,747, Grounding: 0,065, KIE (JSON): 0,751, VQA: 0,737). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
ML Underhood
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,637 (img→text: 0,886, img→markdown: 0,747, Grounding: 0,065, KIE (JSON): 0,751, VQA: 0,737). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
ML Underhood
❤4🔥4👍2
Forwarded from AI VK Hub
Media is too big
VIEW IN TELEGRAM
Поговорили о месте SilverTorch в экосистеме рекомендательных систем, его возможностях масштабирования, о том, какие задачи он реально закрывает, и где заявленная «демократизация» по-прежнему требует внушительных вычислительных ресурсов. Также обсудили практические кейсы использования и потенциальную ценность инструмента для команд и исследователей.
Запись ридинг-группы уже здесь — можно посмотреть в удобное время.
#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🤣1
Пройдите тест от Авито по Data Science и оцените свой уровень на основе реальных кейсов из практики DS-команд компании ☄️
Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.
На праздниках самое время проверить себя и определить точки роста.
Ссылку на тест оставили здесь⚡️
Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.
На праздниках самое время проверить себя и определить точки роста.
Ссылку на тест оставили здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1🔥1😢1
Forwarded from Machinelearning
🚀 Вышел QwenLong-L1.5 - модель для long-context reasoning, которая на длинных контекстах конкурирует с GPT-5 и Gemini-2.5-Pro.
Коротко о модели
- 30B параметров, из них 3B активных
- Заточена под рассуждение на очень длинных контекстах
- Полностью открыты веса, код обучения и рецепты данных
Ключевые показатели:
- +31.7 балла на OpenAI MRCR при контексте 128K - SOTA среди всех моделей
- На уровне Gemini-2.5-Pro на 6 крупных long-QA бенчмарках
- +9.69 на CorpusQA
- +6.16 на LongBench-V2
Что интересного.
1. Синтетические данные в масштабе
14.1K длинных reasoning-сэмплов из 9.2B токенов без ручной разметки.
Средняя длина - 34K токенов, максимум - 119K.
2. Стабильное RL-обучение
Используется балансировка задач и Adaptive Entropy-Controlled Policy Optimization (AEPO), что позволяет стабильно обучать модели на длинных последовательностях.
3. Архитектура с памятью
Итеративные обновления памяти за пределами окна 256K токенов.
Результат - +9.48 балла на задачах с контекстом от 1M до 4M токенов.
QwenLong-L1.5 - это один из самых сильных open-source шагов в сторону реально масштабируемого ризонинга с длинным контекстом
Модель интересна не только результатами, но и тем, что весь стек обучения открыт.
GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
Paper: https://modelscope.cn/papers/2512.12967
Model: https://modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
HF: https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B
@ai_machinelearning_big_data
#AI, #LLM, #opensource, #long #Owen
Коротко о модели
- 30B параметров, из них 3B активных
- Заточена под рассуждение на очень длинных контекстах
- Полностью открыты веса, код обучения и рецепты данных
Ключевые показатели:
- +31.7 балла на OpenAI MRCR при контексте 128K - SOTA среди всех моделей
- На уровне Gemini-2.5-Pro на 6 крупных long-QA бенчмарках
- +9.69 на CorpusQA
- +6.16 на LongBench-V2
Что интересного.
1. Синтетические данные в масштабе
14.1K длинных reasoning-сэмплов из 9.2B токенов без ручной разметки.
Средняя длина - 34K токенов, максимум - 119K.
2. Стабильное RL-обучение
Используется балансировка задач и Adaptive Entropy-Controlled Policy Optimization (AEPO), что позволяет стабильно обучать модели на длинных последовательностях.
3. Архитектура с памятью
Итеративные обновления памяти за пределами окна 256K токенов.
Результат - +9.48 балла на задачах с контекстом от 1M до 4M токенов.
QwenLong-L1.5 - это один из самых сильных open-source шагов в сторону реально масштабируемого ризонинга с длинным контекстом
Модель интересна не только результатами, но и тем, что весь стек обучения открыт.
GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
Paper: https://modelscope.cn/papers/2512.12967
Model: https://modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
HF: https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B
@ai_machinelearning_big_data
#AI, #LLM, #opensource, #long #Owen
❤5👍4🔥3
Forwarded from CV Time
Современные нейросетевые модели для глобального прогноза погоды
Недавно вышла модель WeatherNext-2 от Google, и мы решили рассказать не только о ней, но и в целом о задаче и моделях глобального прогноза погоды.
Глобальный прогноз погоды — это задача прогноза эволюции всей земной атмосферы на несколько дней вперёд. Классический подход — численный прогноз погоды (NWP), в котором численно решается система связанных дифференциальных уравнений гидродинамики. Такие расчёты выполняются на суперкомпьютерах более часа, поэтому прогноз на ближайшие часы нельзя получить мгновенно.
Из-за хаотичной природы атмосферных процессов применяется ансамблирование: прогноз запускают с немного различающихся начальных условий, получая десятки возможных сценариев. Ансамблевый прогноз — наиболее точный, он позволяет оценить вероятности событий.
К 2025 году сформировались базовые требования к DL-моделям глобального прогноза:
— пространственное разрешение не грубее 0,25°по широтам и долготам (~28×28 км);
— соответствие спектров (проверка физичности);
— наличие осадков и желательно метрик, отличных от MAE/RMSE;
— поддержка ансамблей.
Ключевым фактором развития DL-подходов стало усвоение данных. Современные техники ассимиляции позволили пересобрать архив наблюдений с 1940 года, получив ERA5 — самый полный и согласованный датасет состояния атмосферы на сетке 0,25°. Доступность большого числа качественных данных — благодатная почва для DL-подхода. Стандартный вход DL-моделей — около 72 карт (приземные переменные, переменные по уровням давления и статические поля).
Обзор основных моделей
За последние годы появились DL-модели глобального прогноза: Pangu Weather, GraphCast, Aurora, GenCast. Все они используют ERA5 и авторегрессионно транслируют состояние атмосферы в будущее.
Pangu Weather показала, что «картиночная» модель может воспроизводить крупномасштабную динамику, но ансамбли через шум в начальных условиях оказались некачественными.
GraphCast использует графовую архитектуру на икосаэдрической сетке и задаёт планку качества для детерминистских моделей. GenCast расширил этот подход, применив диффузию для получения ансамблей, что позволило уменьшить «мыло» и лучше моделировать экстремумы, но ценой более медленного инференса.
При этом выяснилось, что стандартных метрик (LW-RMSE и ACC) недостаточно: многие модели не проходят проверку на физичность по спектрам. Несоответствие спектров означает, что модель не улавливает вариации энергии на мелких масштабах, и неэффективно использует высокое разрешение.
WeatherNext-2
WeatherNext-2 — третья итерация модели Google. Это вероятностная модель, которая напрямую оптимизируется по CRPS и строит ансамбли без диффузии.
Ключевая идея — декомпозиция неопределённости:
— эпистемическая неопределённость моделируется deep-ансамблем (четыре модели с разными сидами);
— алеаторическая неопределённость моделируется через функциональные возмущения: для каждого члена ансамбля и шага сэмплируется один глобальный 32-мерный шумовой вектор, который через conditional layer norm подаётся во все слои модели.
Архитектура сохраняет подход GraphCast: переход grid→mesh, граф-трансформер на mesh и обратное отображение. Глобальный низкоразмерный шум, применяемый ко всем слоям и пространственным точкам, задаёт согласованную пространственную вариативность.
Модель работает с шагом шесть часов и делает полный 15-дневный прогноз ансамбля менее чем за минуту на одном TPU, что значительно быстрее GenCast. По метрикам CRPS и RMSE среднего ансамбля WeatherNext-2 превосходит GenCast и приближается к численным ансамблям. Про осадки в статье сообщается скупо, спектры лучше, чем у GenCast, но хуже, чем у FourCastNetV3.
В целом WeatherNext-2 показывает, что можно получить быстрый ансамбль без диффузии и существенно улучшить качество по сравнению с предыдущими нейромоделями.
При этом ключевые вопросы о соответствии спектров и корректной работе с осадками остаются.
Разбор подготовил❣ Павел Анисимов
CV Time
Недавно вышла модель WeatherNext-2 от Google, и мы решили рассказать не только о ней, но и в целом о задаче и моделях глобального прогноза погоды.
Глобальный прогноз погоды — это задача прогноза эволюции всей земной атмосферы на несколько дней вперёд. Классический подход — численный прогноз погоды (NWP), в котором численно решается система связанных дифференциальных уравнений гидродинамики. Такие расчёты выполняются на суперкомпьютерах более часа, поэтому прогноз на ближайшие часы нельзя получить мгновенно.
Из-за хаотичной природы атмосферных процессов применяется ансамблирование: прогноз запускают с немного различающихся начальных условий, получая десятки возможных сценариев. Ансамблевый прогноз — наиболее точный, он позволяет оценить вероятности событий.
К 2025 году сформировались базовые требования к DL-моделям глобального прогноза:
— пространственное разрешение не грубее 0,25°по широтам и долготам (~28×28 км);
— соответствие спектров (проверка физичности);
— наличие осадков и желательно метрик, отличных от MAE/RMSE;
— поддержка ансамблей.
Ключевым фактором развития DL-подходов стало усвоение данных. Современные техники ассимиляции позволили пересобрать архив наблюдений с 1940 года, получив ERA5 — самый полный и согласованный датасет состояния атмосферы на сетке 0,25°. Доступность большого числа качественных данных — благодатная почва для DL-подхода. Стандартный вход DL-моделей — около 72 карт (приземные переменные, переменные по уровням давления и статические поля).
Обзор основных моделей
За последние годы появились DL-модели глобального прогноза: Pangu Weather, GraphCast, Aurora, GenCast. Все они используют ERA5 и авторегрессионно транслируют состояние атмосферы в будущее.
Pangu Weather показала, что «картиночная» модель может воспроизводить крупномасштабную динамику, но ансамбли через шум в начальных условиях оказались некачественными.
GraphCast использует графовую архитектуру на икосаэдрической сетке и задаёт планку качества для детерминистских моделей. GenCast расширил этот подход, применив диффузию для получения ансамблей, что позволило уменьшить «мыло» и лучше моделировать экстремумы, но ценой более медленного инференса.
При этом выяснилось, что стандартных метрик (LW-RMSE и ACC) недостаточно: многие модели не проходят проверку на физичность по спектрам. Несоответствие спектров означает, что модель не улавливает вариации энергии на мелких масштабах, и неэффективно использует высокое разрешение.
WeatherNext-2
WeatherNext-2 — третья итерация модели Google. Это вероятностная модель, которая напрямую оптимизируется по CRPS и строит ансамбли без диффузии.
Ключевая идея — декомпозиция неопределённости:
— эпистемическая неопределённость моделируется deep-ансамблем (четыре модели с разными сидами);
— алеаторическая неопределённость моделируется через функциональные возмущения: для каждого члена ансамбля и шага сэмплируется один глобальный 32-мерный шумовой вектор, который через conditional layer norm подаётся во все слои модели.
Архитектура сохраняет подход GraphCast: переход grid→mesh, граф-трансформер на mesh и обратное отображение. Глобальный низкоразмерный шум, применяемый ко всем слоям и пространственным точкам, задаёт согласованную пространственную вариативность.
Модель работает с шагом шесть часов и делает полный 15-дневный прогноз ансамбля менее чем за минуту на одном TPU, что значительно быстрее GenCast. По метрикам CRPS и RMSE среднего ансамбля WeatherNext-2 превосходит GenCast и приближается к численным ансамблям. Про осадки в статье сообщается скупо, спектры лучше, чем у GenCast, но хуже, чем у FourCastNetV3.
В целом WeatherNext-2 показывает, что можно получить быстрый ансамбль без диффузии и существенно улучшить качество по сравнению с предыдущими нейромоделями.
При этом ключевые вопросы о соответствии спектров и корректной работе с осадками остаются.
Разбор подготовил
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3
Forwarded from Data, Stories and Languages
Топ-10 интересных статей 2025
В этом году я написал 30+ обзоров статей. Получилось немного меньше, чем в прошлые годы, но очень уж много топовых компаний публикуют лишь сухие technical reports.
Большинство статей было, конечно, про LLM, но не только ими полон мир - был интересный прогресс в компьютерном зрении и многих других направлениях.
Хочу поделится топ-10 статей, которые мне показались особо интересными. Лист совершенно субъективный и не покрывает топ-фронтир LLM.
DeepSeek-R1
GSPO
Lumine
SAM-3
Chronos-2
NeoBERT
AlphaEvolve
SWE-rebench
DINOv3
Dragon Hatchling
Детали можно почитать в моём блогпосте. Или на medium.
#datascience
В этом году я написал 30+ обзоров статей. Получилось немного меньше, чем в прошлые годы, но очень уж много топовых компаний публикуют лишь сухие technical reports.
Большинство статей было, конечно, про LLM, но не только ими полон мир - был интересный прогресс в компьютерном зрении и многих других направлениях.
Хочу поделится топ-10 статей, которые мне показались особо интересными. Лист совершенно субъективный и не покрывает топ-фронтир LLM.
DeepSeek-R1
GSPO
Lumine
SAM-3
Chronos-2
NeoBERT
AlphaEvolve
SWE-rebench
DINOv3
Dragon Hatchling
Детали можно почитать в моём блогпосте. Или на medium.
#datascience
❤3👍1
Forwarded from Душный NLP
Подборка статей об альтернативах квадратичному селф-аттеншну
В последние годы всё больше обсуждают альтернативы классическому аттеншну — прежде всего из-за стоимости квадратичного скейлинга и работы с длинными контекстами. Ниже — краткий обзор нескольких любопытных работ и блогпостов на тему линейного, sparse- и гибридного аттеншна.
Why Did MiniMax M2 End Up as a Full Attention Model?
Начнём с поста от команды MiniMax. Их первая модель, MiniMax M1, была гибридной и использовала простой линейный аттеншн на матричных стейтах. Но во второй версии, MiniMax M2, они неожиданно вернулись к полному квадратичному аттеншну — даже без sliding window attention (SWA), который уже встречается в опенсорсных моделях.
Авторы говорят, что гибридная архитектура у них попросту не заработала. На классических текстовых бенчмарках всё выглядело приемлемо, а вот на агентских задачах — с кодом, итерациями и длинным контекстом — модель стабильно проигрывала. SWA тоже не помог: при дообучении моделей, изначально предобученных с полным аттеншном, ключевые головы не перестраивались и деградировали.
Итоговый вывод у MiniMax осторожный: линейные и гибридные подходы выглядят перспективно, но пока не хватает инфраструктуры, реализаций и бенчмарков. Поэтому на данный момент они остаются со стандартным трансформером и считают, что сначала нужно больше данных и экспериментов с длинным контекстом.
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
В этой работе изучают training free sparsity в аттеншне и пытаются понять, что реально работает с точки зрения баланса compute/accuracy. На умеренных контекстах спарсификация аттеншна почти не помогает и часто ухудшает качество. На очень длинных — даёт выигрыш по FLOPs, но часто приводит к ухудшению качества: авторы замечают, что метод, работающий на одной задаче, ломается на другой. В среднем удаётся получить около 5× сжатия без сильной деградации качества, но разброс большой, особенно для маленьких моделей.
Evaluating Long Context (Reasoning) Ability
В следующем посте автор критикует популярные long-context-бенчмарки. Он говорит, что needle-in-a-haystack-like-задачи в основном проверяют ретривал и плохо отражают реальную (более сложную) работу с длинным контекстом. На более сложных задачах, где контекст нужно понять, а не просто найти факт (например, в длинном коде с логическими ошибками), модели начинают деградировать уже на десятках тысяч токенов — даже с Full Attention. Вывод: бенчмарков, которые реально проверяют ризонинг на длинном контексте, пока недостаточно.
Kimi Linear: an expressive, efficient attention architecture
Спустя неделю после скептического поста MiniMax Moonshot AI (авторы модели Kimi K2 и не только) выпустили работу с почти противоположным тезисом: Linear Attention работает. В Kimi Linear предложили Kimi Delta Attention с gated delta rule и рекуррентной матричной памятью. В модели используют соотношение 3:1 линейных слоёв к Full Attention. Качество на бенчмарках в статье не хуже полного аттеншна, а эффективность выше: prefill на длинных промптах быстрее примерно в три раза, декодинг и memory footprint тоже выигрывают за счёт меньшей зависимости от KV-cache.
Разбор подготовил❣ Иван Рубачёв, а ещё он приглашает вас на семинары Yandex Research Reading Group
Душный NLP
В последние годы всё больше обсуждают альтернативы классическому аттеншну — прежде всего из-за стоимости квадратичного скейлинга и работы с длинными контекстами. Ниже — краткий обзор нескольких любопытных работ и блогпостов на тему линейного, sparse- и гибридного аттеншна.
Why Did MiniMax M2 End Up as a Full Attention Model?
Начнём с поста от команды MiniMax. Их первая модель, MiniMax M1, была гибридной и использовала простой линейный аттеншн на матричных стейтах. Но во второй версии, MiniMax M2, они неожиданно вернулись к полному квадратичному аттеншну — даже без sliding window attention (SWA), который уже встречается в опенсорсных моделях.
Авторы говорят, что гибридная архитектура у них попросту не заработала. На классических текстовых бенчмарках всё выглядело приемлемо, а вот на агентских задачах — с кодом, итерациями и длинным контекстом — модель стабильно проигрывала. SWA тоже не помог: при дообучении моделей, изначально предобученных с полным аттеншном, ключевые головы не перестраивались и деградировали.
Итоговый вывод у MiniMax осторожный: линейные и гибридные подходы выглядят перспективно, но пока не хватает инфраструктуры, реализаций и бенчмарков. Поэтому на данный момент они остаются со стандартным трансформером и считают, что сначала нужно больше данных и экспериментов с длинным контекстом.
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs
В этой работе изучают training free sparsity в аттеншне и пытаются понять, что реально работает с точки зрения баланса compute/accuracy. На умеренных контекстах спарсификация аттеншна почти не помогает и часто ухудшает качество. На очень длинных — даёт выигрыш по FLOPs, но часто приводит к ухудшению качества: авторы замечают, что метод, работающий на одной задаче, ломается на другой. В среднем удаётся получить около 5× сжатия без сильной деградации качества, но разброс большой, особенно для маленьких моделей.
Evaluating Long Context (Reasoning) Ability
В следующем посте автор критикует популярные long-context-бенчмарки. Он говорит, что needle-in-a-haystack-like-задачи в основном проверяют ретривал и плохо отражают реальную (более сложную) работу с длинным контекстом. На более сложных задачах, где контекст нужно понять, а не просто найти факт (например, в длинном коде с логическими ошибками), модели начинают деградировать уже на десятках тысяч токенов — даже с Full Attention. Вывод: бенчмарков, которые реально проверяют ризонинг на длинном контексте, пока недостаточно.
Kimi Linear: an expressive, efficient attention architecture
Спустя неделю после скептического поста MiniMax Moonshot AI (авторы модели Kimi K2 и не только) выпустили работу с почти противоположным тезисом: Linear Attention работает. В Kimi Linear предложили Kimi Delta Attention с gated delta rule и рекуррентной матричной памятью. В модели используют соотношение 3:1 линейных слоёв к Full Attention. Качество на бенчмарках в статье не хуже полного аттеншна, а эффективность выше: prefill на длинных промптах быстрее примерно в три раза, декодинг и memory footprint тоже выигрывают за счёт меньшей зависимости от KV-cache.
Разбор подготовил
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍1😢1
Forwarded from opennet.ru
Сравнение числа ошибок в коде, написанном людьми и AI https://opennet.ru/64485/
www.opennet.ru
Сравнение числа ошибок в коде, написанном людьми и AI
Исследователи из компании CodeRabbit проанализировали 470 pull-запросов (350 - созданные AI, 150 - написанные вручную) в открытых проектах на GitHub и пришли к выводу, что в изменениях, сгенерированных AI-ассистентами, присутствует в 1.7 раза больше значительных…
🥰2❤1🤯1🎉1
Forwarded from NoML Digest
Запись семинара
Илья Манякин (МСистемы), Вероятностные графовые модели и байесовские сети. YouTube | Дзен | RuTube (~1 час 20 минут).
Илья Манякин (МСистемы), Вероятностные графовые модели и байесовские сети. YouTube | Дзен | RuTube (~1 час 20 минут).
🤯1🎉1
Forwarded from ODS Events
Привет!
Встречайте двадцать шестой, предновогодний 🎄 выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются ключевые события года, включая рост цен на технологии памяти, скорость изменений в индустрии, дефляцию технологий и трансформацию маркетинга. Также рассматриваются новые навыки, необходимые в программировании, и важность образования в технологической сфере России. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
Встречайте двадцать шестой, предновогодний 🎄 выпуск подкаста "Капитанский мостик". В этом выпуске обсуждаются ключевые события года, включая рост цен на технологии памяти, скорость изменений в индустрии, дефляцию технологий и трансформацию маркетинга. Также рассматриваются новые навыки, необходимые в программировании, и важность образования в технологической сфере России. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube
📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).
🔥1🤯1
Forwarded from Machinelearning
Andon Labs опубликовала результаты Vending Bench 2, и GLM 4.7 вошла в шестерку лучших. Она стала первой открытой моделью, которая прошла полный "годовой тест" с реальной прибылью в 2 377 долларов.
Vending Bench 2 - это симуляционный тест для ИИ-агентов, в котором испытуемая модель в течение года управляет виртуальным бизнесом по продаже товаров через вендинговые автоматы.
Задачи бенча включают в себя закупку товаров, торговлю с поставщиками, корректировку цен в зависимости от спроса, покрытие расходов, учет погодных условий и сезонов.
Метрика теста - избежать банкротства и, в идеале, накопить деньги.
Лидерами стали закрытые модели: Gemini 3 Pro и Claude Opus 4.5, которые завершили тестирование с результатом выше 4000 долларов.
Тем не менее, GLM 4.7 обошла GPT 5.1 и ряд более мелких моделей, что доказывает: опен-сорс сокращает разрыв в агентских задачах с длительным горизонтом.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍2🤯1🍾1
Forwarded from SecurityLab.ru
Математика 2025 года доказывает: в науке о строгих правилах всё еще полно места для сюрпризов. Даже в областях, где всё казалось изученным до мелочей, старые гипотезы внезапно рушатся под свежим взглядом. Ярким примером стала 17-летняя школьница Ханна Кайро, которая, обучаясь дома на Багамах, смогла опровергнуть 40-летнюю гипотезу из гармонического анализа. Она нашла контрпример там, где опытные ученые десятилетиями видели лишь подтверждение устоявшихся теорий, доказав, что математическая интуиция порой важнее академических регалий.
Геометрия и физика тоже преподнесли невероятные результаты, граничащие с парадоксами. Исследователи наконец обнаружили «нопертэдр» — первый в истории выпуклый многогранник, сквозь который невозможно протащить его собственную копию, а также создали тетраэдр, способный стоять лишь на одной из четырех граней. Параллельно с этим математики представили новое, универсальное решение знаменитой «задачи десяти мартини», окончательно связав квантовую физику электронов с причудливыми фрактальными структурами.
На самом фундаментальном уровне ученые замахнулись на пересмотр природы бесконечности и чисел. Пока одни группы исследователей предлагают новые типы бесконечностей, которые делают математическую вселенную еще более хаотичной и сложной, другие находят способы доказать иррациональность целых наборов чисел. Эти открытия показывают, что даже привычная со школы числовая прямая остается территорией поиска, где за простыми вопросами скрываются глубокие истины, меняющие наше представление о реальности.
#Математика #Наука #Геометрия
SecurityLab в Telegram | MAX | Поддержите нас «бустами»
Please open Telegram to view this post
VIEW IN TELEGRAM
SecurityLab.ru
2025 в математике: школьница против учёных — 1:0, невозможный многогранник найден после века поисков, и другие открытия
Мир чисел больше никогда не будет прежним.
❤9🤯3🔥1🥰1
Forwarded from Machinelearning
Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.
Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.
Они прочитали PDF-документацию от NVIDIA, порылись в тематических Discord-сообществах и даже купили бумажные учебники, чтобы составить базу знаний, охватывающую весь стек в одном месте:
В руководстве все страницы связаны между собой, поэтому вы можете перейти к разделу о Warp Scheduler , чтобы лучше понять потоки, о которых вы читали в статье о модели программирования CUDA.
Сам проект открыт и доступен на Github.
@ai_machinelearning_big_data
#AI #ML #GPU #Glossary #Modal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤2👍2
Forwarded from Valuable AI / Валентин Малых
я хотел сегодня пропустить, чтобы дать всем отдохнуть, но меня догнала огненная новость - мои бывшие коллеги из исследовательского центра им. Н.Н. Лузина (это псевдоним, могу намекнуть на оригинальное навзвание - 🐉🪷🌺) выложили свой претрейн!
модель под названием Gamayun на 1.5B параметров, лучше Qwen2.5 аналогичного размера на русском, арабском, болгарском, испанском и польском языках!
также в этой работе коллеги предложили бенчмарк RuBIN, фактически измеряющий знание популярных русскоязычных цитат
мне очень приятно начать год с такой новости, поздравляю коллег из исследовательского центра им. Н.Н. Лузина, а также всех интересующихся русскоязычным NLP! 🎉🎉🎉
@valuableai
модель под названием Gamayun на 1.5B параметров, лучше Qwen2.5 аналогичного размера на русском, арабском, болгарском, испанском и польском языках!
также в этой работе коллеги предложили бенчмарк RuBIN, фактически измеряющий знание популярных русскоязычных цитат
мне очень приятно начать год с такой новости, поздравляю коллег из исследовательского центра им. Н.Н. Лузина, а также всех интересующихся русскоязычным NLP! 🎉🎉🎉
@valuableai
❤4👍1🔥1
Forwarded from Пул N3
Media is too big
VIEW IN TELEGRAM
Как приходит новый день год - так выглядит граница между днём и ночью на Земле:
«Эта «сумеречная полоса» шириной в сотни километров непрерывно движется вокруг Земли. На экваторе она мчится со скоростью около 1666 км/ч, а у полюсов почти замирает. Природа создаёт свой собственный калейдоскоп света и тени»
Подпишись на ПУЛ N3 / MAX
«Эта «сумеречная полоса» шириной в сотни километров непрерывно движется вокруг Земли. На экваторе она мчится со скоростью около 1666 км/ч, а у полюсов почти замирает. Природа создаёт свой собственный калейдоскоп света и тени»
Подпишись на ПУЛ N3 / MAX
❤1