✔ Маленькая модель - крутой результат: LFM2-2.6B-Exp набирает 42% на GPQA
Для модели всего 2,6 млрд параметров такой балл обычно недостижим его ждёшь от куда более крупных систем.
Фокус в том, что команда не меняла архитектуру.
Они просто добавили RL поверх того же чекпоинта: модель генерирует ответы, получает оценку по задаче и обучается чаще выдавать выигрышные варианты.
Почему это важно
GPQA - жёсткий набор по научным вопросам, где «угадывание по шаблону» не работает.
Что внутри LFM2-2.6B
• гибрид: 22 слоя + 8 слоёв внимания
• контекст — до 32 768 токенов
• веса в bfloat16
⚡ грамотный дизайн наград + RL способны сильно поднять качество даже у маленьких моделей — без усложнения архитектуры.
https://huggingface.co/LiquidAI/LFM2-2.6B-Exp
Для модели всего 2,6 млрд параметров такой балл обычно недостижим его ждёшь от куда более крупных систем.
Фокус в том, что команда не меняла архитектуру.
Они просто добавили RL поверх того же чекпоинта: модель генерирует ответы, получает оценку по задаче и обучается чаще выдавать выигрышные варианты.
Почему это важно
GPQA - жёсткий набор по научным вопросам, где «угадывание по шаблону» не работает.
Что внутри LFM2-2.6B
• гибрид: 22 слоя + 8 слоёв внимания
• контекст — до 32 768 токенов
• веса в bfloat16
⚡ грамотный дизайн наград + RL способны сильно поднять качество даже у маленьких моделей — без усложнения архитектуры.
https://huggingface.co/LiquidAI/LFM2-2.6B-Exp
❤7👍6🔥2
🚀 MiniMax M2.1 - теперь open-source и один из лучших ИИ для разработчиков
— топ-результаты на кодинговых бенчмарках (SWE, VIBE, Multi-SWE)
— в ряде тестов обгоняет Gemini 3 Pro и Claude Sonnet 4.5
— MoE-архитектура: активны 10B параметров (230B всего)
И это не только цифры модель очень быста в инференсе и просто в деплоится, её можно запустить даже локально.
https://huggingface.co/MiniMaxAI/MiniMax-M2.1
@data_analysis_ml
— топ-результаты на кодинговых бенчмарках (SWE, VIBE, Multi-SWE)
— в ряде тестов обгоняет Gemini 3 Pro и Claude Sonnet 4.5
— MoE-архитектура: активны 10B параметров (230B всего)
И это не только цифры модель очень быста в инференсе и просто в деплоится, её можно запустить даже локально.
https://huggingface.co/MiniMaxAI/MiniMax-M2.1
@data_analysis_ml
❤13🔥6👍2😁1🤨1
Авито внедряет ИИ-помощников для покупателей и продавцов
На технологической платформе началось тестирование двух новых ИИ-ассистентов: Ави для покупателей и Ави Pro для продавцов. На текущем этапе они доступны только ограниченной группе пользователей.
Функционал помощников различается. Ави помогает покупателям: подбирает варианты по описанию, сравнивает товары, выделяет их сильные и слабые стороны, а также предлагает сопутствующие продукты, даже если запрос сформулирован нечетко. Ави Pro, в свою очередь, предназначен для продавцов и работает в их личных кабинетах. Этот ассистент анализирует статистику, отслеживает изменения и даёт рекомендации для повышения эффективности продаж.
Управляющий директор по искусственному интеллекту Авито Андрей Рыбинцев пояснил, что для компании диалоговый интерфейс представляет собой новый этап в развитии пользовательского опыта. По его словам, это решение сократит число действий для решения задач, повысит конверсию в успешные сделки и позволит платформе лучше понимать намерения клиентов.
Запуск ИИ-помощников является ответом компании на запросы рынка. Согласно внутренним исследованиям Авито, 59% пользователей заходят на платформу без четкой цели, при этом 43% уже готовы доверить выбор искусственному интеллекту. На дальнейшее развитие этих технологий в следующем году компания планирует направить около миллиарда рублей.
На технологической платформе началось тестирование двух новых ИИ-ассистентов: Ави для покупателей и Ави Pro для продавцов. На текущем этапе они доступны только ограниченной группе пользователей.
Функционал помощников различается. Ави помогает покупателям: подбирает варианты по описанию, сравнивает товары, выделяет их сильные и слабые стороны, а также предлагает сопутствующие продукты, даже если запрос сформулирован нечетко. Ави Pro, в свою очередь, предназначен для продавцов и работает в их личных кабинетах. Этот ассистент анализирует статистику, отслеживает изменения и даёт рекомендации для повышения эффективности продаж.
Управляющий директор по искусственному интеллекту Авито Андрей Рыбинцев пояснил, что для компании диалоговый интерфейс представляет собой новый этап в развитии пользовательского опыта. По его словам, это решение сократит число действий для решения задач, повысит конверсию в успешные сделки и позволит платформе лучше понимать намерения клиентов.
Запуск ИИ-помощников является ответом компании на запросы рынка. Согласно внутренним исследованиям Авито, 59% пользователей заходят на платформу без четкой цели, при этом 43% уже готовы доверить выбор искусственному интеллекту. На дальнейшее развитие этих технологий в следующем году компания планирует направить около миллиарда рублей.
❤5😐1
💰 ИИ-лабы начали платить начинающим исследователям на уровне опытных инженеров - фактически «закрепляя» таланты ещё на старте.
Сегодня стажировки и junior-позиции в топ-лабораториях - это уже не подработк, а прямой вход в исследование: со стипендией и собственным бюджетом на эксперименты.
Примеры программ
- Anthropic - AI Safety Fellows
~ $3 850 в неделю + примерно $15 000 в месяц на вычисления.
По сути — стипендия плюс мини-грант на исследования.
Business Insider отмечает: 80% участников публикуют статьи — программа даёт результат.
- OpenAI Residency
~ $18 300 в месяц в течение 6 месяцев —
формат как оплаченное обучение внутри фронтир-организации.
Если дать новичкам деньги + доступ к мощностям,
они начинают приносить ощутимый вклад почти сразу.
ИИ-карьера всё больше выглядит как полноценная научная работа с зарплатой и ресурсами - с самого старта.
businessinsider .com/top-paying-ai-internships-fellowships-residencies-openai-anthropic-meta-google-2025-12
Сегодня стажировки и junior-позиции в топ-лабораториях - это уже не подработк, а прямой вход в исследование: со стипендией и собственным бюджетом на эксперименты.
Примеры программ
- Anthropic - AI Safety Fellows
~ $3 850 в неделю + примерно $15 000 в месяц на вычисления.
По сути — стипендия плюс мини-грант на исследования.
Business Insider отмечает: 80% участников публикуют статьи — программа даёт результат.
- OpenAI Residency
~ $18 300 в месяц в течение 6 месяцев —
формат как оплаченное обучение внутри фронтир-организации.
Если дать новичкам деньги + доступ к мощностям,
они начинают приносить ощутимый вклад почти сразу.
ИИ-карьера всё больше выглядит как полноценная научная работа с зарплатой и ресурсами - с самого старта.
businessinsider .com/top-paying-ai-internships-fellowships-residencies-openai-anthropic-meta-google-2025-12
🔥17👍8❤2
⚡️ Matrix Exponential Attention (MEA) - экспериментальный механизм внимания для трансформеров
MEA предлагает альтернативу классическому softmax-attention. Вместо нормализации через softmax используется матричная экспонента, что позволяет моделировать более сложные, высоко-порядковые взаимодействия между токенами.
Ключевая идея
Внимание формулируется как exp(QKᵀ), а вычисление экспоненты аппроксимируется через усечённый ряд. Это даёт возможность считать внимание линейно по длине последовательности, не создавая огромные n×n матрицы.
Что это даёт
- Более выразительное внимание по сравнению с softmax
- Higher-order взаимодействия между токенами
- Линейная сложность по памяти и времени
- Подходит для длинных контекстов и исследовательских архитектур
Проект находится на стыке Linear Attention и Higher-order Attention и носит исследовательский характер. Это не готовая замена стандартному attention, а попытка расширить его математическую форму.
Для ML-исследователей и инженеров, которые изучают новые формы внимания, альтернативы softmax и архитектуры для длинных последовательностей.
Экспериментально. Интересно. Не для продакшена - пока.
GitHub: github.com/yifanzhang-pro/MEA
MEA предлагает альтернативу классическому softmax-attention. Вместо нормализации через softmax используется матричная экспонента, что позволяет моделировать более сложные, высоко-порядковые взаимодействия между токенами.
Ключевая идея
Внимание формулируется как exp(QKᵀ), а вычисление экспоненты аппроксимируется через усечённый ряд. Это даёт возможность считать внимание линейно по длине последовательности, не создавая огромные n×n матрицы.
Что это даёт
- Более выразительное внимание по сравнению с softmax
- Higher-order взаимодействия между токенами
- Линейная сложность по памяти и времени
- Подходит для длинных контекстов и исследовательских архитектур
Проект находится на стыке Linear Attention и Higher-order Attention и носит исследовательский характер. Это не готовая замена стандартному attention, а попытка расширить его математическую форму.
Для ML-исследователей и инженеров, которые изучают новые формы внимания, альтернативы softmax и архитектуры для длинных последовательностей.
Экспериментально. Интересно. Не для продакшена - пока.
GitHub: github.com/yifanzhang-pro/MEA
❤4👍3