Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).
– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.
– Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.
Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса
– Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.
Блог | Попробовать
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤯99❤59👍37🔥18😁1
Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали
Про архитектуру:
Про претрейн и мультимодальность:
Про пост-трейнинг, RL и длинный контекст:
Про дистилляцию:
Про архитектуру:
➖ Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.➖ В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.➖ В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.
Про претрейн и мультимодальность:
➖ Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.➖ Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.➖ Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.
Про пост-трейнинг, RL и длинный контекст:
➖ Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.➖ Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)➖ То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.➖ Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.➖ Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.
Про дистилляцию:
➖ Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.➖ В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.➖ К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤67🔥42👍28🤯5❤🔥3👌2🫡1
Вайб-кодинг – да или нет?
Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.
Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.
Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:
➖ Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
➖ Как ИИ меняет процессы, что агенты могут и чего не могут
➖ Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом
Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.
Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.
Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.
Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:
Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿120👍22❤16😁14🤩3🍾3🤯1👨💻1👾1
Media is too big
VIEW IN TELEGRAM
Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием
Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.
С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.
youtu.be/iyEFLKnNWAM
Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.
С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.
youtu.be/iyEFLKnNWAM
🤔131👍70🔥16😁13💯12❤6🤯6☃2🍓2
This media is not supported in your browser
VIEW IN TELEGRAM
Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов
Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.
Как я представляю себе идеальное утро понедельника⬆️
Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.
Как я представляю себе идеальное утро понедельника
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90😁66🗿25🤨15👍6🫡4🤯3🍓3❤2
Тем временем по поводу новой Llama 4 положительного фидбэка от пользователей как-то не слышно
Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.
Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...
P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)
Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.
Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...
P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)
🫡64🤔29👍12🔥5❤1💯1
Российский ответ ChatGPT: A-Vibe от Авито превзошла западные аналоги
Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.
На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.
Результаты впечатляют:
1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku
A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.
Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.
Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.
На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.
Результаты впечатляют:
1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku
A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.
Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.
😁230🔥71🗿29👍15❤14⚡5🤯4🤔3🫡3🐳1👾1
В Оксфорде предложили метод обучения нейросетей без обратного распространения ошибки
Back-propagation – это канонический подход для обучения сетей, который используют всегда и везде. Суть его в том, что мы сначала «прогоняем» входные данные вперёд по сети (forward pass), вычисляем ошибку, а затем прогоняем сигнал ошибки назад (backward pass), чтобы вычислить градиенты и обновить веса.
Это работает хорошо, но есть несколько НО. Во-первых, высокое потребление памяти. Во-вторых, последовательная природа вычислений, из-за которых обучение сложно параллелить.
Что предлагают в статье:
➖ Общая концепция – «слой как денойзер». Это похоже на диффузионки. Каждый слой сети рассматривается как отдельный блок, который должен расшумлять некоторую шумную версию целевого выходного значения.
➖ На примере классификации изображений: на этапе обучения t мы берем нашу метку класса, зашумляем ее, передаем в слой и просим предсказать исходную чистую метку.
➖ Получается, что обучение каждого слоя происходит независимо от других слоёв. Нет общей цепочки прямого/обратного прохода.
Во время инференса исходные данные играют роль исходного шума и последовательно проходят по всем слоям, которые постепенно расшумляют информацию в сторону метки.
На MNIST подход выбивает точность около 99.5%. Это примерно столько же, сколько у классического backprop. На CIFAR-10 и CIFAR-100 результаты также очень близки. При этом памяти используется почти вдвое меньше.
Сложно, неинтуитивно, но интересно
arxiv.org/abs/2503.24322 (аккуратно, внутри зубодробительная математика)
Back-propagation – это канонический подход для обучения сетей, который используют всегда и везде. Суть его в том, что мы сначала «прогоняем» входные данные вперёд по сети (forward pass), вычисляем ошибку, а затем прогоняем сигнал ошибки назад (backward pass), чтобы вычислить градиенты и обновить веса.
Это работает хорошо, но есть несколько НО. Во-первых, высокое потребление памяти. Во-вторых, последовательная природа вычислений, из-за которых обучение сложно параллелить.
Что предлагают в статье:
Во время инференса исходные данные играют роль исходного шума и последовательно проходят по всем слоям, которые постепенно расшумляют информацию в сторону метки.
На MNIST подход выбивает точность около 99.5%. Это примерно столько же, сколько у классического backprop. На CIFAR-10 и CIFAR-100 результаты также очень близки. При этом памяти используется почти вдвое меньше.
Сложно, неинтуитивно, но интересно
arxiv.org/abs/2503.24322 (аккуратно, внутри зубодробительная математика)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥149👍34🤯23🤔9❤8🐳1
Приятные новости: OpenAI подтвердили, что Deep Research скоро станет доступен бесплатным пользователям
Сейчас агент доступен только в платных подписках, но на недавнем стриме Айза Фулфорд – исследовательница из команды пост-трейнинга – сказала: "we'll launch you to free very soon" 🍯
Сейчас агент доступен только в платных подписках, но на недавнем стриме Айза Фулфорд – исследовательница из команды пост-трейнинга – сказала: "we'll launch you to free very soon" 🍯
👍80🔥33❤10🤔2😁1
Встречайте! Новый ИИ-ассистент для разрабов — Kodify 2.
У MTS AI появился новый ИИ-помощник, который поддерживает 90 языков программирования, предлагает функции автодополнения кода, исправления ошибок, генерации тестов и документации.
Ключевые особенности Kodify 2:
- 7 миллиардов параметров и поддержка контекста до 32 тысяч токенов
- OpenAI-совместимый API для легкой интеграции
С 2024 года первое поколение Kodify уже используется в ПАО «МТС», а новая версия ассистента станет доступна внешним заказчикам.
По словам директора MTS Web Services Павла Воронина, доля кода, созданного с помощью ИИ в МТС, выросла с 8% до 15% в 1-м квартале 2025.
Оцените его возможности сами.
У MTS AI появился новый ИИ-помощник, который поддерживает 90 языков программирования, предлагает функции автодополнения кода, исправления ошибок, генерации тестов и документации.
Ключевые особенности Kodify 2:
- 7 миллиардов параметров и поддержка контекста до 32 тысяч токенов
- OpenAI-совместимый API для легкой интеграции
С 2024 года первое поколение Kodify уже используется в ПАО «МТС», а новая версия ассистента станет доступна внешним заказчикам.
По словам директора MTS Web Services Павла Воронина, доля кода, созданного с помощью ИИ в МТС, выросла с 8% до 15% в 1-м квартале 2025.
Оцените его возможности сами.
😁75🤨18👍11❤6☃2🔥2🗿2🤯1🕊1👾1
Сэм Альтман 🤝 Илон Маск
купить собственный стартап
OpenAI рассматривает возможность покупки стартапа io Products, который занимается производством оборудования с ИИ и для ИИ. На интервью в The New York Times руководители говорили, что цель стартапа – создание продуктов, которые «менее разрушительны для общества, чем iPhone».
io Products основали Сэм Альтман и Джони Айв – бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad.
The Information уточняет, что, возможно, OpenAI не поглотит стартап, а просто станет партнером, однако условия сделки еще обсуждаются.
www.theinformation.com/articles/openai-discussed-buying-jony-ive-sam-altmans-ai-device-startup
купить собственный стартап
OpenAI рассматривает возможность покупки стартапа io Products, который занимается производством оборудования с ИИ и для ИИ. На интервью в The New York Times руководители говорили, что цель стартапа – создание продуктов, которые «менее разрушительны для общества, чем iPhone».
io Products основали Сэм Альтман и Джони Айв – бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad.
The Information уточняет, что, возможно, OpenAI не поглотит стартап, а просто станет партнером, однако условия сделки еще обсуждаются.
www.theinformation.com/articles/openai-discussed-buying-jony-ive-sam-altmans-ai-device-startup
😁63😎16❤10👍5🗿3
Media is too big
VIEW IN TELEGRAM
О, Google раскатили Gemini Live на пользователей приложения на Android
Это, фактически, шеринг экрана и видео с камеры с Gemini. Ассистент сможет анализировать происходящее в смартформе или вокруг и отвечать на вопросы.
Например, можно использовать модель как навигатор или читать с ним статьи прямо с телефона.
Любители iPhone, вам ждать еще лет 5.
Это, фактически, шеринг экрана и видео с камеры с Gemini. Ассистент сможет анализировать происходящее в смартформе или вокруг и отвечать на вопросы.
Например, можно использовать модель как навигатор или читать с ним статьи прямо с телефона.
Любители iPhone, вам ждать еще лет 5.
😁111👍36🔥15❤2🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
Там VSCode только что раскатили свой Agent Mode на всех пользователей
Теперь любому юзеру IDE доступен бесплатный Cursor (но не курсор). Внутри автономное редактирование кода, исправление багов в цикле, полноценный контекст всей кодовой базы и прикрученные MCP и расширения VSCode.
Как подключить:
1. Обновить VSCode
2. Открыть VSCode и перейти в режим Chat (кнопка справа)
3. Залогиниться через GitHub
4. Устновить chat.agent.enabled в настройках
5. Выбрать "Agent" в выпадающем списке в чате
Подробности тут
Теперь любому юзеру IDE доступен бесплатный Cursor (но не курсор). Внутри автономное редактирование кода, исправление багов в цикле, полноценный контекст всей кодовой базы и прикрученные MCP и расширения VSCode.
Как подключить:
1. Обновить VSCode
2. Открыть VSCode и перейти в режим Chat (кнопка справа)
3. Залогиниться через GitHub
4. Устновить chat.agent.enabled в настройках
5. Выбрать "Agent" в выпадающем списке в чате
Подробности тут
❤105🔥48👍20🤯10😁3