Data Secrets

⚡️

Вышла Llama-4 с огромным контекстом

Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).

– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.

– Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.

Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса

– Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.

Блог | Попробовать

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3🤯99❤59👍37🔥18😁1

39.7K views19:08

Data Secrets

Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали

Про архитектуру:

➖ Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.
➖ В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.
➖ В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.

Про претрейн и мультимодальность:

➖ Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.
➖ Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.
➖ Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.

Про пост-трейнинг, RL и длинный контекст:

➖ Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.
➖ Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)
➖ То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.
➖ Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.
➖ Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.

Про дистилляцию:

➖ Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.
➖ В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.
➖ К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤67🔥42👍28🤯5❤‍🔥3👌2🫡1

14.8K views11:36

Data Secrets

Вайб-кодинг – да или нет?

Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.

Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.

Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:

➖ Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
➖ Как ИИ меняет процессы, что агенты могут и чего не могут
➖ Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом

Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿120👍22❤16😁14🤩3🍾3🤯1👨‍💻1👾1

15.4K views13:57

Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием

Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.

С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.

youtu.be/iyEFLKnNWAM

🤔131👍70🔥16😁13💯12❤6🤯6☃2🍓2

16K views15:49

Data Secrets

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов

Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.

Как я представляю себе идеальное утро понедельника ⬆️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥90😁66🗿25🤨15👍6🫡4🤯3🍓3❤2

20.3K views06:11

Data Secrets

Тем временем по поводу новой Llama 4 положительного фидбэка от пользователей как-то не слышно

Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.

Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...

P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)

🫡64🤔29👍12🔥5❤1💯1

14.9K views07:07

Data Secrets

Российский ответ ChatGPT: A-Vibe от Авито превзошла западные аналоги

Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.

На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.

Результаты впечатляют:

1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku

A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.

Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.

😁230🔥71🗿29👍15❤14⚡5🤯4🤔3🫡3🐳1👾1

15.3K views09:52

Data Secrets

В Оксфорде предложили метод обучения нейросетей без обратного распространения ошибки

Back-propagation – это канонический подход для обучения сетей, который используют всегда и везде. Суть его в том, что мы сначала «прогоняем» входные данные вперёд по сети (forward pass), вычисляем ошибку, а затем прогоняем сигнал ошибки назад (backward pass), чтобы вычислить градиенты и обновить веса.

Это работает хорошо, но есть несколько НО. Во-первых, высокое потребление памяти. Во-вторых, последовательная природа вычислений, из-за которых обучение сложно параллелить.

Что предлагают в статье:

➖ Общая концепция – «слой как денойзер». Это похоже на диффузионки. Каждый слой сети рассматривается как отдельный блок, который должен расшумлять некоторую шумную версию целевого выходного значения.

➖ На примере классификации изображений: на этапе обучения t мы берем нашу метку класса, зашумляем ее, передаем в слой и просим предсказать исходную чистую метку.

➖ Получается, что обучение каждого слоя происходит независимо от других слоёв. Нет общей цепочки прямого/обратного прохода.

Во время инференса исходные данные играют роль исходного шума и последовательно проходят по всем слоям, которые постепенно расшумляют информацию в сторону метки.

На MNIST подход выбивает точность около 99.5%. Это примерно столько же, сколько у классического backprop. На CIFAR-10 и CIFAR-100 результаты также очень близки. При этом памяти используется почти вдвое меньше.

Сложно, неинтуитивно, но интересно

arxiv.org/abs/2503.24322 (аккуратно, внутри зубодробительная математика)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥149👍34🤯23🤔9❤8🐳1

17K views10:56

Data Secrets

Приятные новости: OpenAI подтвердили, что Deep Research скоро станет доступен бесплатным пользователям

Сейчас агент доступен только в платных подписках, но на недавнем стриме Айза Фулфорд – исследовательница из команды пост-трейнинга – сказала: "we'll launch you to free very soon" 🍯

👍80🔥33❤10🤔2😁1

13.8K views12:32

Data Secrets

Встречайте! Новый ИИ-ассистент для разрабов — Kodify 2.

У MTS AI появился новый ИИ-помощник, который поддерживает 90 языков программирования, предлагает функции автодополнения кода, исправления ошибок, генерации тестов и документации.

Ключевые особенности Kodify 2:
- 7 миллиардов параметров и поддержка контекста до 32 тысяч токенов
- OpenAI-совместимый API для легкой интеграции

С 2024 года первое поколение Kodify уже используется в ПАО «МТС», а новая версия ассистента станет доступна внешним заказчикам.

По словам директора MTS Web Services Павла Воронина, доля кода, созданного с помощью ИИ в МТС, выросла с 8% до 15% в 1-м квартале 2025.

Оцените его возможности сами.

😁75🤨18👍11❤6☃2🔥2🗿2🤯1🕊1👾1

15.1K viewsedited 13:15

Data Secrets

Сэм Альтман 🤝 Илон Маск
купить собственный стартап

OpenAI рассматривает возможность покупки стартапа io Products, который занимается производством оборудования с ИИ и для ИИ. На интервью в The New York Times руководители говорили, что цель стартапа – создание продуктов, которые «менее разрушительны для общества, чем iPhone».

io Products основали Сэм Альтман и Джони Айв – бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad.

The Information уточняет, что, возможно, OpenAI не поглотит стартап, а просто станет партнером, однако условия сделки еще обсуждаются.

www.theinformation.com/articles/openai-discussed-buying-jony-ive-sam-altmans-ai-device-startup

😁63😎16❤10👍5🗿3

13.9K viewsedited 14:22

About

Blog

Apps

Platform