Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚡️ Вышла Llama-4 с огромным контекстом

Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).

– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.

Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.

Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса

Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.

Блог | Попробовать
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤯9959👍37🔥18😁1
Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали

Про архитектуру:
Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.
В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.
В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.


Про претрейн и мультимодальность:
Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.
Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.
Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.


Про пост-трейнинг, RL и длинный контекст:
Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.
Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)
То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.
Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.
Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.


Про дистилляцию:
Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.
В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.
К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.
Please open Telegram to view this post
VIEW IN TELEGRAM
67🔥42👍28🤯5❤‍🔥3👌2🫡1
Вайб-кодинг – да или нет?

Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.

Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.

Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:

Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
Как ИИ меняет процессы, что агенты могут и чего не могут
Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом

Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿120👍2216😁14🤩3🍾3🤯1👨‍💻1👾1
Media is too big
VIEW IN TELEGRAM
Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием

Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.

С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.

youtu.be/iyEFLKnNWAM
🤔131👍70🔥16😁13💯126🤯62🍓2
This media is not supported in your browser
VIEW IN TELEGRAM
Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов

Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.

Как я представляю себе идеальное утро понедельника ⬆️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90😁66🗿25🤨15👍6🫡4🤯3🍓32
Тем временем по поводу новой Llama 4 положительного фидбэка от пользователей как-то не слышно

Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.

Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...

P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)
🫡64🤔29👍12🔥51💯1
Российский ответ ChatGPT: A-Vibe от Авито превзошла западные аналоги

Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.

На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.

Результаты впечатляют:

1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku

A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.

Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.
😁230🔥71🗿29👍15145🤯4🤔3🫡3🐳1👾1
В Оксфорде предложили метод обучения нейросетей без обратного распространения ошибки

Back-propagation – это канонический подход для обучения сетей, который используют всегда и везде. Суть его в том, что мы сначала «прогоняем» входные данные вперёд по сети (forward pass), вычисляем ошибку, а затем прогоняем сигнал ошибки назад (backward pass), чтобы вычислить градиенты и обновить веса.

Это работает хорошо, но есть несколько НО. Во-первых, высокое потребление памяти. Во-вторых, последовательная природа вычислений, из-за которых обучение сложно параллелить.

Что предлагают в статье:

Общая концепция – «слой как денойзер». Это похоже на диффузионки. Каждый слой сети рассматривается как отдельный блок, который должен расшумлять некоторую шумную версию целевого выходного значения.

На примере классификации изображений: на этапе обучения t мы берем нашу метку класса, зашумляем ее, передаем в слой и просим предсказать исходную чистую метку.

Получается, что обучение каждого слоя происходит независимо от других слоёв. Нет общей цепочки прямого/обратного прохода.

Во время инференса исходные данные играют роль исходного шума и последовательно проходят по всем слоям, которые постепенно расшумляют информацию в сторону метки.

На MNIST подход выбивает точность около 99.5%. Это примерно столько же, сколько у классического backprop. На CIFAR-10 и CIFAR-100 результаты также очень близки. При этом памяти используется почти вдвое меньше.

Сложно, неинтуитивно, но интересно

arxiv.org/abs/2503.24322 (аккуратно, внутри зубодробительная математика)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥149👍34🤯23🤔98🐳1
Приятные новости: OpenAI подтвердили, что Deep Research скоро станет доступен бесплатным пользователям

Сейчас агент доступен только в платных подписках, но на недавнем стриме Айза Фулфорд – исследовательница из команды пост-трейнинга – сказала: "we'll launch you to free very soon" 🍯
👍80🔥3310🤔2😁1
Встречайте! Новый ИИ-ассистент для разрабов — Kodify 2.

У MTS AI появился новый ИИ-помощник, который поддерживает 90 языков программирования, предлагает функции автодополнения кода, исправления ошибок, генерации тестов и документации.

Ключевые особенности Kodify 2:
- 7 миллиардов параметров и поддержка контекста до 32 тысяч токенов
- OpenAI-совместимый API для легкой интеграции

С 2024 года первое поколение Kodify уже используется в ПАО «МТС», а новая версия ассистента станет доступна внешним заказчикам.

По словам директора MTS Web Services Павла Воронина, доля кода, созданного с помощью ИИ в МТС, выросла с 8% до 15% в 1-м квартале 2025.

Оцените его возможности сами.
😁75🤨18👍1162🔥2🗿2🤯1🕊1👾1
Сэм Альтман 🤝 Илон Маск
купить собственный стартап


OpenAI рассматривает возможность покупки стартапа io Products, который занимается производством оборудования с ИИ и для ИИ. На интервью в The New York Times руководители говорили, что цель стартапа – создание продуктов, которые «менее разрушительны для общества, чем iPhone».

io Products основали Сэм Альтман и Джони Айв – бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad.

The Information уточняет, что, возможно, OpenAI не поглотит стартап, а просто станет партнером, однако условия сделки еще обсуждаются.

www.theinformation.com/articles/openai-discussed-buying-jony-ive-sam-altmans-ai-device-startup
😁63😎1610👍5🗿3