Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Сегодня нас стало 50 тысяч! 🚀

Это большая и важная отметка для нашей команды. Спасибо нашим подписчикам за ваше внимание и поддержку, едем дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
7255🎉122🏆33👍23🔥9😎3🍌2🤯1
Это то, что мы все так сильно любим: Андрей Карпаты выложил новое обучающее видео

Это погружение в LLM на 3.5 часа. В лекции рассмотрены все основные шаги обучения моделек:

– Прентрейн: данные, токенизация, устройство архитектуры трансформера, примеры на GPT-2 и Llama 3.1

– Файнтюнинг: LLM Psychology, галлюцинации, орфография и еще много интересных деталей

– RLHF: все про то, как обучение с подкреплением работает в LLM на примере DeepSeek R1

Ну что может быть лучше?

youtu.be/7xTGNNLPyMI?si=dlaK07h1Uw_1Dr8Z
16🔥27045👍35😎7🤩6🎅32🗿21😁1
Google насыпал приятных обновлений:

Наконец-то релизнули Gemini 2.0 Flash, и теперь она доступна всем через Gemini API, Google AI Studio и Vertex AI. Моделька быстрая, а еще самая качественная и дешевая в своем весе и категории. Контекст до 1 млн токенов.

Вышла новая Gemini 2.0 Flash-Lite. Она еще дешевле и легче Gemini 2.0 Flash. По качеству превосходит предыдущую 1.5 Flash, при этом стоимость остается где-то на том же уровне.

Появилась экспериментальная Gemini 2.0 Pro. Тут контекст до 2 млн токенов, и говорят, что это лучшая модель для кода и сложных промптов. Доступна в Gemini Advanced.

В приложение бесплатно добавили 2.0 Flash Thinking Experimental. На LLMSYS это сейчас лучшая модель в мире (правда на лидерборд еще не завезли o3-mini).

Блогпост

Обновления пробуем здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥147🗿3
Кстати ChatGPT Search там открыли для всех пользователей, теперь для него даже не требуется регистрация, только включенный VPN

Интересно, гуляем за счет подстегивания конкуренции от DeepSeek или так и было запланировано?

chatgpt.com
🔥84😁49👍17105
Media is too big
VIEW IN TELEGRAM
CEO Anthropic, Дарио Амодеи, говорит, что DeepSeek R1 худшая с точки зрения безопасности модель, которую они когда-либо тестировали

«Мы запускали оценку R1 на предмет того, насколько она способна выдавать опасную информацию (например о биооружии), которую обычно нелегко найти в интернете или в книгах. И это буквально худшая в этом смысле модель, которую мы тестировали, в ней абсолютно нет блоков. Так что на месте DeepSeek я бы обратил на это внимание»
😁236🔥46👍31🤔10😐10🍌9🗿65🤗2🦄2👀1
Разработчик YandexGPT поделился методами ускорения инференса моделей

На Хабре выкатили полезный материал про то, как улучшить процесс работы на конечном устройстве. Самое приятное — методы универсальные и их можно комбинировать между собой для максимального буста.

Они подойдут для большинства популярных архитектур типа LLaMA или MoE (Mixture of Experts). Полностью статья лежит тут.


🍯
🔥80😐17👍12🌭41👌1
ChatГоПоТа получается
😁296👍25🔥148🗿8
Разбираемся, как работает GRPO – ключевой алгоритм модели DeepSeek R1

Начнем с того, что GRPO – это метод обучения с подкреплением. Он, можно сказать, авторская находка DeepSeek, они предложили его еще год назад в статье про DeepSeekMath (ее подробный разбор лежит у нас на сайте), и с тех пор активно используют в своих моделях.

Обучение с подкреплением – это метод обучения, при котором агент (в нашем случае модель) учится принимать решения, взаимодействуя с окружающей средой. Агент получает награды за свои действия и стремится максимизировать общую награду. На каждом шаге взаимодействия со средой у агента есть политика – стратегия, которой следует агент, определяющая, какое действие он должен предпринять в каждом состоянии.

Самым распространенным для языковых моделей алгоритмом RL является Proximal Policy Optimization (PPO), и GRPO как раз является его вариацией. Суть:

У агента есть начальная политика (стратегия), по которой он действует.

Агент выполняет действия в среде (отвечает на вопросы), следуя своей текущей политике

PPO оценивает действие агента. Для этого обычно используется три модели:
reference model – модель, которая выступает эталоном и позволяет измерять, насколько текущая политика изменилась по сравнению с исходной,
reward model – оценивает награду, которую агент получает за выполнение действия прямо сейчас,
value model – оценивает ожидаемую долгосрочную выгоду от действия, предсказывая будущие награды.

На основе этих оценок агент меняет свою политику. Здесь заключена основная особенность алгоритма: функция потерь в PPO устроена так, что слишком резкие изменения политики не допускаются. Это помогает агенту постепенно улучшать свою стратегию, не делая слишком резких шагов сразу, что делает процесс обучения более стабильным и эффективным.

Но есть в PPO и недостатки. В частности, value model, которая играет ключевую роль в PPO, тащит на себя очень много ресурсов, потому что обычно сопоставима по размерам с моделью, которую мы обучаем. Это делает обучение дорогим.

Так что из GRPO (Group Relative Policy Optimization) value model вообще выкинули. Вместо value model в GRPO мы используем среднюю награду от группы ответов на один и тот же вопрос, и так определяем, насколько "хороши" действия модели.

То есть в GRPO оценка качества ответа основана на сравнении с другими ответами в группе, а не на абсолютных значениях наград. Если ответ лучше среднего по группе, политика усиливает вероятность его выбора. Если хуже — ослабляет. Это компенсирует оценку value model и делает обучение более эффективным и менее ресурсоемким.

Математические детали процесса оставили для вас в конспекте наверху.

Кстати, GRPO работает хорошо даже если пропустить этап файнтюнинга. Так обучали R1-Zero, младшую сестренку R1. Для нее вообще не использовали никакой разметки, и GRPO вытащил все ее качество исключительно на себе (подробнее).
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥117👍5821🤯4😁21
Джон Шульман, который в августе ушел из OpenAI в Anthropic, теперь уходит из Anthropic в... компанию Миры Мурати

Джон Шульман – сооснователь OpenAI и в стартапе работал главой команды пост-обучения. Он мега выдающийся исследователь, автор метода PPO, который мы разбирали вчера и который лежит в основе RLHF, и большой любитель alignment’a.

В Anthropic он проработал чуть больше пяти месяцев и теперь ушел в компанию к Мурати, которая 9 лет была CTO OpenAI, покинула стартап в сентябре и объявила о создании собственной лаборатории.

Также сообщают, что вместе с Шульманом она захантила еще нескольких бывших сотрудников OpenAI, включая Кристиана Гибсона, который у Альтмана работал в команде суперкомпьюта.

Также напоминаем, что у Миры уже работает Миана Чен, Баррет Зоф и Люк Метц (они были ключевыми учеными команды элаймента в OpenAI), а в октябре она вела переговоры о о привлечении инвестиций в размере $100 миллионов.

Не хватает пива и чипсов
😎108👍29🫡15🤯106💯1
OpenAI объявили о том, что теперь будут раскрывать больше цепочек рассуждений o3-mini

Это относится и к платным, и к бесплатным пользователям.

«Мы делаем это потому что на нас давит Китай для того, чтобы людям было понятнее, как думает модель, и чтобы они были увереннее в ее ответах»


Однако это все еще не полная CoT. Более того, это даже не сырые рассуждения: в компании прямо говорят, что o3-mini думает «свободно», а потом просто обобщает свои мысли, и вот это уже показывают пользователю.
😁113👍3914🤪7🔥6
Google релизнули Alpha Geometry 2: модель решает задачи по геометрии на уровне золотого медалиста Международной Математической Олимпиады

Первая версия Alpha Geometry вышла практически ровно год назад, и относительно нее новая версия сильно прокачалась: если предшественница решала 54% всех задач по геометрии с IMO 2000-2024, то AG2 справляется с 84%. Это, если что, на 84% больше, чем результат o1 👽

При этом AG2 не совсем нейросеть. Это нейро-символьная система. То есть AG2 объединяет в себе и LLM, и символьные строгие методы для вычислений и доказательств. В общих чертах AG2 потрошится на три основных составляющих:

1. Зафайнтюненная Gemini, которой скормили 300 млн теорем. Модель анализирует текст задачи и диаграммы и как бы интуитивно намечает решение: подсказывает, какие свойства фигур могут быть полезны, какие теоремы могут пригодиться и так далее. Она также служит своеобразным энкодером и формализует текст задачи в доменный язык, который умеет воспринимать символьный модуль.

2. Символьный движок DDAR2, в который сгружаются все результаты Gemini. Он берет на себя доказательства по строгим правилам геометрии и проверку и расширение предложенных LM решений с помощью дедукции. В новый DDAR добавили поддержку сложных геометрических конструкций, а также умение работать с "двойными" точками (такие возникают в куче примеров, наверное все помнят со школы задачи вида "докажите, что такая-то точка пересечения лежит на такой-то окружности").

А еще по сравнению с DDAR1 DDAR2 сильно ускорили с помощью C++ реализации и оптимизированного перебора вариантов решений. Раньше все работало на брутфорсе, а сейчас алгоритм переделали и сложность уменьшилась с 𝑂(𝑁⁸) до 𝑂(𝑁³), что увеличило скорость решения в 300 раз!

3. Ну и финальное: деревья поиска SKEST. Это как раз та самая оптимизация. Классические деревья предлагают как бы один шаг решения за раз. А в SKEST мы пробуем несколько вершин разом: это присходит за счет параллельного запуска нескольких деревьев, которые могут делиться между собой найденными стратегиями.

Плюсом ко всему, Alpha Geometry 2 даже умеет автоматически строить к своим решениям рисунки. К сожалению, демо пока не выложили, зато доступна статья.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥132👍38🤯2116🗿6
AGI достигнут, расходимся
😁371👏34🔥21🍌431❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Илья Суцкевер возвращается

… чтобы попросить денег. Reuters сообщает о том, что его компания Safe Superintelligence снова участвует в переговорах о финансировании.

При этом стартап (который, напоминаем, еще вообще ничего не выпустил) оценивается уже в минимум 20 миллиардов долларов. Для сравнения, OpenAI, которые работают уже 10 лет, оцениваются в 300 миллиардов, а основной европейский Mistral всего в 7 миллиардов.

Пока неясно, какую сумму хочет Илья, но она может быть значительной. Осенью стартап уже привлек 1 миллиард долларов, и с тех пор их оценка увеличилась в 4 раза.
😁116👍2214🤪12🔥5🤔3🎉2🗿2🦄2
Media is too big
VIEW IN TELEGRAM
Альтман говорит, что у OpenAI есть внутренние модели, которые «входят» в топ-50 лучших программистов мира

«Наша первая ризонинг модель была где-то на уровне топ-миллион лучших программистов мира. Затем мы добились топ-10000. o3 находится в топ-175. Наши внутренние бенчмарки сейчас в районе топ-50, и к концу года это будет топ-1»


Были на этой недавней встрече в Токио, а также на другой в Германии (кстати OpenAI собирается открывать там офис) и другие интересные высказывания от Сэма:

«К 2035 году один датацентр ИИ будет обладать такой же интеллектуальной мощностью, как все люди и ИИ, которые сейчас существуют на Земле, вместе взятые»


«Я не могу переоценить, какого прогресса мы добьемся в ближайшие 2 года. Мы знаем, как улучшить эти модели настолько, настолько... прогресс, которого я ожидаю с февраля 2025 года по февраль 2027 года, точно будет еще более впечатляющим, чем с февраля 2023 года по февраль 2025 года»


«GPT-5 будет умнее чем я и превзойдет уровень интеллекта человека. Это будет инструмент с невероятно высоким IQ»


Верим? 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
5🤯178😁83🔥43👍31🤔29🙈1614🤪14🌚7🍌1😐1
Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.
👍127🌚24🔥2111👨‍💻1