Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Ни одна презентация Apple не обходится без последующих мемов

В этот раз соцсети заполонили шутки про синхронный перевод в новых AirPods.

Ну в общем, мы поддержали тренд и тоже мемов придумали. Переводим с ML-ного на человеческий 🤫
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁47050👍17🔥963❤‍🔥2💯1😎1
Ларри Эллисон (CEO Oracle) обогнал Илона Маска и стал самым богатым человеком на Земле. Все благодаря OpenAI.

Они заключили с Oracle контракт (внимание!) на 300 миллиардов долларов.

Он вступает в силу в 2027 году, и OpenAI придется платить в среднем 60 миллиардов долларов в год в течение пяти лет, чтобы выплатить всю сумму (интересно, где они столько возьмут).

Это крупнейшая сделка в истории облачных вычислений. На ее фоне акции Oracle подскочили уже на 37%.

Понятно, что со всеми текущими новостями про инвестиции, расходы стартапов и тд эти огромные числа уже немного притерлись. Так что давайте просто вспомним, что на самом деле такое 300 миллиардов долларов:

– Это примерно 1.5 миллиона квартир в Москве
– 6 годовых бюджетов Казахстана
– 2.6 миллиона биткоинов

Сам OpenAI сейчас стоит 500 миллиардов, то есть это 60% цены стартапа.

Ларри, конечно, поздравляем. Маску сочувствуем 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1243920🤯13👍7😁761
Стартап Миры Мурати Thinking Machines внезапно анонсировал свой рисерч блог Connectionism, и в нем уже есть первая статья

Статья, кстати, на очень интересную и редкую тему. Но сначала два слова про название Connectionism. Оно выбрано не случайно: в 80-х так называлась отрасль искусственного интеллекта, которая изучала сходство нейронных сетей с биологическим мозгом. Вот такая занятная деталь.

В блоге Thinking Machines обещают постить на довольно разнообразные темы, от промпт-инжинеринга до проектирования ядер. И первая статья как раз посвящена вот такой глубоко технической теме: воспроизводимость (детерминированность) ответов LLM.

Ясно, что ответы LLM – вещь случайная, то есть на один и тот же промпт она может раз из раза отвечать по-разному. Объясняется это тем, что во всех моделях на инференсе на самом деле выбирается не просто самый вероятный токен. Здесь замешана доля случайности, за которую отвечает гиперпараметр "температура".

Если температура ближе к 1, то из распределения вероятностей модель чаще будет выбирать токены с меньшими значениями, и ответы будут разнообразнее и креативнее. Если ближе к 0, то чаще будут выбираться просто самые вероятные токены, и ответы будут стабильнее.

По всей логике, если температура = 0, то ответы на одни и те же запросы не должны отличаться совсем. Но, оказывается, что это не так.

Почему? Принято было считать, что просто из-за параллельных вычислений: порядок сложения чисел на GPU может меняться, давая слегка разные результаты. Но TM разобрались глубже и показали, что это не совсем так, и причина еще менее очевидная:

– Когда модель работает на проде, на сервер одновременно приходят запросы от многих пользователей. В зависимости от нагрузки, фреймворк объединяет их в батчи разного размера: сейчас это может быть 8 последовательностей, через секунду — 32, потом 4. Это нужно, чтобы эффективно загружать GPU.

– Сам по себе матмуль, даже при распараллеливании, дает детерменированные результаты для одинаковых входов. Это называется run-to-run deterministic. Но если меняется размер батча, все тут же ломается. Математически это странно, тк элементы в батче должны обрабатываться независимо, но на практике оптимизации под GPU (другой порядок операций, разбиение на блоки и т.д.) приносят вот такие результаты.

– В итоге из-за постоянных изменений размера батча числа внутри модели чуть-чуть плавают. И даже если температура 0, на каком-то шаге эти крошечные различия могут привести к тому, что модель выберет другой токен, и ответ пойдёт по иному пути.

В статье показали, как такое исправить (по сути, как реализовать batch-invariant ядра). Мы оставим ссылку, там в тексте много выкладок, схем и кода: посмотрите, кому интересно.

Для пользователей такое, конечно, реализовывать никому не нужно, но вот для всяких отладок, элаймент тестов и прочей безопасности – имба.

В общем, Thinking Machines сегодня прямо порадовали. Надеемся, в новом блоге они будут почаще что-нибудь выкладывать.

thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
2217👍66🏆16😁4🕊4🤨22
Забавно: В компании Safe Superintelligence, которую основал Илья Суцкевер, сотрудникам запретили указывать её название в профилях на LinkedIn

Так компания хочет снизить риск того, что конкуренты будут переманивать ключевых специалистов. В целом, после всех новостей от Meta их можно понять.

Тянет на ещё одну революцию от Ильи — теперь в жанре кадровой безопасности 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
1140😁642912👍10754
Большая новость: OpenAI раскрывают детали новой структуры компании

Как вы помните, они уже несколько месяцев назад отказались от полного перехода в статус коммерческой организации и объявили, что будут Public Benefit Corporation, как, например, Anthropic и xAI. Но детали перехода до сегодняшнего дня были неизвестны. Итак, кратко пересказываем главное:

Некоммерческий статус OpenAI остается: некомм. совет директоров сохраняет руководящую роль, при этом теперь владеет долей в новом PBC. Сейчас доля оценивается примерно в 100 миллиардов долларов.

При этом эта доля будет увеличиваться по мере роста PBC, так что некоммерческая «составляющая» теперь напрямую заинтересована в успехе коммерческого подразделения. Вот такая абракадабра.

Еще из интересного – капсирование прибыли. Доход инвесторов и сотрудников PBC имеет верхний предел, всё сверх лимита возвращается в некоммерческую часть и вкладывается в общественные нужды. Для инвесторов, конечно, кап потенциально хотят отменить, но пока он все еще существует.

И по поводу Microsoft: OpenAI находятся на этапе подписания с ними нового соглашения. Правда «детали пока обсуждаются», и на данный момент подписан только MOU – меморандум о намерениях. А он юридически не является обязательным. Но это уже другая история.

openai.com/index/statement-on-openai-nonprofit-and-pbc/
Please open Telegram to view this post
VIEW IN TELEGRAM
39👍19🔥76😁4👏1
В Албании впервые в мире ИИ занял пост министра

Цифровую систему по имени Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.

Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. То есть в Албании таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.

Ждем, пока Diella невзначай закупит из госбюджета миллион GPU
1🤯194😁13044👍2516🗿1412🤔8🔥7❤‍🔥3👌2
Cursor на 28% улучшили фичу Tab с помощью RL

Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собирается сделать далее. Когда вы перемещаете курсор или начинаете писать какой-то код, Tab пытается понять, что вам нужно и, если она достаточно уверена в своем предсказании, то предлагает вам продолжение (чаще всего завершение кода).

Отличная фича, но часто предлагала шум. В общем, Cursor решили что-то с этим делать.

В других редакторах (например, в Copilot) подобную проблему пытались бороть обычными фильтрами: язык, были бы предыдущие предложения приняты или нет и тд.

Звучит в целом норм, но Cursor выбрали путь сложнее и интереснее, потому что они использовали RL с двумя сильными составляющими:

1. Сложная reward модель. Политика на каждом шаге предсказывает вероятности разных исходов + вероятность того, что предложение будет принято. Reward, исходя из этих вероятностей, поощряет принятые предложения и штрафует отклонённые. Например, если вероятность принятия ≥ 25%, accepted даёт +0.75, rejected — −0.25, если ничего не показывается – 0. Вот модель и решает, как ей лучше себя вести. Также в награде учитывается длина оффера, общее количество офферов и др.

2. On-policy data. То есть данные, на которых училась политика, собраны в реальной работе модели уже после её обновления. Получили новый чекпоинт -> задеплоили -> собрали данные (это занимает пару часов) -> учим дальше. Это чтобы не было distribution shift и градиент обновлялся правильно. Реализовать такое, конечно, мега запара.

Итог: в новой версии на 21% меньше предложений, но на 28% выше доля принятия.

Мало того, что это огромный скачок метрики, это еще и качественно другой результат: тут accept rate растет не за счет костыльной фильтрации шумных предсказаний, а за счет того, что сама модель стала более прагматичной и предлагает меньше ерунды.

Good job

cursor.com/blog/tab-rl
❤‍🔥129👍4821😁4🔥2
А мы тем временем с командой приехали на big tech night

Тут намечается настоящая ночь в музее в стиле IT: офисы Яндекса, Сбера, Т-Банка, X5 и Lamoda на один вечер откроют свои двери и превратятся в большие фестивальные площадки.

Мы большинство времени проведем в офисе Яндекса (именно они, кстати, придумали такой формат и привлекли к участию другие компании). Вот на какие доклады и активности пойдем:

– «Программирование смыслов» от CTO бизнес-группы Поиска Яндекса. Про продуктовую ИИ-разработку и инфру, реальные возможности LLM и обучение с подкреплением.

– «MALVINA: редактирование изображений от research к production» от Head of R&D ML в Сбере. Должно быть хардово и очень актуально.

– Иммерсивная экскурсия по офису Яндекса. Что-то новенькое.

– «Ре(Э)волюция инструментов разработки в эпоху AI: в мире и Яндексе» от руководителя SourceCraft Яндекса. Про смысл опенсорса и тренды. Подобные доклады любим больше всего.


После Яндекса поедем в Сбер, слушать про агентов и играть в шахматы в зоне Rep Chess. Приходите, зарубимся 👉

Всю программу мероприятия смотрите на сайте. Ну и если не получилось прийти – обязательно подключаетесь онлайн, не пропускайте
Please open Telegram to view this post
VIEW IN TELEGRAM
48👍22🔥16🗿12😁42🤔1🤯1🍾1
А сегодня, между прочим, День Программиста!

Жаль, дня ML-инженера еще не придумали, так что пока празднуем сегодня, друзья.

Пусть хирш растет и лосс падает. Работаем.
224👍44🔥2115😁4🍾3
Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей

В двух словах: очень насыщенный выдался вечер. За несколько часов успели послушать 3 крутых доклада и IT-стендап, поиграть на турнире по шахматам, пописать код в опенсорс-проект, пообщаться с лидами ML-команд и многое другое.

Интересного на докладах было много, но подсветить хотим занятную инженерную практику от Алексея Гусакова — CTO бизнес-группы Поиска.

Поиск с Алисой = алгоритмы обычного поиска + LLM. И основная работа ML-щиков тут — затюнить базовую модель так, чтобы она писала хороший текст по мотивам релевантных источников. Где тюнинг — там RL, а где RL — там reward-модели.

Но reward-модели не идеальны. Они могут не совсем правильно оценивать некоторые ответы. Например, больше награждать длинные тексты, даже если куча текста там вообще не к месту. И обучаемой модели, которую оценивает reward-модель, выгодно находить такие баги и пользоваться ими в свою пользу.

Это называется reward hacking. В презентации много смешных примеров того, как это может отражаться на итоговом чекпоинте.

Для продукта, как вы понимаете, подобное поведение — совсем плохо. И если некоторые такие баги можно отловить очень быстро и вставить регуляризацию, то со временем их число растет, они становятся спорными, и на каждый из них регуляризаций не напасешься.

В Яндексе придумали такую практику: каждую неделю несколько лидов команд по специальному сценарию оценивают случайные ответы от Нейропоиска, выписывают плюсы и минусы и обсуждают их. Затем ответы кластеризуются и обобщаются в проблемы, которые затем уже решаются на уровне дообучения.

Получается, что reward-hacking таким образом трекается постоянно, но костыли не множатся бесконтрольно. Элегантно и просто.
42🗿17👍12🔥6😁52👌2🤯11
Data Secrets
🍓 OpenAI выпустили новую модель o1 (ту самую Strawberry) По сравнению с GPT-4o она выбивает 6х точность на олимпиадных задачах по математике и 8х точность на задачах с CodeForces. Вся соль модели – в умении рассуждать. Ей требуется некоторое время перед…
Кстати, вчера ровно год исполнился ризонинг-моделям

12 сентября 2024 вышла o1-preview. Сначала она была известна как q* (помните такое?), потом как Strawberry, ну и после этого и по сей день – как o1.

На расстоянии года точно можно сказать, что, по сути, мы пережили еще одну LLM революцию после появления ChatGPT. И если ChatGPT moment был именно про продукт, то тут уже речь именно про концепцию и наполнение, а это еще интереснее.

Конечно, по мнению многих, ризонинг – костыль. Частично согласны (не забываем, что это просто генерация дополнительных токенов перед основным ответом и все). Но как ни крути, отрицать, что ризонинг бустанул индустрию и вывел модели на совершенно новый уровень, нельзя.

А еще почему-то кажется, что o1-preview вышла уже давным-давно. Но на самом деле прошел всего год. За этот год появилась и o1-pro, и o3, и o4-mini, и GPT-5, и R1... Короче, много всего.

Надеемся, что этот год будет не менее значимым. Идите поздравьте любимую ризонинг-модель с мини-юбилеем ✌️
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥14441🍾27👍14🤯42🗿11
Из xAI за одну ночь уволили 500 человек

Все они работали разметчиками данных. 500 специалистов – это, если что, примерно треть всего подразделения аннотаций данных. А подразделение аннотаций, в свою очередь, является самым большим в xAI.

Увольнения прошли не слишком гладко и красиво: сотрудникам отправили внезапные письма по электронной почте с уведомлением об увольнении и в тот же день отозвали все доступы. На xAI уже сыпятся жалобы, но в это мы углубляться не будем.

Интересно другое: в тот же день (это была пятница) xAI со своего аккаунта в X выложили пост такого содержания:

ИИ-тренеры в xAI приносят огромную пользу. Мы увеличиваем нашу команду ИИ-тренеров в 10 раз!

Мы нанимаем специалистов в таких областях, как STEM, финансы, медицина, безопасность и др. Присоединяйтесь к нам и помогите нам создать искусственный интеллект, ищущий истину!


Да, мы ничего не перепутали. Они уволили 500 ИИ-тренеров и тут же объявили, что хотят набрать несколько тысяч человек в эту же команду.

Видимо, увольнения не были вопросом низкой эффективности сотрудников, скорее – это стратегия. Судя по всему, уволили только аннотаторов «общего назначения», то есть тех, кто не является большим специалистом в какой-то области, а скорее занимался универсальной более тривиальной разметкой.

Такую разметку явно хотят автоматизировать, а человеческие ресурсы использовать только для нетривиальных задач в сложных областях. И в этом есть смысл.

Интересно, эта новость к какой категории относится, «ИИ забирает нашу работу» или «ИИ создает новые рабочие места»?
😁246775132👀14👍6🔥6👾4❤‍🔥1