Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Ученые предложили потенциально новую парадигму для генеративок: Energy-Based трансформеры

В исследовании принимали участие ученые из Амазона, Стэнфорда, Гарварда, Амстердамского и Иллинойского университетов. Сейчас разберемся, что они придумали.

Основная идея – минимизация функции энергии. Модель выдает не просто токен за токеном, а выводит энергию – число, показывающее, насколько хорошо кандидат-предсказание сочетается с контекстом. Чем ниже энергия, тем разумнее предсказание.

То есть мы начинаем с шумной или случайной последовательности и итеративно улучшаем ее, снижая энергию градиентным спуском, пока не сойдёмся к оптимуму. Чем-то снова напоминает диффузию.

Это дает: (а) динамическое время на рассуждения: энергия может сойтись за 2, а может за 10000 шагов; (б) универсальный подход для ризонинга (в отличие от того, как думают LLM сейчас) + самопроверку на каждом шаге.

И даже по метрикам все неплохо: пишут, что EBT лучше обобщается на новые задачи и быстрее учится, да и перплексия получается приятная. На других модальностях тоже все ок.

Единственный нюанс – вычисления. Для модели нужны градиенты второго порядка, ну и каждый шаг оптимизации энергии – это дополнительный проход. Так что получается в среднем в 6-7 раз тяжелее обычного трансформера.

Но может, что-то из этого и выйдет

Статья | GitHub
188👍46🔥23🤨10🤔6
В Твиттере завирусился тренд: нужно скинуть картинку, которую поймут только люди из твоей субкультуры

Среди реплаев нашлось вот это золото

Согласны? Узнали?
3🔥212😁18228😎9👍8🕊3🗿3
OpenAI затягивает гайки в системе безопасности

После выхода R1 от DeepSeek Альтман решил усилить контроль за безопасностью внутри компании. Напоминаем, что представители OpenAI утверждали, что китайцы обучили свою модель с помощью методов дистилляции из их моделей.

И видимо, в компании действительно в это верят, потому что сейчас вступает в силу куча новых корпоративных ограничений. Например:

Доступ к новым моделям и продуктам есть только у нескольких лиц. Кроме того, только небольшая часть сотрудников имеет право обсуждать разработки в общих офисных помещениях.

Доступ в офисы и отдельные их части осуществляется по отпечатку пальца.

Все внешние интернет-соединения требуют явного одобрения.

Кроме того, Альтман набрал много новых кибербезопасников и переписал NDA.

Пентагон покуривает в сторонке
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥13782😁64👍20179🤯7🕊2🫡1
Google выпустили крайне интересный инструмент, с помощью которого можно «вырезать» из большой модели готовые модельки поменьше

Нет, это не дистилляция и не прунинг. Помните, недавно они выложили в опенсорс полноценную Gemma 3n? Так вот у этой модели была необычная архитектура – матрешечный трансформер 🪆

Подробно мы рассказывали, что это такое, здесь. Кратко: Gemma 3n эластична, то есть у нее есть вложенные модели – отсюда и название.

В частности, сама она была обучена как модель на Е4В (это 4В effective параметров) с 35 слоями и размером скрытого слоя 16384, но внутри нее есть полностью самодостаточная модель на E2B уже с 30 слоями и размерностью 8192. Тренят это все, конечно, специальным образом с помощью Matryoshka Representation Learning.

Но и это не все: из такой матрешки можно извлекать модели вообще любого размера между 2В и 4В. Раньше – теоретически, а теперь и на практике с помощью готовой тулзы от самих Google.

То есть: вы выбираете, какой размер будет оптимален для вашего железа -> выставляете соответствующую конфигурацию -> отрабатывает метод Mix-n-Match, который вырезает из модели нужное вложение (это происходит без обучения) -> вы получаете готовые веса, которые можете, кстати, сразу же залить на HF.

Ну очень свежо и практично. Все, к слову, оформлено в виде ноутбука ipynb, так что запустить можно одной кнопкой. Ссылка
1🤔121🔥8642👍15👨‍💻3🤝1
Немецкие ученые выпустили модель, которая имитирует психику человека

Она называется Centaur и обучена предсказывать поведение людей. Для обучения использовали огромный датасет с 160 поведенческими экспериментами и порядком десяти миллионов кейсов человеческих реакций.

То есть модель смотрела на то, как ведут себя разные люди в той или иной ситуации -> запоминала -> училась имитировать.

И в итоге научилась неплохо: точность высокая даже на новых ситуациях, которые модель не видела на трейне. Более того, она может даже оценить время реакции и подробно объяснить, почему человек поведет себя так или иначе.

Звучит жутковато, конечно, но просто представьте, какой тут потенциал для приложений. Систему можно использовать как симуляцию для бесконечных экспериментов, и с помощью нее попытаться лучше понять когнитивную природу человека, его психику и причины разных расстройств. Это, по сути, то, о чем ученые мечтали веками: единая (эмпирическая) теория поведения.

Самое интересное, что Centaur даже согласуется с реальной мозговой активностью: активации сети коррелируют со сканами МРТ живых людей. А под капотом при этом просто Llama-3.1 70B, дотюненная с QLoRA.

Все веса выложены в опенсорс. Сделали даже вариант модели поменьше, его можно легко запустить в колабе.

Киберпанк как он есть

www.nature.com/articles/s41586-025-09215-4
2146🔥106👍3427🤯21135😁3😎221
OpenAI будет обучать учителей использовать ChatGPT в школах

Стартап присоединился к Американской федерации учителей и запускает пятилетнюю академию, в которой 400 000 учителей будут осваивать и практиковать применение ИИ в своей работе.

Если что, 400 000 – это примерно каждый десятый учитель в Штатах. Все они получат приоритетный доступ к продуктам OpenAI, гранд в виде токенов и кредитов API и бесплатную техподдержку. Плюс – семинары, митапы, воркшопы и онлайн курсы.

Уже представили свою школьную Марь Ивановну на тренинге по ИИ?
1😁12448🤔17👍9🤯8🔥7👏2🤩2🫡1
И снова в эфире рубрика «скандалы и расследования»: Huawei опенсорснули собственную базовую модель, но она оказалась копией Qwen 👽

В общем, совсем недавно Huawei опубликовали модель PanGu – вот веса. И это был не файнтюн какого-то другого опенсорса: основной упор в релизе компания делала именно на то, что они предобучали модель с нуля на собственных чипах Ascend. Мол, посмотрите, не только на Nvidia можно обучать годные модели. Такой вот маркетинговый ход.

И все было окей: адекватные метрики, интересная архитектура и инженерные хаки. Но через несколько дней вышла статья от неких HonestyAGI, в которой они показывают, что веса PanGu – это практически полная копия весов Qwen 2.5.

По графикам корреляция достигает 0.927. То есть, фактически, это та же самая модель, просто немного переупакованная.

В Huawei обвинения отрицают и говорят, что в статье приведены неправильные расчеты. Но вот прикол: журналисты пишут, что анонимный исследователь якобы из команды PanGu подтвердил им, что они не напрямую (?), но действительно переиспользовали веса Qwen. Все, говорит, из-за невероятной скорости гонки ИИ – иначе было не выделиться.

Вот такая история. Huawei с задачей пропиарить свои чипы не сильно справились, но шуму зато наделали много
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁1494019👍5🤯53🔥22
Media is too big
VIEW IN TELEGRAM
Вы гляньте, какая прелесть: HuggingFace только что открыли продажи на этого малыша

Его зовут Reachy Mini, и он опенсорсный. Разработали его буквально за пару месяцев совместно со стартапом Pollen Robotics, который HF купили в апреле.

Reachy может видеть, слышать и говорить. Цена на него начинается от 299 долларов, это в несколько раз дешевле айфона.

И самое прекрасное – робота можно полностью программировать на Python: подключать любые модели с HF или собрать датасет и обучить его чему-то своему. Код открытый, так что придумывать можно вообще все, что хочешь.

Нам такого надо
3213🔥7432👍21😁5🤔55🤯2👀1🗿1
Акции Nvidia снова подскочили и теперь это первая компания в истории, пробившая капитализацию в 4 триллиона долларов

И это, кстати, несмотря даже на все ограничения экспорта в Китай.

* Для сравнения, Apple стоит 3 триллиона, а ВВП Великобритании – 3.3 триллиона.

Где-то один Дженсен Хуанг считает, сколько кожанок можно купить на 4 триллиона 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁190🔥51🤯259👍8❤‍🔥62👏1
⚡️ Grok-4 вышел!

Стрим задержали на час, но теперь наконец-то показывают какие-то бенчмарки.

Основное: 50.7% на Humanity’s Last Exam на максимальном компьюте ризонинга. Для сравнения, предыдущий лидер – Gemini 2.5 Pro – выбивала примерно 22%.

Без использования инструментов результат немного падает – около 25%. Говорят, tool use интегрировали прямо в обучение и теперь Grok исключительно хорошо умеет пользоваться браузером, интерпретатором кода и мультиагентностью: несколько агентов работают параллельно, а затем сравнивают результаты и вместе выдают финальное решение.

Также улучшили voice mode: теперь в голосовом режиме Grok работает еще быстрее и умеет шептать, петь, менять интонации и вот это все.

В чате будут доступны две версии: обычный Grok и Grok Heavy. Grok Heavy, кстати, выбивает 100 процентов на AIME 2025 (RIP очередной бенчмарк).

Все модели и даже API доступны уже сегодня, но за Grok Heavy придется платить 300 долларов в месяц 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
142🔥78👍3331😁75🤯3🏆31