Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Как LLM выучивают факты: новое исследование от Google DeepMind

LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?

В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.

Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:

Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.

Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.

Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.

И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.

arxiv.org/pdf/2503.21676
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍114🔥3625🤔42
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI тоже решили пошутить на 1 апреля и добавили в ChatGPT новый голос «Monday»

Звучит он буквально как утро без кофе: разбито, саркастично и немного пассивно-агрессивно.

Чтобы поболтать с понедельником, нужно обновить приложение. Доступно платным юзерам при выборе в сайд-баре, а бесплатным на боковой панели в разделе Explore GPTs.

Осторожно, можно случайно заработать депрессию ☠️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8740🔥11👍52🗿2
Заехал новый бенчмарк ArithmeticBench по математике

Точнее даже не по математике, а, как понятно из названия, по арифметике. Создатели – Epoch AI – пишут, что работали над ним с экспертами математиками, и в числе задач операции над 50-значными, 100-значными и даже 150-значными числами. Человеку на такое потребовались бы часы или даже дни.

Текущие скоры топовых моделей:

🟦 Gemini 2.5 – 8% на умножении
🟦 GPT-4.5 – 5% на сложении, но с делением все плохо
🟦 Claude 3.7 Sonnet – абсолютно мимо 🔤

x.com/EpochAIResearch/status/1907199415678578804
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7020🫡10😁5🗿4
OpenAI официально запустили свою OpenAI Academy для всех

Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.

В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.

Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.

Стоит заглянуть, в общем: academy.openai.com
3🤯74🔥50👍2310😁2🗿2❤‍🔥1
Вышла статья, в которой доказали, что GPT 4.5 прошла тест Тьюринга

Сразу оговорка: может показаться, что языковые модели уже давно прошли Тьюринга и вообще этот тест устарел. Но на самом деле это первая работа, в которой показаны такие устойчивые результаты LM в классическом культовом трёхстороннем варианте теста, а не его суррогатах.

Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем голосует. На картинке 3, кстати, показано, как именно чаще всего люди пытались выяснить правду.

Так вот, ученые из Сан-Диего протестировали GPT-4.5, LLaMa-3.1-405B, GPT-4o и старенькую классическую ELIZA. Им давали промпт "веди себя, как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг".

Win Rate GPT-4.5 составил (внимание) 73%. Это значит, что в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.

У ламы результат тоже ничего – 56%, но это все-такие ближе к случайной догадке. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.

И как теперь админам ботов в комментариях ловить?
😁121👍35🔥2015🗿1
Из Meta уходит руководитель отдела AI research

Джоэль Пино работала в компании 8 лет, из которых 2 года возглавляла FAIR вместе с Лекуном. Пино принимала участие в таких проектах, как PyTorch, FAISS, Roberta, Dino, Llama, SAM, Codegen, Audiobox и др.

Причина не уточняется, и немедленной замены у компании нет. Сама Джоэль пишет: "Сегодня, когда гонка за ИИ ускоряется и Meta готовится к следующей главе, пришло время освободить место для других".

Напоминаем, что в этом году Meta планирует потратить на ИИ 65 миллиардов долларов.
🤯110🤔1514😁3🕊3🔥1🤓1
OpenAI релизнули агентский бенчмарк PaperBench

Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).

Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.

Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше 🚬

cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6820🔥20
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запускает версию Claude для учебы

Это будет специальный Learning mode внутри проектов, который отличается вот чем:

1. Вместо прямых ответов на вопросы и решения задач он будет, как учитель, давать подсказки и направлять на путь решения.

2. Обучен задавать вопросы, нацеленные на улучшение понимания учеником темы, и подстраиваться под его ответы.

3. Улучшенная генерация конспектов, роадмэпов, схем и всего, что может пригодиться в учебе.

Но сильно не радуемся: пока эта программа только для университетов. Для начала ее внедрят в Северо-Восточный университет, Лондонскую школу экономики и колледж Шамплейн.

Там абсолютно все преподаватели, студенты и сотрудники получат бесплатный доступ к Claude и Learning Mode. Плюс программы API грантов для студентов, конечно.

Также доступно, если вы подписчик Pro и адрес вашей почты заканчивается на .edu. Может и на простой народ когда-нибудь раскатят
👍126🔥4519🤨11💘2
Gemini 2.5 Pro порвала очередной бенчмарк

Появились результаты модели на USAMO 2025 (это главная американская математическая олимпиада) – она выбила невероятные 24.4%. До Gemini модели набирали максимум 4.76% (это результат R1). o1-pro заскорила всего 2.83.

Основной интерес здесь в том, что на данный момент это самый свежий мат.бенчмарк, он вышел всего две недели назад. А значит нет никакого лика данных, и результаты максимально чистые.

matharena.ai/
🔥141👀27👍199🤨32😁2
В Meta показали собственную вариацию механизма внимания: Multi-Token Attention

В стандартном multi-head attention внимание вычисляется посредством сравнения запросов (Q) и ключей (K) для каждого токена с каждым. Но если нужная информация распределена между несколькими токенами, такой подход приводит к тому, что модель может не суметь правильно её обнаружить.

А Multi-Token Attention – это атеншн со свертками: исследователи добавляют в классический подход key-query convolution и head mixing convolution.

В измерении ключей и запросов свертки помогают учитывать не один токен, а окно из нескольких рядом стоящих. Аналогично на уровне голов – после применения софтмакса головы не сразу домножаются на значения (V), а сначала миксуются в свертки и как бы обмениваются информацией. Схемы – на 1 и 2 картинках.

Работает ли это? Да, на валидационных срезах снижается и перплексия, и количество ошибок модели. Особенно это видно на задачах, где нужно аккуратно работать с контекстом, типа BabiLong (рис 4) и Needle-in-the-Haystack (рис 5).

Вычислительно напряжно, конечно, но все-таки идея интересная

arxiv.org/pdf/2504.00927
👍6613🔥11🤔4