Data Secrets – Telegram

Data Secrets

77.4K subscribers

6.04K photos

593 videos

20 files

2.43K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

77.4K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

А что вообще за автоэнкодеры такие?

Сегодня Google выкатила свою новую модель Gemma 2 2B (наш разбор). Однако взгляды сообщества в большей мере направлены не на нее саму, а на сопутствующий релиз семейства Gemma Scope. Объясняем, почему.

Что это такое? Gemma Scope – это семейство разреженных автоенкодеров (SAE) для всех слоев Gemma 2 2B и 9B. Они представляют из себя модели, которые распутывают активации LLM и достают из них так называемые интерпретируемые "фичи". Их можно воспринимать, как темы или концепции: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).

Но эти фичи не просто существуют. Мы можем повышать вес каждой из них, тем самым заставляя модель думать в определнном направлении. То есть, такие автоэнкодеры позволяют нам понимать, о чем думает модель, объяснять ее поведение и крутить ручки, чтобы влиять на ее мысли.

Метод с SAE впервые был предложен Anthropic прошлым летом (статья), они же впервые применили его для большой модели и научились управлять фичами (наш большой разбор этого исследования). Совершили революцию, получается.

Так вот. Gemma Scope от Google – это, можно сказать, первая работа, в которой такие автоэнкодеры обучены и выложены в открытое пользование разработчиков. Представьте, какие возможности открывает такой интрумент для файнтюнинга и исследований.

Настоящий праздник жизни

🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

👏52👍22❤13⚡2🤔2😁1👾1

10K views15:52

😮

Google дропнула экспериментальную версию Gemini 1.5 Pro, которая превзошла GPT-4o и Claude Sonet на LMSYS арене

Не прошло и двух дней с выпуска свежей Gemma 2, а Google уже поражает нас снова своей новой моделью, которая внезапно заняла самую верхушку рейтинга LLM.

Первые пользователи Gemini 1.5 Pro Experimental 0801 говорят, что их особенно поразили визуальные способности модели. Оно и видно: на арене чатбот первый не только в общем рейтинге, но и по зрению!

Как тебе такое, Сэм Альтман?

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯653918

9.11K views06:20

Вы гляньте, какая красота: пользователи HuggingFace нарисовали тепловую карту опенсорс-релизов компаний. Прямо как на GitHub. Надо сказать, некоторые тренды прослеживаются довольно четко 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

😁8951🤔6👍2🤗1

9K views09:36

Вносим в тренд свою лепту 🤤

Please open Telegram to view this post

VIEW IN TELEGRAM

😁202❤32👍12🍾63💯2

8.64K views11:31

Media is too big

VIEW IN TELEGRAM

Легендарный Суббарао Камбхампати привел, наверное, самый удачный пример в мире, отвечая на вопрос "почему люди так сильно верят, что языковые модели умеют рассуждать?"

Вот что он сказал:

"Самое сложное в оценке ризонинга – это то, что когда вы задаете мне вопрос, а я отвечаю, вы никак не сможете определить, додумался ли я до ответа или просто запомнил его.

Мой любимый пример – это вопрос про круглые крышки люков, который Microsoft любят задавать на своих собеседованиях. Самым первым людям, которые отвечали на этот вопрос, приходилось додумываться до ответа самим. Это был ризонинг.

Но потом вопрос стал настолько популярным, что стало невозможно понять, знал человек ответ на вопрос заранее или додумался до него. Аналогично для языковых моделей – мы не можем знать наверняка и никак не можем проверить, умеет ли модель рассуждать, или просто запоминает текст."

База.

❤102👍38🤔15🕊4😁1🙈1

8.6K views13:18

This media is not supported in your browser

VIEW IN TELEGRAM

Смотрите, какое симпатичное объяснение метода обратного распространения ошибки всего в одной гифке

Давайте разбираться, что тут происходит. Нам дана нейросеть с тремя слоями (layer), входной вектор X, предсказания, которые мы получили в ходе прямого прохода (Y_pred) и истинные метки (Y_target).

Перед нами стоит задача сделать шаг Backpropagation и обновить веса модели. Как мы это делаем? Считаем градиенты, конечно.

Сначала для третьего слоя. Здесь мы можем посчитать градиент обычным вычитанием (синий цвет), так как используем софтмакс и кросс-энтропийный лосс. Это наш ∂L / ∂z3. Чтобы с помощью этого градиента сосчитать, как нужно менять веса и biases, мы домножаем его на активацию, которая стояла после второго слоя (a2) + вектор из единиц. Так мы получим ∂L / ∂W3 и ∂L / ∂b3 (черный и оранжевый цвет), которые после и прибавялются с некоторым весом к weights, чтобы их обновить.

Для второго слоя все то же самое. Вот только ∂L / ∂z2 в этот раз посчитать вычитанием не получится. Придется сначала как бы сделать шаг назад по сети, то есть домножить полученный на прошлом шаге ∂L / ∂z3 на неизмененные пока веса третьего слоя и получить ∂L / ∂a2 (зеленое). Только потом мы можем посчитать ∂L / ∂z2 (синее), а дальше все по накатанной.

С третьим слоем все то же самое. Вот такой алгоритм, благодаря которому обучаются все нейросети (и LLM тоже). Тут, как (не)говорится, матричное умножение is All You Need. Вот почему способность GPU эффективно умножать матрицы играет такую важную роль в развитии Deep Learning. Вот почему NVIDIA сейчас оценивается примерно в 1 триллион долларов.

P.S. Крайне полезно проделать это упражнение вручную с другими числами: не пожалеете. А если хотите больше узнать про алгоритм, читайте этот наш пост.

😐32👍21❤183🤯2😁1

9.79K views15:55

А вот и краткая версия предыдущего поста для тех, кто не хочет читать много теории 🤭

Please open Telegram to view this post

VIEW IN TELEGRAM

😁149❤16👍11⚡1👨‍💻1

8.3K views18:35

Это последний, обещаем

😁140❤‍🔥16👍9❤1⚡1🤩1

8.1K views07:53

Anthropic опять выкатили огненную статью-отчет про интерпретируемость: что мешает нам понимать черный ящик нейросетей?

Основная идея текста: современные методы интерпретации лишь соскребают верхний слой интерпретируемости, в то время как основная масса «темной материи» все еще ускользает от исследователей, и вот 5 причин, почему:

➡️Мы пока не умеем извлекать все интерпретируемые фичи. Такие методы, как SAE, достают только до части фичей, остальные выцепить невозможно без большого алгоритмического прорыва. О том, что за фичи и как работает SAE, мы рассказывали тут и тут.

➡️

Межслойная суперпозиция: активации могут быть настолько запутаны между слоями, что возникает эффект суперпозиции. С таким явлением SAE также не справляются.

➡️Аналогично суперпозиции нейронов между слоями, возникает суперпозиция внимания между головами. Это SAE тоже не могут учесть, хотя это может быть фундаментальной вещью для вычисления фичей.

➡️Сюда же суперпозиция самих весов. Проблема везде одна: вектора запутаны между слоями или головами так, что автоэнкодеры не могут их распутать.

➡️И, наконец, даже если мы извлечем всевозможные фичи, это все равно не сложится в общее понимание черного ящика. В идеале для этого нужна структура совсем других масштабов. К тому же, далеко не факт, что это вообще возможно полностью автоматизировать.

Полный текст здесь. Подходящее чтиво для субботы 😉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5119🎉8👍7😁1

9.5K views10:25

Досуг на вечер (или даже два): вышло интервью с Илоном Маском, топ-менеджерами Neuralink и вторым добровольцем с чипом. Что интересного:

⚙️ Маск говорит, что данные, которые будут собираться в режиме реального времени с соц.сети X (а кто разрешал?), Tesla Cars и роботов Optimus сделают Grok «лучшим ИИ в мире».

⚙️ Про чипы: до конца года Маск хочет вживить Neuralink 10 добровольцам. За десять лет он ожидает увидеть миллионы людей с Neuralinks. А дальше телепатия, прозрение и коллективный интеллект.

Желающим преисполниться советуем, конечно, вот только длится вся красота 8.5 часов…

Please open Telegram to view this post

VIEW IN TELEGRAM

😎48👍15😁12🤪12🗿6❤5🤨4🫡21

8.62K views15:04

Кстати, а вы тоже чувствуете этот взрыв количества статей про интерпертируемость?

Если да, чутье вас не подводит. На графике справа – количество статей по интерпретируемости за каждый год, начиная с 2016 (считается с июня по июнь). Левый график показывает распределение таких статей статей по прикладным областям. Видите этот экспоненциальный рост?

А на следующей картинке – разбиение по подходам. Feature extraction, которым сейчас активно занимаются Anthropic и Google, судя по всему относится к полю Attributions. На графике видно, что популярность Attributions падает, но нужно понимать, что Feature extraction – только частица этого кластера и достаточно новый подход, который, возможно, еще не был вполне освоен ресерчерами.

Все картинки взяты из статьи "Trends in NLP Model Interpretability in the Era of LLMs" (вышла пару дней назад). Подробности тоже можно почитать там.

👍40❤10😍5👀1

8.29K views09:17

Тем временем противостояние века продолжается. Да, эта война растянулась на 4 дня, и еще не закончилась. Апогеем стало заявление Илона Маска о том, что в его self-driving Tesla не используются CNN (которые изобрел Лекун) 🤡 Соболезнования команде Tesla,…

This media is not supported in your browser

VIEW IN TELEGRAM

Правдивая история о том, как ученые подкалывают друг друга

«Найдено архивное видео, на котором Ян Лекун продвигает свертки в 90-х».

Лекун без внимания твит коллеги не оставил. Он прокомментировал:

«Нет, это я в окружении фанатов Илона Маска»

😁12356👍12❤‍🔥1😐1

8.01K views12:21

This media is not supported in your browser

VIEW IN TELEGRAM

Архитектура таинственной Strawberry от OpenAI

Strawberry – тот самый мега-проект OpenAI, о котором слухи ходят уже год. Раньше он числился как Q*. СМИ писали, что в основе Strawberry aka Q* предположительно лежит метод STaR (self-taught reasoners). А теперь вот в сети завирусился твит некоего независимого исследователя, который завез свой прогноз на то, из каких подходов будет состоять модель.

Пересказываем и зашиваем в текст ссылки на все статьи:

1) Сложный роутинг запросов (так называемый Active Inference). Это когда ответ не всегда генерируется по одним и тем же правилам, а маршрутизируется в зависимости от длины/сложности/других факторов. Возможные модели: GoT, AoT, CoV и MCTS.

2) Агентный подход в планировании. Отдельная модель с условно-графовой архитектурой, которая составляет план действий для рассуждений главной модели. Возможно, на основе параллельного вызова функций и LDB.

3) Reasoning & Continuous Learning. Применяется, чтобы модель могла как бы исправлять и анализировать сама себя в рассуждениях непосредственно. Тут прогнозируется что-то типа гугловского Self Discover (может CLIN или MedAgent-Zero) + графовая RAG для ускорения и уточнения, как в LGGM.

4) Соединяем все это с помощью симуляции агентных сред. Это нужно для того, чтобы все перечисленные части "научились" взаимодействовать между собой и доучили друг друга в среде, похожей на реальную. Скорее всего, это будет нечто, вдохновленное DSPy и Agent Symbolic learning.

Самое сложное – последний пункт. Такие среды очень сложно масштабировать, а еще сложнее прокормить, потому что для действительно сильной модели понадобятся миллиарды сессий симуляции 💀

33👍25❤9😁2🤯1🍓1

8.47K views16:28

Бывшие инженеры Google, учредители успешного стартапа Character.AI, снова возвращаются в компанию

Вообще, схема там получилась очень интересная. Google подписала соглашение об использовании технологий Character.AI, которое подразумевает финансирование стартапа и выплаты ему лицензий за использование моделей, то есть тот не закрывается.

В то же время Шазир и Де Фрейтас возвращаются в Альма-матер на те же позиции, с которых они уходили. А работали они, говорят, над «секретным» ИИ-проектом. Кстати, Шазир еще и сыграл большую роль в легендарной статье «Attention is all you need».

Еще одна интересная деталь: как раз сейчас Character.AI переходят со своих моделей на общедоступные, в связи с возросшей мощью опенсорса. Получается, Google будет платить лицензию за Llama 3.1

😂

Please open Telegram to view this post

VIEW IN TELEGRAM

👍37😁19❤5

7.95K views06:01

This media is not supported in your browser

VIEW IN TELEGRAM

На HuggingFace опять завезли прикольный проект: это интерактивная демонстрация того, как на выходы модели влияют температура, Top-k и Top-p

Temperature, Top-k и Top-p – это инференсные параметры, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других разработчиков моделей.

Все эти параметры, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Подробнее:

⚙️

Temperature контролирует детерменированность предсказания. Чем она ниже, тем чаще модель выбирает просто самый вероятный следующий токен. Такое подходит для каких-нибудь строгих задач, требущих краткого точного ответа. Ну а чем температура выше – тем модель "креативнее" (но и чаще шалит и галлюцинирует).

⚙️

Top_k – смысл тот же, но работает иначе, а именно просто ограничивает количество токенов для рассмотрения. Например, top_k=5 означает, что рассматриваются только 5 лучших токенов, а для остальных устанавливается нулевая вероятность.

⚙️

Top-p. Так называемое сэмплирование ядра. Токены выбираются по убыванию вероятности до тех пор, пока их суммарная вероятность не достигнет значения top_p. Опять же, ищете более разнообразные ответы – увеличьте top_k и top_p.

Зайти и потыкаться самому можно по ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

👍51🤗17🤯4❤1😎1

8.43K views09:34

Желаем, чтобы графики ваших лоссов всегда выглядели как рынок криптовалют сегодня

😁68👍55❤8🕊5

8.05K views11:09

Тем временем еще двое бывших инженеров Google со своим стартапом строят планы перещеголять Nvidia

Компания занимается разработкой ИИ-чипов, называется Groq (как тебе такое, Илон Маск?) и сейчас оценивается в $2.8 миллиарда. Недавно стало известно, что они привлекли $640 миллионов новых вложений.

Кроме новости про инвестиции также появилась новость о том, что в качестве нового тех.консультанта у Groq выступит Ян Лекун, а в качестве COO – Стюард Панн, бывший директор тех.производства Intel и ex-CIO HP 😮

Сейчас компания занимается чипом нового поколения LPU (language processing unit). Как вы понимаете, специально для LLM. Обещают х10 к скорости инференса и выпуск в Q1 2025.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍42⚡15🫡10❤6🤯2😁1🤔1

8.19K views12:44

⚡️

Hugging Face выделяет 10 миллионов долларов на общедоступные бесплатные GPU

Они будут "дарить" сервера с A100 мелким стартапам и разработчикам в рамках новой программы ZeroGPU. Цель состоит в том, чтобы "помочь малому и среднему бизнесу и независимым рисерчерам противостоять централизации ИИ".

Благотворительность, которую мы заслужили

🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

❤170🤗60👍24🆒2😁1

9.06K views15:32