Data Secrets

Machine Unlearning пока что только вредит языковым моделям

Unlearning – это один из методом alignment’а, когда модель пытаются заставить забыть что-то из обучающей выборки, например какую-то персональную информацию или опасные знания.

Работает ли это? Ну, пока не очень. Ученые из Вашингтонского университета (UW), Принстона, Чикаго, USC и Google коллегиально доказали, что самые популярные методы «отучения» (unlearning), как правило, только ухудшают модели до такой степени, что они становятся непригодны.

Дело в том, что модель начинает забывать все подряд, а не только то, что мы захотели. Например, если модель заставить забыть некоторые детали сюжета Гарри Поттера, вместе с этим она забудет, кто такая Дж.Роулинг, что за вокзал Кингс-Кросс и прочее и прочее.

Все из-за того, что мы не вполне понимаем, как знания запутаны и связаны внутри модели. Есть ли решение? Может быть когда-нибудь будет, но пока – нет, и разработчикам надо искать другие методы элайнить модели.

👍43❤10😁9🤔4

8.49K views14:43

Data Secrets

Мало кто знает, что трушные ML-щики на самом деле пишут на HT.ML

😁80🙈17👏6👍3🍌2❤1

8.39K views17:59

Data Secrets

⚪️ Наконец-то обновилась LMSYS арена! Llama-3.1-405B на третьем месте! Это первый раз, когда открытая модель вошла в тройку лучших. На аренах кодинга и математики 3.1 405В тоже в тройке. Модель на 70В параметров тем временем заняла 9 место в рейтинге.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍59❤10🤔6👏4

8.6K views06:38

Data Secrets

В августе развернется борьба школьников за звание главного по ИИ

Старшеклассники из 34 стран приедут в Болгарию, чтобы с 9 по 15 августа на Международной олимпиаде по искусственному интеллекту выяснить, кто же круче разбирается в нейронках.

Российская сборная готовится на базе Центрального университета с признанными во всем мире профи. Например, со школьниками занимается Александр Дьяконов. А он, на секундочку, Data Scientist № 1 в мире по версии платформы Kaggle (2012), подготовивший уже сотню ML-специалистов. Или Иван Стельмах — доктор наук, получивший степень в Университете Карнеги — Меллона.

В рамках подготовки участники штудируют курс по глубокому обучению нейросетям и грызут гранит градиентного бустинга. Но, как говорится, тяжело в учении – легко на Международной олимпиаде.

На фото команда в полном составе: Никита Курлаев, Андрей Грицаев, Андрей Громыко, Анастасия Гайнуллина, учащиеся 10-11 классов, победители и призёры множества перечневых олимпиад по информатике, математике и программированию.

👍130❤64👏20😐13🤨3😁2👨‍💻1

8.86K views09:15

Data Secrets

🚀

Breaking: PyTorch выпускает новую библиотеку torchchat для инференса LLM!

Библиотека предназначена только для локального инференса, так что конкуренцию новому альянсу HF и Nvidia не составит, но может быть невероятно полезной для петпроектов и домашнего пользования.

На тестах выглядит достаточно бодрой: Llama 3 8B можно запустить на IPhone и Samsung Galaxy S23 со скоростью 8Т/сек. Скоро обещают цифры для Llama 3.1.

Больше можно прочитать в блогпосте.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍67❤‍🔥14🤯9❤3

9.41K views10:23

Data Secrets

GPT-5 закончила обучение уже в апреле, а claude 3.5 opus выйдет в сентябре

Это информация из отчета доктора Алана Томпсона – ресерчера и автора The Memo. Он утверждает, что GPT-5 уже давно на стадии тестирования и выйдет где-то во время выборов в США, как и следующая модель Meta, Gemini 2 и Grok-3 (см.схему наверху).

Полностью репорт, откуда взята картинка, станет доступен в начале августа. В основном он будет посвящен данным, на которых якобы обучалась GPT5-5.

Сомнительно, но окээй...

🤔40👍14❤12🤯6☃2👻1

20.3K views12:15

Data Secrets

⚙️ GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta В апреле 2023 Meta впервые показала свою «Segment Anything Model» (SAM). Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам. И вот:…

This media is not supported in your browser

VIEW IN TELEGRAM

Давайте еще раз насладимся тем, как потрясающе хорошо работает новый SAM-2 (наш обзор модели здесь)

RIP YOLO 💀

Please open Telegram to view this post

VIEW IN TELEGRAM

❤60👍24⚡7

9.13K views13:41

Data Secrets

Хотите углубить свои знания в области виртуализации и контейнеризации, но не знаете, с чего начать? Сталкиваетесь с трудностями в оптимизации процессов разработки, тестирования и развертывания приложений? Чувствуете, что вам не хватает уверенности в использовании инструментов VirtualBox и Docker?

Представьте, что вы знаете, как эффективно использовать VirtualBox для создания и управления виртуальными машинами, а также как применять Docker для разработки, упаковки и развертывания приложений в контейнерах. Ваши навыки востребованы и вы уверенно справляетесь с любыми задачами по оптимизации инфраструктуры и повышению эффективности работы команды.

Присоединяйтесь к открытому вебинару 5 августа в 20:00 мск и сделайте этот прыжок в будущее!

Пора выйти из тени и показать, на что вы способны! Регистрируйтесь на занятие и обретите востребованные навыки: https://clck.ru/3CED27

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru

👍3😁3🐳1🍾1

8.8K views15:07

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

arXiv -> alphaXiv

Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.

Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.

Ну чем не рай для ресерчера?

❤16859⚡31👏9👍7🤩2😁1👌1

14.3K views16:12

Data Secrets

Просто все авторы статьи о Llama 3.1

138🤯40❤9👀2🦄2✍1😁1😈1💅1

8.88K views18:44

Data Secrets

⚡️

Воу: Google выпустила SOTA LLM в размере 2В

Мини-версия вышедшей месяц назад Gemma-2 на 2В параметров бьет рекорды. На арене она уже обошла даже GPT-3.5 Turbo, не говоря уже о моделях своего размера.

Архитектура: написано, что эта модель дистиллирована из другой (вот тут мы писали, как такое работает), но из какой и на сколько параметров, не уточняется. Также благодаря поддержке softcapping во Flash Attention след атеншена в памяти теперь линейный (вместо О(N^2)).

Но и это не все: плюсом к модели вышло еще семейство классификаторов ShieldGemma для фильтрации вредоносного контента, а также Gemma Scope. Это сет автоенкодеров для интерпретации модели и ее оценки. Ну кайф!

Блогпост | Веса

Please open Telegram to view this post

VIEW IN TELEGRAM

👍46❤6😁3⚡2🌚2

9.98K views07:29

Data Secrets

Chief Data Scientist vs тот самый бухгалтер с Excel

😁214👏23👍14

11.4K views09:13

Data Secrets

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

А вот и локальные запуски свеженькой Gemma 2B завезли

Тут на видео показан инференс квантизованной версии модели на iPhone 15. Код на MLX Swift лежит в открытом доступе вот тут.

А еще год назад кто бы мог подумать, что у нас будет модель уровня GPT 3.5 turbo, которая свободно запускается на смартфоне?

👍60⚡19❤‍🔥8❤3

10.2K views11:09

Data Secrets

🔵 Цукерберг тем временем заявил, что будет обучать Llama-4, используя в 10 раз больше компьюта, чем для Llama-3. На днях он, кстати, также рассказал, что крупнейший рынок для MetaAI – это Индия, потому что там больше всего пользователей WhatsApp.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯62😁21❤11👍1

8.71K views12:55

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

А что вообще за автоэнкодеры такие?

Сегодня Google выкатила свою новую модель Gemma 2 2B (наш разбор). Однако взгляды сообщества в большей мере направлены не на нее саму, а на сопутствующий релиз семейства Gemma Scope. Объясняем, почему.

Что это такое? Gemma Scope – это семейство разреженных автоенкодеров (SAE) для всех слоев Gemma 2 2B и 9B. Они представляют из себя модели, которые распутывают активации LLM и достают из них так называемые интерпретируемые "фичи". Их можно воспринимать, как темы или концепции: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).

Но эти фичи не просто существуют. Мы можем повышать вес каждой из них, тем самым заставляя модель думать в определнном направлении. То есть, такие автоэнкодеры позволяют нам понимать, о чем думает модель, объяснять ее поведение и крутить ручки, чтобы влиять на ее мысли.

Метод с SAE впервые был предложен Anthropic прошлым летом (статья), они же впервые применили его для большой модели и научились управлять фичами (наш большой разбор этого исследования). Совершили революцию, получается.

Так вот. Gemma Scope от Google – это, можно сказать, первая работа, в которой такие автоэнкодеры обучены и выложены в открытое пользование разработчиков. Представьте, какие возможности открывает такой интрумент для файнтюнинга и исследований.

Настоящий праздник жизни

🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

👏52👍22❤13⚡2🤔2😁1👾1

10K views15:52

Data Secrets

😮

Google дропнула экспериментальную версию Gemini 1.5 Pro, которая превзошла GPT-4o и Claude Sonet на LMSYS арене

Не прошло и двух дней с выпуска свежей Gemma 2, а Google уже поражает нас снова своей новой моделью, которая внезапно заняла самую верхушку рейтинга LLM.

Первые пользователи Gemini 1.5 Pro Experimental 0801 говорят, что их особенно поразили визуальные способности модели. Оно и видно: на арене чатбот первый не только в общем рейтинге, но и по зрению!

Как тебе такое, Сэм Альтман?

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯653918

9.11K views06:20

Data Secrets

Вы гляньте, какая красота: пользователи HuggingFace нарисовали тепловую карту опенсорс-релизов компаний. Прямо как на GitHub. Надо сказать, некоторые тренды прослеживаются довольно четко 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

😁8951🤔6👍2🤗1

9K views09:36

Data Secrets

Вносим в тренд свою лепту 🤤

Please open Telegram to view this post

VIEW IN TELEGRAM

😁202❤32👍12🍾63💯2

8.64K views11:31

Легендарный Суббарао Камбхампати привел, наверное, самый удачный пример в мире, отвечая на вопрос "почему люди так сильно верят, что языковые модели умеют рассуждать?"

Вот что он сказал:

"Самое сложное в оценке ризонинга – это то, что когда вы задаете мне вопрос, а я отвечаю, вы никак не сможете определить, додумался ли я до ответа или просто запомнил его.

Мой любимый пример – это вопрос про круглые крышки люков, который Microsoft любят задавать на своих собеседованиях. Самым первым людям, которые отвечали на этот вопрос, приходилось додумываться до ответа самим. Это был ризонинг.

Но потом вопрос стал настолько популярным, что стало невозможно понять, знал человек ответ на вопрос заранее или додумался до него. Аналогично для языковых моделей – мы не можем знать наверняка и никак не можем проверить, умеет ли модель рассуждать, или просто запоминает текст."

База.

❤102👍38🤔15🕊4😁1🙈1

8.6K views13:18

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

Смотрите, какое симпатичное объяснение метода обратного распространения ошибки всего в одной гифке

Давайте разбираться, что тут происходит. Нам дана нейросеть с тремя слоями (layer), входной вектор X, предсказания, которые мы получили в ходе прямого прохода (Y_pred) и истинные метки (Y_target).

Перед нами стоит задача сделать шаг Backpropagation и обновить веса модели. Как мы это делаем? Считаем градиенты, конечно.

Сначала для третьего слоя. Здесь мы можем посчитать градиент обычным вычитанием (синий цвет), так как используем софтмакс и кросс-энтропийный лосс. Это наш ∂L / ∂z3. Чтобы с помощью этого градиента сосчитать, как нужно менять веса и biases, мы домножаем его на активацию, которая стояла после второго слоя (a2) + вектор из единиц. Так мы получим ∂L / ∂W3 и ∂L / ∂b3 (черный и оранжевый цвет), которые после и прибавялются с некоторым весом к weights, чтобы их обновить.

Для второго слоя все то же самое. Вот только ∂L / ∂z2 в этот раз посчитать вычитанием не получится. Придется сначала как бы сделать шаг назад по сети, то есть домножить полученный на прошлом шаге ∂L / ∂z3 на неизмененные пока веса третьего слоя и получить ∂L / ∂a2 (зеленое). Только потом мы можем посчитать ∂L / ∂z2 (синее), а дальше все по накатанной.

С третьим слоем все то же самое. Вот такой алгоритм, благодаря которому обучаются все нейросети (и LLM тоже). Тут, как (не)говорится, матричное умножение is All You Need. Вот почему способность GPU эффективно умножать матрицы играет такую важную роль в развитии Deep Learning. Вот почему NVIDIA сейчас оценивается примерно в 1 триллион долларов.

P.S. Крайне полезно проделать это упражнение вручную с другими числами: не пожалеете. А если хотите больше узнать про алгоритм, читайте этот наш пост.

😐32👍21❤183🤯2😁1

9.79K views15:55

About

Blog

Apps

Platform