Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚙️ GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta

В апреле 2023 Meta впервые показала свою «Segment Anything Model» (SAM). Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам.

И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны.

Датасет (SA-V) в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео.

Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым.

По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5414👏11
Machine Unlearning пока что только вредит языковым моделям

Unlearning – это один из методом alignment’а, когда модель пытаются заставить забыть что-то из обучающей выборки, например какую-то персональную информацию или опасные знания.

Работает ли это? Ну, пока не очень. Ученые из Вашингтонского университета (UW), Принстона, Чикаго, USC и Google коллегиально доказали, что самые популярные методы «отучения» (unlearning), как правило, только ухудшают модели до такой степени, что они становятся непригодны.

Дело в том, что модель начинает забывать все подряд, а не только то, что мы захотели. Например, если модель заставить забыть некоторые детали сюжета Гарри Поттера, вместе с этим она забудет, кто такая Дж.Роулинг, что за вокзал Кингс-Кросс и прочее и прочее.

Все из-за того, что мы не вполне понимаем, как знания запутаны и связаны внутри модели. Есть ли решение? Может быть когда-нибудь будет, но пока – нет, и разработчикам надо искать другие методы элайнить модели.
👍4310😁9🤔4
Мало кто знает, что трушные ML-щики на самом деле пишут на HT.ML
😁80🙈17👏6👍3🍌21
⚪️ Наконец-то обновилась LMSYS арена! Llama-3.1-405B на третьем месте! Это первый раз, когда открытая модель вошла в тройку лучших. На аренах кодинга и математики 3.1 405В тоже в тройке. Модель на 70В параметров тем временем заняла 9 место в рейтинге.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5910🤔6👏4
В августе развернется борьба школьников за звание главного по ИИ

Старшеклассники из 34 стран приедут в Болгарию, чтобы с 9 по 15 августа на Международной олимпиаде по искусственному интеллекту выяснить, кто же круче разбирается в нейронках.

Российская сборная готовится на базе Центрального университета с признанными во всем мире профи. Например, со школьниками занимается Александр Дьяконов. А он, на секундочку, Data Scientist № 1 в мире по версии платформы Kaggle (2012), подготовивший уже сотню ML-специалистов. Или Иван Стельмах — доктор наук, получивший степень в Университете Карнеги — Меллона.

В рамках подготовки участники штудируют курс по глубокому обучению нейросетям и грызут гранит градиентного бустинга. Но, как говорится, тяжело в учении – легко на Международной олимпиаде.

На фото команда в полном составе: Никита Курлаев, Андрей Грицаев, Андрей Громыко, Анастасия Гайнуллина, учащиеся 10-11 классов, победители и призёры множества перечневых олимпиад по информатике, математике и программированию.
👍13064👏20😐13🤨3😁2👨‍💻1
🚀 Breaking: PyTorch выпускает новую библиотеку torchchat для инференса LLM!

Библиотека предназначена только для локального инференса, так что конкуренцию новому альянсу HF и Nvidia не составит, но может быть невероятно полезной для петпроектов и домашнего пользования.

На тестах выглядит достаточно бодрой: Llama 3 8B можно запустить на IPhone и Samsung Galaxy S23 со скоростью 8Т/сек. Скоро обещают цифры для Llama 3.1.

Больше можно прочитать в блогпосте.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍67❤‍🔥14🤯93
GPT-5 закончила обучение уже в апреле, а claude 3.5 opus выйдет в сентябре

Это информация из отчета доктора Алана Томпсона – ресерчера и автора The Memo. Он утверждает, что GPT-5 уже давно на стадии тестирования и выйдет где-то во время выборов в США, как и следующая модель Meta, Gemini 2 и Grok-3 (см.схему наверху).

Полностью репорт, откуда взята картинка, станет доступен в начале августа. В основном он будет посвящен данным, на которых якобы обучалась GPT5-5.

Сомнительно, но окээй...
🤔40👍1412🤯62👻1
Хотите углубить свои знания в области виртуализации и контейнеризации, но не знаете, с чего начать? Сталкиваетесь с трудностями в оптимизации процессов разработки, тестирования и развертывания приложений? Чувствуете, что вам не хватает уверенности в использовании инструментов VirtualBox и Docker?

Представьте, что вы знаете, как эффективно использовать VirtualBox для создания и управления виртуальными машинами, а также как применять Docker для разработки, упаковки и развертывания приложений в контейнерах. Ваши навыки востребованы и вы уверенно справляетесь с любыми задачами по оптимизации инфраструктуры и повышению эффективности работы команды.

Присоединяйтесь к открытому вебинару 5 августа в 20:00 мск и сделайте этот прыжок в будущее!

Пора выйти из тени и показать, на что вы способны! Регистрируйтесь на занятие и обретите востребованные навыки: https://clck.ru/3CED27

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
👍3😁3🐳1🍾1
This media is not supported in your browser
VIEW IN TELEGRAM
arXiv -> alphaXiv

Такие пет-проекты мы любим: студенты Стэнфорда создали alphaXiv, открытый дискуссионный форум для статей arXiv.

Достаточно просто изменить в URL-адресе arXiv на alphaXiv и вы сможете задавать вопросы и писать комментарии непосредственно поверх любой статьи.

Ну чем не рай для ресерчера?
1685931👏9👍7🤩2😁1👌1
Просто все авторы статьи о Llama 3.1
138🤯409👀2🦄21😁1😈1💅1
⚡️ Воу: Google выпустила SOTA LLM в размере 2В

Мини-версия вышедшей месяц назад Gemma-2 на 2В параметров бьет рекорды. На арене она уже обошла даже GPT-3.5 Turbo, не говоря уже о моделях своего размера.

Архитектура: написано, что эта модель дистиллирована из другой (вот тут мы писали, как такое работает), но из какой и на сколько параметров, не уточняется. Также благодаря поддержке softcapping во Flash Attention след атеншена в памяти теперь линейный (вместо О(N^2)).

Но и это не все: плюсом к модели вышло еще семейство классификаторов ShieldGemma для фильтрации вредоносного контента, а также Gemma Scope. Это сет автоенкодеров для интерпретации модели и ее оценки. Ну кайф!

Блогпост | Веса
Please open Telegram to view this post
VIEW IN TELEGRAM
👍466😁32🌚2
Chief Data Scientist vs тот самый бухгалтер с Excel
😁214👏23👍14
This media is not supported in your browser
VIEW IN TELEGRAM
А вот и локальные запуски свеженькой Gemma 2B завезли

Тут на видео показан инференс квантизованной версии модели на iPhone 15. Код на MLX Swift лежит в открытом доступе вот тут.

А еще год назад кто бы мог подумать, что у нас будет модель уровня GPT 3.5 turbo, которая свободно запускается на смартфоне?
👍6019❤‍🔥83
🔵 Цукерберг тем временем заявил, что будет обучать Llama-4, используя в 10 раз больше компьюта, чем для Llama-3. На днях он, кстати, также рассказал, что крупнейший рынок для MetaAI – это Индия, потому что там больше всего пользователей WhatsApp.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯62😁2111👍1
This media is not supported in your browser
VIEW IN TELEGRAM
А что вообще за автоэнкодеры такие?

Сегодня Google выкатила свою новую модель Gemma 2 2B (наш разбор). Однако взгляды сообщества в большей мере направлены не на нее саму, а на сопутствующий релиз семейства Gemma Scope. Объясняем, почему.

Что это такое? Gemma Scope – это семейство разреженных автоенкодеров (SAE) для всех слоев Gemma 2 2B и 9B. Они представляют из себя модели, которые распутывают активации LLM и достают из них так называемые интерпретируемые "фичи". Их можно воспринимать, как темы или концепции: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).

Но эти фичи не просто существуют. Мы можем повышать вес каждой из них, тем самым заставляя модель думать в определнном направлении. То есть, такие автоэнкодеры позволяют нам понимать, о чем думает модель, объяснять ее поведение и крутить ручки, чтобы влиять на ее мысли.

Метод с SAE впервые был предложен Anthropic прошлым летом (статья), они же впервые применили его для большой модели и научились управлять фичами (наш большой разбор этого исследования). Совершили революцию, получается.

Так вот. Gemma Scope от Google – это, можно сказать, первая работа, в которой такие автоэнкодеры обучены и выложены в открытое пользование разработчиков. Представьте, какие возможности открывает такой интрумент для файнтюнинга и исследований.

Настоящий праздник жизни 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
👏52👍22132🤔2😁1👾1
😮 Google дропнула экспериментальную версию Gemini 1.5 Pro, которая превзошла GPT-4o и Claude Sonet на LMSYS арене

Не прошло и двух дней с выпуска свежей Gemma 2, а Google уже поражает нас снова своей новой моделью, которая внезапно заняла самую верхушку рейтинга LLM.

Первые пользователи Gemini 1.5 Pro Experimental 0801 говорят, что их особенно поразили визуальные способности модели. Оно и видно: на арене чатбот первый не только в общем рейтинге, но и по зрению!

Как тебе такое, Сэм Альтман?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯653918
Вы гляньте, какая красота: пользователи HuggingFace нарисовали тепловую карту опенсорс-релизов компаний. Прямо как на GitHub. Надо сказать, некоторые тренды прослеживаются довольно четко 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8951🤔6👍2🤗1
Вносим в тренд свою лепту 🤤
Please open Telegram to view this post
VIEW IN TELEGRAM
😁20232👍12🍾63💯2
Media is too big
VIEW IN TELEGRAM
Легендарный Суббарао Камбхампати привел, наверное, самый удачный пример в мире, отвечая на вопрос "почему люди так сильно верят, что языковые модели умеют рассуждать?"

Вот что он сказал:

"Самое сложное в оценке ризонинга – это то, что когда вы задаете мне вопрос, а я отвечаю, вы никак не сможете определить, додумался ли я до ответа или просто запомнил его.

Мой любимый пример – это вопрос про круглые крышки люков, который Microsoft любят задавать на своих собеседованиях. Самым первым людям, которые отвечали на этот вопрос, приходилось додумываться до ответа самим. Это был ризонинг.

Но потом вопрос стал настолько популярным, что стало невозможно понять, знал человек ответ на вопрос заранее или додумался до него. Аналогично для языковых моделей – мы не можем знать наверняка и никак не можем проверить, умеет ли модель рассуждать, или просто запоминает текст."


База.
102👍38🤔15🕊4😁1🙈1