Data Secrets – Telegram

Data Secrets

77.3K subscribers

6.04K photos

592 videos

20 files

2.42K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

77.3K subscribers

This media is not supported in your browser

VIEW IN TELEGRAM

Французская лаборатория Kyutai представила конкурента GPT-4o с открытым исходным кодом!

Пока все третий месяц ждут голосовой режим ChatGPT, стартап Kyutai привлек $300 млн. инвестиций и выпустил модель Moshi:

➡️

Moshi – мультимодальная модель, способная слушать, говорить и видеть
➡️Выражает и понимает эмоции
➡️Может одновременно слушать и говорить
➡️Задержка ответа всего 160 мс, то есть ее вообще нет

И все это в опенсорс! Просто удивительно. Статью, код и веса обещают выпустить скоро.

Кстати, уже доступны некоторые детали реализации. Базовая текстовая модель Helium имеет 7В параметров. После предобучения на текстах она обучалась совместно на аудио и текстах. Аудио прогоняются через Mimi – модель сжатия на основе VQ-VAE от той же лаборатории.

Файнтюнилась на 20 часах аудио и синтетических транскрипциях, сгенерированных самим Helium. Кстати, говорят, что для домашнего файнтюнинга модели понадобится менее 30 минут аудио 🎉

И главное: с моделью уже можно поговорить здесь!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍73🔥32❤8🤔3

9.67K views06:44

Media is too big

VIEW IN TELEGRAM

Хотите верьте, хотите нет, но существуют робототехнические компании, которые вместо того, чтобы утопать в экзоскелетах и нейросетях, пытаются воссоздать человеческие мышцы для управления роботами-гуманоидами

Мысли по этому поводу: возможно, это лучший способ создания роботов. Мир, в котором мы живем, создан для людей. Зачем изобретать робота, который с трудом справляется с машинами, адаптированными под человека, его руки и тело? Вероятно, мышцы – это и вправду лучшая отправная точка.

👍49🔥19🤔10😁3🤯3💯2❤1

8.57K views08:56

This media is not supported in your browser

VIEW IN TELEGRAM

Новое выступление Андрея Карпаты

Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:

«Мы вступаем в новую парадигму вычислений, в которой большие языковые модели действуют как процессоры, используют токены вместо байтов и имеют контекстное окно вместо оперативной памяти. Это ОС большой языковой модели (LMOS)»

А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.

Ну и куда же без мемов про Nvidia в презентации

🔵

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥58👍19❤15😁5

9K views10:54

🤗 На Hugging Face только что появилось удобное обновление: разработчики добавили фильтры в раздел «датасеты»

Теперь можно искать по конкретному формату (json, csv,…), модальности (аудио, видео, текст) и размеру датасета.

Мелочь, а приятно

❤112🔥18👍9🤗5

9.37K views14:13

▪️Верхний ряд – то, что видела обезьяна
▪️Средний – изображения, которые воссоздала ML-модель по сигналам из мозга обезьяны
▪️Нижний – такая же реконструкция с моделью предыдущего поколения

Да, это чтение мыслей. Такого результата добились ученые из университета Нидерландов. Раньше эта команда экспериментировала на людях с помощью МРТ, и получила модель с результатами из нижнего ряда.

А недавно им удачно подвернулась макака с уже встроенным в мозг имплантом, который позволил провести более продвинутое исследование и значительно усовершенствовать модель (результаты среднего ряда).

Просто посмотрите на картинку: это же просто поразительно

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥130🤯46👍14❤7

12.9K views16:22

Всем любителям математики спокойного сна 😒

Please open Telegram to view this post

VIEW IN TELEGRAM

😁16329👻14👍3🔥3🤨1

10K views19:47

This media is not supported in your browser

VIEW IN TELEGRAM

Нет, это не сгенерировано, это так Цукерберг отпраздновал День независимости США

Я и чем я занимаюсь, пока обучается моделька

😁154🏆17🔥12🗿4👍3🤨3

9.39K views06:51

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Простые схемы для сложных ML-концепций

Профессор Том Йе работует в университете Колорадо и свободное время посвящает тому, что рисует схемы ML-концепций и выкладывает их в свой аккаунт на Твиттер и LinkedIn.

Полный список схем с пояснениями можно найти здесь. Наверху – лишь некоторые примеры. Самых простых тем типа регрессии и деревьев вы здесь не найдете, зато схемы могут помочь понять некоторые сложные концепты DL: МoE, Attention, ResNet, DiT или RLHF.

Круто, что это не просто поверхностные наброски: схемы помогают поэтапно понять фундамент алгоритма на уровне алгебраических операций.

Ну и наконец, это просто красиво

🔥93👍24❤15💯3🙈1

13K views09:27

Там у всеми любимого Cloudflare вышел интересный инструмент для отпугивания парсинг-ботов с платформ

Парсинг-боты обычно собирают информацию для обучения ML-моделек, и, конечно, далеко не все хотят, чтобы их сайт парсили для такой цели. Некоторые крупные компании позволяют брокировать своих ботов, просто добавляя robots.txt, но, конечно, оооочень многие этот файл просто игнорируют

💃

В общем, Cloudflare подумали-подумали, и сделали свою тулзу. Для обнаружения используют накрученный классификатор, который по словам компании обучен отличать даже ботов, умело косящих под профиль живого человека.

Кстати, кроме самого инструмента, еще и блогпост про него интересный выкатили. Респект.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍32❤10🤓5🔥4🤨4

9.52K views12:47

Знаете этот известный способ промптинга, когда вы обещаете боту чаевых, чтобы он лучше перформил?

Так вот, пользователи в Твиттере стали замечать, что GPT начал настойчиво требовать свои деньги и отказывается работать, пока юзер не выполнит «обещание».

Будьте аккуратнее, а то может он и все оскорбления в свой адрес тихо запоминает…

😁128❤6🔥6👍5🤯4

9.02K views08:30

Тут внезапно оказалось, что прошлой весной OpenAI взламывали, но компания никому не сообщила об этом

Однако тайное всегда становится явным, и теперь благодаря The New York Times об инциденте узнали все. Сообщается, что хакер получил доступ к переписке сотрудников, в которой они обсуждали новую технологию, однако сам код он достать не сумел.

"А раз не сумел – то и рассказывать не о чем" – решили в OpenAI и никому ничего не сказали: ни пользователям, ни правительству.

Кстати, есть большая вероятность, что именно из-за этого случая уволили ставшего знаменитым Леопольда Ашенбреннера, ведь на том самом интервью он упоминал, что был уволен из-за того, что высказал совету директорв "свои опасения по поводу политики безопасности и информирования".

50👏14🤯10👍7❤2🍌1

8.83K views11:33

Слайды и ноутбуки с курса по CV от Ивана Карпухина

С Иваном вы уже знакомы – мы рассказывали про него и его курс в рамках летней школы ISSCAI. За свою карьеру он успел поработать и поресерчить в Яндексе, Тинькофф, ВК, Сбере, а плюсом к этому идет куча публикаций, конференций и опыта в преподавании.

Так вот: на этой неделе в ВШЭ в рамках ISSCAI Иван провел серию замечательных лекций и семинаров по CV. Мы делимся с вами материалами этого курса:

▪️

Все слайды лежат здесь. Лекции включают в себя общий обзор методов, задач и прогресса в CV, детальный разбор основных парадигм (CNN, аугментация), а также архитектур и подходов для решения задач детекции и сегментации. Последняя лекция особенно крута: она про трансформеры, Foundation models и мульимодальность.

▪️Кроме лекций в курсе было много практики. Все ноутбуки лежат в этом репозитории. Обратите внимание, что многие из них содержат небольшие интересные задачки на кодинг и понимание основных концепций CV. Советуем порешать, а ответы вы найдете в этом же репозитории.

🚀

Не забудьте сохранить

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥53👍25❤6

11.8K views14:51

GM

😁96🔥11👍7❤2

8.64K views08:21

Многие проблемы языковых моделей на самом деле восходят к токенизации

Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:

➡️

Пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце (обсуждение на Reddit).

➡️

Токенайзеры восприимчивы к регистру. "Hello” и “HELLO" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.

➡️

Некоторые языки лучше поддаются токенизации, некоторые хуже. Из-за этого перформанс моделей на "неэффективно токенизируемых" языках гораздо ниже, а цена и время инференса иногда вдвое больше (вот исследование Оксфорда на эту тему).

➡️

Из-за токенов у моделек проблемы с математикой (картинка наверху): токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 считает, что 7735 больше чем 7926.

➡️Токены – это также причина того, что модели фейлятся на задачах с анограммами или не могут просто-напросто перевернуть слово.

Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

👍101🔥3217❤2🗿2

10.4K viewsedited 12:03

Многие проблемы языковых моделей на самом деле восходят к токенизации Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог.…

Про LLM без токенизации

Вопрос: можем ли мы как-то решить проблемы из предыдущего поста, возникающие из-за токенизации?

В теории – можем, отказавшись от токенизации вообще 😉

В апреле, например, вышла token-free LM MambaByte. Она вместо токенов работает напрямую с последовательностью необработанных байтов. Однако из-за этого, очевидно, длина последовательности, которую должна съесть модель, сильно увеличивается. Обычные трансформеры таких объемов не выдерживают.

Поэтому вместо трансформеров за основу взята модель Mamba SSM (опенсорс). SSM означает state space model, такие модели пришли к нам из теории управления и работают с пространством состояний динамической системы. Вот отличный разбор SSM на HF, почитайте.

Так вот. MambaByte устойчива к шуму типа регистра слов, очень бодра на инференсе, и к тому же не очень сильно проседает в качестве относительно трансформеров.

Сейчас исследования таких моделей еще на ранней стадии, но выглядит многообещающе.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤67👍22🔥208

9.17K viewsedited 17:07