Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Новое выступление Андрея Карпаты

Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:

«Мы вступаем в новую парадигму вычислений, в которой большие языковые модели действуют как процессоры, используют токены вместо байтов и имеют контекстное окно вместо оперативной памяти. Это ОС большой языковой модели (LMOS)»


А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.

Ну и куда же без мемов про Nvidia в презентации 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58👍1915😁5
🤗 На Hugging Face только что появилось удобное обновление: разработчики добавили фильтры в раздел «датасеты»

Теперь можно искать по конкретному формату (json, csv,…), модальности (аудио, видео, текст) и размеру датасета.

Мелочь, а приятно
112🔥18👍9🤗5
▪️Верхний ряд – то, что видела обезьяна
▪️Средний – изображения, которые воссоздала ML-модель по сигналам из мозга обезьяны
▪️Нижний – такая же реконструкция с моделью предыдущего поколения

Да, это чтение мыслей. Такого результата добились ученые из университета Нидерландов. Раньше эта команда экспериментировала на людях с помощью МРТ, и получила модель с результатами из нижнего ряда.

А недавно им удачно подвернулась макака с уже встроенным в мозг имплантом, который позволил провести более продвинутое исследование и значительно усовершенствовать модель (результаты среднего ряда).

Просто посмотрите на картинку: это же просто поразительно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥130🤯46👍147
Всем любителям математики спокойного сна 😒
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16329👻14👍3🔥3🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Нет, это не сгенерировано, это так Цукерберг отпраздновал День независимости США

Я и чем я занимаюсь, пока обучается моделька
😁154🏆17🔥12🗿4👍3🤨3
Простые схемы для сложных ML-концепций

Профессор Том Йе работует в университете Колорадо и свободное время посвящает тому, что рисует схемы ML-концепций и выкладывает их в свой аккаунт на Твиттер и LinkedIn.

Полный список схем с пояснениями можно найти здесь. Наверху – лишь некоторые примеры. Самых простых тем типа регрессии и деревьев вы здесь не найдете, зато схемы могут помочь понять некоторые сложные концепты DL: МoE, Attention, ResNet, DiT или RLHF.

Круто, что это не просто поверхностные наброски: схемы помогают поэтапно понять фундамент алгоритма на уровне алгебраических операций.

Ну и наконец, это просто красиво
🔥93👍2415💯3🙈1
Там у всеми любимого Cloudflare вышел интересный инструмент для отпугивания парсинг-ботов с платформ

Парсинг-боты обычно собирают информацию для обучения ML-моделек, и, конечно, далеко не все хотят, чтобы их сайт парсили для такой цели. Некоторые крупные компании позволяют брокировать своих ботов, просто добавляя robots.txt, но, конечно, оооочень многие этот файл просто игнорируют 💃

В общем, Cloudflare подумали-подумали, и сделали свою тулзу. Для обнаружения используют накрученный классификатор, который по словам компании обучен отличать даже ботов, умело косящих под профиль живого человека.

Кстати, кроме самого инструмента, еще и блогпост про него интересный выкатили. Респект.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3210🤓5🔥4🤨4
Знаете этот известный способ промптинга, когда вы обещаете боту чаевых, чтобы он лучше перформил?

Так вот, пользователи в Твиттере стали замечать, что GPT начал настойчиво требовать свои деньги и отказывается работать, пока юзер не выполнит «обещание».

Будьте аккуратнее, а то может он и все оскорбления в свой адрес тихо запоминает…
😁1286🔥6👍5🤯4
Тут внезапно оказалось, что прошлой весной OpenAI взламывали, но компания никому не сообщила об этом

Однако тайное всегда становится явным, и теперь благодаря The New York Times об инциденте узнали все. Сообщается, что хакер получил доступ к переписке сотрудников, в которой они обсуждали новую технологию, однако сам код он достать не сумел.

"А раз не сумел – то и рассказывать не о чем" – решили в OpenAI и никому ничего не сказали: ни пользователям, ни правительству.

Кстати, есть большая вероятность, что именно из-за этого случая уволили ставшего знаменитым Леопольда Ашенбреннера, ведь на том самом интервью он упоминал, что был уволен из-за того, что высказал совету директорв "свои опасения по поводу политики безопасности и информирования".
50👏14🤯10👍72🍌1
Слайды и ноутбуки с курса по CV от Ивана Карпухина

С Иваном вы уже знакомы – мы рассказывали про него и его курс в рамках летней школы ISSCAI. За свою карьеру он успел поработать и поресерчить в Яндексе, Тинькофф, ВК, Сбере, а плюсом к этому идет куча публикаций, конференций и опыта в преподавании.

Так вот: на этой неделе в ВШЭ в рамках ISSCAI Иван провел серию замечательных лекций и семинаров по CV. Мы делимся с вами материалами этого курса:

▪️Все слайды лежат здесь. Лекции включают в себя общий обзор методов, задач и прогресса в CV, детальный разбор основных парадигм (CNN, аугментация), а также архитектур и подходов для решения задач детекции и сегментации. Последняя лекция особенно крута: она про трансформеры, Foundation models и мульимодальность.

▪️Кроме лекций в курсе было много практики. Все ноутбуки лежат в этом репозитории. Обратите внимание, что многие из них содержат небольшие интересные задачки на кодинг и понимание основных концепций CV. Советуем порешать, а ответы вы найдете в этом же репозитории.

🚀 Не забудьте сохранить
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍256
GM
😁96🔥11👍72
Многие проблемы языковых моделей на самом деле восходят к токенизации

Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:

➡️Пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце (обсуждение на Reddit).

➡️Токенайзеры восприимчивы к регистру. "Hello” и “HELLO" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.

➡️Некоторые языки лучше поддаются токенизации, некоторые хуже. Из-за этого перформанс моделей на "неэффективно токенизируемых" языках гораздо ниже, а цена и время инференса иногда вдвое больше (вот исследование Оксфорда на эту тему).

➡️Из-за токенов у моделек проблемы с математикой (картинка наверху): токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 считает, что 7735 больше чем 7926.

➡️Токены – это также причина того, что модели фейлятся на задачах с анограммами или не могут просто-напросто перевернуть слово.

Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101🔥32172🗿2
Data Secrets
Многие проблемы языковых моделей на самом деле восходят к токенизации Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог.…
Про LLM без токенизации

Вопрос: можем ли мы как-то решить проблемы из предыдущего поста, возникающие из-за токенизации?

В теории – можем, отказавшись от токенизации вообще 😉

В апреле, например, вышла token-free LM MambaByte. Она вместо токенов работает напрямую с последовательностью необработанных байтов. Однако из-за этого, очевидно, длина последовательности, которую должна съесть модель, сильно увеличивается. Обычные трансформеры таких объемов не выдерживают.

Поэтому вместо трансформеров за основу взята модель Mamba SSM (опенсорс). SSM означает state space model, такие модели пришли к нам из теории управления и работают с пространством состояний динамической системы. Вот отличный разбор SSM на HF, почитайте.

Так вот. MambaByte устойчива к шуму типа регистра слов, очень бодра на инференсе, и к тому же не очень сильно проседает в качестве относительно трансформеров.

Сейчас исследования таких моделей еще на ранней стадии, но выглядит многообещающе.
Please open Telegram to view this post
VIEW IN TELEGRAM
67👍22🔥208
This media is not supported in your browser
VIEW IN TELEGRAM
Там вышло интересное интервью с одним из авторов архитектуры трансформера

Эйдан Гомес — CEO и соучредитель известного Cohere, а в 2017 году он был стажером в Google и писал основополагающую статью про трансформер. Теперь он сосредоточен на создании генеративных моделей для бизнеса.

В интервью он рассказал про прогресс последних лет, работу в Cohere и ИИ в b2b сегменте. Пара интересных выдержек:

⚙️ Страхи по поводу ИИ беспочвенны, потому что алгоритмы слишком сильно зависят от данных, экспоненциальная генерализация не может продолжаться вечно.

⚙️ Успех LLM основан на смелом, но иррациональном предположении о том, что модели будут становиться умнее, если сделать их больше. Не было никакого доказательства этому, но люди просто рискнули и попробовали – и получили сорокалетний прогресс меньше, чем за десятилетие.

Полностью можно посмотреть тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥147😁1
🤡 Это все ваши знаки дурацкие

Полиция в городе Финикс (Аризона) остановила беспилотный автомобиль Waymo за то, что тот через две сплошные поехал по встречке, а потом еще и газанул на красный. В машине никого не оказалось, и полицейский связался со службой поддержки Waymo.

Там офицеру объяснили, что автомобиль «столкнулся с непоследовательными дорожными знаками», из-за которых «ему было запрещено возвращаться на нужную полосу».
Please open Telegram to view this post
VIEW IN TELEGRAM
😁115👍15🗿74
This media is not supported in your browser
VIEW IN TELEGRAM
Концепция сверточных нейронных сетей зародилась 36 лет назад. Не многие знают, но ее предложил Ян Лекун.

Так вот мы обнаружили видео на котором молодой Лекун в 1989 демонстрирует, как его сеть распознает цифры в различном стиле написания.
🔥13867👍187👏411
Продолжает развиваться локализация LLM – Meta выпустили новую статью про модель, которую можно запускать на переносимых устройствах

Целью было создать языковую модель с менее чем миллиардом параметров, такую, чтобы она влезала в память и запускалась локально. Тут особенна важна архитектура, потому что просто огромным количеством параметров перформанс уже не затащишь.

Собственно, над архитектурой и поработали: накрутили слоев, общие матрицы для token2embedding и embedding2token и общие веса для нескольких блоков внимания. Получили SOTA на 350M параметров и (почти)SOTA на 125M.

Как всегда - респект исследователям из Meta за интересные работы
👍631771