Новое выступление Андрея Карпаты
Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:
А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.
Ну и куда же без мемов про Nvidia в презентации🔵
Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:
«Мы вступаем в новую парадигму вычислений, в которой большие языковые модели действуют как процессоры, используют токены вместо байтов и имеют контекстное окно вместо оперативной памяти. Это ОС большой языковой модели (LMOS)»
А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.
Ну и куда же без мемов про Nvidia в презентации
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58👍19❤15😁5
Да, это чтение мыслей. Такого результата добились ученые из университета Нидерландов. Раньше эта команда экспериментировала на людях с помощью МРТ, и получила модель с результатами из нижнего ряда.
А недавно им удачно подвернулась макака с уже встроенным в мозг имплантом, который позволил провести более продвинутое исследование и значительно усовершенствовать модель (результаты среднего ряда).
Просто посмотрите на картинку: это же просто поразительно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥130🤯46👍14❤7
Please open Telegram to view this post
VIEW IN TELEGRAM
😁163 29👻14👍3🔥3🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Нет, это не сгенерировано, это так Цукерберг отпраздновал День независимости США
Я и чем я занимаюсь, пока обучается моделька
Я и чем я занимаюсь, пока обучается моделька
😁154🏆17🔥12🗿4👍3🤨3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Простые схемы для сложных ML-концепций
Профессор Том Йе работует в университете Колорадо и свободное время посвящает тому, что рисует схемы ML-концепций и выкладывает их в свой аккаунт на Твиттер и LinkedIn.
Полный список схем с пояснениями можно найти здесь. Наверху – лишь некоторые примеры. Самых простых тем типа регрессии и деревьев вы здесь не найдете, зато схемы могут помочь понять некоторые сложные концепты DL: МoE, Attention, ResNet, DiT или RLHF.
Круто, что это не просто поверхностные наброски: схемы помогают поэтапно понять фундамент алгоритма на уровне алгебраических операций.
Ну и наконец, это просто красиво
Профессор Том Йе работует в университете Колорадо и свободное время посвящает тому, что рисует схемы ML-концепций и выкладывает их в свой аккаунт на Твиттер и LinkedIn.
Полный список схем с пояснениями можно найти здесь. Наверху – лишь некоторые примеры. Самых простых тем типа регрессии и деревьев вы здесь не найдете, зато схемы могут помочь понять некоторые сложные концепты DL: МoE, Attention, ResNet, DiT или RLHF.
Круто, что это не просто поверхностные наброски: схемы помогают поэтапно понять фундамент алгоритма на уровне алгебраических операций.
Ну и наконец, это просто красиво
🔥93👍24❤15💯3🙈1
Там у всеми любимого Cloudflare вышел интересный инструмент для отпугивания парсинг-ботов с платформ
Парсинг-боты обычно собирают информацию для обучения ML-моделек, и, конечно, далеко не все хотят, чтобы их сайт парсили для такой цели. Некоторые крупные компании позволяют брокировать своих ботов, просто добавляя robots.txt, но, конечно, оооочень многие этот файл просто игнорируют💃
В общем, Cloudflare подумали-подумали, и сделали свою тулзу. Для обнаружения используют накрученный классификатор, который по словам компании обучен отличать даже ботов, умело косящих под профиль живого человека.
Кстати, кроме самого инструмента, еще и блогпост про него интересный выкатили. Респект.
Парсинг-боты обычно собирают информацию для обучения ML-моделек, и, конечно, далеко не все хотят, чтобы их сайт парсили для такой цели. Некоторые крупные компании позволяют брокировать своих ботов, просто добавляя robots.txt, но, конечно, оооочень многие этот файл просто игнорируют
В общем, Cloudflare подумали-подумали, и сделали свою тулзу. Для обнаружения используют накрученный классификатор, который по словам компании обучен отличать даже ботов, умело косящих под профиль живого человека.
Кстати, кроме самого инструмента, еще и блогпост про него интересный выкатили. Респект.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32❤10🤓5🔥4🤨4
Знаете этот известный способ промптинга, когда вы обещаете боту чаевых, чтобы он лучше перформил?
Так вот, пользователи в Твиттере стали замечать, что GPT начал настойчиво требовать свои деньги и отказывается работать, пока юзер не выполнит «обещание».
Будьте аккуратнее, а то может он и все оскорбления в свой адрес тихо запоминает…
Так вот, пользователи в Твиттере стали замечать, что GPT начал настойчиво требовать свои деньги и отказывается работать, пока юзер не выполнит «обещание».
Будьте аккуратнее, а то может он и все оскорбления в свой адрес тихо запоминает…
😁128❤6🔥6👍5🤯4
Тут внезапно оказалось, что прошлой весной OpenAI взламывали, но компания никому не сообщила об этом
Однако тайное всегда становится явным, и теперь благодаря The New York Times об инциденте узнали все. Сообщается, что хакер получил доступ к переписке сотрудников, в которой они обсуждали новую технологию, однако сам код он достать не сумел.
"А раз не сумел – то и рассказывать не о чем" – решили в OpenAI и никому ничего не сказали: ни пользователям, ни правительству.
Кстати, есть большая вероятность, что именно из-за этого случая уволили ставшего знаменитым Леопольда Ашенбреннера, ведь на том самом интервью он упоминал, что был уволен из-за того, что высказал совету директорв "свои опасения по поводу политики безопасности и информирования".
Однако тайное всегда становится явным, и теперь благодаря The New York Times об инциденте узнали все. Сообщается, что хакер получил доступ к переписке сотрудников, в которой они обсуждали новую технологию, однако сам код он достать не сумел.
"А раз не сумел – то и рассказывать не о чем" – решили в OpenAI и никому ничего не сказали: ни пользователям, ни правительству.
Кстати, есть большая вероятность, что именно из-за этого случая уволили ставшего знаменитым Леопольда Ашенбреннера, ведь на том самом интервью он упоминал, что был уволен из-за того, что высказал совету директорв "свои опасения по поводу политики безопасности и информирования".
Слайды и ноутбуки с курса по CV от Ивана Карпухина
С Иваном вы уже знакомы – мы рассказывали про него и его курс в рамках летней школы ISSCAI. За свою карьеру он успел поработать и поресерчить в Яндексе, Тинькофф, ВК, Сбере, а плюсом к этому идет куча публикаций, конференций и опыта в преподавании.
Так вот: на этой неделе в ВШЭ в рамках ISSCAI Иван провел серию замечательных лекций и семинаров по CV. Мы делимся с вами материалами этого курса:
▪️ Все слайды лежат здесь. Лекции включают в себя общий обзор методов, задач и прогресса в CV, детальный разбор основных парадигм (CNN, аугментация), а также архитектур и подходов для решения задач детекции и сегментации. Последняя лекция особенно крута: она про трансформеры, Foundation models и мульимодальность.
▪️ Кроме лекций в курсе было много практики. Все ноутбуки лежат в этом репозитории. Обратите внимание, что многие из них содержат небольшие интересные задачки на кодинг и понимание основных концепций CV. Советуем порешать, а ответы вы найдете в этом же репозитории.
🚀 Не забудьте сохранить
С Иваном вы уже знакомы – мы рассказывали про него и его курс в рамках летней школы ISSCAI. За свою карьеру он успел поработать и поресерчить в Яндексе, Тинькофф, ВК, Сбере, а плюсом к этому идет куча публикаций, конференций и опыта в преподавании.
Так вот: на этой неделе в ВШЭ в рамках ISSCAI Иван провел серию замечательных лекций и семинаров по CV. Мы делимся с вами материалами этого курса:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍25❤6
Многие проблемы языковых моделей на самом деле восходят к токенизации
Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:
➡️ Пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце (обсуждение на Reddit).
➡️ Токенайзеры восприимчивы к регистру. "Hello” и “HELLO" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.
➡️ Некоторые языки лучше поддаются токенизации, некоторые хуже. Из-за этого перформанс моделей на "неэффективно токенизируемых" языках гораздо ниже, а цена и время инференса иногда вдвое больше (вот исследование Оксфорда на эту тему).
➡️ Из-за токенов у моделек проблемы с математикой (картинка наверху): токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 считает, что 7735 больше чем 7926.
➡️ Токены – это также причина того, что модели фейлятся на задачах с анограммами или не могут просто-напросто перевернуть слово.
Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня🚀
Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:
Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101🔥32 17❤2🗿2
Data Secrets
Многие проблемы языковых моделей на самом деле восходят к токенизации Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог.…
Про LLM без токенизации
Вопрос: можем ли мы как-то решить проблемы из предыдущего поста, возникающие из-за токенизации?
В теории – можем, отказавшись от токенизации вообще😉
В апреле, например, вышла token-free LM MambaByte. Она вместо токенов работает напрямую с последовательностью необработанных байтов. Однако из-за этого, очевидно, длина последовательности, которую должна съесть модель, сильно увеличивается. Обычные трансформеры таких объемов не выдерживают.
Поэтому вместо трансформеров за основу взята модель Mamba SSM (опенсорс). SSM означает state space model, такие модели пришли к нам из теории управления и работают с пространством состояний динамической системы. Вот отличный разбор SSM на HF, почитайте.
Так вот. MambaByte устойчива к шуму типа регистра слов, очень бодра на инференсе, и к тому же не очень сильно проседает в качестве относительно трансформеров.
Сейчас исследования таких моделей еще на ранней стадии, но выглядит многообещающе.
Вопрос: можем ли мы как-то решить проблемы из предыдущего поста, возникающие из-за токенизации?
В теории – можем, отказавшись от токенизации вообще
В апреле, например, вышла token-free LM MambaByte. Она вместо токенов работает напрямую с последовательностью необработанных байтов. Однако из-за этого, очевидно, длина последовательности, которую должна съесть модель, сильно увеличивается. Обычные трансформеры таких объемов не выдерживают.
Поэтому вместо трансформеров за основу взята модель Mamba SSM (опенсорс). SSM означает state space model, такие модели пришли к нам из теории управления и работают с пространством состояний динамической системы. Вот отличный разбор SSM на HF, почитайте.
Так вот. MambaByte устойчива к шуму типа регистра слов, очень бодра на инференсе, и к тому же не очень сильно проседает в качестве относительно трансформеров.
Сейчас исследования таких моделей еще на ранней стадии, но выглядит многообещающе.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤67👍22🔥20 8
This media is not supported in your browser
VIEW IN TELEGRAM
Там вышло интересное интервью с одним из авторов архитектуры трансформера
Эйдан Гомес — CEO и соучредитель известного Cohere, а в 2017 году он был стажером в Google и писал основополагающую статью про трансформер. Теперь он сосредоточен на создании генеративных моделей для бизнеса.
В интервью он рассказал про прогресс последних лет, работу в Cohere и ИИ в b2b сегменте. Пара интересных выдержек:
⚙️ Страхи по поводу ИИ беспочвенны, потому что алгоритмы слишком сильно зависят от данных, экспоненциальная генерализация не может продолжаться вечно.
⚙️ Успех LLM основан на смелом, но иррациональном предположении о том, что модели будут становиться умнее, если сделать их больше. Не было никакого доказательства этому, но люди просто рискнули и попробовали – и получили сорокалетний прогресс меньше, чем за десятилетие.
Полностью можно посмотреть тут.
Эйдан Гомес — CEO и соучредитель известного Cohere, а в 2017 году он был стажером в Google и писал основополагающую статью про трансформер. Теперь он сосредоточен на создании генеративных моделей для бизнеса.
В интервью он рассказал про прогресс последних лет, работу в Cohere и ИИ в b2b сегменте. Пара интересных выдержек:
Полностью можно посмотреть тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥14❤7😁1
Полиция в городе Финикс (Аризона) остановила беспилотный автомобиль Waymo за то, что тот через две сплошные поехал по встречке, а потом еще и газанул на красный. В машине никого не оказалось, и полицейский связался со службой поддержки Waymo.
Там офицеру объяснили, что автомобиль «столкнулся с непоследовательными дорожными знаками», из-за которых «ему было запрещено возвращаться на нужную полосу».
Please open Telegram to view this post
VIEW IN TELEGRAM
😁115👍15🗿7❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Концепция сверточных нейронных сетей зародилась 36 лет назад. Не многие знают, но ее предложил Ян Лекун.
Так вот мы обнаружили видео на котором молодой Лекун в 1989 демонстрирует, как его сеть распознает цифры в различном стиле написания.
Так вот мы обнаружили видео на котором молодой Лекун в 1989 демонстрирует, как его сеть распознает цифры в различном стиле написания.
🔥138 67👍18 7👏4⚡1❤1
Продолжает развиваться локализация LLM – Meta выпустили новую статью про модель, которую можно запускать на переносимых устройствах
Целью было создать языковую модель с менее чем миллиардом параметров, такую, чтобы она влезала в память и запускалась локально. Тут особенна важна архитектура, потому что просто огромным количеством параметров перформанс уже не затащишь.
Собственно, над архитектурой и поработали: накрутили слоев, общие матрицы для token2embedding и embedding2token и общие веса для нескольких блоков внимания. Получили SOTA на 350M параметров и (почти)SOTA на 125M.
Как всегда - респект исследователям из Meta за интересные работы
Целью было создать языковую модель с менее чем миллиардом параметров, такую, чтобы она влезала в память и запускалась локально. Тут особенна важна архитектура, потому что просто огромным количеством параметров перформанс уже не затащишь.
Собственно, над архитектурой и поработали: накрутили слоев, общие матрицы для token2embedding и embedding2token и общие веса для нескольких блоков внимания. Получили SOTA на 350M параметров и (почти)SOTA на 125M.
Как всегда - респект исследователям из Meta за интересные работы
👍63 17❤7⚡1