Anthropic рассказали, как несколько их инженеров пол года ради забавы заставляли Claude играть в покемонов
Ранние попытки с Sonnet 3.5 были неудачные (неудивительно, модель же не учили играть в игры). Claude плохо понимал правила и двигался, а однажды даже отправил разработчикам официальный запрос на сброс игры, когда просто случайно застрял в углу.
С Sonnet 3.6 все немного улучшилось, но до хорошего игрока было далековато.
И вот незадолго до релиза в игре испытали Sonnet 3.7. Прогресс оказался невероятный: всего за несколько часов агент победил Брока, а спустя несколько дней – Мисти.
Все благодаря ризонингу: там, где предыдущие модели бесцельно блуждали или застревали в циклах, 3.7 планирует заранее, помнит свои цели, записывает действия и адаптируется, если первоначальные стратегии терпят неудачу. Чем-то похоже на программирование и очень показательно.
Бенчмарки, которые мы заслужили, в общем. Разрабы даже трансляцию на твиче запустили, там можно в онлайне смотреть, как Claude играет
Ранние попытки с Sonnet 3.5 были неудачные (неудивительно, модель же не учили играть в игры). Claude плохо понимал правила и двигался, а однажды даже отправил разработчикам официальный запрос на сброс игры, когда просто случайно застрял в углу.
С Sonnet 3.6 все немного улучшилось, но до хорошего игрока было далековато.
И вот незадолго до релиза в игре испытали Sonnet 3.7. Прогресс оказался невероятный: всего за несколько часов агент победил Брока, а спустя несколько дней – Мисти.
Все благодаря ризонингу: там, где предыдущие модели бесцельно блуждали или застревали в циклах, 3.7 планирует заранее, помнит свои цели, записывает действия и адаптируется, если первоначальные стратегии терпят неудачу. Чем-то похоже на программирование и очень показательно.
Бенчмарки, которые мы заслужили, в общем. Разрабы даже трансляцию на твиче запустили, там можно в онлайне смотреть, как Claude играет
❤117🔥41😁27👍20❤🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла 12 версия легендарного детектора YOLO
В ней наконец традиционные CNN-модули заменены на гибридные с вниманием. Конкретнее, добавили area attention, которое делит входной тензор на равные сегменты и тем самым снижает квадратичную сложность операций дальнейшей обработки.
Кроме того, схему ELAN заменили на ELAN с остаточными блоками. Так градиенты лучше прикидываются через сеть, и без ущерба для метрик снижается вычислительная сложность.
А если хотите подробнее узнать, что такое ELAN и как вообще работает YOLO, почитайте нашу большую статью «История YOLO». В ней – все о том, что такое детекция, как работала самая первая YOLO, как изменялись следующие, и какие скандалы за этим стояли.
Репозиторий 12 версии (тут статья, код, результаты и пр)
В ней наконец традиционные CNN-модули заменены на гибридные с вниманием. Конкретнее, добавили area attention, которое делит входной тензор на равные сегменты и тем самым снижает квадратичную сложность операций дальнейшей обработки.
Кроме того, схему ELAN заменили на ELAN с остаточными блоками. Так градиенты лучше прикидываются через сеть, и без ущерба для метрик снижается вычислительная сложность.
А если хотите подробнее узнать, что такое ELAN и как вообще работает YOLO, почитайте нашу большую статью «История YOLO». В ней – все о том, что такое детекция, как работала самая первая YOLO, как изменялись следующие, и какие скандалы за этим стояли.
Репозиторий 12 версии (тут статья, код, результаты и пр)
1👍109❤29🔥19👌2❤🔥1
Третий день опенсорса DeepSeek: библиотека DeepGEMM для ускорения умножения матриц
GEMM – это General Matrix Multiplication, обобщённая операция умножения матриц. Вот формула: C=α×A×B+β×C. Здесь A,B,C – матрицы, а альфа и бетта – скаляры.
Если вам кажется, что вы это выражение где-то видели, то вам не кажется. Оно фигурирует в любом учебнике по DL или LLM, потому что лежит в основе большинства преобразований глубокого обучения. В трансформерах это вычислении матриц запросов (Q), ключей (K) и значений (V) для механизма внимания, обычные полносвязные feed-forward слои, расчет эмбеддингов и другое.
DeepSeek большие любители оптимизации и, конечно, они крутят в своих моделях собственную реализацию GEMM, которой сегодня и поделились. Кода, кстати, немного: все реализовано в одном ядре в примерно 300 строк, так что разобраться довольно просто. Основное достоинство – это JIT-компиляция и двухуровневое накопление.
Реализация поддерживает FP8 и подходит и для плотных моделей, и для MoE. Ускорение относительно других популярных оптимизаций – от 1,1x до 2,7x.
github.com/deepseek-ai/DeepGEMM
GEMM – это General Matrix Multiplication, обобщённая операция умножения матриц. Вот формула: C=α×A×B+β×C. Здесь A,B,C – матрицы, а альфа и бетта – скаляры.
Если вам кажется, что вы это выражение где-то видели, то вам не кажется. Оно фигурирует в любом учебнике по DL или LLM, потому что лежит в основе большинства преобразований глубокого обучения. В трансформерах это вычислении матриц запросов (Q), ключей (K) и значений (V) для механизма внимания, обычные полносвязные feed-forward слои, расчет эмбеддингов и другое.
DeepSeek большие любители оптимизации и, конечно, они крутят в своих моделях собственную реализацию GEMM, которой сегодня и поделились. Кода, кстати, немного: все реализовано в одном ядре в примерно 300 строк, так что разобраться довольно просто. Основное достоинство – это JIT-компиляция и двухуровневое накопление.
Реализация поддерживает FP8 и подходит и для плотных моделей, и для MoE. Ускорение относительно других популярных оптимизаций – от 1,1x до 2,7x.
github.com/deepseek-ai/DeepGEMM
👍69🔥37❤12⚡2
OpenAI начинает прогрев перед выпуском GPT-4.5: некоторым Pro-пользователям обновленного приложения на Android «случайно» всплыло уведомление с приглашением попробовать модель.
Все указывает на то, что завтра модель действительно выйдет в виде превью для pro-юзеров, а на остальных покатят позже.
Попробуйте предварительную исследовательскую версию GPT-4.5 — пользователи Pro теперь имеют доступ к нашей новейшей, самой большой модели.
Все указывает на то, что завтра модель действительно выйдет в виде превью для pro-юзеров, а на остальных покатят позже.
👍81🔥31❤15😁6
Мастхэв: Google совместно с Kaggle снова открыли регистрацию на тот самый бесплатный курс по генеративным моделям
Он пройдет в формате недельного интенсива с 31 марта по 4 апреля. Каждый день – онлайн лекции, домашки, практики + обсуждения в Дискорде.
В программе актуальная база по основным архитектурам глубокого обучения, устройству LLM, векторным базам данных и MLOps. Курс составляли ML-ресерчеры и инженеры из Google.
В конце, кстати, будет еще и проект-соревнование, так что можно заодно залутать медальку Kaggle.
Еще раз: все бесплатно. Для регистрации нужен только Google аккаунт 🍯
Он пройдет в формате недельного интенсива с 31 марта по 4 апреля. Каждый день – онлайн лекции, домашки, практики + обсуждения в Дискорде.
В программе актуальная база по основным архитектурам глубокого обучения, устройству LLM, векторным базам данных и MLOps. Курс составляли ML-ресерчеры и инженеры из Google.
В конце, кстати, будет еще и проект-соревнование, так что можно заодно залутать медальку Kaggle.
Еще раз: все бесплатно. Для регистрации нужен только Google аккаунт 🍯
👍89❤22🔥20
Data Secrets
Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников…
Стартап Миры Мурати оценили в 9 миллиардов долларов
Чуть меньше, чем у Суцкевера, конечно, но все еще очень даже прилично для еще ничего не выпустившей компании🤑
Также пишут, что скоро компания привлечет инвестиции в размере одного миллиарда.
Чуть меньше, чем у Суцкевера, конечно, но все еще очень даже прилично для еще ничего не выпустившей компании
Также пишут, что скоро компания привлечет инвестиции в размере одного миллиарда.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85👍28😐21❤16💅7🍌3
Phi-4-Multimodal и Phi-4-Mini уже лежат в опенсорсе под лицензией MIT и интегрированы в Transformers.
Мультимодальность включает текст, аудио и видео. Ну куче мультимодальных бенчмарков модель превосходит GPT-4o, Gemini-2.0 Flash и 1.5 Pro. Это первая открытая модель такого уровня поднимания речи и OCR.
В привычных математических и кодинговых задачах тоже неплохо: mini с ризонингом соответствует o1-mini и дистилляциям R1.
Внутри 2 адаптера для видео и аудио + лоры для модальностей в основной модели, чтобы не менять ее собственные веса. Обучали в три внушительных этапа:
1. претрейн на тексте + файнтюн на тексте
2. мультимодальный трейн на vision, audio и vision-speech
3. ризонинг трейн на CoT + обучение с подкреплением с DPO
Веса, веса mini
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥88👍29❤15🤝3😎3❤🔥1
Data Secrets
В Китае придумали, как соединить LLM с диффузией На сегодняшний день все модели работают авторегрессионно, то есть предсказывают следующие токены один за одним на основе предыдущих. Это задача next token prediction. Но исследователи из Китая предложили другой…
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, мы рассказывали про диффузионную языковую модель LLaDA?
Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.
Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).
Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.
И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.
Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.
Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).
Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.
И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.
Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
👍93🔥39❤16🤯7❤🔥1
Четвертый день опенсорса от DeepSeek: библиотека DualPipe
Это инструмент для эффективной параллелизации. Что это значит:
1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.
В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.
2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.
3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.
Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.
github.com/deepseek-ai/DualPipe
Это инструмент для эффективной параллелизации. Что это значит:
1. Минимизация пайплайн-пузырей. Это, иначе говоря, периоды простоя оборудования, когда какие-то процессоры ничего не считают и просто ждут поступления данных.
В данном случае алгоритм позволяет прямой и обратный проход выполнять одновременно, поэтому этапы передачи перекрываются вычислениями, и обучение значительно ускоряется.
2. Симметричное распределение микробатчей в прямом и обратном проходе, чтобы сбалансировать нагрузку.
3. Хранение меньшего количества активаций. Это происходит как раз за счет симметричности: часть активаций сразу используется для обратного распространения, и их можно вычищать из памяти.
Кстати, один из троих разработчиков библиотеки – Лян Вэньфэн, CEO и основатель DeepSeek. Оказывается, он не просто руководит, но и довольно часто сам пишет код.
github.com/deepseek-ai/DualPipe
👍73🔥41❤15🤯3
Я в ожидании стрима OpenAI (он будет тут):
P.S Кстати, сегодня должны были раскатить Advanced Voice на базе GPT-4o mini на всех бесплатных пользователей. У кого появилось?
P.S Кстати, сегодня должны были раскатить Advanced Voice на базе GPT-4o mini на всех бесплатных пользователей. У кого появилось?
❤51👍12😁5🍓5🍾3
В твиттер уже утекла системная карта GPT-4.5
«Это наша самая большая модель, которая продолжает парадигму масштабирования претрейна и ризонинга» – пишут в ней
Также в доке есть бенчмарки: много оценок безопасности и чуть-чуть качества. По ощущениям в кодинге хуже, чем o3-mini и даже o1, но отстает не сильно.
Стоит смотреть скорее на приросты относительно GPT-4o (это примерно 10х) + в доке прямо говорят, что это не frontier модель, а новая самая большая модель компании. Она лучше в письме, лучше понимает мир в целом и общение с ней более «человечное».
https://cdn.openai.com/gpt-4-5-system-card.pdf
«Это наша самая большая модель, которая продолжает парадигму масштабирования претрейна и ризонинга» – пишут в ней
Также в доке есть бенчмарки: много оценок безопасности и чуть-чуть качества. По ощущениям в кодинге хуже, чем o3-mini и даже o1, но отстает не сильно.
Стоит смотреть скорее на приросты относительно GPT-4o (это примерно 10х) + в доке прямо говорят, что это не frontier модель, а новая самая большая модель компании. Она лучше в письме, лучше понимает мир в целом и общение с ней более «человечное».
https://cdn.openai.com/gpt-4-5-system-card.pdf
1😐70❤30👍13🔥8