Data Secrets
77.3K subscribers
6.03K photos
590 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Media is too big
VIEW IN TELEGRAM
Гуманоид Atlas от Boston Dynamics на новом демо просто поразил всех плавностью и точностью движений

Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой:

1. Сбор данных человеческих движений. Они используют специальные костюмы с захватом движений, собирают данные, а затем перекладывают их на робота с учетом его анатомии. Получается примерное целевое поведение.

2. Дальше – RL в симуляторе. Для выучивания оптимальной политики для каждого движения требуется примерно 150 миллионов запусков. В реальности это заняло бы годы, но в симуляторе – вполне подъемно. Алгоритмами RL и симулятором, кстати, занимаются не сами BD, им помогает RAI Institute.

3. Затем файнтюн sim-to-real, то есть перенос выученных политик из симуляции на реального робота и дообучение, чтобы устранить небольшие расхождения реальной физики с симуляцией.

* Конечно, цель тут – это zero-shot transfer, когда робот после обучения в симуляторе может сразу выполнять задачу в реальном мире без корректировок. Но симуляторы пока не настолько совершенны, и исследователи пишут, что активно над этим работают.
1🔥11150👍33🤯11❤‍🔥11👏1🤩1🏆1🫡1
Яндекс выкатил YandexART 2.5 Pro: вызов Midjourney и подписка на коммерческое использование генераций

Компания показала сразу две версии — YandexART 2.5 и YandexART 2.5 Pro. По результатам SbS-тестирования линейка превосходит Midjourney 6.1, а также выигрывает в сравнениях или находится в паритете с Ideogram, Dall-E 3 и Flux.

Что интересного под капотом:

🟦 Впервые применена техника «супирования» — особый вид файнтюна, объединяющий лучшие подходы в обучении. Это позволило радикально снизить количество дефектов на изображениях.

🟦 Автокодировщик VAE заменён с 4-канального на 16-канальный, то есть в 4 раза увеличен размер латентного пространства, в котором работает диффузионная модель. Это повышает её разрешающую способность для работы с большим числом мелких деталей.

🟦 Датасет расширен почти до 1 млрд пар изображений и описаний. Для улучшения точности задействовали визуально-лингвистическую модель (VLM), которая не только генерирует подробные описания, но и оценивает соответствие изображений промптам.

🟦 Генерация текста на латинице улучшена на 30% по сравнению с предыдущей версией.

🟦 В результате модели стали лучше следовать инструкциям в промптах и более уверенно создавать картинки с указанным количеством предметов нужных форм, цветов, размеров и других характеристик.

YandexART 2.5 уже доступна всем пользователям Шедеврума, а прошка — в новой подписке за 100 рублей в месяц (всего 1 евро, что?). Подписка включает приоритетную очередь генерации, 4K без водяных знаков и полные коммерческие права на использование. Больше технических подробностей выложили на Хабре.

Тестим?
Please open Telegram to view this post
VIEW IN TELEGRAM
77🔥35🤪25👍16😁5🙈5🗿3🍌2😐2🫡1
Media is too big
VIEW IN TELEGRAM
А вы уже видели новую рекламу Perplexity в стиле Игры в кальмара? Они даже актера Ли Чжон Чжэ с главной роли позвали. Но особенно порадовал «Poogle» 😐

Маркетинг ИИ, который мы заслужили
Please open Telegram to view this post
VIEW IN TELEGRAM
😁185🔥59👍19🤪76🦄4🎅1
OpenAI выкатили в API три новые аудио-модели

🔷 Первые две – speech2text. Они лучше Whisper, и вообще заявляют SOTA. Говорят, что к тому же будут хорошо работать с акцентами, шумом и быстрой речью.

Отличие между двумя этими моделями – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆

🔷 Третья моделька – gpt-4o-mini-tts – позанятнее. Это, наоборот, text2speech, то есть модель, проговаривающая текст. Но не просто проговаривающая, а с той интонацией и тем голосом, которые зададите вы. Поиграться уже можно здесь www.openai.fm/

🔷 Ну и новая либа для агентов Agents SDK теперь тоже поддерживает аудио, так что с этого дня там можно создавать всякие говорящие штуки.

openai.com/index/introducing-our-next-generation-audio-models/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥2716
This media is not supported in your browser
VIEW IN TELEGRAM
«Мы не добъемся человеческого уровня интеллекта, просто масштабируя LLM. Этого не будет никогда, без вариантов»

Категоричный Лекун снова в здании: на своем новом интервью он в очередной раз заявил, что LLM сегодня – это просто попугаи с огромной памятью, которые не приведут нас к AGI.

«Может показаться, что ты разговариваешь с PhD. Но это не так. Это просто машина со способностями повторять, она не сможет изобрести решение для новой проблемы»


😭
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍231💯82🤔36🔥14🤪1310😁8🤯3💋3🗿3🙈2
Google отдали исходный код сетки AlexNet в музей

AlexNet был изобретен в 2012 Ильей Суцкевером, Джеффри Хинтоном и Алексом Крижевским. Модельку обучили всего на двух видеокартах прямо в спальне у Алекса (отсюда и название).

Оригинальная работа называется "ImageNet Classification with Deep Convolutional Neural Networks", и она действительно стала исторической и на тот перевернула компьютерное зрение. Сегодня это одна из самых цитируемых статей в мире.

И вот спустя 13 лет Google опенсорсят исходный код. И не просто опенсорсят, а отдают его в музей Computer History Museum (CHM). Над этим релизом музей совместно с Google работали пять лет, собирая по кусочкам именно те скрипты, написанные первооткрывателями. Теперь все лежит в репозитории тут, и можно прикоснуться к истории.

Экспонат который мы заслужили
❤‍🔥160🔥4729👍19🤔6😐6👨‍💻2😁1
Даже поддержка Cursor не была к такому готова

Здоровья этому проекту, вайб-кодерам сочувствуем 🫡
😁280🫡53🔥17👍62🕊2
This media is not supported in your browser
VIEW IN TELEGRAM
Робот подарил CEO Nvidia новую кожанку

Такое вот видео запостил в Твиттере робо-стартап 1X. Тут их робот NEO дарит Дженсену Хуангу новую куртку. И вы только посмотрите, какие details, какой fabric 💅

Ладно, если серьезно, подарки конечно неспроста: Nvidia и 1X объявили о сотрудничестве. И оказывается, ту новую модель GROOT N1, на которой работал милейший робот с конференции Nvidia (пост-разбор) они тоже создавали вместе. 1Х собирали почти все данные, на которых обучался GROOT, а также тестировали систему.

Хотя, помимо этого, известно, что 1Х также создают и собственную модельку для своих гуманоидов. А еще как раз сегодня стартап объявил, что готов тестировать своих роботов в реальных условиях, и в 2025 планирует продать несколько сотен экземпляров первым пользователям.
Please open Telegram to view this post
VIEW IN TELEGRAM
56😁38👍19🔥9🤗3🤔1
Интересная (и неочевидная) мысль от Андрея Карпаты: кнопка "Новый диалог" в чат-ботах – не что иное, как костыль

В перспективе мы не должны каждый раз переходить в новый чат. Вместо этого, по идее, должен быть один бесконечный диалог. Как с человеком.

Сейчас это не реализовано нигде, по простой причине: у такой системы должно быть бесконечное контекстное окно или, иными словами, хорошо развитая долгосрочная и краткосрочная память. А мы пока так не умеем (хотя Альтман когда-то обещал бесконечный контекст). И вообще тут много нюансов:

Скорость и цена инференса
Способности (будет ли механизм внимания насколько же эффективным на действительно огромных последовательностях?)
Много шумных данных (тоже к вопросу перформанса)
Несоответствие данных на трейне и тесте. Очень сложно обучать instruct модели на многомиллионных последовательностях токенов.
А размечать такие данные вообще почти невозможно

... и все же тема занятная. Интересно, когда индустрия доберется до какого-нибудь приемлемого решения.

think about it
Please open Telegram to view this post
VIEW IN TELEGRAM
116👍52🤔21🔥6😁2❤‍🔥1🤯1💯1
У Google вышло очень занятное исследование: они сравнили, как LLM и человеческий мозг обрабатывают язык

В качестве LM взяли Whisper, а нейронную активность человека записывали с помощью интракраниальных электродов во время спонтанных разговоров. Затем векторы эмбеддингов модельки наложили на векторы паттернов мозга и оценили линейную зависимость. Вот что получилось:

Соответствие удивительно четкое и геометрия эмбеддингов в LLM (то есть отношения между словами в embedding-пространстве) соотносится с представлениями в мозге.

Во время слушания Speech-эмбеддинги явно коррелируют с активностью в слуховой коре (верхняя височная извилина), затем language-эмбеддинги коррелируют с активностью в зоне Брока (нижняя лобная извилина).

Во время говорения – наоборот. Language-эмбеддинги сначала "активируются" в зоне Брока (планирование высказывания), затем speech-эмбеддинги активируются в моторной коре (непосредственно говорение), и в конце снова в слуховой коре при восприятии собственной речи.

Это удивительно, потому что технически мозг и LLM используют разные подходы. Да, и там и там нейроны, но в науке принято считать, что мозг "использует" символьный подход, то есть полагается на четкие семанические структуры, синтаксис и иерархию слов. В модельках такого нет, они понимают язык статистически.

И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.

research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1123🔥74🤔34👍22🤯12👏6❤‍🔥4😁4🤓4🌚1💯1
SORA внезапно стала самым дешевым безлимитным видеогеном на рынке

OpenAI объявили о том, что отменяют все лимиты на SORA и дают безлимитный доступ всем платным юзерам (включая подписку плюс за 20 долларов).

Это редкость на рынке генераторов видео. Обычно все подписки имеют лимиты, безлимитку не предлагает почти никто. Самый дешевый такой план – у Runway, 99$.

Порадовали
👍122🔥6518😐6🤔2
Редкие кадры: два вайб-кодера пишут свое приложение

Дикая природа удивительна
😁362❤‍🔥34🤪299🙈8🔥6💯3🍌2👍1
Anthropic показывают что-то новенькое для рынка API: они добавили в Claude инструмент "think"

И это не обычный ризонинг типа функции "extended thinking", который представлен у других вендоров. Это специальный режим для сложных агентских задач, в которых модель ходит в интерпертатор / интернет / базу данных.

Обычно в таких сценариях больше ошибок, потому что модельки не пересматривают исходный "план действий" после получения промежуточных результатов и действуют сломя голову.

А тут агент специально делает паузу посреди цепочки действий, отдельно анализирет сложившуюся ситуацию и думает, не стоит ли пересмотреть свой план, достаточно ли данных для дальнейших действий, все ли правильно на текущей итерации и тд.

По тестам из релиза метрика pass^k (все решения задачи из k попыток успешны) выросла на 54%, то есть модель стала заметно надежнее. Дополнительных денег инструмент не стоит, затраты вырастут только за счет роста количества выходных токенов. Так что в сложных многоходовочках – то что нужно.

www.anthropic.com/engineering/claude-think-tool
👍138🔥5513🤔31💯1
AI-агенты на практике без поверхностного хайпа

Наши друзья из Школы Высшей Математики снова проводят крутой открытый вебинар на актуальную тему. На этот раз разбирают AI-агентов. Будет все по полочкам:

Что такое агенты, чем они отличаются от LLM и чат-ботов
Как они устроены под капотом
Последние тенденции и действительно важные разработки
Как на самом деле агентов можно и нельзя применить в бизнесе
В конце – самое интересное. Практический гайд по разработке: с лекции уйдете с собственным агентом на LangGraph.

Спикеры – ML Engineer из Sber CIB Фёдор Азаров и к.ф.-м.н. и руководитель ШВМ Александр Лыков.

Все пройдет 26 марта в 18:15. Регистрируемся – здесь.

P.S. Больше информации о вебинаре и других полезных ML-материалов – в тг-канале ШВМ, сохраняйте.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25👍158😐5🌭4🔥1