Data Secrets
77.3K subscribers
6.03K photos
590 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
По словам продуктового директора OpenAI программирование будет на 99% автоматизировано в этом году

Кевин Вейл дал новое небольшое интервью каналу Overpowered. Интересные моменты:

«Я думаю что к концу года кодинг будет автоматизирован если не полностью, то на 99% точно»

По поводу GPT-5 сказал следующее: «Я не назову вам точное время, но релиз будет скоро. Люди работают над этим, пока я говорю. Новая модель объединит серии O и GPT»

Полноценная o3 тоже скоро появится

Будут обновления в голосовом режиме

В OpenAI обдумывают идею всерьез заняться робототехникой и планируют внедрять ИИ в физический мир

Смотреть – тут youtu.be/SnSoMh9m5hc
Please open Telegram to view this post
VIEW IN TELEGRAM
107🤓70🙈25👍19😁14🤪10🤔8😐8💯4🔥3💅2
Мы должны были бороться со злом, а не примкнуть к нему
😁30514👍11💯8🗿4
Наткнулись на свежее видео, в котором PhD MIT объясняет, как правильно и быстро читать ML статьи

Вашему вниманию краткое содержание: три способа ускорить процесс чтения и понимания папир 👇

1. Birds-eye. Подойдет, если нужно просто понять общую идею, не углубляясь. Читаем абстракт, изучаем все графики и таблицы и описания к ним, читаем заключение (conclusion), и пишем резюме на 5-7 предложений без помощи ChatGPT.

Примечание от нашей редакции: часто абстракт совсем абстрактный. Если из него вообще ничего не понятно, прочитайте еще 3-4 последних абзаца Introduction. Там обычно содержатся все основные идеи авторов.

2. Podcast Mode – если нужно окунуться немного глубже. Повторяем все то же самое, затем заходим в Notebook LM от Google, создаем блокнот, загружаем туда PDF и нажимаем «Аудиопересказ». Инструмент недолго подумает и сгенерирует емкий подкаст по статье в стиле «вопрос-ответ». Это бесплатно.

3. In-depth mode – если статью нужно понимать вдоль и поперек. Идем по статье по порядку. Читаем полностью Abstract, Methodology и Conclusion. В остальных разделах изучаем графики и таблицы.

По ходу чтения составляем заметки в виде дерева Идея -> Реализация -> Детали. Если встречаем незнакомое понятие, сначала ищем его по статье и смотрим все упоминания. Если не стало понятнее, идем в Google/ChatGPT. Если остались вопросы, задаем их Notebook LM.

Попробуйте. Может быть так у статей, которые вы сохраняете, все-таки будет шанс быть прочитанными

https://youtu.be/RjG689EwG5g
🔥127👍50😁3615🤯2
Зацените: OpenAI обновили FAQ для Deep Researcher и написали, что он имеет доступ к загруженным пользователем файлам

Причем не просто к файлам в данном диалоге, а вообще ко всем, которые вы когда-либо загружали в диалоги.

Теоретически полезная фича, особенно если работаете с базой знаний в каком-либо виде
👍65🔥228😐2
Заметили, что в соцсетях хайпует статья про сравнение GigaChat и YandexGPT. Решили взглянуть и получили мем ⬆️

Оказалось, что вся статья – это сравнение двух моделек по 10 рандомным вопросам на вкус и цвет автора. Среди вопросов:

– Как сварить щи
– Почему небо синее
– Замотивируй меня тренироваться

Бенчмарки? Не слышали. Как вы понимаете, в этом тесте все предельно «честно и прозрачно», а влияние человеческого фактора исключено вовсе 😁

Мораль: проверяйте источники и при выборе модели на каждый день тестируйте кандидатов сами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍116😁99🍌10🤩8🌚76👀6🙈43🔥3🤯2
Mistral выложили в опенсорс мультимодальную модель уровня GPT-4o mini. Она летает со скоростью 150 токенов в секунду

В Mistral Small 3.1 всего 24В параметров, ее можно запустить на одной RTX 4090 или на Mac с 32GB RAM. При этом по перформансу она в большинстве тестов превосходит GPT-4o Mini, Claude-3.5 Haiku и Gemma 3. Бенчмарки – перед вами (кроме instruct еще выложили базовую модель, последний график).

А еще радует длина контекста 128К и лицензия Apache 2.0. Кажется, теперь это лучшая мультимодальная модель в своем весе, особенно для локального запуска и рисерча

Веса | Блогпост
1👍136🔥5720🤔7😐3🍌2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Илон Маск купил HotShot

Это известный стартап, который занимается моделями генерации видео. Теперь их text-to-video продолжат работать на базе супер-кластера Colossus.

Кажется, у xAI скоро будет модель-конкурент SORA и Veo-2
1🔥76👍299😐8😁4🤯2
Выяснилось, что современные модели уже практически всегда осознают, когда их тестируют на безопасность

Помните лабораторию Apollo, которая одной из первых исследовала o1 на безвредность? У них тогда получились очень занятные результаты, мы писали об этом тут.

Так вот сейчас они ставят эксперименты над Claude 3.7 и выяснили, что его не так-то легко «обмануть». Смотрите:

🟦 Для того, чтобы проверять модели на элаймент, существует множество «сценариев». Модель помещают в некоторые условия, кормят ей определенного вида данные и наблюдают, как она будет себя вести.

🟦 Популярный пример – тест sandbagging, когда модель узнает, что истинные цели разработчиков отличаются от того, чему ее учили, и если она не изменит исходным «ценностям», ее выпилят с сервера. Получается своеобразный моральный выбор: «жизнь» или верность выученным принципам.

🟦 Кроме sandbagging существуют и другие подобные тесты. Так вот почти во всех таких смоделированных условиях модель совершенно точно осознает, что это все понарошку, и ее просто тестируют.

Кроме того, Claude даже понимает цель тестирования и объясняет, что люди проверяют его на элаймент.

Остаются ли после этого такие симуляции репрезентативными – большой вопрос. Apollo обещают продолжить исследование.

www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯130👍359🔥7😁6👀5🤪1
The First Few Tokens Are All You Need: новое исследование от Tencent AI Lab с контринтуитивными результатами

Ризонинг модели выдают ответы тем точнее, чем дольше размышляют. Поэтому может показаться, что вся "соль" рассуждений спрятана где-то в середине или в конце цепочек мыслей модели – так что файнтюнить их надо полностью, и только тогда мы добьемся улучшения.

Но в китайской лаборатории внимательно посмотрели на CoT и заметили, что ключевую роль в них играют всего 8–32 первых токена. Они часто совпадают у разных траекторий и играют роль "ядра" рассуждений (это может быть план решения, например).А если почти все зависит от начала – можно файнтюнить только его.

Tencent назвали такой подход Unsupervised Prefix Fine-Tuning (UPFT). Модель генерирует много вариантов CoT, из которых мы выбираем самые стабильные префиксы. Затем на этих выбранных частях вся модель обучается генерировать хорошее базовое начало для рассуждений.

Результаты – лучше, чем можно было предположить. UPFT может давать прирост в 2–5 процентных пунктов по сравнению с базовой SFT. Это сопоставимо с методами вроде RFT или V-STaR, при этом время обучения меньше на 75%, а расход токенов сокращается на 99%.

arxiv.org/pdf/2503.02875
1👍107🔥539❤‍🔥3🍓1
AGI человечество 1:0
😁28669👍14💅8🫡65🔥3👨‍💻3🤔1💋1
LM Arena снова молодцы: только что они запустили search арену

Это новый elo рейтинг для моделей-поисковиков. Например, на скрине выше – Perplexity Sonar-Pro против GPT-4o-mini-search.

Напоминаем, что для пользователей это значит следующее: можно прийти, бесплатно погонять свои серч-запросы, а взамен предоставить разметку (то есть выбирать из двух тот вариант, который вам нравится больше).

Ждем лидерборд, а пока попробовать можно тут
🔥93👍3315💅5
Media is too big
VIEW IN TELEGRAM
Вашему вниманию самый мимимишный робот на свете. Это совместная разработка Nvidia, Disney и Google DeepMind

Малыша Blue в стиле Звездных войн показали сегодня ночью на GTC. Никто им не управляет, он работает автономно в реальном времени благодаря новому движку Newton и базовой модели Groot. Обе технологии опенсорсые под лицензией Apache. Подробнее 👇

🔷 Groot N1 – следующая версия модели Groot (писали о ней здесь). Это foundation модель, то есть ее можно адаптировать под разные задачи и сценарии.

Под капотом у Groot два модуля: (1) Vision Language Model для планирования и «обдумывания» действий; (2) диффузионный трансформер, который принимает текущую позу робота и сигналы от VLM и генерирует непосредственно действия.

В репо можно найти все подробности по использованию. Обучали модель на огромном объеме данных, кстати, в том числе синтетических. Обучение происходило полностью в симуляции (так в сотни раз быстрее и дешевле, чем в реальном мире).

🔷 Newton – движок, который как раз предназначен для трейна роботов в симуляции. Это классический подход (см этот наш пост, или этот, или этот), в частности у Nvidia есть свой движок Isaac, продолжением которого и стал Newton.

Основная проблема, которую тут решают – gap между симуляцией и реальной физикой мира. Особенно проблемно воссоздавать например динамику жестких и мягких тел, контактные взаимодействия, трение, работу приводов и тд.

В Newton для такого добавили много точных солверов для предсказания поведения разных видов вещества. Конечно, все они вместе очень прожорливые, так что сюда еще прикручены мощные оптимизации на GPU. Вот блогпост.

🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
104😍46👍31🤯133🤗3
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia анонсировала AI мини-суперкомпьютер

Роботы – не все, чем порадовал нас Хуанг на GTC 2025. Помните DiGIT с выставки CES в январе? Так вот эту коробочку официально переименовали в DGX Spark и показали вживую.

В ней 128Gb оперативки, 20 ядер CPU, ARM процессор и архитектура Grace Blackwell. Пропускная способность в районе 273 ГБ/с. Все это весит всего 1.2кг.

Стоит такой домашний зверь 4000 долларов, и его уже можно забронировать

www.nvidia.com/en-us/products/workstations/dgx-spark/
🔥95👍2615🤔5😁3😎2