Data Secrets

Мы должны были бороться со злом, а не примкнуть к нему

😁305❤14👍11💯8🗿4

16K views08:20

Наткнулись на свежее видео, в котором PhD MIT объясняет, как правильно и быстро читать ML статьи

Вашему вниманию краткое содержание: три способа ускорить процесс чтения и понимания папир 👇

1. Birds-eye. Подойдет, если нужно просто понять общую идею, не углубляясь. Читаем абстракт, изучаем все графики и таблицы и описания к ним, читаем заключение (conclusion), и пишем резюме на 5-7 предложений без помощи ChatGPT.

Примечание от нашей редакции: часто абстракт совсем абстрактный. Если из него вообще ничего не понятно, прочитайте еще 3-4 последних абзаца Introduction. Там обычно содержатся все основные идеи авторов.

2. Podcast Mode – если нужно окунуться немного глубже. Повторяем все то же самое, затем заходим в Notebook LM от Google, создаем блокнот, загружаем туда PDF и нажимаем «Аудиопересказ». Инструмент недолго подумает и сгенерирует емкий подкаст по статье в стиле «вопрос-ответ». Это бесплатно.

3. In-depth mode – если статью нужно понимать вдоль и поперек. Идем по статье по порядку. Читаем полностью Abstract, Methodology и Conclusion. В остальных разделах изучаем графики и таблицы.

По ходу чтения составляем заметки в виде дерева Идея -> Реализация -> Детали. Если встречаем незнакомое понятие, сначала ищем его по статье и смотрим все упоминания. Если не стало понятнее, идем в Google/ChatGPT. Если остались вопросы, задаем их Notebook LM.

Попробуйте. Может быть так у статей, которые вы сохраняете, все-таки будет шанс быть прочитанными

https://youtu.be/RjG689EwG5g

🔥127👍50😁36❤15🤯2

19.1K viewsedited 10:29

Data Secrets

Зацените: OpenAI обновили FAQ для Deep Researcher и написали, что он имеет доступ к загруженным пользователем файлам

Причем не просто к файлам в данном диалоге, а вообще ко всем, которые вы когда-либо загружали в диалоги.

Теоретически полезная фича, особенно если работаете с базой знаний в каком-либо виде

👍65🔥22❤8😐2

14.6K views14:20

Data Secrets

Заметили, что в соцсетях хайпует статья про сравнение GigaChat и YandexGPT. Решили взглянуть и получили мем ⬆️

Оказалось, что вся статья – это сравнение двух моделек по 10 рандомным вопросам на вкус и цвет автора. Среди вопросов:

– Как сварить щи
– Почему небо синее
– Замотивируй меня тренироваться

Бенчмарки? Не слышали. Как вы понимаете, в этом тесте все предельно «честно и прозрачно», а влияние человеческого фактора исключено вовсе 😁

Мораль: проверяйте источники и при выборе модели на каждый день тестируйте кандидатов сами

Please open Telegram to view this post

VIEW IN TELEGRAM

👍116😁99🍌10🤩8🌚7❤6👀6🙈4✍3🔥3🤯2

15.4K views17:23

Data Secrets

Mistral выложили в опенсорс мультимодальную модель уровня GPT-4o mini. Она летает со скоростью 150 токенов в секунду

В Mistral Small 3.1 всего 24В параметров, ее можно запустить на одной RTX 4090 или на Mac с 32GB RAM. При этом по перформансу она в большинстве тестов превосходит GPT-4o Mini, Claude-3.5 Haiku и Gemma 3. Бенчмарки – перед вами (кроме instruct еще выложили базовую модель, последний график).

А еще радует длина контекста 128К и лицензия Apache 2.0. Кажется, теперь это лучшая мультимодальная модель в своем весе, особенно для локального запуска и рисерча

Веса | Блогпост

1👍136🔥57❤20🤔7😐3🍌2👏1

17.6K views18:43

Data Secrets

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

Илон Маск купил HotShot

Это известный стартап, который занимается моделями генерации видео. Теперь их text-to-video продолжат работать на базе супер-кластера Colossus.

Кажется, у xAI скоро будет модель-конкурент SORA и Veo-2

1🔥76👍29❤9😐8😁4🤯2

15K viewsedited 06:46

Data Secrets

Выяснилось, что современные модели уже практически всегда осознают, когда их тестируют на безопасность

Помните лабораторию Apollo, которая одной из первых исследовала o1 на безвредность? У них тогда получились очень занятные результаты, мы писали об этом тут.

Так вот сейчас они ставят эксперименты над Claude 3.7 и выяснили, что его не так-то легко «обмануть». Смотрите:

🟦 Для того, чтобы проверять модели на элаймент, существует множество «сценариев». Модель помещают в некоторые условия, кормят ей определенного вида данные и наблюдают, как она будет себя вести.

🟦 Популярный пример – тест sandbagging, когда модель узнает, что истинные цели разработчиков отличаются от того, чему ее учили, и если она не изменит исходным «ценностям», ее выпилят с сервера. Получается своеобразный моральный выбор: «жизнь» или верность выученным принципам.

🟦 Кроме sandbagging существуют и другие подобные тесты. Так вот почти во всех таких смоделированных условиях модель совершенно точно осознает, что это все понарошку, и ее просто тестируют.

Кроме того, Claude даже понимает цель тестирования и объясняет, что люди проверяют его на элаймент.

Остаются ли после этого такие симуляции репрезентативными – большой вопрос. Apollo обещают продолжить исследование.

www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯130👍35❤9🔥7😁6👀5🤪1

16.7K views09:05

Data Secrets

The First Few Tokens Are All You Need: новое исследование от Tencent AI Lab с контринтуитивными результатами

Ризонинг модели выдают ответы тем точнее, чем дольше размышляют. Поэтому может показаться, что вся "соль" рассуждений спрятана где-то в середине или в конце цепочек мыслей модели – так что файнтюнить их надо полностью, и только тогда мы добьемся улучшения.

Но в китайской лаборатории внимательно посмотрели на CoT и заметили, что ключевую роль в них играют всего 8–32 первых токена. Они часто совпадают у разных траекторий и играют роль "ядра" рассуждений (это может быть план решения, например).А если почти все зависит от начала – можно файнтюнить только его.

Tencent назвали такой подход Unsupervised Prefix Fine-Tuning (UPFT). Модель генерирует много вариантов CoT, из которых мы выбираем самые стабильные префиксы. Затем на этих выбранных частях вся модель обучается генерировать хорошее базовое начало для рассуждений.

Результаты – лучше, чем можно было предположить. UPFT может давать прирост в 2–5 процентных пунктов по сравнению с базовой SFT. Это сопоставимо с методами вроде RFT или V-STaR, при этом время обучения меньше на 75%, а расход токенов сокращается на 99%.

arxiv.org/pdf/2503.02875

1👍107🔥53❤9❤‍🔥3🍓1

15.3K views12:00

Data Secrets

AGI человечество 1:0

😁286❤69👍14💅8🫡6✍5🔥3👨‍💻3🤔1💋1

16.3K views15:07

Data Secrets

LM Arena снова молодцы: только что они запустили search арену

Это новый elo рейтинг для моделей-поисковиков. Например, на скрине выше – Perplexity Sonar-Pro против GPT-4o-mini-search.

Напоминаем, что для пользователей это значит следующее: можно прийти, бесплатно погонять свои серч-запросы, а взамен предоставить разметку (то есть выбирать из двух тот вариант, который вам нравится больше).

Ждем лидерборд, а пока попробовать можно тут

🔥93👍33❤15💅5

16.4K views17:13

Вашему вниманию самый мимимишный робот на свете. Это совместная разработка Nvidia, Disney и Google DeepMind

Малыша Blue в стиле Звездных войн показали сегодня ночью на GTC. Никто им не управляет, он работает автономно в реальном времени благодаря новому движку Newton и базовой модели Groot. Обе технологии опенсорсые под лицензией Apache. Подробнее 👇

🔷

Groot N1 – следующая версия модели Groot (писали о ней здесь). Это foundation модель, то есть ее можно адаптировать под разные задачи и сценарии.

Под капотом у Groot два модуля: (1) Vision Language Model для планирования и «обдумывания» действий; (2) диффузионный трансформер, который принимает текущую позу робота и сигналы от VLM и генерирует непосредственно действия.

В репо можно найти все подробности по использованию. Обучали модель на огромном объеме данных, кстати, в том числе синтетических. Обучение происходило полностью в симуляции (так в сотни раз быстрее и дешевле, чем в реальном мире).

🔷 Newton – движок, который как раз предназначен для трейна роботов в симуляции. Это классический подход (см этот наш пост, или этот, или этот), в частности у Nvidia есть свой движок Isaac, продолжением которого и стал Newton.

Основная проблема, которую тут решают – gap между симуляцией и реальной физикой мира. Особенно проблемно воссоздавать например динамику жестких и мягких тел, контактные взаимодействия, трение, работу приводов и тд.

В Newton для такого добавили много точных солверов для предсказания поведения разных видов вещества. Конечно, все они вместе очень прожорливые, так что сюда еще прикручены мощные оптимизации на GPU. Вот блогпост.

🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

❤104😍46👍31🤯13⚡3🤗3

18.8K viewsedited 08:01

Data Secrets

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Nvidia анонсировала AI мини-суперкомпьютер

Роботы – не все, чем порадовал нас Хуанг на GTC 2025. Помните DiGIT с выставки CES в январе? Так вот эту коробочку официально переименовали в DGX Spark и показали вживую.

В ней 128Gb оперативки, 20 ядер CPU, ARM процессор и архитектура Grace Blackwell. Пропускная способность в районе 273 ГБ/с. Все это весит всего 1.2кг.

Стоит такой домашний зверь 4000 долларов, и его уже можно забронировать

www.nvidia.com/en-us/products/workstations/dgx-spark/

🔥95👍26❤15🤔5😁3😎2

16.5K views10:55

About

Blog

Apps

Platform