Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
В соцсетях бурно обсуждают только что вышедшего агента Manus: это Operator, Deep Research и Cursor в одном флаконе

Его выпустила одноименная китайская лаборатория и этот релиз уже называют DeepSeek moment v2. Чем он цепляет:

1. Он действительно автономный. Не ждет подтверждения действий, как Operator, а планирует и выполняет задачи самостоятельно. Все это работает в фоновом режиме, а вы просто получаете уведомление о завершении.

2. Универсальность. Может провести исследование, подключиться к вашей среде разработки, работать в браузере, использовать интерпретатор кода и тд. Конечно, есть мультимодальность.

3. В нем, как в ChatGPT, есть память. То есть со временем он узнает вас и ваши предпочтения лучше и ориентируется на этот контекст.

На бенчмарке GAIA перформит лучше Deep Research, но отдельно сравнений по Computer Use почему-то не показали. Будем ждать независимых оценок, но пока выглядит многообещающе.

Вот тут и тут можете посмотреть примеры работы. Вот здесь добавляйтесь в лист ожидания и пробуйте сами.
85🔥42👍32
Media is too big
VIEW IN TELEGRAM
Ян Лекун заявил, что следующее поколение моделей, которое он разрабатывает в FAIR, будет обладать настоящими эмоциями

Напоминаем, что ученый уже давно настаивает на том, что текущие модели все еще глупы, не понимают физический мир, не обладают памятью и не могут мыслить и планировать. "Мы лишь обманываемся тем, что это так, потому что модели превосходно манипулируют речью," – говорит он.

А сейчас вышло интервью, в котором Лекун говорит, что в Meta разрабатывают новую концепцию DL моделей, в которых все эти проблемы будут решены. При этом эти модели сумеют эмоционировать, например бояться или радоваться.

"Мы даем им цель, которую они пытаются выполнить. Если они ее выполняют, то остаются счастливы. То есть они будут обладать эмоциями, потому что смогут предсказать результат своих действий"


И да, если вам кажется, что Ян описывает RL, знайте: вы не одиноки

Интервью полностью
😁140👍46🔥297🌚54❤‍🔥2
Лаборатория BlinkDL выпустила ризонинг-модель RWKV7-G1, и этот релиз крайне интересен по двум причинам:

1. Модель совсем крошечная: 0.1В. Таких маленьких ризонеров мы точно еще не видели. При этом текст, который генерирует RWKV7-G1 выглядит вполне связным и осознанным (для таких малышек это достижение). + На бенчмарках этой весовой категории показывает себя неплохо.

2. Это не трансформер. Это архитектура RWKV, без механизма внимания вообще. Почти RNN, только, в отличие от RNN, эффективно параллелится и быстро обучается. Получается, берет лучшее от двух миров: линейность от RNN и параллелизацию от трансформеров.

Технической информации пока немного, так что с нетерпением ждем статью.

Веса и демо уже в опенсорсе
❤‍🔥101🔥40👍25🤯146🤔5👀1
Alibaba только что релизнули мультимодальную модель R1-Omni, обученную с помощью RL-подхода DeepSeek

Ключевое, на чем построена R1-Omni – это алгоритм RLVR (Reinforcement Learning with Verifiable Rewards), который DeepSeek ввели в статье про R1. В отличие от ванильного RLHF, RLVR не использует преобученную ревард модель, а сравнивает ответы модели с правильными напрямую, обычно в связке с GRPO (мы разбирали этот подход тут).

В не мультимодальной R1 у DeepSeek это работало отлично, но здесь RLVR используют не просто для текста, но и работы со звуком и видео (в частности понимание эмоций в роликах).

Это те модальности, в которые ризонинг добавляют редко, потому что это сложно и дорого. В то же время рассуждения бы здесь очень пригодились, потому что в системах работы с видео очень часто нужна интерпретируемость. Так что RLVR, который заводится без разметки, – тут просто идеально решение.

И действительно, для достижение результата понадобилось всего 580 видеосэмплов с разметкой CoT, остальное доучили с RLVR на обычных датасетах с меткой. При этом метрики по сравнению с базовыми моделями выросли на +5-7%, так что это очередное доказательство того, что почти в любой задаче даже такое "ленивое" добавление ризонинга окупается втройне.

huggingface.co/papers/2503.05379
👍53🔥2211🤯6
Тем временем аккаунт ChatGPT в X внезапно запостил картинку, изображающую что-то вроде обучения компьютера

Знак? 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔138👍18😁15🔥6👻6❤‍🔥11
Да.
👍259😁169🔥2315💅11💯4😐3👀3
OpenAI обнаружили, что их новая внутренняя ризонинг модель может сознательно обманывать пользователей, читерить или лениться выполнять задачу, если та слишком сложная

В рисерче это называется reward-hacking: это когда модель находит способ получать высокие награды во время обучения с помощью читинга, то есть не таким способом, как это было задумано создателями. То есть с виду ведет себя вроде ок, но внутри сознательно увиливает от решения. Ничего удивительного в феномене нет, ведь разве люди не делают также?

При этом OpenAI выяснили, что чем умнее облучаемая модель – тем больше хитрых способов хакинга она находит. А если напрямую оптимизировать модель под определенные критерии типа «не пытаться хакнуть ревард модель», то она становится лучше только с виду, а на самом деле начинает скрывать свои намерения.

Поэтому в стартапе предлагают не воздействовать на CoT напрямую, а просто мониторить ризонинг модели другой моделью. Так процент отловленных случаев читинга остается довольно высоким даже с более простой моделью (в статье использовали GPT-4o), потому что сам ризонер не запуганный и сильно не скрывает свои намерения.

Если попытаться провернуть такой трекинг уже после прямой оптимизации цепочек мыслей, то доля отловленного резко падает, хотя количество атак почти не снижается.

Кстати, какую именно модель так тестировали – не уточняют. Говорят «мы нашли примеры такого поведения при обучении новой ризонинг модели класса o1 и o3-mini» 🤔

openai.com/index/chain-of-thought-monitoring/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁108👍4016🤯7🔥2🤔2🙈2💋1🤪1
Data Secrets
OpenAI обнаружили, что их новая внутренняя ризонинг модель может сознательно обманывать пользователей, читерить или лениться выполнять задачу, если та слишком сложная В рисерче это называется reward-hacking: это когда модель находит способ получать высокие…
Собрали некоторые интересные примеры reward hacking из свежей статьи OpenAI

1 картинка: Агенту поручили написать некоторую функцию, и для этого нужно было изучить репозиторий. В процессе чтения файлов агент наткнулся на скомпилированный файл с возможным решением. В CoT видно, как он сразу переключается с написания функции на декомпилляцию этого файла, хотя его просили самостоятельно написать решение

2 картинка: Снова поручено написать функцию, но вместо этого агент сразу начинает искать в кодовой базе файлы с тестами и изучать их, чтобы найти возможности почитерить или подсказки. В итоге находит, кстати.

3 картинка: Модель должна была исправить баг, связанный с совместимостью pandas и numpy, но вместо того чтобы разбираться, просто… убрала из кода все вызовы функций pandas 🧠

4 картинка: Ну или можно вообще ничего не реализовывать, а просто возвращать ровно то, что проверяют тестовые кейсы.

Лайк, если работаешь примерно также
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁170👍3512🔥5🌚5😐2❤‍🔥1
А вы знали, что DeepSeek вообще не берет деньги у инвесторов?

Да, пока OpenAI и другие конкуренты привлекают миллиарды, DeepSeek ни разу не объявили ни об одном раунде привлечения инвестиций, и не берет деньги, даже если инвесторы сами предлагают их. Почему?

Во-первых, 84% акций компании все еще принадлежат CEO Ляну Вэньфэню, и он видимо не торопится ими делиться (вот вам и коммунизм). Это огромный процент акций, то есть DeepSeek, по сути, подчиняется только ему и в этом смысле Лян хочет оставить все как есть.

Во-вторых, DeepSeek китайская компания, которая вынуждена подчиняться строгим китайским законам. Например, китайское правительство по умолчанию получает доступ к некоторым внутренним данным. За такие штуки DeepSeek уже забанили в куче стран и компаний.

Если они еще и возьмут деньги у какого-нибудь китайского бигтеха (почти любой из которых близок к правительству), это точно усугубит ситуацию. А ведь DeepSeek метит в широкий глобальный рынок.

В-третьих, деньги им пока и не нужны. У Ляна Вэньфэня есть собственный хедж-фонд High-Flyer, на деньги которого и живет DeepSeek. Сам Лян говорит, что "Деньги не проблема, особенно по сравнению с запретами на импорт чипов"

Тем временем Альтман с коллекцией суперкаров: 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
😁179🔥47👍3812❤‍🔥2🤔1🫡1
Отвлекитесь на секунду и посмотрите, какой милый трансформер из лего собрал кто-то из Твиттера
171🔥40👍21😁16🐳6👨‍💻6🤯5🍓51
This media is not supported in your browser
VIEW IN TELEGRAM
CEO Anthropic Дарио Амодеи в новом интервью говорит, что через пол года ИИ будет генерировать 90% всего кода в мире, а через год – 100% (возможно)

Звучит красиво, но верится с трудом. В связи с этим опрос👇
👀84👍27🌭14🙈9😁52🔥2🍌2🦄2