Дорогие наши DS-подписчицы!
Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.
А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!
Наша редакция от всей своей Data-души поздравляет вас с праздником! Желаем, чтобы скор вашего настроения рос, а лосс неудач падал.
А еще в честь праздника мы приготовили для вас фирменные открытки. Хватайте их и поздравляйте коллег и друзей!
❤115❤🔥30🔥18👍8💅7😐4💘1
Пользуясь случаем, делимся с вами полезной подборкой блогов / каналов / курсов по ИИ, созданных лучшими женщинами учеными и ML-разработчицами
🟦 Всеми любимый технический блог Лилиан Вэнг – исследовательницы из OpenAI, которая сейчас работает у Миры Мурати. Тут подробные объяснения концепций LLM, схемы, ссылки на актуальные статьи и многое другое. Наша любимая статья: Prompt Engineering (до того как это стало мейнстримом)
🟦 Блог и видеокурс Кэсси Козырков. Она бывшая главная специалистка по теории принятия решений на данных в Google (Chief Decision Scientist), а на сегоднящий день CEO Data Scientific. Известна своим активным блогом, прекрасным каналом на YouTube и бесплатным видеокурсом "Making Friends with ML".
🟦 Блог и огромный курс по NLP Лены Войты, из которого все всегда берут схемы и рисунки. Лена – Research Scientist в FAIR Meta, PhD и автор кучи статей. Если хотите с вероятностью 100% понять все главные концепции NLP – вам сюда.
🟦 YouTube-канал Джордан Харрод – докторантки MIT по нейронаукам. Тут и простые видео про то, как использовать ИИ в рутине, и обзоры новостей, и разборы статей, и объяснения сложных концепций ML простым языком. Однозначно рекомендуем.
🟦 Блог Рэйчел Томас – очень известной специалистки в области ML и соосновательницы образовательной платформы fast.ai. Она была включена в топ-20 женщин в ИИ по версии Forbes, а в своем блоге активно пишет об этике данных и прикладном ИИ в медицине и биологии.
Сохраняйте (и еще раз с 8 марта вас!)
Сохраняйте (и еще раз с 8 марта вас!)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥80👍27❤22😐7🤯2
Data Secrets
1. Mike (@m1ke000)
2. Alina (@avo_milas)
3. Никита (@diplodoczek)
4. Konstantin (@Konst_reborn)
5. Fdn (@ddmonstr456)
Please open Telegram to view this post
VIEW IN TELEGRAM
👏33👍13❤8🤯5🫡3🕊2🌭1
В соцсетях бурно обсуждают только что вышедшего агента Manus: это Operator, Deep Research и Cursor в одном флаконе
Его выпустила одноименная китайская лаборатория и этот релиз уже называют DeepSeek moment v2. Чем он цепляет:
1. Он действительно автономный. Не ждет подтверждения действий, как Operator, а планирует и выполняет задачи самостоятельно. Все это работает в фоновом режиме, а вы просто получаете уведомление о завершении.
2. Универсальность. Может провести исследование, подключиться к вашей среде разработки, работать в браузере, использовать интерпретатор кода и тд. Конечно, есть мультимодальность.
3. В нем, как в ChatGPT, есть память. То есть со временем он узнает вас и ваши предпочтения лучше и ориентируется на этот контекст.
На бенчмарке GAIA перформит лучше Deep Research, но отдельно сравнений по Computer Use почему-то не показали. Будем ждать независимых оценок, но пока выглядит многообещающе.
Вот тут и тут можете посмотреть примеры работы. Вот здесь добавляйтесь в лист ожидания и пробуйте сами.
Его выпустила одноименная китайская лаборатория и этот релиз уже называют DeepSeek moment v2. Чем он цепляет:
1. Он действительно автономный. Не ждет подтверждения действий, как Operator, а планирует и выполняет задачи самостоятельно. Все это работает в фоновом режиме, а вы просто получаете уведомление о завершении.
2. Универсальность. Может провести исследование, подключиться к вашей среде разработки, работать в браузере, использовать интерпретатор кода и тд. Конечно, есть мультимодальность.
3. В нем, как в ChatGPT, есть память. То есть со временем он узнает вас и ваши предпочтения лучше и ориентируется на этот контекст.
На бенчмарке GAIA перформит лучше Deep Research, но отдельно сравнений по Computer Use почему-то не показали. Будем ждать независимых оценок, но пока выглядит многообещающе.
Вот тут и тут можете посмотреть примеры работы. Вот здесь добавляйтесь в лист ожидания и пробуйте сами.
❤85🔥42👍32
Media is too big
VIEW IN TELEGRAM
Ян Лекун заявил, что следующее поколение моделей, которое он разрабатывает в FAIR, будет обладать настоящими эмоциями
Напоминаем, что ученый уже давно настаивает на том, что текущие модели все еще глупы, не понимают физический мир, не обладают памятью и не могут мыслить и планировать. "Мы лишь обманываемся тем, что это так, потому что модели превосходно манипулируют речью," – говорит он.
А сейчас вышло интервью, в котором Лекун говорит, что в Meta разрабатывают новую концепцию DL моделей, в которых все эти проблемы будут решены. При этом эти модели сумеют эмоционировать, например бояться или радоваться.
И да, если вам кажется, что Ян описывает RL, знайте: вы не одиноки
Интервью полностью
Напоминаем, что ученый уже давно настаивает на том, что текущие модели все еще глупы, не понимают физический мир, не обладают памятью и не могут мыслить и планировать. "Мы лишь обманываемся тем, что это так, потому что модели превосходно манипулируют речью," – говорит он.
А сейчас вышло интервью, в котором Лекун говорит, что в Meta разрабатывают новую концепцию DL моделей, в которых все эти проблемы будут решены. При этом эти модели сумеют эмоционировать, например бояться или радоваться.
"Мы даем им цель, которую они пытаются выполнить. Если они ее выполняют, то остаются счастливы. То есть они будут обладать эмоциями, потому что смогут предсказать результат своих действий"
Интервью полностью
😁140👍46🔥29❤7🌚5⚡4❤🔥2
Лаборатория BlinkDL выпустила ризонинг-модель RWKV7-G1, и этот релиз крайне интересен по двум причинам:
1. Модель совсем крошечная: 0.1В. Таких маленьких ризонеров мы точно еще не видели. При этом текст, который генерирует RWKV7-G1 выглядит вполне связным и осознанным (для таких малышек это достижение). + На бенчмарках этой весовой категории показывает себя неплохо.
2. Это не трансформер. Это архитектура RWKV, без механизма внимания вообще. Почти RNN, только, в отличие от RNN, эффективно параллелится и быстро обучается. Получается, берет лучшее от двух миров: линейность от RNN и параллелизацию от трансформеров.
Технической информации пока немного, так что с нетерпением ждем статью.
Веса и демо уже в опенсорсе
1. Модель совсем крошечная: 0.1В. Таких маленьких ризонеров мы точно еще не видели. При этом текст, который генерирует RWKV7-G1 выглядит вполне связным и осознанным (для таких малышек это достижение). + На бенчмарках этой весовой категории показывает себя неплохо.
2. Это не трансформер. Это архитектура RWKV, без механизма внимания вообще. Почти RNN, только, в отличие от RNN, эффективно параллелится и быстро обучается. Получается, берет лучшее от двух миров: линейность от RNN и параллелизацию от трансформеров.
Технической информации пока немного, так что с нетерпением ждем статью.
Веса и демо уже в опенсорсе
❤🔥101🔥40👍25🤯14❤6🤔5👀1
Alibaba только что релизнули мультимодальную модель R1-Omni, обученную с помощью RL-подхода DeepSeek
Ключевое, на чем построена R1-Omni – это алгоритм RLVR (Reinforcement Learning with Verifiable Rewards), который DeepSeek ввели в статье про R1. В отличие от ванильного RLHF, RLVR не использует преобученную ревард модель, а сравнивает ответы модели с правильными напрямую, обычно в связке с GRPO (мы разбирали этот подход тут).
В не мультимодальной R1 у DeepSeek это работало отлично, но здесь RLVR используют не просто для текста, но и работы со звуком и видео (в частности понимание эмоций в роликах).
Это те модальности, в которые ризонинг добавляют редко, потому что это сложно и дорого. В то же время рассуждения бы здесь очень пригодились, потому что в системах работы с видео очень часто нужна интерпретируемость. Так что RLVR, который заводится без разметки, – тут просто идеально решение.
И действительно, для достижение результата понадобилось всего 580 видеосэмплов с разметкой CoT, остальное доучили с RLVR на обычных датасетах с меткой. При этом метрики по сравнению с базовыми моделями выросли на +5-7%, так что это очередное доказательство того, что почти в любой задаче даже такое "ленивое" добавление ризонинга окупается втройне.
huggingface.co/papers/2503.05379
Ключевое, на чем построена R1-Omni – это алгоритм RLVR (Reinforcement Learning with Verifiable Rewards), который DeepSeek ввели в статье про R1. В отличие от ванильного RLHF, RLVR не использует преобученную ревард модель, а сравнивает ответы модели с правильными напрямую, обычно в связке с GRPO (мы разбирали этот подход тут).
В не мультимодальной R1 у DeepSeek это работало отлично, но здесь RLVR используют не просто для текста, но и работы со звуком и видео (в частности понимание эмоций в роликах).
Это те модальности, в которые ризонинг добавляют редко, потому что это сложно и дорого. В то же время рассуждения бы здесь очень пригодились, потому что в системах работы с видео очень часто нужна интерпретируемость. Так что RLVR, который заводится без разметки, – тут просто идеально решение.
И действительно, для достижение результата понадобилось всего 580 видеосэмплов с разметкой CoT, остальное доучили с RLVR на обычных датасетах с меткой. При этом метрики по сравнению с базовыми моделями выросли на +5-7%, так что это очередное доказательство того, что почти в любой задаче даже такое "ленивое" добавление ризонинга окупается втройне.
huggingface.co/papers/2503.05379
👍53🔥22❤11🤯6
Тем временем аккаунт ChatGPT в X внезапно запостил картинку, изображающую что-то вроде обучения компьютера
Знак?🤔
Знак?
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔138👍18😁15🔥6👻6❤🔥1❤1
OpenAI обнаружили, что их новая внутренняя ризонинг модель может сознательно обманывать пользователей, читерить или лениться выполнять задачу, если та слишком сложная
В рисерче это называется reward-hacking: это когда модель находит способ получать высокие награды во время обучения с помощью читинга, то есть не таким способом, как это было задумано создателями. То есть с виду ведет себя вроде ок, но внутри сознательно увиливает от решения. Ничего удивительного в феномене нет, ведь разве люди не делают также?
При этом OpenAI выяснили, что чем умнее облучаемая модель – тем больше хитрых способов хакинга она находит. А если напрямую оптимизировать модель под определенные критерии типа «не пытаться хакнуть ревард модель», то она становится лучше только с виду, а на самом деле начинает скрывать свои намерения.
Поэтому в стартапе предлагают не воздействовать на CoT напрямую, а просто мониторить ризонинг модели другой моделью. Так процент отловленных случаев читинга остается довольно высоким даже с более простой моделью (в статье использовали GPT-4o), потому что сам ризонер не запуганный и сильно не скрывает свои намерения.
Если попытаться провернуть такой трекинг уже после прямой оптимизации цепочек мыслей, то доля отловленного резко падает, хотя количество атак почти не снижается.
Кстати, какую именно модель так тестировали – не уточняют. Говорят «мы нашли примеры такого поведения при обучении новой ризонинг модели класса o1 и o3-mini»🤔
openai.com/index/chain-of-thought-monitoring/
В рисерче это называется reward-hacking: это когда модель находит способ получать высокие награды во время обучения с помощью читинга, то есть не таким способом, как это было задумано создателями. То есть с виду ведет себя вроде ок, но внутри сознательно увиливает от решения. Ничего удивительного в феномене нет, ведь разве люди не делают также?
При этом OpenAI выяснили, что чем умнее облучаемая модель – тем больше хитрых способов хакинга она находит. А если напрямую оптимизировать модель под определенные критерии типа «не пытаться хакнуть ревард модель», то она становится лучше только с виду, а на самом деле начинает скрывать свои намерения.
Поэтому в стартапе предлагают не воздействовать на CoT напрямую, а просто мониторить ризонинг модели другой моделью. Так процент отловленных случаев читинга остается довольно высоким даже с более простой моделью (в статье использовали GPT-4o), потому что сам ризонер не запуганный и сильно не скрывает свои намерения.
Если попытаться провернуть такой трекинг уже после прямой оптимизации цепочек мыслей, то доля отловленного резко падает, хотя количество атак почти не снижается.
Кстати, какую именно модель так тестировали – не уточняют. Говорят «мы нашли примеры такого поведения при обучении новой ризонинг модели класса o1 и o3-mini»
openai.com/index/chain-of-thought-monitoring/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁108👍40❤16🤯7🔥2🤔2🙈2💋1🤪1