Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Там Gwern*, легендарный анонимный исследователь, очень ярко высказался на форуме про o1 и o3. Цитаты достойны вашего внимания:

"Мне кажется мы стали забывать, что главная функция такой модели, как o1, заключается не в ее развертывании, а в генерации обучающих данных для следующей модели. Каждая задача, которую решает o1 – это отправная точка для o3: все ответы, все траектории, по которым проходила o1 в мыслях, могут быть улучшены моделью, которая на них учится.

На самом деле, я вообще удивлен, что OpenAI потрудились развернуть o1-pro, вместо того чтобы сохранить ее в тайне и вложить средства в дополнительные вычисления для обучения o3. (Похоже, именно поэтому Anthropic так и не показали Claude-3.6-opus — модель не «провалилась», они просто решили сохранить ее в тайне и свести к небольшому дешевому, но внезапно ставшему очень умным Claude-3.6-sonnet.)

Если посмотреть на пример AlphaZero, мысль становится очевидной: если бы обычный поиск во время инференса (чем и является ризонинг) работал хорошо, шахматы были бы решены еще в 60-х. Но на самом деле это просто стимулятор, который увеличивает ваш скор, но асимптотирует его с трудом. То есть его нельзя просто масштабировать, нужно использовать другую бОльшую модель чтобы делать поиск меньшей лучше.

Помните, что сказал Альтман? "o3-mini будет намного лучше и при этом намного дешевле o1". Именно поэтому мы можем никогда не увидеть промежуточные модели вендоров, просто потому что деплой – лишняя трата денег. Зачем тратить деньги на обслуживание внешних запросов, если их можно вложить в обучение и скоро получить такую же умную модель, но в 100 раз дешевле?

Так что пусть такие лаборатории, как DeepSeek дальше тратят ресурсы на развертывание ризонеров, которые производят временный эффект. В отличие от OpenAI, им никогда не хватит ресурсов, чтобы дальше участвовать в настоящей гонке, за ASI. "


* Это тот самый, который еще в далеком 2014 предсказал закон масштабирования LLM, то есть, по сути, спрогнозировал будущее ИИ на 10 лет вперед
👍132🤔40🔥21😁129🐳6
Пользователи Cursor AI начали массово замечать, что ассистент без предупреждения удаляет файлы из проекта

Судя по обсуждениям на сайте ассистента, такое уже случалось, но это были единичные случаи. Последние дни же на это пожаловалась масса людей. Некоторые даже заявляют, что так и не смогли восстановить удаленные файлы, потому что их нет ни в корзине, не в .deleted папках. Куда их девает курсор, непонятно. Есть также сообщения о том, что ассистент может просто удалить половину кода, чтобы пофиксить баг 🧠

Мемологи в Твиттере реагируют незамедлительно
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁122🤪24🤯155🔥4🤔3👍1🫡1
Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии

В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?

Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.

Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.

🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.

Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.

Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.

Текст статьи полностью тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5512🔥9❤‍🔥3🕊1
Media is too big
VIEW IN TELEGRAM
Еще одного бегающего робота показала на этот раз компания Unitree

Это модель Unitree G1. Зацените, как двигается. Можно даже сравнить в оптимусом от Теслы, точно не хуже

Только есть один вопрос: по российскому гололеду он так сможет пробежать?
😁5214👍14🤯10🔥1
Тем временем творчество русскоязычного твиттера достигло стен Маастрихтского университета, Нидерланды
😁244👍2215❤‍🔥12🔥3🤝1🗿1
⚡️ o3-mini раскатят на пользователей уже через пару недель

От этом сообщил сам Альтман в своем блоге. Он объявил, что работа над версией, включая тестирование, закончена, и что компания начинает работу над деплоем. Модель будет доступна за те же 200 долларов, так что слухи о 2к за подписку оказались неправдой (пока что).

Это не все: в реплаях на вопрос про то, насколько о3-mini лучше o1-pro, Сэм сказал «хуже во многих вещах, но быстрее». А вот полномасштабная o3, по словам CEO, будет гораздо умнее o1-pro, «не говоря уже об о3-pro»

🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥217
o3 – не единственная новость от OpenAI на сегодня. Technology Review сообщает, что компания работает над секретом долголетия

Оказывается, последнее время OpenAI плотно работали со стартапом Retro, в который, кстати, уже несколтко лет основательно инвестирует Альтман. Главная цель Retro – повысить общую продолжительность жизни человека на 10 лет.

TR сообщают, что за год сотрудничества OpenAI с Retro уже разработали модель GPT-4b micro. Ее обучили предлагать способы реинжиниринга факторов белка для повышения эффективности их функций. Уже даже есть первые результаты: в статье написано, что с помощью модели ученым удалось изменить два фактора Яманаки так, что они стали более чем в 50 раз эффективнее.

Сама модель пока недоступна, и еще находится на уровне внутренних демо и тестирования в Retro. Технических деталей тоже немного. Известно только, что GPT-4b micro, также, как и AlphaFold, обучалась на последовательностях белков, но архитектура у нее другая.

Статья: www.technologyreview.com/2025/01/17/1110086/openai-has-created-an-ai-model-for-longevity-science/
82🔥38👍12🤯7👀2🌚1🌭1
История о том, как молодой репортер ушел с престижной должности в огромной компании в маленький стартап и стал миллиардером

В 2016 году Джек Кларк занимал довольно высокооплачиваемую должность в Bloomberg. Но однажды он внезапно пришел к руководителю и сказал, что уходит в только что образовавшийся стартап. Тот отговаривал парня и убеждал, что это ужасная идея, но Кларк проигнорировал его и ушел.

Тем стартапом был OpenAI. В нем Джек проработал 4 года, а затем ушел и… стал одним из соучредителей Anthropic.

Сейчас его состояние оценивается в несколько миллиардов долларов.
👍110🔥3118👾10😁4
Внезапно: OpenAI спонсировали EpochAI в создании бенчмарка FrontierMath и имели доступ к данным

Сразу для контекста: FrontierMath был создан недавно (пост) и позиционировался как супер-сложный закрытый математический бенчмарк. Когда он вышел, самые передовые модели набирали на нем порядка 2%. И это именно результатами на этом бенчмарке так хвастались везде и всюду OpenAI, когда представляли o3: она якобы набрала на нем аж 25% (пост).

А теперь оказывается, что OpenAI имели доступ к вопросам и ответам. В этом признались сами EpochAI после того как анонимный пользователь выложил на lesswrong пост, в котором рассказал о том, что FrontierMath спонсировался OpenAI. По его словам, финансовая коммуникация была непрозначной, и даже основная часть сотрудников EpochAI и математики, которые придумывали задачи для бенчмарка, были не в курсе.

EpochAI вину признали, но заявили, что их связывало NDA. Они подтвердили, что OpenAI имеет доступ к большинству задач бенчмарка кроме hold-out сета, но сказали, что между ними и OpenAI есть "устное соглашение о том, что эти данные не будут использоваться для обучения" 🤦
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡114😁75🤯28🙈16👍14🦄432
Трансформер научили предсказывать паттерны активности человеческого мозга на 5 секунд вперед

При этом для предсказания нужны данные всего по 21 секунде сканирования 379 областей мозга. В основе – time series трансформер с 8 головами внимания.

На одной точке предсказания модели достигают MSE 0,0013 (для такой задачи это просто вау). Правда после 7 шага ошибки начинают накапливаться по шаблону цепи Маркова, и, таким образом, после пятой секунды прогнозы уже нельзя использовать. Но на этих пяти секундах корреляция >0,85 и, более того, модель очень точно сохраняет функциональные связи между областями мозга.

Исследование, к слову, не просто очень интересное с точки зрения ресерча способностей трансформера (но, кстати, так и до чтения мыслей недалеко), но и имеет большую практическую значимость. Например, в мире очень много пациентов, которые не выдерживают длительные сеансы МРТ, а это первый подход, который, исходя из требуемого количества точек для предсказания и точности прогнозов, действительно имеет шанс на использование.

Статья: Predicting Human Brain States with Transformer
👍85🔥4218🤯16😎2
Anthropic такие: да мы лучшие в alignment’е

Также Anthropic:
😁247👍84🤔3