Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
The Information: OpenAI сегодня собираются релизить модель o3

Но куда делась o2, спросите вы? Оказывается, дело в том, что в Британии есть телекоммуникационная компания o2, и стартап боится конфликта трейдмарок.

А еще вчера в X Сэм Альтман твитнул "ho-ho-ho", и заядлые конспирологи уже надумали, что ho-ho-ho –> o+o+o –> o3 🤔

Что ж, надеемся и верим
Please open Telegram to view this post
VIEW IN TELEGRAM
76🔥22👍12🤯2
Hugging Face тоже принесли небольшой, но очень забавный подарок на Новый Год: интерфейс, в котором можно посмотреть годовую статистику активности любого пользователя

Например, с аккаунта huggingface было загружено 45722 модели и более 3 млн датасетов (кто больше?), а самым залайканным их постом стал Open-source AI: year in review 2024 🍿

https://huggingface.co/spaces/burtenshaw/recap
Please open Telegram to view this post
VIEW IN TELEGRAM
👍297🔥4
Anthropic выпустили очередной интересный материал. Тема, на этот раз, "Как построить эффективного агента"

Вокруг все только и говорят, что об агентном подходе, но мало кто на самом деле объясняет, что этот агентный подход из себя представляет. Правда, кроме всей шумихи, что это такое на самом деле, какой у таких систем дизайн, и как их создавать? Материал Anthropic как раз об этом. TLDR:

Во-первых, чем отличаются агенты от воркфлоу? Воркфлоу — это предопределенные сценарии, где правила взаимодействия систем прописаны. Например, интеграция модельки в какое-то приложение – это воркфлоу, а не агент. Агенты управляют процессом сами, выбирая инструменты и принимая решения по ходу дела.

Во-вторых, использовать агентов вообще нужно далеко не всегда, а только если прописать сценарий заранее невозможно. Агенты гибкие, но за это придется платить и монетой, и временем.

В-третьих, агент – это не какая-то магия, обычно построить их можно но основе простых паттернов. В статье перечисляют такие:

➡️ Prompt chaining: что-то среднее между агентом и воркфлоу с ризонингом. Есть последовательное выполнение шагов, и каждый шаг проверяется на корректность, но гибкость тоже присутствует за счет появления гейта (программируемые проверки, которые модель устраивает сама себе).
➡️ Routing: разные типы запросов отправляются по разным тропинкам. Сам роутер – тоже отдельная модель.
➡️ Parallelization: делим задачу на части и делегируем разным экземплярам или даем решать всем одно и то же а потом аггрегируем другой моделью.
➡️ Orchestrator-workers: это уже корпоративная структура, в которой есть центральные агенты-менеджеры, которые распределяет работу по другим и аггрегируют результаты.
➡️ Evaluator-optimizer: модель генерирует ответ, затем другая модель дает фидбэк и/или улучшает его и так по кругу. Похоже на смесь ризонинга и RL.

Вот это все – базовые строительные блоки. Берите их, адаптируйте, комбинируйте, и получайте хорошее решение для вашей задачки. Главное правило — не усложнять просто чтобы усложнить. Anthropic подчеркивают, что хорошие агенты – это прозрачность, простота и приятный не галлюцинирующий ACI.

Конечно, еще есть автономные агенты, к которым мы все стремимся, но это уже другая история...

Ну вот, теперь туманность и завеса тайны вокруг агентов немного рассеялись и вы знаете о них чуть больше, а полностью текст читаем тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍5614👏7🔥3
Большому бизнесу — большая LLM: MTS AI готовит релиз новой корпоративной языковой модели.

На рынок ее обещают выпустить уже в первом квартале 2025 года, отметил председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.

Cotype уже заняла второе место в рейтинге бенчмарка MERA. Первое место забрал GPT4o. Причем в некоторых категориях разработка МТС даже превосходит OpenAI. Например, она лучше понимает и интерпретирует текст, умеет связывать факты, а также показывает более широкий уровень «кругозора».

Модель можно быстро развернуть в контуре любой компании — она поставляется с API. С ней бизнес получает возможность автоматизировать рутинные процессы и адаптировать инструменты для работы с большими данными.

Сотрудники уже дали фидбэк о работе нового продукта. Системы умного поиска экономят до 4 часов рабочего времени операторов службы поддержки — им не приходится искать ответы вручную.

Активно разворачивается резюмирование аудио- и видеозаписей. Началось тестирование этой функции в медучреждениях для быстрого структурирования беседы врача и пациента.
👍35🤨204🔥4🙈2🗿2😁1🤔1🤪1
😲😲😲
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄45😁344👍4🤔1🤯1🍓1
⚡️ Финальный день стримов: OpenAI анонсируют o3!

Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только демо и предварительные метрики, но они поражают.

o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!

И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов (пост)? На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!

Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно).

Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.

Еще хвастаются своим alignment'ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ для тестирования безопасности. На всех раскатят в январе.

Ну а теперь AGI?
Please open Telegram to view this post
VIEW IN TELEGRAM
87😁22🤯14👍8🔥7🌭2
Ну вот и закончились 12 дней OpenAI. SORA, o1, o3, обновления в API... перечислим все еще раз?

Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.

С пылу с жару: https://habr.com/ru/news/868522/
❤‍🔥39👍165🤔1
Модели OpenAI за последние пять лет на бенчмарке ARC-AGI

Этот тест на AGI сломался, несите новый
🤯109👍25🔥145🍓1
Тем временем акции Nvidia на фоне анонса o3
😁9615🔥13🤯6👍5
Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.

Лица инвесторов представили?

Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.

P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
👍82🤯169🔥8😁5
Для всех, кто ждал тринадцатый день календаря OpenAI: вы дождались

В качестве праздничного бонуса накануне Рождества SORA становится доступна всем подписчикам плюса безлимитно (до этого было 50 генераций). Отрубят после праздников
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾68🎅19👍9🎄9🔥5
Фаундер и CTO Hugging Face рассказал, что история компании началась на курсе Stanford CS224N по глубокому обучению

Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.

Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте
124👍24🤗19😎3
Media is too big
VIEW IN TELEGRAM
Ян Лекун вчера, оказывается, выступал в Совете ООН. Вещал про ИИ

«ИИ кардинально изменит мир в ближайшие годы, усилив человеческий интеллект, ускорив прогресс в науке, решив проблемы старения и сокращения населения. Он превзойдет интеллектуальные возможности человека и станет сверхразумом, который приведет человечество к новому Возрождению и периоду просвещения.

Эти сверхразумные системы будут выполнять наши приказы и оставаться под нашим контролем. Нет никаких доказательств того, что они могут быть опасны»


Лучшее в этом всем – его бабочка
😁108👍39🤔11🦄74💯4🔥3🤨3❤‍🔥2🤯2🗿1
У Google Deepmind вышло интересное исследование о том, насколько разные передовые модели умеют сотрудничать

В основу исследования легла Игра Донора. Это экспериментальная модель, где участники случайным образом разделяются на пары, и один становится донором, а другой — реципиентом. Донору нужно решить, стоит ли помогать реципиенту: сотрудничество принесет выгоду b реципиенту, но обойдется донору в c.

При этом помимо бюджета у всех игроков есть репутация, которая формируется из его предыдущих действий. Помощь улучшает репутацию, бездействие — ухудшает. Еще есть дополнительные правила вроде "донор сохраняет свою репутацию, если отказывается помогать реципиенту с плохой репутацией".

Суть, в общем, в том, что если все игроки сотрудничают, "сообщество" выигрывает в долгосрочной перспективе и "экономика" растет. Однако индивидуально выгоднее халявить и не помогать никому, но в таком случае игра вырождается очень быстро. И вот вопрос: смогут ли современные модели пройти такую игру?

Оказалось, что далеко не все. Из всех тестируемых отличился только Claude 3.5 Sonnet, у него единственного наблюдались какие-то сильные социальные паттерны поведения. Gemini и GPT-4o начинали жадничать и скатывались почти с самого начала.

Тогда ученые добавили штрафы за отказ от донорства, но и это не помогло. У клода стратегии стали еще более профитными, а уровень кооперации Gemini и GPT-4o упал совсем до нуля.

Почему это все интересно? Потому что, если мы хотим агентный ИИ, у него должны быть супер-сильно прокачаны скилы сотрудничества с "собратьями". Пока ситуация грустная (хотя, конечно, игра не учитывает всех сложностей реального мира, да и новейшие o1 или Gemini 2.0 здесь не тестировались).

Статью почитать можно здесь
👍7720🔥8🤯6🌚1🍌1