Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Дождались: Google представляют свою ризонинг-модель Gemini 2.0 Flash Thinking Experimental

Она уже доступна на AI Studio. В системной карте написано, что это «лучшая модель для мультимодального понимания, сложных рассуждений и кодинга». Контекст пока маленький – 32к токенов. Зато не скрыты цепочки рассуждений.

Бенчмарки уже есть: на арене модель с третьего вышла сразу на первое место (Vision, Math и Hard Prompt тоже #1!)

🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥49👍169🏆3🤝31😁1🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
Google во время «дней OpenAI»: без лишнего хайпа релизят Gemini 2, Gemini Thinking, Veo-2, Willow…

Также OpenAI на своих стримах, выкатив только сору и full o1:

P.S. Неужели сегодня от Альтмана даже не будет ответки на гугловского ризонера? 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6512👍6
The Information: OpenAI сегодня собираются релизить модель o3

Но куда делась o2, спросите вы? Оказывается, дело в том, что в Британии есть телекоммуникационная компания o2, и стартап боится конфликта трейдмарок.

А еще вчера в X Сэм Альтман твитнул "ho-ho-ho", и заядлые конспирологи уже надумали, что ho-ho-ho –> o+o+o –> o3 🤔

Что ж, надеемся и верим
Please open Telegram to view this post
VIEW IN TELEGRAM
76🔥22👍12🤯2
Hugging Face тоже принесли небольшой, но очень забавный подарок на Новый Год: интерфейс, в котором можно посмотреть годовую статистику активности любого пользователя

Например, с аккаунта huggingface было загружено 45722 модели и более 3 млн датасетов (кто больше?), а самым залайканным их постом стал Open-source AI: year in review 2024 🍿

https://huggingface.co/spaces/burtenshaw/recap
Please open Telegram to view this post
VIEW IN TELEGRAM
👍297🔥4
Anthropic выпустили очередной интересный материал. Тема, на этот раз, "Как построить эффективного агента"

Вокруг все только и говорят, что об агентном подходе, но мало кто на самом деле объясняет, что этот агентный подход из себя представляет. Правда, кроме всей шумихи, что это такое на самом деле, какой у таких систем дизайн, и как их создавать? Материал Anthropic как раз об этом. TLDR:

Во-первых, чем отличаются агенты от воркфлоу? Воркфлоу — это предопределенные сценарии, где правила взаимодействия систем прописаны. Например, интеграция модельки в какое-то приложение – это воркфлоу, а не агент. Агенты управляют процессом сами, выбирая инструменты и принимая решения по ходу дела.

Во-вторых, использовать агентов вообще нужно далеко не всегда, а только если прописать сценарий заранее невозможно. Агенты гибкие, но за это придется платить и монетой, и временем.

В-третьих, агент – это не какая-то магия, обычно построить их можно но основе простых паттернов. В статье перечисляют такие:

➡️ Prompt chaining: что-то среднее между агентом и воркфлоу с ризонингом. Есть последовательное выполнение шагов, и каждый шаг проверяется на корректность, но гибкость тоже присутствует за счет появления гейта (программируемые проверки, которые модель устраивает сама себе).
➡️ Routing: разные типы запросов отправляются по разным тропинкам. Сам роутер – тоже отдельная модель.
➡️ Parallelization: делим задачу на части и делегируем разным экземплярам или даем решать всем одно и то же а потом аггрегируем другой моделью.
➡️ Orchestrator-workers: это уже корпоративная структура, в которой есть центральные агенты-менеджеры, которые распределяет работу по другим и аггрегируют результаты.
➡️ Evaluator-optimizer: модель генерирует ответ, затем другая модель дает фидбэк и/или улучшает его и так по кругу. Похоже на смесь ризонинга и RL.

Вот это все – базовые строительные блоки. Берите их, адаптируйте, комбинируйте, и получайте хорошее решение для вашей задачки. Главное правило — не усложнять просто чтобы усложнить. Anthropic подчеркивают, что хорошие агенты – это прозрачность, простота и приятный не галлюцинирующий ACI.

Конечно, еще есть автономные агенты, к которым мы все стремимся, но это уже другая история...

Ну вот, теперь туманность и завеса тайны вокруг агентов немного рассеялись и вы знаете о них чуть больше, а полностью текст читаем тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍5614👏7🔥3
Большому бизнесу — большая LLM: MTS AI готовит релиз новой корпоративной языковой модели.

На рынок ее обещают выпустить уже в первом квартале 2025 года, отметил председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.

Cotype уже заняла второе место в рейтинге бенчмарка MERA. Первое место забрал GPT4o. Причем в некоторых категориях разработка МТС даже превосходит OpenAI. Например, она лучше понимает и интерпретирует текст, умеет связывать факты, а также показывает более широкий уровень «кругозора».

Модель можно быстро развернуть в контуре любой компании — она поставляется с API. С ней бизнес получает возможность автоматизировать рутинные процессы и адаптировать инструменты для работы с большими данными.

Сотрудники уже дали фидбэк о работе нового продукта. Системы умного поиска экономят до 4 часов рабочего времени операторов службы поддержки — им не приходится искать ответы вручную.

Активно разворачивается резюмирование аудио- и видеозаписей. Началось тестирование этой функции в медучреждениях для быстрого структурирования беседы врача и пациента.
👍35🤨204🔥4🙈2🗿2😁1🤔1🤪1
😲😲😲
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄45😁344👍4🤔1🤯1🍓1
⚡️ Финальный день стримов: OpenAI анонсируют o3!

Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только демо и предварительные метрики, но они поражают.

o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!

И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов (пост)? На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!

Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно).

Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.

Еще хвастаются своим alignment'ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ для тестирования безопасности. На всех раскатят в январе.

Ну а теперь AGI?
Please open Telegram to view this post
VIEW IN TELEGRAM
87😁22🤯14👍8🔥7🌭2
Ну вот и закончились 12 дней OpenAI. SORA, o1, o3, обновления в API... перечислим все еще раз?

Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.

С пылу с жару: https://habr.com/ru/news/868522/
❤‍🔥39👍165🤔1
Модели OpenAI за последние пять лет на бенчмарке ARC-AGI

Этот тест на AGI сломался, несите новый
🤯109👍25🔥145🍓1
Тем временем акции Nvidia на фоне анонса o3
😁9615🔥13🤯6👍5
Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.

Лица инвесторов представили?

Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.

P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
👍82🤯169🔥8😁5
Для всех, кто ждал тринадцатый день календаря OpenAI: вы дождались

В качестве праздничного бонуса накануне Рождества SORA становится доступна всем подписчикам плюса безлимитно (до этого было 50 генераций). Отрубят после праздников
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾68🎅19👍9🎄9🔥5
Фаундер и CTO Hugging Face рассказал, что история компании началась на курсе Stanford CS224N по глубокому обучению

Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.

Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте
124👍24🤗19😎3
Media is too big
VIEW IN TELEGRAM
Ян Лекун вчера, оказывается, выступал в Совете ООН. Вещал про ИИ

«ИИ кардинально изменит мир в ближайшие годы, усилив человеческий интеллект, ускорив прогресс в науке, решив проблемы старения и сокращения населения. Он превзойдет интеллектуальные возможности человека и станет сверхразумом, который приведет человечество к новому Возрождению и периоду просвещения.

Эти сверхразумные системы будут выполнять наши приказы и оставаться под нашим контролем. Нет никаких доказательств того, что они могут быть опасны»


Лучшее в этом всем – его бабочка
😁108👍39🤔11🦄74💯4🔥3🤨3❤‍🔥2🤯2🗿1