Дождались: Google представляют свою ризонинг-модель Gemini 2.0 Flash Thinking Experimental
Она уже доступна на AI Studio. В системной карте написано, что это «лучшая модель для мультимодального понимания, сложных рассуждений и кодинга». Контекст пока маленький – 32к токенов. Зато не скрыты цепочки рассуждений.
Бенчмарки уже есть: на арене модель с третьего вышла сразу на первое место (Vision, Math и Hard Prompt тоже #1!)
🤩
Она уже доступна на AI Studio. В системной карте написано, что это «лучшая модель для мультимодального понимания, сложных рассуждений и кодинга». Контекст пока маленький – 32к токенов. Зато не скрыты цепочки рассуждений.
Бенчмарки уже есть: на арене модель с третьего вышла сразу на первое место (Vision, Math и Hard Prompt тоже #1!)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥49👍16❤9🏆3🤝3☃1😁1🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
Google во время «дней OpenAI»: без лишнего хайпа релизят Gemini 2, Gemini Thinking, Veo-2, Willow…
Также OpenAI на своих стримах, выкатив только сору и full o1:
P.S. Неужели сегодня от Альтмана даже не будет ответки на гугловского ризонера?😭
Также OpenAI на своих стримах, выкатив только сору и full o1:
P.S. Неужели сегодня от Альтмана даже не будет ответки на гугловского ризонера?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁65☃12👍6
The Information: OpenAI сегодня собираются релизить модель o3
Но куда делась o2, спросите вы? Оказывается, дело в том, что в Британии есть телекоммуникационная компания o2, и стартап боится конфликта трейдмарок.
А еще вчера в X Сэм Альтман твитнул "ho-ho-ho", и заядлые конспирологи уже надумали, что ho-ho-ho –> o+o+o –> o3🤔
Что ж, надеемся и верим
Но куда делась o2, спросите вы? Оказывается, дело в том, что в Британии есть телекоммуникационная компания o2, и стартап боится конфликта трейдмарок.
А еще вчера в X Сэм Альтман твитнул "ho-ho-ho", и заядлые конспирологи уже надумали, что ho-ho-ho –> o+o+o –> o3
Что ж, надеемся и верим
Please open Telegram to view this post
VIEW IN TELEGRAM
❤76🔥22👍12🤯2
Hugging Face тоже принесли небольшой, но очень забавный подарок на Новый Год: интерфейс, в котором можно посмотреть годовую статистику активности любого пользователя
Например, с аккаунта huggingface было загружено 45722 модели и более 3 млн датасетов (кто больше?), а самым залайканным их постом стал Open-source AI: year in review 2024🍿
https://huggingface.co/spaces/burtenshaw/recap
Например, с аккаунта huggingface было загружено 45722 модели и более 3 млн датасетов (кто больше?), а самым залайканным их постом стал Open-source AI: year in review 2024
https://huggingface.co/spaces/burtenshaw/recap
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤7🔥4
Anthropic выпустили очередной интересный материал. Тема, на этот раз, "Как построить эффективного агента"
Вокруг все только и говорят, что об агентном подходе, но мало кто на самом деле объясняет, что этот агентный подход из себя представляет. Правда, кроме всей шумихи, что это такое на самом деле, какой у таких систем дизайн, и как их создавать? Материал Anthropic как раз об этом. TLDR:
Во-первых, чем отличаются агенты от воркфлоу? Воркфлоу — это предопределенные сценарии, где правила взаимодействия систем прописаны. Например, интеграция модельки в какое-то приложение – это воркфлоу, а не агент. Агенты управляют процессом сами, выбирая инструменты и принимая решения по ходу дела.
Во-вторых, использовать агентов вообще нужно далеко не всегда, а только если прописать сценарий заранее невозможно. Агенты гибкие, но за это придется платить и монетой, и временем.
В-третьих, агент – это не какая-то магия, обычно построить их можно но основе простых паттернов. В статье перечисляют такие:
➡️ Prompt chaining: что-то среднее между агентом и воркфлоу с ризонингом. Есть последовательное выполнение шагов, и каждый шаг проверяется на корректность, но гибкость тоже присутствует за счет появления гейта (программируемые проверки, которые модель устраивает сама себе).
➡️ Routing: разные типы запросов отправляются по разным тропинкам. Сам роутер – тоже отдельная модель.
➡️ Parallelization: делим задачу на части и делегируем разным экземплярам или даем решать всем одно и то же а потом аггрегируем другой моделью.
➡️ Orchestrator-workers: это уже корпоративная структура, в которой есть центральные агенты-менеджеры, которые распределяет работу по другим и аггрегируют результаты.
➡️ Evaluator-optimizer: модель генерирует ответ, затем другая модель дает фидбэк и/или улучшает его и так по кругу. Похоже на смесь ризонинга и RL.
Вот это все – базовые строительные блоки. Берите их, адаптируйте, комбинируйте, и получайте хорошее решение для вашей задачки. Главное правило — не усложнять просто чтобы усложнить. Anthropic подчеркивают, что хорошие агенты – это прозрачность, простота и приятный не галлюцинирующий ACI.
Конечно, еще есть автономные агенты, к которым мы все стремимся, но это уже другая история...
Ну вот, теперь туманность и завеса тайны вокруг агентов немного рассеялись и вы знаете о них чуть больше, а полностью текст читаем тут
Вокруг все только и говорят, что об агентном подходе, но мало кто на самом деле объясняет, что этот агентный подход из себя представляет. Правда, кроме всей шумихи, что это такое на самом деле, какой у таких систем дизайн, и как их создавать? Материал Anthropic как раз об этом. TLDR:
Во-первых, чем отличаются агенты от воркфлоу? Воркфлоу — это предопределенные сценарии, где правила взаимодействия систем прописаны. Например, интеграция модельки в какое-то приложение – это воркфлоу, а не агент. Агенты управляют процессом сами, выбирая инструменты и принимая решения по ходу дела.
Во-вторых, использовать агентов вообще нужно далеко не всегда, а только если прописать сценарий заранее невозможно. Агенты гибкие, но за это придется платить и монетой, и временем.
В-третьих, агент – это не какая-то магия, обычно построить их можно но основе простых паттернов. В статье перечисляют такие:
Вот это все – базовые строительные блоки. Берите их, адаптируйте, комбинируйте, и получайте хорошее решение для вашей задачки. Главное правило — не усложнять просто чтобы усложнить. Anthropic подчеркивают, что хорошие агенты – это прозрачность, простота и приятный не галлюцинирующий ACI.
Конечно, еще есть автономные агенты, к которым мы все стремимся, но это уже другая история...
Ну вот, теперь туманность и завеса тайны вокруг агентов немного рассеялись и вы знаете о них чуть больше, а полностью текст читаем тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍56❤14👏7🔥3
Большому бизнесу — большая LLM: MTS AI готовит релиз новой корпоративной языковой модели.
На рынок ее обещают выпустить уже в первом квартале 2025 года, отметил председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.
Cotype уже заняла второе место в рейтинге бенчмарка MERA. Первое место забрал GPT4o. Причем в некоторых категориях разработка МТС даже превосходит OpenAI. Например, она лучше понимает и интерпретирует текст, умеет связывать факты, а также показывает более широкий уровень «кругозора».
Модель можно быстро развернуть в контуре любой компании — она поставляется с API. С ней бизнес получает возможность автоматизировать рутинные процессы и адаптировать инструменты для работы с большими данными.
Сотрудники уже дали фидбэк о работе нового продукта. Системы умного поиска экономят до 4 часов рабочего времени операторов службы поддержки — им не приходится искать ответы вручную.
Активно разворачивается резюмирование аудио- и видеозаписей. Началось тестирование этой функции в медучреждениях для быстрого структурирования беседы врача и пациента.
На рынок ее обещают выпустить уже в первом квартале 2025 года, отметил председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.
Cotype уже заняла второе место в рейтинге бенчмарка MERA. Первое место забрал GPT4o. Причем в некоторых категориях разработка МТС даже превосходит OpenAI. Например, она лучше понимает и интерпретирует текст, умеет связывать факты, а также показывает более широкий уровень «кругозора».
Модель можно быстро развернуть в контуре любой компании — она поставляется с API. С ней бизнес получает возможность автоматизировать рутинные процессы и адаптировать инструменты для работы с большими данными.
Сотрудники уже дали фидбэк о работе нового продукта. Системы умного поиска экономят до 4 часов рабочего времени операторов службы поддержки — им не приходится искать ответы вручную.
Активно разворачивается резюмирование аудио- и видеозаписей. Началось тестирование этой функции в медучреждениях для быстрого структурирования беседы врача и пациента.
👍35🤨20❤4🔥4🙈2🗿2😁1🤔1🤪1
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄45😁34❤4👍4🤔1🤯1🍓1
Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только демо и предварительные метрики, но они поражают.
o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!
И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов (пост)? На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!
Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно).
Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.
Еще хвастаются своим alignment'ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ для тестирования безопасности. На всех раскатят в январе.
Ну а теперь AGI?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤87😁22🤯14👍8🔥7🌭2
Ну вот и закончились 12 дней OpenAI. SORA, o1, o3, обновления в API... перечислим все еще раз?
Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.
С пылу с жару: https://habr.com/ru/news/868522/
Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.
С пылу с жару: https://habr.com/ru/news/868522/
❤🔥39👍16❤5🤔1
Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.
Лица инвесторов представили?
Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.
P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
Лица инвесторов представили?
Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.
P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
👍82🤯16❤9🔥8😁5
В качестве праздничного бонуса накануне Рождества SORA становится доступна всем подписчикам плюса безлимитно (до этого было 50 генераций). Отрубят после праздников
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾68🎅19👍9🎄9🔥5
Фаундер и CTO Hugging Face рассказал, что история компании началась на курсе Stanford CS224N по глубокому обучению
Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.
Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте
Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.
Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте
❤124👍24🤗19😎3
Media is too big
VIEW IN TELEGRAM
Ян Лекун вчера, оказывается, выступал в Совете ООН. Вещал про ИИ
Лучшее в этом всем –его бабочка
«ИИ кардинально изменит мир в ближайшие годы, усилив человеческий интеллект, ускорив прогресс в науке, решив проблемы старения и сокращения населения. Он превзойдет интеллектуальные возможности человека и станет сверхразумом, который приведет человечество к новому Возрождению и периоду просвещения.
Эти сверхразумные системы будут выполнять наши приказы и оставаться под нашим контролем. Нет никаких доказательств того, что они могут быть опасны»
Лучшее в этом всем –
😁108👍39🤔11🦄7❤4💯4🔥3🤨3❤🔥2🤯2🗿1