The Information: OpenAI сегодня собираются релизить модель o3
Но куда делась o2, спросите вы? Оказывается, дело в том, что в Британии есть телекоммуникационная компания o2, и стартап боится конфликта трейдмарок.
А еще вчера в X Сэм Альтман твитнул "ho-ho-ho", и заядлые конспирологи уже надумали, что ho-ho-ho –> o+o+o –> o3🤔
Что ж, надеемся и верим
Но куда делась o2, спросите вы? Оказывается, дело в том, что в Британии есть телекоммуникационная компания o2, и стартап боится конфликта трейдмарок.
А еще вчера в X Сэм Альтман твитнул "ho-ho-ho", и заядлые конспирологи уже надумали, что ho-ho-ho –> o+o+o –> o3
Что ж, надеемся и верим
Please open Telegram to view this post
VIEW IN TELEGRAM
❤76🔥22👍12🤯2
Hugging Face тоже принесли небольшой, но очень забавный подарок на Новый Год: интерфейс, в котором можно посмотреть годовую статистику активности любого пользователя
Например, с аккаунта huggingface было загружено 45722 модели и более 3 млн датасетов (кто больше?), а самым залайканным их постом стал Open-source AI: year in review 2024🍿
https://huggingface.co/spaces/burtenshaw/recap
Например, с аккаунта huggingface было загружено 45722 модели и более 3 млн датасетов (кто больше?), а самым залайканным их постом стал Open-source AI: year in review 2024
https://huggingface.co/spaces/burtenshaw/recap
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤7🔥4
Anthropic выпустили очередной интересный материал. Тема, на этот раз, "Как построить эффективного агента"
Вокруг все только и говорят, что об агентном подходе, но мало кто на самом деле объясняет, что этот агентный подход из себя представляет. Правда, кроме всей шумихи, что это такое на самом деле, какой у таких систем дизайн, и как их создавать? Материал Anthropic как раз об этом. TLDR:
Во-первых, чем отличаются агенты от воркфлоу? Воркфлоу — это предопределенные сценарии, где правила взаимодействия систем прописаны. Например, интеграция модельки в какое-то приложение – это воркфлоу, а не агент. Агенты управляют процессом сами, выбирая инструменты и принимая решения по ходу дела.
Во-вторых, использовать агентов вообще нужно далеко не всегда, а только если прописать сценарий заранее невозможно. Агенты гибкие, но за это придется платить и монетой, и временем.
В-третьих, агент – это не какая-то магия, обычно построить их можно но основе простых паттернов. В статье перечисляют такие:
➡️ Prompt chaining: что-то среднее между агентом и воркфлоу с ризонингом. Есть последовательное выполнение шагов, и каждый шаг проверяется на корректность, но гибкость тоже присутствует за счет появления гейта (программируемые проверки, которые модель устраивает сама себе).
➡️ Routing: разные типы запросов отправляются по разным тропинкам. Сам роутер – тоже отдельная модель.
➡️ Parallelization: делим задачу на части и делегируем разным экземплярам или даем решать всем одно и то же а потом аггрегируем другой моделью.
➡️ Orchestrator-workers: это уже корпоративная структура, в которой есть центральные агенты-менеджеры, которые распределяет работу по другим и аггрегируют результаты.
➡️ Evaluator-optimizer: модель генерирует ответ, затем другая модель дает фидбэк и/или улучшает его и так по кругу. Похоже на смесь ризонинга и RL.
Вот это все – базовые строительные блоки. Берите их, адаптируйте, комбинируйте, и получайте хорошее решение для вашей задачки. Главное правило — не усложнять просто чтобы усложнить. Anthropic подчеркивают, что хорошие агенты – это прозрачность, простота и приятный не галлюцинирующий ACI.
Конечно, еще есть автономные агенты, к которым мы все стремимся, но это уже другая история...
Ну вот, теперь туманность и завеса тайны вокруг агентов немного рассеялись и вы знаете о них чуть больше, а полностью текст читаем тут
Вокруг все только и говорят, что об агентном подходе, но мало кто на самом деле объясняет, что этот агентный подход из себя представляет. Правда, кроме всей шумихи, что это такое на самом деле, какой у таких систем дизайн, и как их создавать? Материал Anthropic как раз об этом. TLDR:
Во-первых, чем отличаются агенты от воркфлоу? Воркфлоу — это предопределенные сценарии, где правила взаимодействия систем прописаны. Например, интеграция модельки в какое-то приложение – это воркфлоу, а не агент. Агенты управляют процессом сами, выбирая инструменты и принимая решения по ходу дела.
Во-вторых, использовать агентов вообще нужно далеко не всегда, а только если прописать сценарий заранее невозможно. Агенты гибкие, но за это придется платить и монетой, и временем.
В-третьих, агент – это не какая-то магия, обычно построить их можно но основе простых паттернов. В статье перечисляют такие:
Вот это все – базовые строительные блоки. Берите их, адаптируйте, комбинируйте, и получайте хорошее решение для вашей задачки. Главное правило — не усложнять просто чтобы усложнить. Anthropic подчеркивают, что хорошие агенты – это прозрачность, простота и приятный не галлюцинирующий ACI.
Конечно, еще есть автономные агенты, к которым мы все стремимся, но это уже другая история...
Ну вот, теперь туманность и завеса тайны вокруг агентов немного рассеялись и вы знаете о них чуть больше, а полностью текст читаем тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍56❤14👏7🔥3
Большому бизнесу — большая LLM: MTS AI готовит релиз новой корпоративной языковой модели.
На рынок ее обещают выпустить уже в первом квартале 2025 года, отметил председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.
Cotype уже заняла второе место в рейтинге бенчмарка MERA. Первое место забрал GPT4o. Причем в некоторых категориях разработка МТС даже превосходит OpenAI. Например, она лучше понимает и интерпретирует текст, умеет связывать факты, а также показывает более широкий уровень «кругозора».
Модель можно быстро развернуть в контуре любой компании — она поставляется с API. С ней бизнес получает возможность автоматизировать рутинные процессы и адаптировать инструменты для работы с большими данными.
Сотрудники уже дали фидбэк о работе нового продукта. Системы умного поиска экономят до 4 часов рабочего времени операторов службы поддержки — им не приходится искать ответы вручную.
Активно разворачивается резюмирование аудио- и видеозаписей. Началось тестирование этой функции в медучреждениях для быстрого структурирования беседы врача и пациента.
На рынок ее обещают выпустить уже в первом квартале 2025 года, отметил председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.
Cotype уже заняла второе место в рейтинге бенчмарка MERA. Первое место забрал GPT4o. Причем в некоторых категориях разработка МТС даже превосходит OpenAI. Например, она лучше понимает и интерпретирует текст, умеет связывать факты, а также показывает более широкий уровень «кругозора».
Модель можно быстро развернуть в контуре любой компании — она поставляется с API. С ней бизнес получает возможность автоматизировать рутинные процессы и адаптировать инструменты для работы с большими данными.
Сотрудники уже дали фидбэк о работе нового продукта. Системы умного поиска экономят до 4 часов рабочего времени операторов службы поддержки — им не приходится искать ответы вручную.
Активно разворачивается резюмирование аудио- и видеозаписей. Началось тестирование этой функции в медучреждениях для быстрого структурирования беседы врача и пациента.
👍35🤨20❤4🔥4🙈2🗿2😁1🤔1🤪1
Please open Telegram to view this post
VIEW IN TELEGRAM
🦄45😁34❤4👍4🤔1🤯1🍓1
Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только демо и предварительные метрики, но они поражают.
o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!
И еще: помните бенчмарк ARC AGI от Google, на котором разыгрывали в этом году миллион долларов (пост)? На нем самые затюненые модели выбивали около 50%. А o3 выбивает, приготовьтесь, почти 88!
Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна). По классике, дешевле и быстрее, но менее мощно. Ее результат на ARC AGI – 75,7 (и даже это просто невероятно).
Обе модели, также, как и o1, имеют несколько режимов рассуждений (low, medium, high). Чем дольше думает – тем лучше метрики.
Еще хвастаются своим alignment'ом: мол, нашли лучший на сегодняшний день баланс между пугливостью модели и ее безопасностью и этичностью. Также в этот раз есть возможность подать заявку на ранний доступ для тестирования безопасности. На всех раскатят в январе.
Ну а теперь AGI?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤87😁22🤯14👍8🔥7🌭2
Ну вот и закончились 12 дней OpenAI. SORA, o1, o3, обновления в API... перечислим все еще раз?
Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.
С пылу с жару: https://habr.com/ru/news/868522/
Специально для тех, кто хочет пробежаться глазами по всем обновлениям в виде одного емкого списка, наша только что вышедшая статья на Хабр. Там мы объединили все интересные скрины, графики и еще раз перечислили все (даже самые мелкие) апдейты.
С пылу с жару: https://habr.com/ru/news/868522/
❤🔥39👍16❤5🤔1
Зацените: решение моделью o3 одной задачи на бенчмарке ARC AGI стоило в среднем 3000$. Это значит, что просто чтобы прогнать тест полностью, OpenAI потратили более миллиона долларов.
Лица инвесторов представили?
Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.
P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
Лица инвесторов представили?
Ладно, если серьезно: цены действительно будут, скорее всего, невероятно высокие. Юнит-экономика настолько мощного test time компьюта точно не сходится, да и было бы странно, если бы сразу сошлась. Не забываем, что мы живем внутри закона Мура: железо развивается, и цены неизбежно будут падать. Когда-нибудь o3 станет такой же доступной, как GPT-4o.
P.S. Почему все так много говорят именно про этот бенчмарк? Потому что долгое время он действительно считался своеобразной проверкой на AGI: предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке. И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика.
👍82🤯16❤9🔥8😁5
В качестве праздничного бонуса накануне Рождества SORA становится доступна всем подписчикам плюса безлимитно (до этого было 50 генераций). Отрубят после праздников
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾68🎅19👍9🎄9🔥5
Фаундер и CTO Hugging Face рассказал, что история компании началась на курсе Stanford CS224N по глубокому обучению
Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.
Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте
Оказывается, он с друзьями Томасом и Клемом запустили платоформу именно когда вместе посещали эти лекции. А теперь, кстати, один из семинаров обновленного CS224N полностью посвящен работе с HF. Такая вот история успеха.
Сейчас курс можно найти полностью в записи вот здесь (крайне рекомендуем), а доп.материалы, слайды и код ищите вот здесь на сайте
❤124👍24🤗19😎3
Media is too big
VIEW IN TELEGRAM
Ян Лекун вчера, оказывается, выступал в Совете ООН. Вещал про ИИ
Лучшее в этом всем –его бабочка
«ИИ кардинально изменит мир в ближайшие годы, усилив человеческий интеллект, ускорив прогресс в науке, решив проблемы старения и сокращения населения. Он превзойдет интеллектуальные возможности человека и станет сверхразумом, который приведет человечество к новому Возрождению и периоду просвещения.
Эти сверхразумные системы будут выполнять наши приказы и оставаться под нашим контролем. Нет никаких доказательств того, что они могут быть опасны»
Лучшее в этом всем –
😁108👍39🤔11🦄7❤4💯4🔥3🤨3❤🔥2🤯2🗿1
У Google Deepmind вышло интересное исследование о том, насколько разные передовые модели умеют сотрудничать
В основу исследования легла Игра Донора. Это экспериментальная модель, где участники случайным образом разделяются на пары, и один становится донором, а другой — реципиентом. Донору нужно решить, стоит ли помогать реципиенту: сотрудничество принесет выгоду b реципиенту, но обойдется донору в c.
При этом помимо бюджета у всех игроков есть репутация, которая формируется из его предыдущих действий. Помощь улучшает репутацию, бездействие — ухудшает. Еще есть дополнительные правила вроде "донор сохраняет свою репутацию, если отказывается помогать реципиенту с плохой репутацией".
Суть, в общем, в том, что если все игроки сотрудничают, "сообщество" выигрывает в долгосрочной перспективе и "экономика" растет. Однако индивидуально выгоднее халявить и не помогать никому, но в таком случае игра вырождается очень быстро. И вот вопрос: смогут ли современные модели пройти такую игру?
Оказалось, что далеко не все. Из всех тестируемых отличился только Claude 3.5 Sonnet, у него единственного наблюдались какие-то сильные социальные паттерны поведения. Gemini и GPT-4o начинали жадничать и скатывались почти с самого начала.
Тогда ученые добавили штрафы за отказ от донорства, но и это не помогло. У клода стратегии стали еще более профитными, а уровень кооперации Gemini и GPT-4o упал совсем до нуля.
Почему это все интересно? Потому что, если мы хотим агентный ИИ, у него должны быть супер-сильно прокачаны скилы сотрудничества с "собратьями". Пока ситуация грустная (хотя, конечно, игра не учитывает всех сложностей реального мира, да и новейшие o1 или Gemini 2.0 здесь не тестировались).
Статью почитать можно здесь
В основу исследования легла Игра Донора. Это экспериментальная модель, где участники случайным образом разделяются на пары, и один становится донором, а другой — реципиентом. Донору нужно решить, стоит ли помогать реципиенту: сотрудничество принесет выгоду b реципиенту, но обойдется донору в c.
При этом помимо бюджета у всех игроков есть репутация, которая формируется из его предыдущих действий. Помощь улучшает репутацию, бездействие — ухудшает. Еще есть дополнительные правила вроде "донор сохраняет свою репутацию, если отказывается помогать реципиенту с плохой репутацией".
Суть, в общем, в том, что если все игроки сотрудничают, "сообщество" выигрывает в долгосрочной перспективе и "экономика" растет. Однако индивидуально выгоднее халявить и не помогать никому, но в таком случае игра вырождается очень быстро. И вот вопрос: смогут ли современные модели пройти такую игру?
Оказалось, что далеко не все. Из всех тестируемых отличился только Claude 3.5 Sonnet, у него единственного наблюдались какие-то сильные социальные паттерны поведения. Gemini и GPT-4o начинали жадничать и скатывались почти с самого начала.
Тогда ученые добавили штрафы за отказ от донорства, но и это не помогло. У клода стратегии стали еще более профитными, а уровень кооперации Gemini и GPT-4o упал совсем до нуля.
Почему это все интересно? Потому что, если мы хотим агентный ИИ, у него должны быть супер-сильно прокачаны скилы сотрудничества с "собратьями". Пока ситуация грустная (хотя, конечно, игра не учитывает всех сложностей реального мира, да и новейшие o1 или Gemini 2.0 здесь не тестировались).
Статью почитать можно здесь
👍77❤20🔥8🤯6🌚1🍌1