Исследователи из Университета Карнеги-Меллон создали IT-компанию, полностью состоящую из ИИ-агентов. Вот что из этого вышло
Команда исследователей из CMU запустила необычный эксперимент: они создали автономную виртуальную среду, имитирующую небольшую software компанию, и поместили на "реальные" рабочие места современных LLM-агентов. Все оформили в виде бенчмарка и назвали TheAgentCompany.
По сути агенту необходимо делать все то же, что делает типичный работчик IT (картинка 1): писать код, использовать терминал, рыться в браузере и Google Drive, взамодействовать с коллегами в мессенджере, пользоваться GitLab и Jira. Выполнение всех задач, кстати, оценивалось по чекпоинтам, а не просто "выполнил/не выполнил" (картинка 2) + учитывали итоговую стоимость по токенам.
В компании успели поработать Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие. Задачи покрывали SWE, PM, HR и еще несколько классических сфер. Всего 175 тасок, рассчитанных на 3000 часов труда 20 живых людей.
Результаты в таблицах на картинке 3. Как видите, даже лучший Claude 3.5 Sonnet справляется только с четвертью базовых обязанностей. Следующум идет Gemini 2.0 Flash, но уже с большим отрывом: 11.4%. Все остальные – меньше 9%.
Забавно, что GitLab и кодинг давались агентам довольно легко, а вот самым сложным оказались банальные заполнения форм, браузинг, планирование встреч и общение в мессенджере (им просто не объяснили, что надо мемы отправлять ).
Хороший бенч, побольше бы таких
Статья | Код | Сайт (лидерборд внутри) | Результаты экспериментов
Команда исследователей из CMU запустила необычный эксперимент: они создали автономную виртуальную среду, имитирующую небольшую software компанию, и поместили на "реальные" рабочие места современных LLM-агентов. Все оформили в виде бенчмарка и назвали TheAgentCompany.
По сути агенту необходимо делать все то же, что делает типичный работчик IT (картинка 1): писать код, использовать терминал, рыться в браузере и Google Drive, взамодействовать с коллегами в мессенджере, пользоваться GitLab и Jira. Выполнение всех задач, кстати, оценивалось по чекпоинтам, а не просто "выполнил/не выполнил" (картинка 2) + учитывали итоговую стоимость по токенам.
В компании успели поработать Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие. Задачи покрывали SWE, PM, HR и еще несколько классических сфер. Всего 175 тасок, рассчитанных на 3000 часов труда 20 живых людей.
Результаты в таблицах на картинке 3. Как видите, даже лучший Claude 3.5 Sonnet справляется только с четвертью базовых обязанностей. Следующум идет Gemini 2.0 Flash, но уже с большим отрывом: 11.4%. Все остальные – меньше 9%.
Забавно, что GitLab и кодинг давались агентам довольно легко, а вот самым сложным оказались банальные заполнения форм, браузинг, планирование встреч и общение в мессенджере (
Хороший бенч, побольше бы таких
Статья | Код | Сайт (лидерборд внутри) | Результаты экспериментов
👍185😁67🔥35❤19🤯5⚡2❤🔥1👻1
Новый эпизод черного зеркала: Альтман официально запустил в США подтверждение вашей личности через сканирование сетчатки глаза
Помните, мы рассказывали про второй стартап Сэма World (пост, пост)? Так вот они наконец прошли все юридические проверки, и теперь понемного раскатывают свои центры сканирования по США. Цель компании – избежать исполнения теории мертвого интернета и сделать так, чтобы каждый человек в сети имел подтвержденный человеческий ID.
Сканирование выполняется небольшим устройством под названием Orb, каждый прошедший получает тот самый айдишник + можно приобрести криптовалюту WorldCoin.
К концу года устройства планируют разместить по всей Америке. Самое интересное, что уже сейчас в партнерах у стартапа Visa и Tinder («чтобы вы встречались с живыми людьми»).
Посмотрим, что из этого выйдет
Помните, мы рассказывали про второй стартап Сэма World (пост, пост)? Так вот они наконец прошли все юридические проверки, и теперь понемного раскатывают свои центры сканирования по США. Цель компании – избежать исполнения теории мертвого интернета и сделать так, чтобы каждый человек в сети имел подтвержденный человеческий ID.
Сканирование выполняется небольшим устройством под названием Orb, каждый прошедший получает тот самый айдишник + можно приобрести криптовалюту WorldCoin.
К концу года устройства планируют разместить по всей Америке. Самое интересное, что уже сейчас в партнерах у стартапа Visa и Tinder («чтобы вы встречались с живыми людьми»).
Посмотрим, что из этого выйдет
🤨149👍46🔥19🤯17🤔11❤9😁6🫡4🗿3👾3🕊2
Журналисты нашли на спутниковых снимках три секретных китайских завода Huawei по производству чипов
По сети распространяется все больше слухов об AI Ascend 910D – новых чипах компании Huawei, которые по производительности якобы превзойдут H100 от Nvidia. Есть даже информация, что на этих картах обучают DeepSeek-R2.
А сегодня Financial Times написали, что на спутниковых снимках они нашли три "построенных в одном стиле" завода, расположенных прямо около базы Huawei. Ранее о них никогда не сообщалось, но по словам инсайдеров на этих линиях производят как раз AI Ascend.
Интересно, что судя по снимкам, строить заводы начали сразу после введения Америкой первых технологических санкций. Инсайдеры также говорят, что объекты получают субсидии от государства.
Напоминаем, что сейчас импорт линейки Blackwell в Китае запрещен, поэтому компании и стартапы страдают от нехватки железа. Получается, что если AI Ascend действительно заменит стандарт H100, это может стать переломным моментом в ИИ-гонке.
По сети распространяется все больше слухов об AI Ascend 910D – новых чипах компании Huawei, которые по производительности якобы превзойдут H100 от Nvidia. Есть даже информация, что на этих картах обучают DeepSeek-R2.
А сегодня Financial Times написали, что на спутниковых снимках они нашли три "построенных в одном стиле" завода, расположенных прямо около базы Huawei. Ранее о них никогда не сообщалось, но по словам инсайдеров на этих линиях производят как раз AI Ascend.
Интересно, что судя по снимкам, строить заводы начали сразу после введения Америкой первых технологических санкций. Инсайдеры также говорят, что объекты получают субсидии от государства.
Напоминаем, что сейчас импорт линейки Blackwell в Китае запрещен, поэтому компании и стартапы страдают от нехватки железа. Получается, что если AI Ascend действительно заменит стандарт H100, это может стать переломным моментом в ИИ-гонке.
🤯90👍84🔥24😎10🐳7❤4😁2👻2👾2👌1🗿1
Шах и мат, ИИ-грубияны: старший научный сотрудник Google Deepmind и профессор когнитивной робототехники в Имперском колледже Лондона Мюррей Шанахан подтвердил, что слова "спасибо" и "пожалуйста" могут улучшить качество ответов модели
https://youtu.be/v1Py_hWcmkU?t=2327
"Конечно, это зависит от обстоятельств: модели ведь постоянно меняются. Однако в общем случае есть веская научная причина, почему четкие дружелюбные формулировки и использование таких слов, как «пожалуйста» и «спасибо», могут улучшить качество ответов.
Все дело в том, что это похоже на ролевую игру. ИИ, скажем, исполняет роль очень умного стажера. Стажер может быть менее эффективным, если его не хвалить и постоянно ругать. Модель имитирует поведение человека, поэтому может вести себя точно также"
https://youtu.be/v1Py_hWcmkU?t=2327
🤗192🔥39❤18👍13👾5😁4🤯3😍2🤓2💘2🤝1
Твиттерский ML-инженер поделился историей о том, как пошел к травматологу, а получил консультацию от ChatGPT
Когда тот самый мем уже не мем
Когда тот самый мем уже не мем
😁188🤯49❤12🤝11🔥7👀4👍3🗿2☃1🤨1
Media is too big
VIEW IN TELEGRAM
Полезная новость для всех, кто практикует data-driven: Arenadata релизнули новую мощную платформу для хранения и обработки данных
Arenadata One потянет любую архитектуру бигдаты, включая Lakehouse + вероятно будет дешевле имеющихся СУБД. Быстро пройдемся по фишкам:
➖ В отличие от классических bare-metal-СУБД, Arenadata One не требует резервации оборудования и работает в эластичной среде. Данные можно держать и в своём дата-центре, и в облаке – и перемещать между ними.
➖ Система умеет переиспользовать ресурсы и автоматически масштабирует нагрузки. За счет этого вы получите минимальный Total Cost of Ownership.
➖ Вычисления и хранение работают отдельно: это позволит быстро добавлять мощности, не прикасаясь к данным.
➖ Все совместимо с S3 и абсолютно не привязано к форматам данных, грузим что хотим.
➖ Реализовано multi-tiering: горячие данные лежат быстро и близко, холодные – экономно и глубже.
➖ Есть готовые панели и функции для мониторинга, управления доступами, отслеживания изменений и аудита.
➖ Аналитика и транзакции работают под одной крышей, больше не надо держать отдельную базу под отчёты и отдельную под приложение.
Ну и на десерт: Хранение AI-векторов и feautures. По факту, AI/ML-ready инфраструктура из коробки.
За подробностями сюда
Arenadata One потянет любую архитектуру бигдаты, включая Lakehouse + вероятно будет дешевле имеющихся СУБД. Быстро пройдемся по фишкам:
Ну и на десерт: Хранение AI-векторов и feautures. По факту, AI/ML-ready инфраструктура из коробки.
За подробностями сюда
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26❤11🔥5🤯3🗿2
OpenAI сломалась под общественным давлением и отказалась от полного перехода в статус некоммерческой организации
Некоммерческий совет директоров сохранит акции и контроль над коммерческим крылом, которое переходит в статус Public Benefit Corporation (PBC).
Это тип коммерческой организации, цели которой включают оказание положительного влияния на общество. То есть буквально смесь for-profit и non-profit. Для ИИ-стартапов PBC – классика жанра.
Говорят, что такое решение в OpenAI приняли после общения с «гражданскими лидерами» и генпрокурорами Делавэра и Калифорнии.
openai.com/index/evolving-our-structure/
Некоммерческий совет директоров сохранит акции и контроль над коммерческим крылом, которое переходит в статус Public Benefit Corporation (PBC).
Это тип коммерческой организации, цели которой включают оказание положительного влияния на общество. То есть буквально смесь for-profit и non-profit. Для ИИ-стартапов PBC – классика жанра.
Говорят, что такое решение в OpenAI приняли после общения с «гражданскими лидерами» и генпрокурорами Делавэра и Калифорнии.
openai.com/index/evolving-our-structure/
😁87🔥22👍14❤6👨💻1
Ничего необычного, просто сооснователь OpenAI Грег Брокман на красной дорожке вчерашнего Met Gala
Звезда Голливуда получается💅
Звезда Голливуда получается
Please open Telegram to view this post
VIEW IN TELEGRAM
😁58🔥16👍9🤯5🤓4👾2🦄1
Media is too big
VIEW IN TELEGRAM
Открытая модель от OpenAI будет отставать от передовых моделей стартапа на целое поколение
Об этом прямо заявил CPO OpenAI Кевин Вейл. Виной всему как всегда Китай:
Об этом прямо заявил CPO OpenAI Кевин Вейл. Виной всему как всегда Китай:
«Мы выпускаем эту модель, потому что хотим, чтобы лучший в мире открытый ИИ был производства США, а не Китая, и отвечал именно демократическим ценностям.
По этим же соображениям эта модель будет отставать примерно на поколение от наших лучших моделей. Выпустить открытую модель лучше – значит тоже помочь Китаю»
😁256🗿34👍21❤9🤔5🫡5🦄4🤓3🤯2🐳2
Nvidia поссорились с Anthropic – причина опять Китай. Обо всем по порядку:
➖ В прошлую среду Anthropic выложили блогпост, в котором выступили за более жесткий контроль экпорта США и введение новых запретов на продажу чипов Nvidia. По мнению компании это ключевой момент в гонке ИИ, и поэтому нужно еще больше снизить экспортный порог для стран Tier 2
➖ В числе прочего в блоге написано, что сейчас чипы ввозятся в Китай контрабандой, в том числе в «протезных детских животах» и «упакованные вместе с живыми лобстерами»
➖ Nvidia официально ответили на этот пост и сильно раскритиковали любое использование политики для ограничения конкурентоспособности. Тут лучше всего просто прочитать дословную цитату:
Игра престолов, не иначе😐
"В Китае работает половина мировых ИИ-исследователей. Америка не должна манипулировать санкциями, чтобы одержать победу в этой AI гонке. Американские компании должны сосредоточиться на инновациях и принять вызов Китая, а не рассказывать небылицы о том, что большая, тяжелая и чувствительная электроника каким-то образом контрабандой ввозится в детских животах или с живыми лобстерами"
Игра престолов, не иначе
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥241😁78👍38❤10👌3🗿3💯2👾2
Gemini 2.5 Pro обновили и теперь она еще круче в кодинге
На WebArena у нового чекпоинта прибавилось +147 баллов ELO (это прямо очень много, учитывая, что между соседними моделями в рейтинге разница иногда в десятки или даже единицы баллов). В общем, теперь моделька лучшая в веб-кодинге, а Sonnet 3.7 опустился на второе место.
Ну и в целом чекпоинт укрепился на первом месте по всем рейтингам арены (математика, веб, креатив, вижн и прочее). o3 теперь отстает еще сильнее. Цена на API у новой модели при этом остается такой же.
Интересно, если Google релизят такое сейчас, то что будет на их ежегодном I/O через две недели?
blog.google/products/gemini/gemini-2-5-pro-updates/
На WebArena у нового чекпоинта прибавилось +147 баллов ELO (это прямо очень много, учитывая, что между соседними моделями в рейтинге разница иногда в десятки или даже единицы баллов). В общем, теперь моделька лучшая в веб-кодинге, а Sonnet 3.7 опустился на второе место.
Ну и в целом чекпоинт укрепился на первом месте по всем рейтингам арены (математика, веб, креатив, вижн и прочее). o3 теперь отстает еще сильнее. Цена на API у новой модели при этом остается такой же.
Интересно, если Google релизят такое сейчас, то что будет на их ежегодном I/O через две недели?
blog.google/products/gemini/gemini-2-5-pro-updates/
👍57🔥26❤15🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
Hugging Face запустили бесплатный аналог Operator
Их новый Computer Use агент работает на основе Qwen-2-VL-72B и разработан с помощью уже очень популярной библиотеки smolagents (тоже производства Hugging Face).
По аналогии с Operator, агент HF работает не на вашей машине, а на виртуалке с предустановленными программами. По способностям не SOTA, конечно, но с простыми задачами справляется отлично.
Все полностью бесплатно (но придется немного постоять в очереди).
демо здесь
Их новый Computer Use агент работает на основе Qwen-2-VL-72B и разработан с помощью уже очень популярной библиотеки smolagents (тоже производства Hugging Face).
По аналогии с Operator, агент HF работает не на вашей машине, а на виртуалке с предустановленными программами. По способностям не SOTA, конечно, но с простыми задачами справляется отлично.
Все полностью бесплатно (но придется немного постоять в очереди).
демо здесь
🔥59👍25❤9
О, там прямо сейчас на Kaggle идет отбор подмосковных школьников на международную олимпиаду по AI IOAI
Соревнование будет идти сегодня, завтра и послезавтра, и фишка в том, что поучаствовать может каждый желающий.
Сегодня и завтра будут три задачи: CV, NLP, табличные данные. Девятого дадут только CV и NLP. Задачки неочевидные, воткнуть градиентный бустинг и уйти не выйдет, нужно думать.
Вот вам и занятие на праздники👓
www.kaggle.com/competitions/neoai-2025/overview
Соревнование будет идти сегодня, завтра и послезавтра, и фишка в том, что поучаствовать может каждый желающий.
Сегодня и завтра будут три задачи: CV, NLP, табличные данные. Девятого дадут только CV и NLP. Задачки неочевидные, воткнуть градиентный бустинг и уйти не выйдет, нужно думать.
Вот вам и занятие на праздники
www.kaggle.com/competitions/neoai-2025/overview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥23❤14😁2
Cognition Lab (разработчики Devin) выпустили модель для написания эффективных ядер CUDA
Модель называется Kevin 32В, буквально K(ernel D)evin. Релиз, на самом деле, был бы не самый примечательный, если бы не техника: для дообучения инженеры завели RL с мультиступенчатым фидбэком от среды.
Разбираемся:
⚪️ В качестве базовой LM взяли QwQ-32B, это ризонинг модель. Ее дообучали всего на 180 задачах из датасета KernelBench. Это задачи на PyTorch, в которых надо заменить базовые операции (например, матричные операции или свертки) оптимизированными CUDA-ядрами.
⚪️ Для дообучения использовали только RL с GRPO (наш разбор метода). Но GRPO не обычный, а многоэтапный. Модель получает фидбэк не один раз за всю генерацию, а генерирует ядро -> получает ревард -> исправляет -> получает ревард -> ….
⚪️ Чтобы не было проблем с перегрузкой контекста, вместо полного CoT на следующие итерации передают только резюме. Плюс для стабилизации всего этого каждый шаг получает не обычное вознаграждение, а дисконтирование, то есть равное дисконтированной сумме скорингов всех последующих ядер.
По метрикам видно, что относительно привычного однопроходного RL такой подход сильно бустит обучение. Интересно было бы посмотреть, сработает ли такое с обычным кодингом.
Блогпост | Модель на HF
Модель называется Kevin 32В, буквально K(ernel D)evin. Релиз, на самом деле, был бы не самый примечательный, если бы не техника: для дообучения инженеры завели RL с мультиступенчатым фидбэком от среды.
Разбираемся:
По метрикам видно, что относительно привычного однопроходного RL такой подход сильно бустит обучение. Интересно было бы посмотреть, сработает ли такое с обычным кодингом.
Блогпост | Модель на HF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥60👍30❤18💘1