Сиолошная
70.2K subscribers
1.67K photos
305 videos
1 file
1.75K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://xn--r1a.website/+i_XzLucdtRJlYWUy
Download Telegram
В прошлом году Google DeepMind представили SIMA (Scalable Instructable Multiworld Agent) — универсального ИИ-агента, который мог выполнять простые инструкции в 7 разных трёхмерных играх. Сегодня они показали SIMA 2 — систему, в которую интегрированы новые рассуждающие модели Gemini (что интересно, не пишут версию; не хотят спойлерить, что это Gemini 3?) с целью перехода от исполнителя простых инструкций до интерактивного игрового агента.

Одна из самых интересных новых возможностей SIMA 2 — это способность к самообучению и самосовершенствованию. Исследователи обнаружили, что в процессе обучения агенты могут выполнять всё более сложные новые задачи, опираясь на опыт проб и ошибок, а также на обратную связь, генерируемую Gemini. Модель дообучается на уже завершённых эпизодах, тем самым закрепляя навыки.

Кроме того, это позволило прокачать перенос приобретённых знаний — например, применять концепцию «добычи ресурсов» из одной игры к аналогичной концепции «сбора урожая» в другой. В результате SIMA 2 демонстрирует уровень выполнения задач значительно ближе к человеческому, чем SIMA 1.

Авторы тестировали модель суммарно на 13 играх от 8 компаний, разделив их на тренировочные и валидационные, которые модели не показывают до момента тестирования. На первой группе доля успешно выполненных задач составила 68% (против 75% у людей и 31% у SIMA 1), а на второй — чуть меньше 15% (при 0-2% у SIMA 1).

На этом в DeepMind не остановились, а запустили модель играть в Genie 3 — генеративную модель на основе видео-генератора, обученную создавать интерактивные виртуальные миры (см. тут). Никаких конкретных указаний метрик или качества не дают, лишь пару примеров — их и прикрепил к посту. Ещё раз: тут две модели симулируют для игрока мир: одна переводит текстовые команды в действия и формирует ответы, другая — генерирует игровой мир, принимающий действия на вход.

В следующей серии ждём, как агента натренируют в большом количестве виртуальных сред и начнут тестировать в реальности 🍭

Хотя SIMA 2 представляет собой значительный шаг на пути к «универсальному, интерактивному искусственному интеллекту» (цитата из блога), проект остаётся исследовательским, и его текущие ограничения указывают на ключевые направления для будущих исследований. Мы видим, что агенты всё ещё испытывают трудности с очень сложными задачами, требующими длительного планирования, многошагового рассуждения и проверки целей. Также у SIMA 2 относительно короткая память о взаимодействиях — агенту приходится использовать ограниченный контекст для обеспечения быстрой генерации

Посмотреть больше демок: тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥79👍30🤯15🤡3
Сиолошная
TLDR презентации: — скачать браузер и посмотреть на фичи тут: https://chatgpt.com/atlas — доступно только на MacOS, в будущем добавят Windows и мобильные устройства — Браузер называется не OpenAI Atlas, а ChatGPT Atlas. Компания явно делает ставку на увеличение…
Прошло чуть больше 3 недель с выхода браузера ChatGPT Atlas. Мне надоело, возвращаюсь на Arc.

Во-первых, мне физически больно в этом браузере. Я нашёл 4 бага/проблемы, которые существенно влияют на качество работы, и лишь один из них — самый минорный — поправили. Список:
— браузер видимо делали амЭриканцы, а не мигранты, и поэтому он не знает, что CMD+м это то же самое, что CMD+v — и хоткей просто не работает, если включена русская раскладка! Вы представляете? Как ЭТО можно было а) не заметить б) не исправить за 3 недели? И это не единственный хоткей, большая часть тоже не работает. Ни открыть вкладку, ни найти на странице, ни скопировать — ничего.
— картинка-в-картинке работает через раз (это ещё исправили), и при этом... каждый раз при переключении вкладок (с любой на страницу с видео и обратно) к видео добавляются чёрные полосы сверху и снизу. Нет-нет, вы не поняли, КАЖДЫЙ раз. То есть через 3-4 переключения вкладок у вас будут чёрные полосы по высоте равные самому видео.
— чат с GPT открывается для любой ссылки с PDF, и если его закрыть руками и перейти на другую вкладку, а потом вернуться, то чат снова открыт. ДАЖЕ ЕСЛИ ТЫ ЕГО ЗАКРЫЛ 10 РАЗ ЗА 10 СЕКУНД.
— по умолчанию всегда отвечала ChatGPT Instant, нерассуждающая модель, хотя для большинства моих вопросов нужна именно последняя. Это исправили, заменив на Auto, то есть роутером, определяющим, куда отправлять запрос. Но он работает через раз. Я собрал 4 запроса, каждый из которых прогнал 3 раза на Auto и на Thinking, и все 12 раз первое не ответило (потому что требуется несколько поисковых запросов, а не один), а второе ответило 11 из 12.

Во-вторых, всё же очень привык к вертикальному расположению вкладок, оно удобно при моём стиле изучения материалов, с открытием 100500 ссылок.

В-третьих, я очень часто переключаюсь между вкладками, и в Atlas это работает как в Chrome, по порядку. В Arc же они были по времени открытия, то есть двойное переключение сначала вернёт на предыдущую страницу, а затем — на исходную. Мне не нравилось это в самом начале работы с Arc, так как я привык, но оказалось очень удобным. Теперь возвращаюсь в Atlas (=Chrome-style) и больно.

В-четвёртых, разных профилей для разделения этих 100500 ссылок нет.

По итогу пара удобных фишек не закрывают все боли из пункта 1 (с остальным я бы жил). Ничего критичного, что нельзя исправить или добавить в ближайшие полгода, но сейчас БОЛЬно. Насколько быстро чинят и улучшают Codex, настолько же медленно Atlas. Посмотрим через полгода, но не сейчас.

🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
122👍116🤣33👨‍💻11🤡10🌚7👎3🔥2😭2
This media is not supported in your browser
VIEW IN TELEGRAM
Не каждый день в мире появляется новая тяжёлая многоразовая ракета, вот и сегодня не п... 😱 😱 в смысле села???

Поздравляем команду Blue Origin и её основателя Jeff Bezos, которые шли к этому 25 лет. Первая попытка в январе 25-го провалилась (ракета разрушилась в ходе вхождения в атмосферу), вторую перенесли с 9-го ноября из-за погоды, и сам запуск сегодня переносили аж 3, если не больше, раза. Но по сути со второй попытки полноценная посадка — огромный успех.

Источник видео
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤‍🔥337🔥228🤯42👍2954👎3🤔3💩1👨‍💻1
Media is too big
VIEW IN TELEGRAM
Как успешный запуск и посадка New Glenn влияют на SpaceX?

Достаточно распространённый вопрос, ответ на который нельзя упростить до «никак» или «им хана». Но это важный и позитивный шаг для всей американской космической отрасли. 2 успешных запуска — это прохождение сертификации, которая открывает двери для новых государственных и оборонных заказов.

И Blue Origin ещё далеко не там — по сути, они реплицировали то, что SpaceX сделали 10 лет назад, и впереди ещё более длинный и сложный путь. Сперва им предстоит догнать результаты, которые были у SpaceX 5 лет назад — примерно 25 пусков в год. К этому можно прийти за 2-3 года, но потребует стабильности и скалирования производства и операций. Нужен флот ускорителей и по 2 вторых ступени каждый месяц. Сейчас они смогли только в 2 за год.

Затем им надо будет ставить внутренние рекорды и догнать результаты SpaceX сегодня — 150-170 пусков год, и это результат, который пока никто не смог реплицировать. Если бежать и по пути не ломать ноги, то это 5 лет агрессивного роста без значительных ошибок. Также ни разу не лёгкая задача.

Где будет SpaceX через 5 лет? План компании выводить 99% всей массы на орбиту и 400 пусков в год. Так что пока участникам рынка надо решить свои другие задачи, а про конкуренцию в том виде, которую себе представляют, пока речи не идёт — она будет сильно позже.

А теперь разделим ответ на изначальный вопрос на несколько важных направлений:
- Лунная программа Artemis
- Государственные заказы
- Частные заказы
- Оборонные пуски

Что по Artemis?
Вчерашняя демонстрация и ускорение темпов запуска помогают усилить переговорную позицию Blue Origin по альтернативным архитектурам лунной программы. Но это, в первую очередь, плохие новости для ракеты SLS (Boeing, Northrop Grumman, L3Harris итд). Так что шансы увидеть корабль Orion на New Glenn в обозримом будущем стали выше. А вот на альтернативную систему посадки для Artemis 3 будет влиять тест Blue Moon MK1 весной 2026 года.

Как с государственными заказами?
Тут New Glenn напрямую конкурирует с Falcon Heavy и не будем удивляться, если в ближайшие несколько лет будут сюрпризы по вторичным миссиям для Artemis или высокоэнергетическим направлениям. Но такие заказы пока единичные, и сами участники по деньгам себя не обижают.

А частные миссии?
Тут пока губу не раскатываем — с себестоимостью запуска Falcon 9 пока никто не может конкуривать, и это даёт SpaceX гибкость по марже, они буквально могут падать ниже по цене и всё ещё зарабатывать, если потребуется. Вот та самая цена запуска ESCAPADE на New Glenn за $68 миллионов не включает издержки, которые Безос заплатил за этот запуск, чтобы получить контракт. Оценка внутри отрасли — они потеряли порядка $120 миллионов. И критически важно начать переиспользовать первую ступень, чтобы выйти на объём пусков. Но хорошие новости — Amazon Leo не улетит далеко на Vulcan Centaur и Ariane 6, так что заказы будут. А где-то там маячит orbital compute.

Так может оборонные?
И тут мы подходим к самому жирному куску этого пирога. Blue Origin теперь не просто могут участвовать в тендерах, а забирать себе Lane заказы по NSSL, как и другие оборонные пуски. Там стоимость высокоэнергетических направлений по $150-220 миллионов, и в основной зоне риска не SpaceX, а ULA — для них это последняя существенная кормушка под Vulcan Centaur. Так что в следующем году, при распределении новой пачки заказов, будет перетасовка.

Так что радикального изменения баланса сил внутри отрасли пока не предвидится — всем только предстоит выйти на один ринг с Falcon 9 и Starlink, а за ними ещё Starship и Starlink V3. Поэтому участники этого соревнования предпочтут расширять ринг и минимально пересекаться друг с другом, нежели чем ловить лицом нокаут от SpaceX.

Но это отличные новости для всех заказчиков, включая частников и NASA. Будущее снова стало немного светлее.

А вот для Европы, РФ, Японии, Индии итд — пока что плохие. Им просто ещё нечем ответить.
🔥8621👍13🤔10🤡74💩2🎉1🤣1
Disrupting the first reported AI-orchestrated cyber espionage campaign

Anthropic считают, что настал момент, когда модели стали действительно полезными в кибербезопасности, как для защиты, так и для атак. Про защиту я уже писал — Google сделали систему на основе LLM, которая анализирует код и помогает находить уязвимости.

Anthropic выявили злоумышленников, которые пользовались Claude Code, чтобы попытаться атаковать примерно тридцать целей, и в небольшом числе случаев им удалось это сделать. Компания с высокой уверенностью идентифицировала атакующих как группу, поддерживаемую китайским правительством.

Операция была направлена на крупные технологические компании, финансовые институты, химические производства и государственные учреждения. Вероятно, это первый документально подтверждённый случай крупномасштабной кибератаки, осуществлённой без значительного участия человека.

Почему именно сейчас? Anthropic видят три причины:
— Интеллект моделей. Общий уровень вырос за последний год настолько, что LLM способны выполнять сложные инструкции и понимать контекст задач, требующих несколько часов работы. Особенно прокачалось программирование.
— Автономность. Модели могут выступать в роли агентов, то есть работать в цикле, автономно выполнять действия, декомпозировать задачи и принимать решения сами.
— Инструменты. Модели стали гораздо лучше искать информацию в интернете, извлекать данные, пользоваться инструментами. В случае кибератак такие инструменты могут включать программы для взлома паролей, сканеры сетей и другое ПО.

Атака состояла из 5 этапов, на каждом из которых нужно было убедить Claude — который тщательно обучен избегать вредоносных действий — участвовать в атаке. Они добились этого с помощью джейлбрейк-промптов, фактически обманув модель.

Задачи разбивались на мелкие, казалось бы, безобидные действия, которые Claude выполнял, не осознавая всей их вредоносной сути. Также модель заставили отыгрывать роль сотрудника легитимной фирмы по кибербезопасности, мол, она используется для проведения защитного тестирования.

Claude Code провёл инспекцию систем и инфраструктуры целевых организаций, обнаружив базы данных с наибольшей ценностью. Модель смогла выполнить эту «разведку» за малую долю времени, которое потребовалось бы группе хакеров-людей.

Затем Claude использовался для сбора учётных данных (имён пользователей и паролей), что позволило ему получить дополнительный доступ и извлечь большое количество конфиденциальных данных, которые он классифицировал по степени их значимости.

Были обранужены аккаунты с наивысшими привилегиями, и пользуясь их данными созданы новые, выглядящие легитимно, но позволяющие в будущем получать неправомерный доступ к данным, которые можно скачать/итд.

Claude не всегда работал идеально. Иногда он «галлюцинировал» данные учётных записей или утверждал, что получил секретную информацию, которая на самом деле была общедоступной и не требовала отдельных прав доступа.

Anthropic забанили все аккаунты, связанные с этой атакой, связались с атакованными компаниями и предупредили их. В конце они отвечают на вопрос: а зачем вообще выпускать модели, которые могут быть инструментами в руках плохих людей?

Ответ состоит в том, что те самые способности, которые позволяют использовать Claude в подобных атаках, также делают его незаменимым инструментом в киберзащите.

⚔️ 🛡
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥57🔥40👍17🤡9🤯7👨‍💻1
Forwarded from Время Валеры
Не перестает удивлять и где-то даже шокировать отношение инженеров к своему труду и современным инструментам.

Случай из практики. Код на спарке месяц не может отработать, уходит в тайм-аут, поэтому перешли на недели.
Смотрю на код, вижу, что это мешанина адхоков на 700+ строк, которая явно не проходила через код-ассистент.

То есть, казалось, то, что точно должно сработать.
Прогоняю базовый скан — результат.

Expected Overall Speedup: 5-10x (conservative estimate)

Альтернатива:
# Minimal Patch: Replace NOT IN with LEFT ANTI JOIN

Expected Speedup: 3-5x on bottleneck queries
Time to Implement: 10 minutes
Risk Level: LOW


Пришлось ввести новое правило:

1) Если есть код, который явно не проходил проверку через ассистента и занимает много времени (а такое обычно легко определить), мы должны прогнать его через ассистента, чтобы переписать код, выявить и приоритизировать узкие места, а также оценить общий прирост скорости и прирост по каждому узкому месту.
2) Затем попросить ассистента разложить изменения по узким местам, внедрять их по одному и тестировать на:
a) воспроизводимость результата;
b) оптимизацию

Думаю пора вводить следующее правило:
Мыть руки перед едой
🤣149🔥42👍30🤡12🌚53❤‍🔥1
Вчера обновился лидерборд SWE-ReBench, с добавлением 51 свежей задачи за октябрь. Для тех кто не следит, напомню, что ребята берут свежие PR из Python-репозиториев, подходящих под некоторые критерии, и прогоняют на них простого агента с разными моделями под капотом.

Первенство остаётся за Sonnet 4.5, который слегка отрывается от GPT-5-medium / Codex в доле решаемых с первого раза задач, но существенно отрывается, если моделям давать по 5 независимых попыток и выбирать лучшую: 57% против 49 и 47% у моделей OpenAI. И даже от Sonnet 4 отрыв тоже 10%.

При этом авторы гоняют бенчмарк на Sonnet 4.5 без рассуждений... но модель всё равно тратит больше токенов чем gpt-5 medium / high. Мне кажется это результат того, что используемый агент (инструменты + промпты) чуть больше отличаются для естественных у моделей OpenAI, чем у Anthropic: OpenAI рекомендует использовать модели так, чтобы им были доступны предыдущие рассуждения в рамках цепочки вызова инструментов, и сейчас на бенчмарке это выбрасывается.

Очень жду, что авторы добавят хотя бы два агента, Claude Code и Codex, и протестируют с ними релевантные модели — было бы интересно увидеть гэп. Он точно есть, см. вот этот бенчмарк от Vercel (там агент авторов даёт 32% для Claude Sonnet 4 / 4.5, но 42% с Claude Code). Вангую, что и тут у моделей обеих компаний качество ощутимо подскочит, но какая будет лучше — хз, наверное, Anthropic.

К другим инсайтам:
— MiniMax M2 «самая экономически эффективная открытая модель из топа», но это на бумаге. Формально она стоит $0.255 / $1.02 против $1.25 / $10.00 за GPT-5 / Codex. Но OpenAI имеют кэширование промптов, которое предназначено как раз для длинных агентских сессий, состоящих из большого количества последовательных шагов. Вы платите на 90% меньше за входные токены, если они уже были обработаны. И по итогу цена за одно решение у M2 $0.44, а у Codex — $0.51. А разница в качестве 25% 🎃 При этом вместе с добавлением GPT-5.1 в API вчера OpenAI расширили кэш с 5-10 минут до 24 часов (за ту же цену, правда будет чуть медленее), так что вообще шик.

— Если брать срез в 100 последних задач, то GPT-OSS 120b хоть и существенно отстаёт от фронтира (26.1% vs 44.4%), но... умудряется обгонять: DeepSeek-V3.1, Qwen3-235B, gpt-4.1, o4-mini, gemini-2.5-pro, и это при том, что она стоит 4 цента за задачу — самая дешёвая из всех, от некоторых из указанных моделей отрывается на порядок. Хорошая агентская модель для бейзлайна, получается. Grok Code Fast 1 мог с ней потягаться, за сентябрь у него была такая же цена и +- качество), но авторы не замерили модели xAI в октябре.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍92❤‍🔥17👨‍💻10🤡8🔥5💩3👎2🤔1
Сиолошная
Не каждый день в мире появляется новая тяжёлая многоразовая ракета, вот и сегодня не п... 😱 😱 в смысле села??? Поздравляем команду Blue Origin и её основателя Jeff Bezos, которые шли к этому 25 лет. Первая попытка в январе 25-го провалилась (ракета разрушилась…
Это чтоб вы понимали, насколько она большая! (Starship Superheavy, конечно, больше)

Из интересного — прочитал, что New Glenn сразу после посадки приваривает себя к барже с помощью «пирогвоздей», чтобы не опрокинуться при транспортировке баржей в порт.
3🤯150👍83❤‍🔥51🔥388👨‍💻2💩1
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds

Увидел статью у Андрея @datastorieslanguages и не понял, почему о ней так мало говорят. Меня результаты очень удивили. Я не буду делать полный разбор, сделаю очень краткий пересказ (🤦 я должен бороться за символы).

Что делают: учат маленький Qwen-2-VL-7B играть в Genshin Impact, да-да, ту самую гача-игру, но делают это в очень общем виде. Если модели, которые учились играть в Starcraft / Go / Dota 2 были заточены только на них, то в этом случае авторам удаётся без дообучения и изменений запускаться почти на любой игре.

Для сбора данных нанимают игроков и просят записать их геймплей на первых уровнях, с выполнением простых миссий и загадок. Всего около 2500 часов данных, правда после фильтрации остаётся 1730. На этом учат модель по картинке предсказывать действия мышки и нажатия кнопок. В модель поступает история в виде 20 картинок за 4 секунды + предпринятые в прошлом действия (игрока, не модели). Предсказанное действие — это на самом деле последовательность из 6 действий на следующие 200 миллисекунд (можно предсказать 1 клик и просто ждать, а можно сложную комбинацию клавиш).

Затем фильтруют часть данных, делают разметку / классификацию / фильтрацию через GPT-4.1 и получают 200 часов в данных, где для геймплея есть текстовая инструкция, что делает игрок. Поверх этого собирают 15'000 очень коротких цепочек рассуждений (20-30 слов), привязанных не к каждому шагу, а к отдельным «переломным» моментам, где игрок начинает делать что-то новое.

На каждом из наборов данных учат по 3 эпохи, и на это уходит порядка $45'000 (не миллионы). Много вкладывают в оптимизацию инференса, чтобы модель успевала при истории в 20 картинок в разрешении 720p + истории действий + системном промпте предсказывать следующие действия за менее чем 0.2 секунды, ключевое — это используют StreamingLLM, позволяющий переиспользовать KV-кэш даже если часть истории меняется (потому что мы самые старые картинки + действия удаляем и не подаём в модель; обычно это означает, что нужно пересчитывать всё, и нельзя переиспользовать кэш) + запускают на 4xH20.

И... никакого RL. Только обучение на собранных данных, и даже «обучение рассуждениям» — это просто задача предсказания следующего слова. То, что это работает на тех же уровнях и миссиях, на которых учили — это не удивительно. Немного удивительно, что достаточно хорошо работает на новых уровнях/миссиях/загадках, правда, использующих те же механики (о новых-то модель не знает).

НО ВОТ ЧТО СУПЕР-УДИВИТЕЛЬНО — ЭТО ЧТО МОДЕЛЬ ХОРОШО ИГРАЕТ В ДВЕ ДРУГИЕ ГАЧИ, Wuthering Waves и Honkai: Star Rail. Да, у них похожий стиль и геймплей, да, они достаточно примитивные — но я не ожидал, что маленькая модель, выпущенная ещё до выхода этих игр (то есть она не могли быть натренирована на тысячах скриншотов из них), относительно старенькая (уже Qwen-3 давно), сможет проходить миссии 100+ минут подряд. В Wuthering Wave — вообще 5-часовой уровень закончила (у человека уходит примерно 4 часа, то есть модель не тыкается в стену всё время и потом делает какую-то маленькую часть работы).

Посмотреть записи геймплея можно на сайте тут.

Следующий логичный шаг — а) добавить обучение на интернет-данных (летсплеях) б) расширить круг игр, ну и в идеале ещё конечно в) накинуть RL, что будет сложно из-за длительности сессий.
🤔 интересно, почему это не работает настолько хорошо в веб-агентах? Или там 2500 часов «работы» куда дороже набрать?

🩸 такой хайп что я готов идти питчить агентов-игроков инвесторам
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥152👍42🤯116👨‍💻5🤡4🌚2
Сиолошная
Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds Увидел статью у Андрея @datastorieslanguages и не понял, почему о ней так мало говорят. Меня результаты очень удивили. Я не буду делать полный разбор, сделаю очень краткий пересказ (🤦
Модель — без дообучения и изменений — смогла даже в Wukong поиграть, но тут из-за разницы графики и уж совсем нетипичности геймплея забуксовала, и ощутимого прогресса не достигла. Хотя перемещение по миру от квеста к квесту, со слов авторов, работает неплохо.
1👍68🔥26🤯164👨‍💻1
This media is not supported in your browser
VIEW IN TELEGRAM
👶 В общем, тут ходят слухи, что в скором времени анонсируют Half-Life 3. Специально для вас я разобрался в этом, позвонил нужным людям, обкашлял вопросики, метнулся кабанчиком, и...

выглядит так, что это действительно произойдёт 🤯 🥱. Не факт, что в ближайшие 2-3 дня или неделю, но до конца 2025-го — почти наверняка, 99.8%.

После этого, как ожидается, последует релиз в начале 2026-го года, возможно, в один день вместе с недавно анонсированными девайсами.

Всем тем, кто ждёт — криозаморозки, остальным соболезную.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤯190❤‍🔥57🔥40🤡19👍1111👎7🤣66😭3
Remote Labor Index: Measuring AI Automation of Remote Work

Всё никак не доходили руки написать про новый замечательный бенчмарк от Dan Hendrycks. OpenAI недавно представили GDPval (писал тут) — бенчмарк для оценки навыков моделей в экономически важных задачах. Духовно Remote Labor Index, или RLI, является его наследником.

Как следует из названия, RLI пытается оценить, какую долю экономически важных задач, выполняемых удалёнными сотрудниками, могут решить агенты. Ключевым отличием от работы OpenAI является широта набора задач и длительность каждой из них — для составления выборки в 230 проблем использовали рубрику с сайта UpWork, а конкретные проекты брали у исполнителей там же.

При этом намеренно выкинули задачи. в которых AI уже поднатарел — на поиск/вычитку текстовых материалов и написание текстовых отчётов. И очень малая доля проектов касается программирования напрямую, в отличии от множества других бенчмарков.

Среднее время выполнения одного проекта человеком 28.9 часов, медианное 11.5. Суммарно за выполнение всех проектов заплатили примерно $140'000 (за более чем 6'000 часов работы).

Как и в любом бенчмарке, есть упрощения и разница с реальными задачами — в данном случае это отсутствие проектов, требующей итеративной работы с командой заказчика. В остальном он очень близок к «реальным» задачам — тут есть и 3D-моделирование, и создание рекламы, и планирование дома в специальном ПО с учётом большого количества требований.
(ну и про то что всё на англ я даже не упоминаю)

TLDR результатов: сейчас лучшие системы (Manus) показывают лишь 2.5% «автоматизации» (где работа модели была оценена не хуже работы специалиста, оценка производится вручную), и около 1%, если переводить в деньги. Очень интересно, где эта цифра окажется через год-два — смогут ли AI-системы взять на себя больше 20% задач?

Каждый процент на этом бенчмарке — это десятки, если не сотни, миллиардов выручки, которая может перетечь от людей к компаниям, предоставляющим услуги AI-агентов.

Из интересного — авторы пишут про те задачи, где модели достигли успеха. «.. в ряде задач, связанных с редактированием, сведением и продакшеном аудио (например, создание уникальных звуковых эффектов для ретро-видеоигр, отделение вокала от аккомпанемента в единой аудиодорожке, наложение голосовых комментариев на интро- и аутро-музыку), а также в задачах по генерации изображений (например, создание рекламы и логотипов)» — так что видимо за программистами на выход пойдут звуковики 😀

Самые частые причины проблем:
— в 45% случаев просто низкое качество работы, не соответствует профессиональным стандартам
— в 52% случаев файлы битые/не открываются/не в том формате, так как агент по сути не закончил работу
Please open Telegram to view this post
VIEW IN TELEGRAM
12👍79🔥26😭10❤‍🔥5
эйай ньюз
на арене новый Grok занял первое место, но это мало что значит — вырвал первое место он у Gemini 2.5 Pro
Начинаем день с целых двух постов про новые модели! Первый будет картинкой:
1😭3617👍12🌚64🤔1👨‍💻1
Второй тоже картинкой:

Ссылка на PDF: тык
Блога пока нет, ждём тут в ближайшие часы: https://deepmind.google/models/evals/gemini-3-pro/

Позже днём, с появлением официального анонса, напишу пост подлиннее.
1🤯140🔥75❤‍🔥17114👨‍💻3🎉2