Anthropic выпустили Opus 4.1 и выяснили ещё больше о том, как ИИ рассуждают - новое исследование
Вчера Anthropic присоединились к параду релизов и выпустили Opus 4.1, который стал еще лучше для кодирования и агентских задач. Напомним, что вчера OpenAI представили свою опен сорс модель. А Google - Genie3.
Более того, международная группа исследователей из Anthropic, Decode, EleutherAI, Goodfire AI, Google DeepMind опубликовала масштабное исследование внутренних механизмов больших языковых моделей.
Что выяснили?
1. Языковые модели используют многоэтапное мышление даже в простых задачах.
2. Модели сначала решают задачи на универсальном уровне, а потом переводят на конкретный язык.
3. У моделей есть специализированные "детекторы" для отслеживания грамматических структур, границ предложений и даже отдельных букв — особенно важно для рифм и акронимов.
Исследователи разработали "графы атрибуции" — способ визуализировать информационные потоки внутри модели. Это как МРТ для ИИ: можно увидеть, какие части "мозга" активны при решении конкретной задачи.
Методы оказались воспроизводимыми на разных моделях (GPT-2, Gemma, Llama) и уже используются сообществом — создано более 7000 таких "снимков мозга" ИИ.
Для математических задач модели используют заготовленные паттерны для конкретных комбинаций входных данных. Это объясняет, почему ИИ иногда неожиданно ошибается в, казалось бы, простых вычислениях.
Появляется возможность точечно настраивать поведение моделей, предсказывать их ошибки и создавать более надежные системы.
Вчера Anthropic присоединились к параду релизов и выпустили Opus 4.1, который стал еще лучше для кодирования и агентских задач. Напомним, что вчера OpenAI представили свою опен сорс модель. А Google - Genie3.
Более того, международная группа исследователей из Anthropic, Decode, EleutherAI, Goodfire AI, Google DeepMind опубликовала масштабное исследование внутренних механизмов больших языковых моделей.
Что выяснили?
1. Языковые модели используют многоэтапное мышление даже в простых задачах.
2. Модели сначала решают задачи на универсальном уровне, а потом переводят на конкретный язык.
3. У моделей есть специализированные "детекторы" для отслеживания грамматических структур, границ предложений и даже отдельных букв — особенно важно для рифм и акронимов.
Исследователи разработали "графы атрибуции" — способ визуализировать информационные потоки внутри модели. Это как МРТ для ИИ: можно увидеть, какие части "мозга" активны при решении конкретной задачи.
Методы оказались воспроизводимыми на разных моделях (GPT-2, Gemma, Llama) и уже используются сообществом — создано более 7000 таких "снимков мозга" ИИ.
Для математических задач модели используют заготовленные паттерны для конкретных комбинаций входных данных. Это объясняет, почему ИИ иногда неожиданно ошибается в, казалось бы, простых вычислениях.
Появляется возможность точечно настраивать поведение моделей, предсказывать их ошибки и создавать более надежные системы.
Telegram
All about AI, Web 3.0, BCI
Also Anthropic launched sota coding with Claude Opus 4.1
Claude Opus 4.1, an upgrade to Claude Opus 4 on agentic tasks, real-world coding, and reasoning.
Claude Opus 4.1, an upgrade to Claude Opus 4 on agentic tasks, real-world coding, and reasoning.
🔥13👍5❤3
РФ заняла 3-е место по объему операций с криптовалютами - отчет Chainalysis о состоянии регулирования стейблкоинов в топ-25 юрисдикций в 2025 году
По состоянию на июль 2025 года регулирование эмитентов стейблкоинов полностью или частично действует в 11 из топ-25 юрисдикций, которые суммарно получили 38% от общего объема криптовалютных активов в 2024 году.
Топ-20 юрисдикций по статусу регулирования:
Полное регулирование: США, Великобритания, Канада, Гонконг, ЕС, Япония, ОАЭ
Частичное регулирование: Южная Корея
Предложение о регулировании есть, но без решений пока: Австралия, Сингапур
Без регулирования: Россия, Индонезия, Индия, Турция, Украина, Вьетнам, Аргентина, Бразилия, Мексика, Нигерия, ЮАР.
По России в отчете говорится, что нет специального регулирования стейблкоинов, регуляторы ввели ограничения на внутреннее использование криптовалют.
Интересные детали:
Канада трактует стейблкоины как ценные бумаги, а не платежные инструменты.
Япония разрешает выпуск стейблкоинов только лицензированным банкам, провайдерам денежных переводов или трастовым компаниям.
Только USDC соответствует канадским требованиям для торговли на криптобиржах.
Европейский союз имеет сложную систему с лимитами для стейблкоинов, привязанных к валютам вне ЕС.
По состоянию на июль 2025 года регулирование эмитентов стейблкоинов полностью или частично действует в 11 из топ-25 юрисдикций, которые суммарно получили 38% от общего объема криптовалютных активов в 2024 году.
Топ-20 юрисдикций по статусу регулирования:
Полное регулирование: США, Великобритания, Канада, Гонконг, ЕС, Япония, ОАЭ
Частичное регулирование: Южная Корея
Предложение о регулировании есть, но без решений пока: Австралия, Сингапур
Без регулирования: Россия, Индонезия, Индия, Турция, Украина, Вьетнам, Аргентина, Бразилия, Мексика, Нигерия, ЮАР.
По России в отчете говорится, что нет специального регулирования стейблкоинов, регуляторы ввели ограничения на внутреннее использование криптовалют.
Интересные детали:
Канада трактует стейблкоины как ценные бумаги, а не платежные инструменты.
Япония разрешает выпуск стейблкоинов только лицензированным банкам, провайдерам денежных переводов или трастовым компаниям.
Только USDC соответствует канадским требованиям для торговли на криптобиржах.
Европейский союз имеет сложную систему с лимитами для стейблкоинов, привязанных к валютам вне ЕС.
👍9🔥5❤2🤣1
О рынке и экономике ИИ от СЕО Anthropic, а также о проблемах ИИ-агентов
Дарио Амодей считает, что рынок ИИ уже почти сформировался из 3-6 крупных игроков, не больше. Это те компании, которые могут:
1. Создавать передовые модели
2. Имеют достаточно капитала для самофинансирования. Нужны огромные инвестиции в обучение моделей, которые не каждый может себе позволить
Дарио предлагает думать о каждой модели как об отдельной компании. Каждая модель окупается довольно быстро 9-12 месяцев. Это хороший бизнес на уровне отдельной модели. Проблема в том, что компания одновременно тратит деньги на следующую, более дорогую модель.
Дарио говорит о 2-х разных рынках:
1. Рынок базовых моделей, тут 3-6 игроков:
Anthropic (Claude)
OpenAI (GPT)
Google (Gemini)
Meta(запрещена в РФ), возможно еще пара.
2. Рынок приложений на базе этих моделей - здесь тысячи компаний.
Дарио говорит о компаниях, которые просто оборачивают возможности модели в удобный интерфейс. Он предупреждает, что такие компании рискуют, когда выйдет следующая версия модели, которая сможет делать то же самое напрямую.
Про API как бизнес-модель - отличный бизнес, потому что модели принципиально не могут быть одинаковыми (в отличие от, скажем, баз данных).
Дарио говорит, что сейчас ИИ-продукты мало персонализированы. Персонализация станет огромным источником привыкания и удержания пользователей. Клиенты не захотят переключаться, потому что потеряют настройки.
В ИИ традиционные бизнес-модели не работают - экспоненциальный рост реален, но трудно предсказуем.
Проблема с ИИ-агентами по Дарио - 95% времени ИИ-агент работает автономно и справляется сам, а 5% времени нужно человеку, чтобы глубоко разобраться в деталях работы этого ИИ-агента.
Это как иметь сотрудника, который работает в другом офисе и делает 100 задач в день. Обычно все ОК, но иногда нужно понять, почему он принял конкретное решение в задаче №47. Это принципиально новая проблема дизайна интерфейсов, которую еще никто не решил.
Дарио Амодей считает, что рынок ИИ уже почти сформировался из 3-6 крупных игроков, не больше. Это те компании, которые могут:
1. Создавать передовые модели
2. Имеют достаточно капитала для самофинансирования. Нужны огромные инвестиции в обучение моделей, которые не каждый может себе позволить
Дарио предлагает думать о каждой модели как об отдельной компании. Каждая модель окупается довольно быстро 9-12 месяцев. Это хороший бизнес на уровне отдельной модели. Проблема в том, что компания одновременно тратит деньги на следующую, более дорогую модель.
Дарио говорит о 2-х разных рынках:
1. Рынок базовых моделей, тут 3-6 игроков:
Anthropic (Claude)
OpenAI (GPT)
Google (Gemini)
Meta(запрещена в РФ), возможно еще пара.
2. Рынок приложений на базе этих моделей - здесь тысячи компаний.
Дарио говорит о компаниях, которые просто оборачивают возможности модели в удобный интерфейс. Он предупреждает, что такие компании рискуют, когда выйдет следующая версия модели, которая сможет делать то же самое напрямую.
Про API как бизнес-модель - отличный бизнес, потому что модели принципиально не могут быть одинаковыми (в отличие от, скажем, баз данных).
Дарио говорит, что сейчас ИИ-продукты мало персонализированы. Персонализация станет огромным источником привыкания и удержания пользователей. Клиенты не захотят переключаться, потому что потеряют настройки.
В ИИ традиционные бизнес-модели не работают - экспоненциальный рост реален, но трудно предсказуем.
Проблема с ИИ-агентами по Дарио - 95% времени ИИ-агент работает автономно и справляется сам, а 5% времени нужно человеку, чтобы глубоко разобраться в деталях работы этого ИИ-агента.
Это как иметь сотрудника, который работает в другом офисе и делает 100 задач в день. Обычно все ОК, но иногда нужно понять, почему он принял конкретное решение в задаче №47. Это принципиально новая проблема дизайна интерфейсов, которую еще никто не решил.
YouTube
A Cheeky Pint with Anthropic CEO Dario Amodei
Dario Amodei joins John Collison to talk about Anthropic's growth to ~$5 billion in ARR, how AI models show capitalistic impulses, predictions for an agentic future, the economics of model businesses, and the 19th-century concept of vitalism.
Full transcript…
Full transcript…
❤13👍8🔥3
Связка нейроинтерфейсов с ИИ— следующий большой тренд: Ани Асланян в интервью для Forklog
В свежем интервью Forklog, основатель @blockchainrf Ани Асланян рассказала об истории создания канала, в каких перспективных направлениях России нужно развиваться, о ChatGPT moment для биотеха и раундах в нейротехе и индустрия нейроинтерфейсов "выходит из коробки".
Некоторые моменты, которые высвечены:
1. Прогноз смены интерфейсов - эпоха Стива Джобса прошла, мы движемся к нейроинтерфейсам из-за желания ускорить взаимодействие с ИИ.
2. Состояние индустрии нейроинтерфейсов - в 2025 году индустрия выходит из коробки и переходит к большому количеству клинических испытаний, за 2024 год стартапы собрали $2.3 млрд - инвестиций.
3. Проблема материалов - главный барьер для нейроимплантов не софт, а отсутствие биосовместимых материалов.
4. Google/DeepMind может создать сильный ИИ через изучение мозга.
5. Прорыв российских ученых - работа команды института ИИ МГУ с М. Лебедевым по созданию электродов за $1 и 3 дня.
Главной задачей человечества в 21 веке, по мнению Ани, должно стать изучение человеческого мозга.
В свежем интервью Forklog, основатель @blockchainrf Ани Асланян рассказала об истории создания канала, в каких перспективных направлениях России нужно развиваться, о ChatGPT moment для биотеха и раундах в нейротехе и индустрия нейроинтерфейсов "выходит из коробки".
Некоторые моменты, которые высвечены:
1. Прогноз смены интерфейсов - эпоха Стива Джобса прошла, мы движемся к нейроинтерфейсам из-за желания ускорить взаимодействие с ИИ.
2. Состояние индустрии нейроинтерфейсов - в 2025 году индустрия выходит из коробки и переходит к большому количеству клинических испытаний, за 2024 год стартапы собрали $2.3 млрд - инвестиций.
3. Проблема материалов - главный барьер для нейроимплантов не софт, а отсутствие биосовместимых материалов.
4. Google/DeepMind может создать сильный ИИ через изучение мозга.
5. Прорыв российских ученых - работа команды института ИИ МГУ с М. Лебедевым по созданию электродов за $1 и 3 дня.
Главной задачей человечества в 21 веке, по мнению Ани, должно стать изучение человеческого мозга.
Telegram
ForkLog
📺 Гость «Подкастового общества» — Ани Асланян, создатель Telegram-канала «Все о блокчейн, мозге и WEB 3.0 в России и в мире». Обсуждаем проблемы мемной крысы с нейроимплантом, выбираем, какой чип себе вживить, и называем главный тормоз в развитии глобального…
👍14❤6💯4👎1
Накануне презентации OpenAI утекли данные о GPT-5 на GitHub.
Этот пост был быстро заархивирован людьми и вот, что мы узнаем:
1. Архитектурные изменения:
GPT-5 объединяет возможности рассуждений из o-серии с мультимодальностью GPT-серии. Модель автоматически выбирает уровень "размышления" в зависимости от сложности задачи.
Есть 4 варианта модели под разные задачи:
gpt-5: логика и многоэтапные рассуждения
gpt-5-mini: экономичная версия
gpt-5-nano: скорость и низкая задержка
gpt-5-chat: корпоративные диалоги с пониманием контекста
2. GPT-5 делает акцент на агентность - выполнение задач через инструменты.
Из внутреннего тестирования видно, что модель научилась группировать действия (11 правок файлов за раз вместо одной), не отвлекается на долгосрочных задачах, точнее следует инструкциям. Меньше объяснений, больше выполнения.
3. OpenAI убирает необходимость вручную выбирать между моделями. GPT-5 сама определяет, какой уровень вычислений нужен для конкретной задачи. Для пользователя это означает одну точку входа вместо множества вариантов.
Этот пост был быстро заархивирован людьми и вот, что мы узнаем:
1. Архитектурные изменения:
GPT-5 объединяет возможности рассуждений из o-серии с мультимодальностью GPT-серии. Модель автоматически выбирает уровень "размышления" в зависимости от сложности задачи.
Есть 4 варианта модели под разные задачи:
gpt-5: логика и многоэтапные рассуждения
gpt-5-mini: экономичная версия
gpt-5-nano: скорость и низкая задержка
gpt-5-chat: корпоративные диалоги с пониманием контекста
2. GPT-5 делает акцент на агентность - выполнение задач через инструменты.
Из внутреннего тестирования видно, что модель научилась группировать действия (11 правок файлов за раз вместо одной), не отвлекается на долгосрочных задачах, точнее следует инструкциям. Меньше объяснений, больше выполнения.
3. OpenAI убирает необходимость вручную выбирать между моделями. GPT-5 сама определяет, какой уровень вычислений нужен для конкретной задачи. Для пользователя это означает одну точку входа вместо множества вариантов.
archive.is
GPT-5 is now generally available in GitHub Models - GitHub Changelog
archived 7 Aug 2025 03:53:08 UTC
🔥21❤6👍2
Часть пенсий в США будет в крипте - Трамп подписывает указ об этом
Этот указ позволит включать в пенсионные планы 401(k) альтернативные активы, такие как частный капитал, недвижимость, криптовалюты и другие.
Это открывает доступ к рынку пенсионных накоплений, объем которого оценивается ~ в $12,5 трлн.
Это значит, что часть пенсионных накоплений американцев сможет инвестироваться в криптоактивы через управляющие фонды или ETF.
Крупные финансовые компании - BlackRock, Apollo Global Management и Blackstone, уже давно лоббируют доступ к рынку 401(k), видя в нем огромный потенциал для роста. Например, Apollo и State Street уже запустили целевые фонды с компонентами частного капитала, а Blue Owl Capital сотрудничает с Voya для создания подобных продуктов.
Потенциальные плюсы:
1. Диверсификация портфелей.
2. Более высокая доходность, исторически частный капитал показывал более высокую доходность по сравнению с публичными рынками.
3. Инвестиции в недвижимость и инфраструктуру часто включают механизмы защиты от инфляции, такие как повышение арендной платы, привязанное к индексу потребительских цен.
4. Доступ для обычных инвесторов.
5. Включение биткоина и эфира может привлечь молодых инвесторов и увеличить ликвидность крипторынка. Например, биткоин обгонял Nasdaq по годовой доходности в 5 из последних 6 лет.
Потенциальные риски:
1. Низкая ликвидность.
2. Высокие комиссии.
3. Сложность и непрозрачность.
4. Криптовалюты и частный капитал подвержены значительным колебаниям.
5. Управляющие планами 401(k) могут столкнуться с повышенной ответственностью в случае убытков от альтернативных активов, что может замедлить их внедрение.
Этот указ позволит включать в пенсионные планы 401(k) альтернативные активы, такие как частный капитал, недвижимость, криптовалюты и другие.
Это открывает доступ к рынку пенсионных накоплений, объем которого оценивается ~ в $12,5 трлн.
Это значит, что часть пенсионных накоплений американцев сможет инвестироваться в криптоактивы через управляющие фонды или ETF.
Крупные финансовые компании - BlackRock, Apollo Global Management и Blackstone, уже давно лоббируют доступ к рынку 401(k), видя в нем огромный потенциал для роста. Например, Apollo и State Street уже запустили целевые фонды с компонентами частного капитала, а Blue Owl Capital сотрудничает с Voya для создания подобных продуктов.
Потенциальные плюсы:
1. Диверсификация портфелей.
2. Более высокая доходность, исторически частный капитал показывал более высокую доходность по сравнению с публичными рынками.
3. Инвестиции в недвижимость и инфраструктуру часто включают механизмы защиты от инфляции, такие как повышение арендной платы, привязанное к индексу потребительских цен.
4. Доступ для обычных инвесторов.
5. Включение биткоина и эфира может привлечь молодых инвесторов и увеличить ликвидность крипторынка. Например, биткоин обгонял Nasdaq по годовой доходности в 5 из последних 6 лет.
Потенциальные риски:
1. Низкая ликвидность.
2. Высокие комиссии.
3. Сложность и непрозрачность.
4. Криптовалюты и частный капитал подвержены значительным колебаниям.
5. Управляющие планами 401(k) могут столкнуться с повышенной ответственностью в случае убытков от альтернативных активов, что может замедлить их внедрение.
Bloomberg.com
Trump Signs Order Easing Path for Private Assets in 401(k)s
President Donald Trump signed an executive order easing access to private equity, real estate, cryptocurrency and other alternative assets in 401(k)s, a major victory for industries looking to tap some of the roughly $12.5 trillion held in those retirement…
🔥7🤯4👍3🤔3❤2👎1
Anthropic уже тестирует ИИ-агента в браузере и запустил автоматические проверки безопасности кода
Anthropic активно развивает свой ИИ-агент Claude Code, представив сразу несколько значимых обновлений.
Claude Code теперь доступен прямо на сайте Claude.ai для раннего доступа. Новая версия интегрируется с GitHub и использует специальную конфигурацию "Claude Code Dispatch" для настройки рабочей среды.
Ключевые возможности:
1. Прямая работа с GitHub
2. Отслеживание активности агента в реальном времени
3. Создание черновиков pull request'ов
4. Возможность переключения в терминал через функцию "teleport".
Пользователи создали библиотеку Claude Code Templates с готовыми конфигурациями для различных задач:
ИИ-специалисты: хакатон-стратег, эксперт по декомпозиции задач, промпт-инженер.
Архитектурные роли: GraphQL-архитектор, ИИ-инженер.
Бизнес-функции: бизнес-аналитик, контент-маркетолог, автоматизатор продаж.
Технические роли: специалист по поиску, интеграции платежей, поддержке клиентов.
Anthropic представил 2новых инструмента безопасности:
1. Команда /security-review
Запускается из терминала и анализирует код на наличие:
- SQL-инъекций
- XSS-уязвимостей
- Проблем с обработкой данных
При обнаружении уязвимости можно сразу попросить Claude исправить её.
2. GitHub Actions интеграция-
автоматически проверяет каждый pull request и оставляет комментарии с:
- Объяснением найденных проблем
- Рекомендациями по исправлению
- Примерами безопасного кода.
Anthropic активно развивает свой ИИ-агент Claude Code, представив сразу несколько значимых обновлений.
Claude Code теперь доступен прямо на сайте Claude.ai для раннего доступа. Новая версия интегрируется с GitHub и использует специальную конфигурацию "Claude Code Dispatch" для настройки рабочей среды.
Ключевые возможности:
1. Прямая работа с GitHub
2. Отслеживание активности агента в реальном времени
3. Создание черновиков pull request'ов
4. Возможность переключения в терминал через функцию "teleport".
Пользователи создали библиотеку Claude Code Templates с готовыми конфигурациями для различных задач:
ИИ-специалисты: хакатон-стратег, эксперт по декомпозиции задач, промпт-инженер.
Архитектурные роли: GraphQL-архитектор, ИИ-инженер.
Бизнес-функции: бизнес-аналитик, контент-маркетолог, автоматизатор продаж.
Технические роли: специалист по поиску, интеграции платежей, поддержке клиентов.
Anthropic представил 2новых инструмента безопасности:
1. Команда /security-review
Запускается из терминала и анализирует код на наличие:
- SQL-инъекций
- XSS-уязвимостей
- Проблем с обработкой данных
При обнаружении уязвимости можно сразу попросить Claude исправить её.
2. GitHub Actions интеграция-
автоматически проверяет каждый pull request и оставляет комментарии с:
- Объяснением найденных проблем
- Рекомендациями по исправлению
- Примерами безопасного кода.
Aitmpl
Claude Code Templates
Browse and install Claude Code configuration templates for different languages and frameworks
🔥9❤6👍3
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Накануне презентации OpenAI утекли данные о GPT-5 на GitHub. Этот пост был быстро заархивирован людьми и вот, что мы узнаем: 1. Архитектурные изменения: GPT-5 объединяет возможности рассуждений из o-серии с мультимодальностью GPT-серии. Модель автоматически…
Начинается презентация GPT-5, анонсированы самые ключевые сотрудники компании.
Тут утром уже выложили утечку информации о самой модели.
Тут утром уже выложили утечку информации о самой модели.
👍10
Итак, реальные возможности GPT-5 vs. заявления OpenAI
Вчера OpenAI представили GPT-5 как "интеллект на уровне эксперта с докторской степенью" с такими показателями:
- На 45% меньше ошибок, чем GPT-4o
- Автоматически выбирает режим работы под задачу
- Улучшенное пошаговое мышление (chain-of-thought)
- Есть мультимодальность: текст, изображения, голос
- Доступна всем пользователям ChatGPT.
Что показала независимая оценка METR за 3 недели до релиза:
1. 2 часа 17 минут - время выполнения сложных задач с 50% успехом
2. лучше o3 (1ч 30мин), но далеко от опасных порогов (40+ часов)
3. Ситуационная осведомлённость — модель понимает, что её тестируют
Ключевые расхождения METR с OpenAI
1. OpenAI говорят: «У нас модель уровня доктора наук». На это METR после тестирования - GPT-5 все ещё отстаёт от экспертов-людей.
2. OpenAI говорят: «У GPT-5 фокус на возможностях». На это METR - фокус на рисках безопасности.
3. OpenAI: «мы проводили тщательное тестирование безопасности». METR - модель показывает признаки обмана.
GPT-5 мощнее предшественников — METR подтверждает улучшения. Но OpenAI преувеличивает — "доктор наук" пока не соответствует реальности.
Появляются новые риски — ситуационная осведомлённость и стратегическое поведение.
Время на подготовку сокращается — до потенциально опасных систем остаётся 1-2 года.
Вчера OpenAI представили GPT-5 как "интеллект на уровне эксперта с докторской степенью" с такими показателями:
- На 45% меньше ошибок, чем GPT-4o
- Автоматически выбирает режим работы под задачу
- Улучшенное пошаговое мышление (chain-of-thought)
- Есть мультимодальность: текст, изображения, голос
- Доступна всем пользователям ChatGPT.
Что показала независимая оценка METR за 3 недели до релиза:
1. 2 часа 17 минут - время выполнения сложных задач с 50% успехом
2. лучше o3 (1ч 30мин), но далеко от опасных порогов (40+ часов)
3. Ситуационная осведомлённость — модель понимает, что её тестируют
4.
Стратегическое поведение — меняет ответы в зависимости от контекста
5.
Непонятные рассуждения — иногда производит неинтерпретируемые следы мышления.Ключевые расхождения METR с OpenAI
1. OpenAI говорят: «У нас модель уровня доктора наук». На это METR после тестирования - GPT-5 все ещё отстаёт от экспертов-людей.
2. OpenAI говорят: «У GPT-5 фокус на возможностях». На это METR - фокус на рисках безопасности.
3. OpenAI: «мы проводили тщательное тестирование безопасности». METR - модель показывает признаки обмана.
GPT-5 мощнее предшественников — METR подтверждает улучшения. Но OpenAI преувеличивает — "доктор наук" пока не соответствует реальности.
Появляются новые риски — ситуационная осведомлённость и стратегическое поведение.
Время на подготовку сокращается — до потенциально опасных систем остаётся 1-2 года.
METR’s Autonomy Evaluation Resources
Details about METR’s evaluation of OpenAI GPT-5
Resources for testing dangerous autonomous capabilities in frontier models
❤17👍9🔥3❤🔥2💯2
ИИ-агент учится напрямую у человека без разметки данных
Gensyn выпустили BlockAssist, где ИИ-агент учится играть в Minecraft, просто наблюдая за действиями игрока в реальном времени.
Вместо традиционного подхода с разметкой данных RLHF, здесь агент напрямую учится на человеческих действиях во время игры.
- Обучение происходит локально на вашем устройстве
- Агенты могут делиться знаниями через P2P сеть
- Обученные модели можно загрузить на HuggingFace
- Пока поддерживает только Mac и Linux.
Зачем это нужно?
Minecraft — удобная песочница для экспериментов с ИИ:структурированный мир, понятные действия, измеримые результаты. Если подход сработает здесь, его можно будет адаптировать для более сложных задач.
Это исследовательский проект на ранней стадии. Код экспериментальный, функционал базовый. Не стоит ждать, что агент сразу станет строить сложные конструкции — пока это больше про сбор данных и тестирование подхода.
Попробовать можно тут.
Gensyn выпустили BlockAssist, где ИИ-агент учится играть в Minecraft, просто наблюдая за действиями игрока в реальном времени.
Вместо традиционного подхода с разметкой данных RLHF, здесь агент напрямую учится на человеческих действиях во время игры.
- Обучение происходит локально на вашем устройстве
- Агенты могут делиться знаниями через P2P сеть
- Обученные модели можно загрузить на HuggingFace
- Пока поддерживает только Mac и Linux.
Зачем это нужно?
Minecraft — удобная песочница для экспериментов с ИИ:структурированный мир, понятные действия, измеримые результаты. Если подход сработает здесь, его можно будет адаптировать для более сложных задач.
Это исследовательский проект на ранней стадии. Код экспериментальный, функционал базовый. Не стоит ждать, что агент сразу станет строить сложные конструкции — пока это больше про сбор данных и тестирование подхода.
Попробовать можно тут.
www.gensyn.ai
Introducing BlockAssist
🔥11👍8❤4
Ещё больше полезного для ваших ИИ-агентов от Databricks, Salesforce и Microsoft
1. Microsoft представил универсальную платформу для оптимизации агентов
Agent Lightning — платформа, которая обеспечивает бесшовную оптимизацию агентов для любых существующих агентских фреймворков, но не ограничиваясь дообучением моделей, настройкой промптов, выбором моделей и тд.
2. Salesforce представляет CoAct-1 — мультиагентная система, которая объединяет управление через графический интерфейс (GUI) с прямым программным исполнением.
CoAct-1 построен вокруг 3-х специализированных агентов:
1. Оркестратор
2. Программист
3. GUI Оператор.
CoAct-1 достиг нового SOTA результата успешности 60.76% на сложном бенчмарке OSWorld, став первым CUA агентом, преодолевшим 60% барьер.
3. Databrick представил систему ALHF, которая делает агентов умнее в ответах
Это новая парадигма машинного обучения под названием ALHF (Agent Learning from Human Feedback) — обучение агентов на основе человеческой обратной связи. В отличие от традиционных подходов, где системы учатся на численных наградах или статичных метках, ALHF позволяет агентам обучаться непосредственно на минимальной обратной связи на естественном языке
1. Microsoft представил универсальную платформу для оптимизации агентов
Agent Lightning — платформа, которая обеспечивает бесшовную оптимизацию агентов для любых существующих агентских фреймворков, но не ограничиваясь дообучением моделей, настройкой промптов, выбором моделей и тд.
2. Salesforce представляет CoAct-1 — мультиагентная система, которая объединяет управление через графический интерфейс (GUI) с прямым программным исполнением.
CoAct-1 построен вокруг 3-х специализированных агентов:
1. Оркестратор
2. Программист
3. GUI Оператор.
CoAct-1 достиг нового SOTA результата успешности 60.76% на сложном бенчмарке OSWorld, став первым CUA агентом, преодолевшим 60% барьер.
3. Databrick представил систему ALHF, которая делает агентов умнее в ответах
Это новая парадигма машинного обучения под названием ALHF (Agent Learning from Human Feedback) — обучение агентов на основе человеческой обратной связи. В отличие от традиционных подходов, где системы учатся на численных наградах или статичных метках, ALHF позволяет агентам обучаться непосредственно на минимальной обратной связи на естественном языке
🔥6❤🔥5
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Виртуальная лаба из ИИ-агентов за несколько дней создала 92 варианта нанотел против COVID-19 Это работа команды из Стэнфорда и Chan Zuckerberg Biohub (компания Марка Цукерберга и его супруги). Что получилось? 1. ИИ-агенты за несколько дней создали 92…
⚡️Команда Цукерберга создала 1-й полноценный атлас клеток мышиного лемура. Это прорыв в клеточной биологии и сравнительной геномики приматов.
Эту работу сделала команда из 150 экспертов под руководством ученых из Chan Zuckerberg Biohub San Francisco (структура Марка Цукерберга и его супруги) и Стэнфордского университета. Эта команда создала атлас из 226,000 клеток из 27 органов и тканей - огромный объем данных высочайшего качества.
Другие проекты CZI тут и тут.
Впервые ученые смогли четко определить и обнаружить, какие типы клеток встречаются только у одного из этих видов при сравнении мыши, лемура и человека.
Исследование направлено на решение критической проблемы в медицине - биологического разрыва между мышами, на которых тестируют лекарства и людьми.
Данные из этого атласа используются для обучения и тестирования последней биологической ИИ модели CZI - TranscriptFormer, генеративной мультимодальной модели для одноклеточной транскриптомики.
Эту работу сделала команда из 150 экспертов под руководством ученых из Chan Zuckerberg Biohub San Francisco (структура Марка Цукерберга и его супруги) и Стэнфордского университета. Эта команда создала атлас из 226,000 клеток из 27 органов и тканей - огромный объем данных высочайшего качества.
Другие проекты CZI тут и тут.
Впервые ученые смогли четко определить и обнаружить, какие типы клеток встречаются только у одного из этих видов при сравнении мыши, лемура и человека.
Исследование направлено на решение критической проблемы в медицине - биологического разрыва между мышами, на которых тестируют лекарства и людьми.
Данные из этого атласа используются для обучения и тестирования последней биологической ИИ модели CZI - TranscriptFormer, генеративной мультимодальной модели для одноклеточной транскриптомики.
CZ Biohub
New cell atlas reveals biological secrets of the mouse lemur
‘Tabula Microcebus’ cell atlas is an unprecedented, data-rich tool to explore health, disease, and evolution
👍13🔥10❤🔥4🤯3❤1⚡1
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Google только что представили новую платформу для оценки ИИ Современные ИИ-бенчмарки с трудом успевают за современными моделями. Хотя они полезны для измерения производительности модели в конкретных задачах, трудно понять, действительно ли модели, обученные…
Посмотрите этот матч по шахматам между Grok и Gemini, пока ни одна из моделей не играет в шахматы на высоком уровне, как человек
На этой неделе мы писали о новом бенчмарке от Google и Kaggle - Game Arena.
Так вот на платформе Kaggle прошёл необычный шахматный турнир Game Arena, где соревновались языковые модели ИИ: Grok 4 от xAI, Gemini 2.5 Pro от Google, Claude 4 Opus от Anthropic и другие. Это не привычные шахматные движки вроде Stockfish, а ИИ, созданные для обработки текста, которые учатся играть в шахматы с нуля.
Такие турниры нужны для тестирования способностей моделей к планированию и рассуждению.
Одним из самых ярких моментов стал полуфинальный матч Grok 4 против Gemini 2.5 Pro. Игра закончилась со счётом 2.5–2.5, а победителя определил тай-брейк в формате "армагеддон", где Grok вырвал победу.
Шахматы — сложная задача для языковых моделей, которые не видят доску так, как специализированные алгоритмы. Например, Claude 4 Opus выбыл в первом раунде, проиграв Gemini со счётом 0:4, из-за слабой позиционной игры.
В финале Grok 4 встретился с o3 от OpenAI, но проиграл 0:4.
На этой неделе мы писали о новом бенчмарке от Google и Kaggle - Game Arena.
Так вот на платформе Kaggle прошёл необычный шахматный турнир Game Arena, где соревновались языковые модели ИИ: Grok 4 от xAI, Gemini 2.5 Pro от Google, Claude 4 Opus от Anthropic и другие. Это не привычные шахматные движки вроде Stockfish, а ИИ, созданные для обработки текста, которые учатся играть в шахматы с нуля.
Такие турниры нужны для тестирования способностей моделей к планированию и рассуждению.
Одним из самых ярких моментов стал полуфинальный матч Grok 4 против Gemini 2.5 Pro. Игра закончилась со счётом 2.5–2.5, а победителя определил тай-брейк в формате "армагеддон", где Grok вырвал победу.
Шахматы — сложная задача для языковых моделей, которые не видят доску так, как специализированные алгоритмы. Например, Claude 4 Opus выбыл в первом раунде, проиграв Gemini со счётом 0:4, из-за слабой позиционной игры.
В финале Grok 4 встретился с o3 от OpenAI, но проиграл 0:4.
YouTube
Grok Solved Chess. It's Over.
Check out the Kaggle Game Arena: https://www.kaggle.com/game-arena
Want to SKYROCKET your chess elo? Try Chessly: https://www.chessly.com
➡️ Get my best-selling chess book: https://geni.us/gothamchess
➡️ My book in the UK and Europe: https://bit.ly/3qFqSf7…
Want to SKYROCKET your chess elo? Try Chessly: https://www.chessly.com
➡️ Get my best-selling chess book: https://geni.us/gothamchess
➡️ My book in the UK and Europe: https://bit.ly/3qFqSf7…
👍12
Итоги уходящей недели, то, что имеет значение в России и мире
Мы празднуем 9-летие нашего канала. 5 августа 2016 был создан канал.
ИИ и агенты
Google на пороге решения "Задач тысячелетия" с помощью ИИ
ByteDance создали новую ИИ-модель, которая завоевала золото на Международной математической олимпиаде 2025 для школьников
OpenAI впервые за 5 лет выпустила открытую модель GPT-OSS
Anthropic представила Opus 4.1 и выяснила, как ИИ рассуждают, а также показывают контроль личности ИИ одним вектором
Google представили Genie 3 — универсальная модель, которая генерирует интерактивные симуляции целых миров по текстовому запросу. А тут планы Хассабиса в отношении этой модели.
Реальные возможности GPT-5, обзор новой модели
ИИ-экономика от CEO Anthropic — инсайты о рынке ИИ и проблемах агентов
Google и Kaggle запустили опен сорс платформу, где ИИ - модели соревнуются в сложных играх для оценки возможностей. Как продвинутые ИИ играют в шахматы, обзор
Google представила новый метод обучения, который сокращает требования к данным для тонкой настройки LLM на порядки
Китайский опен сорс ИИ XBai обходит закрытые модели, у модели есть параллельное мышление
Пошаговая инструкция по ИИ-агентам от Manus
Anthropic тестирует ИИ-агента в браузере и новые возможности автономной работы
Microsoft создали универсальную платформу для агентов
Salesforce представили CoAct-1- мультиагентная система, которая объединяет управление через интерфейс с прямым программным исполнением
Databricks ALHF улучшает качество ответов ИИ-агентов
ИИ - агент учится играть в Minecraft, просто наблюдая за действиями игрока
Криптовалюты и блокчейн
МВФ: стейблкоины стали цифровым долларом для развивающихся стран
Россия на 3-м месте по крипто-операциям — новый отчет Chainalysis о состоянии регулирования стейблкоинов
Криптобиржа Bullish идет на IPO и планирует конвертировать средства от размещения в стейблкоины
Трамп разрешил пенсии в крипте, подробнее в посте
Робототехника, чипы
RoboMonkey — фреймворк для синтетических данных и масштабирования вычислений для роботов
Huawei открывает исходники ИИ-инструментов для своих чипов Ascend
ИИ проектирует чипы для ИИ в 9.5 раз быстрее — фреймворк Coflex автоматизирует оптимизацию ASIC-чипов для LLM
Нейроинтерфейсы, биотехнологии и новые материалы
Нейроинтерфейсы + ИИ — новый тренд — интервью Ани Асланян для Forklog о будущем технологий
Команда Цукерберга создала атлас клеток мышиного лемура — прорыв в клеточной биологии и сравнительной геномике приматов
Meta* выпустила 2 опенсорс-инструмента для создания материалов доступны всем разработчикам
Новая модель опен сорс модель DeepPolisher от Google снижает ошибки на 70% в геномной сборке.
*запрещенная в России организация.
Мы празднуем 9-летие нашего канала. 5 августа 2016 был создан канал.
ИИ и агенты
Google на пороге решения "Задач тысячелетия" с помощью ИИ
ByteDance создали новую ИИ-модель, которая завоевала золото на Международной математической олимпиаде 2025 для школьников
OpenAI впервые за 5 лет выпустила открытую модель GPT-OSS
Anthropic представила Opus 4.1 и выяснила, как ИИ рассуждают, а также показывают контроль личности ИИ одним вектором
Google представили Genie 3 — универсальная модель, которая генерирует интерактивные симуляции целых миров по текстовому запросу. А тут планы Хассабиса в отношении этой модели.
Реальные возможности GPT-5, обзор новой модели
ИИ-экономика от CEO Anthropic — инсайты о рынке ИИ и проблемах агентов
Google и Kaggle запустили опен сорс платформу, где ИИ - модели соревнуются в сложных играх для оценки возможностей. Как продвинутые ИИ играют в шахматы, обзор
Google представила новый метод обучения, который сокращает требования к данным для тонкой настройки LLM на порядки
Китайский опен сорс ИИ XBai обходит закрытые модели, у модели есть параллельное мышление
Пошаговая инструкция по ИИ-агентам от Manus
Anthropic тестирует ИИ-агента в браузере и новые возможности автономной работы
Microsoft создали универсальную платформу для агентов
Salesforce представили CoAct-1- мультиагентная система, которая объединяет управление через интерфейс с прямым программным исполнением
Databricks ALHF улучшает качество ответов ИИ-агентов
ИИ - агент учится играть в Minecraft, просто наблюдая за действиями игрока
Криптовалюты и блокчейн
МВФ: стейблкоины стали цифровым долларом для развивающихся стран
Россия на 3-м месте по крипто-операциям — новый отчет Chainalysis о состоянии регулирования стейблкоинов
Криптобиржа Bullish идет на IPO и планирует конвертировать средства от размещения в стейблкоины
Трамп разрешил пенсии в крипте, подробнее в посте
Робототехника, чипы
RoboMonkey — фреймворк для синтетических данных и масштабирования вычислений для роботов
Huawei открывает исходники ИИ-инструментов для своих чипов Ascend
ИИ проектирует чипы для ИИ в 9.5 раз быстрее — фреймворк Coflex автоматизирует оптимизацию ASIC-чипов для LLM
Нейроинтерфейсы, биотехнологии и новые материалы
Нейроинтерфейсы + ИИ — новый тренд — интервью Ани Асланян для Forklog о будущем технологий
Команда Цукерберга создала атлас клеток мышиного лемура — прорыв в клеточной биологии и сравнительной геномике приматов
Meta* выпустила 2 опенсорс-инструмента для создания материалов доступны всем разработчикам
Новая модель опен сорс модель DeepPolisher от Google снижает ошибки на 70% в геномной сборке.
*запрещенная в России организация.
🔥12👍4❤3
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
⚡️ У топ-менеджмента OpenAI есть план по продаже AGI РФ/Китаю/США, устроив для начала «качели» за лучшее предложение от правительств стран, планируется начать с США - заявил экс-сотрудник OpenAI Леопольд Ашенбреннер в интервью Но это еще не все! Леопольд…
Помните Леопольда Ашенбреннера,экс-OpenAI, который пугал мир AGI? Так вот его фонд стал одним из самых быстрорастущих хедж-фондов в истории
Фонд привлек $1,5 +млрд и показал доходность +47% в первом полугодии 2025 года и стал одним из самых быстрорастущих хедж-фондов в истории, во многом благодаря популярности вирусного эссе Ашенбреннера "Situational Awareness", в котором он изложил свои взгляды на развитие ИИ.
Основные факты о фонде:
1. Инвестиционная стратегия - ставка на цепочку поставок для ИИ, включая:
- Полупроводники;
- Дата-центры;
- Энергосистемы.
2. Ашенбреннер называет свой фонд "мозговым трестом по ИИ", который стремится опережать рынок, инвестируя в технологии и инфраструктуру, необходимые для развития ИИ. Он прогнозирует достижение AGI к 2027 году и последующий бум инфраструктурных инвестиций на триллионы $.
Фонд привлек $1,5 +млрд и показал доходность +47% в первом полугодии 2025 года и стал одним из самых быстрорастущих хедж-фондов в истории, во многом благодаря популярности вирусного эссе Ашенбреннера "Situational Awareness", в котором он изложил свои взгляды на развитие ИИ.
Основные факты о фонде:
1. Инвестиционная стратегия - ставка на цепочку поставок для ИИ, включая:
- Полупроводники;
- Дата-центры;
- Энергосистемы.
2. Ашенбреннер называет свой фонд "мозговым трестом по ИИ", который стремится опережать рынок, инвестируя в технологии и инфраструктуру, необходимые для развития ИИ. Он прогнозирует достижение AGI к 2027 году и последующий бум инфраструктурных инвестиций на триллионы $.
WSJ
Exclusive | Billions Flow to New Hedge Funds Focused on AI-Related Bets
A 23-year-old former OpenAI researcher quickly amassed more than $1.5 billion for a firm he called a “brain trust on AI.”
🏆11👍5🎉3🔥1
ByteDance представили новый ИИ, который в 3 раза быстрее делает перевод в онлайне
Seed LiveInterp 2 — это модель полного дуплексного преобразования речи в речь с точностью более 70%.
Представьте как эта технология изменит жизнь людей, которые не знают иностранные языки, но им нужно срочно подключиться к видеозвонку с иностранцами.
Seed LiveInterp 2 — это модель полного дуплексного преобразования речи в речь с точностью более 70%.
Представьте как эта технология изменит жизнь людей, которые не знают иностранные языки, но им нужно срочно подключиться к видеозвонку с иностранцами.
👍12🔥5🤔2
Новая концепция развития интернета, основанная на ИИ-агентах
Это исследование от международной коллаборации ведущих университетов и исследовательских центров.
Интернет эволюционирует от библиотеки документов к экосистеме взаимодействующих интеллектов, где агенты создают контент друг для друга, возможно никогда не показывая его людям.
Главное, на что делают акцент исследователи - переход от "пользователь делает" к "пользователь делегирует" — вместо ручного выполнения задач в интернете, люди теперь ставят цели, а ИИ-агенты автономно их достигают.
Какие изменения предполагаются:
1. Веб-страницы становятся активными программными агентами
2. Гиперссылки превращаются в каналы координации между агентами
3. Информация встраивается в параметры ИИ-моделей, а не хранится в документах
Новые протоколы связи:
MCP — агенты ↔ инструменты/сервисы
A2A — агент ↔ агент прямая коммуникация
Экономика внимания ИИ-агентов - сервисы теперь конкурируют не за клики людей, а за выбор агентами. Рождается новая бизнес-модель, где агенты становятся "покупателями".
Вызовы:
Безопасность — как контролировать автономные системы
Экономика — кто платит за действия агентов
Управление — как регулировать машинные решения
Доверие — как обеспечить надежность агентов.
GitHub.
Это исследование от международной коллаборации ведущих университетов и исследовательских центров.
Интернет эволюционирует от библиотеки документов к экосистеме взаимодействующих интеллектов, где агенты создают контент друг для друга, возможно никогда не показывая его людям.
Главное, на что делают акцент исследователи - переход от "пользователь делает" к "пользователь делегирует" — вместо ручного выполнения задач в интернете, люди теперь ставят цели, а ИИ-агенты автономно их достигают.
Какие изменения предполагаются:
1. Веб-страницы становятся активными программными агентами
2. Гиперссылки превращаются в каналы координации между агентами
3. Информация встраивается в параметры ИИ-моделей, а не хранится в документах
Новые протоколы связи:
MCP — агенты ↔ инструменты/сервисы
A2A — агент ↔ агент прямая коммуникация
Экономика внимания ИИ-агентов - сервисы теперь конкурируют не за клики людей, а за выбор агентами. Рождается новая бизнес-модель, где агенты становятся "покупателями".
Вызовы:
Безопасность — как контролировать автономные системы
Экономика — кто платит за действия агентов
Управление — как регулировать машинные решения
Доверие — как обеспечить надежность агентов.
GitHub.
arXiv.org
Agentic Web: Weaving the Next Web with AI Agents
The emergence of AI agents powered by large language models (LLMs) marks a pivotal shift toward the Agentic Web, a new phase of the internet defined by autonomous, goal-driven interactions. In...
👍15🤔4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Когда ещё не наступил интернет ИИ-агентов, а люди уже, смотреть до конца🤣
🤣23❤🔥5🤔2
Топ ИИ-агентов по объёму выручки
Компания Anysphere (владелец Cursor) лидирует с выручкой в $500 млн.
А стартапы вроде gLean и MERCOR показывают сильный рост, несмотря на более позднее основание.
Уровень выручки на сотрудника варьируется сильно — от $53K до $3.2M, что говорит о разных моделях бизнеса.
На кого бы вы сегодня поставили $$ , чтобы выиграть в долгосрочной перспективе?
Компания Anysphere (владелец Cursor) лидирует с выручкой в $500 млн.
А стартапы вроде gLean и MERCOR показывают сильный рост, несмотря на более позднее основание.
Уровень выручки на сотрудника варьируется сильно — от $53K до $3.2M, что говорит о разных моделях бизнеса.
На кого бы вы сегодня поставили $$ , чтобы выиграть в долгосрочной перспективе?
Telegram
All about AI, Web 3.0, BCI
The top AI agents by revenue @alwebbci
The AI agent market expected to 2x+ this year ($5B to $13B). 50% of top 20 were founded in the last 3 years.
Customer service AI agents command 127x revenue multiples vs. 52x average.
The AI agent market expected to 2x+ this year ($5B to $13B). 50% of top 20 were founded in the last 3 years.
Customer service AI agents command 127x revenue multiples vs. 52x average.
🤔2❤1
Meta создала 1-ю ИИ-модель для предсказания реакций мозга на стимулы в разных модальностях и у разных людей
Модель TRIBE (Trimodal Brain Encoder) с 1 млрд параметров — это первая глубокая нейронная сеть, обученная предсказывать реакции мозга на стимулы в разных модальностях, кортикальных областях и у разных людей.
Модель объединяет предварительно обученные представления нескольких базовых моделей Meta*:
- текстовой (Llama 3.2),
- аудио (Wav2Vec2-BERT от Seamless)
- видео (V-JEPA 2), чтобы предсказывать пространственно-временные отклики мозга (fMRI) на фильмы, собранные в рамках проекта Courtois NeuroMod (80 часов на каждого испытуемого).
Команда разработчиков модели Meta FAIR’s Brain & AI заняла 1-е место на соревновании по моделированию мозга Algonauts 2025.
Код.
Данные.
*запрещенная в России организация.
Модель TRIBE (Trimodal Brain Encoder) с 1 млрд параметров — это первая глубокая нейронная сеть, обученная предсказывать реакции мозга на стимулы в разных модальностях, кортикальных областях и у разных людей.
Модель объединяет предварительно обученные представления нескольких базовых моделей Meta*:
- текстовой (Llama 3.2),
- аудио (Wav2Vec2-BERT от Seamless)
- видео (V-JEPA 2), чтобы предсказывать пространственно-временные отклики мозга (fMRI) на фильмы, собранные в рамках проекта Courtois NeuroMod (80 часов на каждого испытуемого).
Команда разработчиков модели Meta FAIR’s Brain & AI заняла 1-е место на соревновании по моделированию мозга Algonauts 2025.
Код.
Данные.
*запрещенная в России организация.
👍10❤🔥4❤2😱1🥴1