Все о блокчейн/мозге/space/WEB 3.0 в России и мире
19.4K subscribers
2.11K photos
370 videos
128 files
7.52K links
Сферы интересов канала: блокчейн, мозг(BCI), биотех, space tech, цифровая экономика, WEB 3.0 в России и мире.

Основатель @AniAslanyan

English channel https://tttttt.me/alwebbci

Регистрация в перечне РКН https://knd.gov.ru/license?id=67374142772bb113f528
Download Telegram
Meta выпустила 2 инструмента для создания новых материалов, все опен сорс

1. FastCSP - предсказание кристаллических структур за часы

Как работает: использует Universal Model for Atoms (UMA) — универсальную ML-модель, которая заменяет дорогие квантово-химические расчеты. Результат для одной молекулы можно получить за несколько часов на современных GPU.

Где применяется: разработка лекарств, создание органических полупроводников, дизайн новых материалов.

Раньше такие расчеты требовали недель работы суперкомпьютеров и были доступны только крупным исследовательским центрам. Теперь любая лаборатория может.

2. ODAC25 - поиск материалов для захвата углерода

Это датасет с 38+ млн квантово-химических расчетов для 8800+ металлоорганических каркасов, взаимодействующих с CO2 и водяным паром. Плюс готовые ML-модели для предсказания свойств новых материалов.

Это часть более широкой стратегии Meta по применению ИИ для ускорения научных открытий — от катализаторов для возобновляемой энергетики до новых материалов для электроники.

*запрещенная организация в России.
🔥14🏆75👍2
Биржа Bullish, поддерживаемая П.Тилем, подала заявку на IPO

Компания собирается привлечь $629 млн при оценке компании в $4,23 млрд.

Bullish намерена конвертировать значительную часть средств от IPO в стейблкоины, привязанные к $, сотрудничая с эмитентами таких токенов.

Это отражает стратегию управления ликвидностью в условиях волатильности криптовалютного рынка.

IPO проводится на фоне благоприятных изменений в регулировании криптовалют в США, включая принятие закона GENIUS Act, который устанавливает начальные рамки для регулирования стейблкоинов. Это снижает неопределенность и привлекает традиционных инвесторов.
👍7🔥74
⚡️Google только что выпустил тренажер для ИИ будущего Genie3

Это фундаментальный сдвиг от обычных игровых движков к ИИ-генерируемым мирам.

Genie 3 - это новая ИИ- модель для генерации интерактивных миров, которая может:

1. Генерировать интерактивные миры из текстового описания

2. Работать в реальном времени - 24 кадра в секунду

3. Поддерживать долгосрочную консистентность - до нескольких минут при разрешении 720p.

В отличие от игровых движков GameNGen, Genie 2 - это универсальная модель, полностью интерактивная.
Поддерживает навигацию по миру и взаимодействие в реальном времени.

Уникальные моменты:
- Модель обучается генерировать следующий кадр автоматически
- Не использует явные 3D-представления или заранее заданные правила
- Просто предсказывая следующий кадр, модель "изучает" физическую консистентность мира.

Стратегически Genie 3 - инфраструктура для развития физического ИИ, которая решает:

1. проблему данных для ИИ:Обучить робота/автопилот на реальных данных = дорого и опасно
Решение Genie 3: Генерировать бесконечное количество тренировочных сценариев.

2. Автономный транспорт.
Genie 3 может генерировать любые дорожные сценарии для обучения.

3. Большая помощь в робототехнике - вместо программирования каждого движения робота
ИИ учится в симулированных мирах, а потом применяет знания в реальности.

Кто контролирует лучшие симуляторы → контролирует обучение лучших роботов/автопилотов - стратегическое преимущество Google.
15👍7🔥6🤣2
Дэмис Хассабис - Genie 3 может создать симуляцию целого мира, с которой можно взаимодействовать в режиме реального времени, просто отправив текстовое сообщение.

Однажды мы сможем построить настоящий Голдек, напомним, что это вымышленная технология из Star Trek. Это специальная комната на космических кораблях или базах, которая использует голографические проекции, силовые поля и репликаторы для создания реалистичных виртуальных сред. Пользователи могут взаимодействовать с этими средами, как если бы они были настоящими: видеть, трогать, слышать и даже ощущать запахи.
🔥21🏆94👍2
OpenAI выпустила свою первую открытую модель за 5 лет

OpenAI представила gpt-oss, свою первую модель с открытыми весами с момента выпуска GPT-2 в 2019 году.

Релиз включает 2 версии: gpt-oss-120b (120 млрд параметров) и gpt-oss-20b (20 млрд параметров).

Причем, модель со 120млрд помещается на 1 видеокарту NVIDIA H100 при квантизации mxfp4. Это круто, так как обычно модели такого размера требуют несколько мощных GPU.

Архитектура у модели - Mixture of Experts с 128 экспертами. Это
модель рассуждений, сопоставимая по возможностям с o4-mini.

Поддерживает локальный запуск на ноутбуке.

В медицинских задачах gpt-oss-120b показывает результаты, близкие к o3.

Затраты на обучение:
-
2.1 млн часов H100 (~$2 млн)
- Обучена с нуля, а не адаптирована из существующих моделей

Cdn.
8👍5🔥42
Привет, друзья! Это Ани Асланян и сегодня моему каналу 9 лет❤️Это целый цикл жизни, который дал очень многое нам с вами!

5 августа 2016 года я написала первый пост.

Каждый год ровно через 5 дней после своего дня рождения, я отмечаю со своей командой годовщину канала и для меня лично это как второе рождение и бесконечная любовь, которая изменила мою жизнь, мышление и людей вокруг меня.

В течение 9 лет мы каждый день очень много работаем от всей души для вашего роста и развития, потому что мы хотим, чтобы вы узнали о самых передовых технологиях и решениях раньше и лучше всех.

За эти 9 лет мы сами сильно выросли, если вы читаете канал давно, то можете это развитие проследить. Кстати, 3 года назад мы делали инфографику наших топ проектов на момент 2022г., если интересно, то сюда. А тут итоги на момент 2024г.

Честно скажу, я трачу много сил, энергии и ресурсов, чтобы канал развивался и был всегда фронтиром.

И я благодарна, что вы часто пишите мне в личку о том, как канал помогает вам. Я очень этому рада, так как миссия канала - помогать вам развиваться, ведь развитие - это единственный признак жизни.

Вот как развивался канал по темам?

С 2016–2019гг. мы писали о блокчейне, ИИ, цифровой экономике.

В 2017 «Коммерсантъ» опубликовали нашу первую карту проектов о блокчейне в России.

16 сентября 2017 мы провели Всероссийскую викторину по цифровой экономике для школьников.

13 ноября 2017 выпустили совместно с Дом.РФ сравнительную карту о блокчейн-платформах.

С 2020–по настоящее время мы начали активно освещать тему нейроинтерфейсов, в 2021г. организовали свою панельную дискуссию на ПМЭФ о мозге и компьютерах, которая сильно повлияла на крупных игроков в России.

С 2022 года наш канал системно упоминают в своих статьях Bloomberg. А российские СМИ с нами работают с 2017 года.

В 2024 году я была участником встречи с Цукербергом. Вот тут итоги встречи.

А в 2025г. участник нашей викторины, которую бы сделали в 2017г., Лев Чижов, теперь звезда индустрии нейроинтерфейсов в Кремниевой долине, он делает свой стартап, привлёк $несколько млн инвестиций.

Что я хочу сказать?

Ровно 9 лет назад я приняла одно из главных решений в своей жизни -
создала свое любимое детище, проект, которым я очень очень дорожу.

Спасибо всем Вам за любовь, поддержку и то, что каждый день мы рядом друг с другом ❤️
60132👍36❤‍🔥20👏10🏆5🥰2🤩2👎1😢1🤣1💋1
Huawei открывает код своих ИИ-инструментов для чипов Ascend

На саммите Ascend Computing Industry Summit в Пекине Huawei объявила, что полностью открывает исходный код своей платформы Compute Architecture for Neural Networks (CANN) и набора инструментов Mind AI, включая фреймворк MindSpore.

Открытие кода позволяет разработчикам изучать архитектуру Ascend, оптимизировать приложения и создавать кастомные решения, выжимая максимум из чипов.

CANN — платформа для оптимизации ИИ-вычислений на чипах Ascend, включающая инструменты для работы с компьютерным зрением, обработкой текста и конвертацией кода из CUDA в CANN.

Mind AI— фреймворк для создания и обучения ИИ-моделей, аналог TensorFlow и PyTorch, с акцентом на конфиденциальность и поддержку разных процессоров.

Это нужно Huawei для:

- Укрепления экосистемы Ascend в конкуренции с Nvidia, особенно на фоне санкций и ограничений на чипы вроде H20.
- Привлечения китайских ИИ-компаний, университетов и стартапов для совместной работы.
- Ускорения инноваций за счёт открытого доступа к инструментам.
👍107🔥6🤔1
Anthropic выпустили Opus 4.1 и выяснили ещё больше о том, как ИИ рассуждают - новое исследование

Вчера Anthropic присоединились к параду релизов и выпустили Opus 4.1, который стал еще лучше для кодирования и агентских задач. Напомним, что вчера OpenAI представили свою опен сорс модель. А Google - Genie3.

Более того, международная группа исследователей из Anthropic, Decode, EleutherAI, Goodfire AI, Google DeepMind опубликовала масштабное исследование внутренних механизмов больших языковых моделей.

Что выяснили?

1.
Языковые модели используют многоэтапное мышление даже в простых задачах.

2. Модели сначала решают задачи на универсальном уровне, а потом переводят на конкретный язык.

3. У моделей есть специализированные "детекторы" для отслеживания грамматических структур, границ предложений и даже отдельных букв — особенно важно для рифм и акронимов.

Исследователи разработали "графы атрибуции" — способ визуализировать информационные потоки внутри модели. Это как МРТ для ИИ: можно увидеть, какие части "мозга" активны при решении конкретной задачи.

Методы оказались воспроизводимыми на разных моделях (GPT-2, Gemma, Llama) и уже используются сообществом — создано более 7000 таких "снимков мозга" ИИ.

Для математических задач модели используют заготовленные паттерны для конкретных комбинаций входных данных. Это объясняет, почему ИИ иногда неожиданно ошибается в, казалось бы, простых вычислениях.

Появляется возможность точечно настраивать поведение моделей, предсказывать их ошибки и создавать более надежные системы.
🔥14👍53
РФ заняла 3-е место по объему операций с криптовалютами - отчет Chainalysis о состоянии регулирования стейблкоинов в топ-25 юрисдикций в 2025 году

По состоянию на июль 2025 года регулирование эмитентов стейблкоинов полностью или частично действует в 11 из топ-25 юрисдикций, которые суммарно получили 38% от общего объема криптовалютных активов в 2024 году.

Топ-20 юрисдикций по статусу регулирования:

Полное регулирование: США, Великобритания, Канада, Гонконг, ЕС, Япония, ОАЭ

Частичное регулирование: Южная Корея

Предложение о регулировании есть, но без решений пока: Австралия, Сингапур

Без регулирования: Россия, Индонезия, Индия, Турция, Украина, Вьетнам, Аргентина, Бразилия, Мексика, Нигерия, ЮАР.

По России в отчете говорится, что нет специального регулирования стейблкоинов, регуляторы ввели ограничения на внутреннее использование криптовалют.

Интересные детали:

Канада
трактует стейблкоины как ценные бумаги, а не платежные инструменты.
Япония разрешает выпуск стейблкоинов только лицензированным банкам, провайдерам денежных переводов или трастовым компаниям.
Только USDC соответствует канадским требованиям для торговли на криптобиржах.
Европейский союз имеет сложную систему с лимитами для стейблкоинов, привязанных к валютам вне ЕС.
👍9🔥53🤣1
О рынке и экономике ИИ от СЕО Anthropic, а также о проблемах ИИ-агентов

Дарио Амодей считает, что рынок ИИ уже почти сформировался из 3-6 крупных игроков, не больше. Это те компании, которые могут:

1. Создавать передовые модели
2. Имеют достаточно капитала для самофинансирования. Нужны огромные инвестиции в обучение моделей, которые не каждый может себе позволить

Дарио предлагает думать о каждой модели как об отдельной компании. Каждая модель окупается довольно быстро 9-12 месяцев. Это хороший бизнес на уровне отдельной модели. Проблема в том, что компания одновременно тратит деньги на следующую, более дорогую модель.

Дарио говорит о 2-х разных рынках:

1. Рынок базовых моделей, тут 3-6 игроков:
Anthropic (Claude)
OpenAI (GPT)
Google (Gemini)
Meta(запрещена в РФ), возможно еще пара.

2. Рынок приложений на базе этих моделей - здесь тысячи компаний.

Дарио говорит о компаниях, которые просто оборачивают возможности модели в удобный интерфейс. Он предупреждает, что такие компании рискуют, когда выйдет следующая версия модели, которая сможет делать то же самое напрямую.

Про API как бизнес-модель - отличный бизнес, потому что модели принципиально не могут быть одинаковыми (в отличие от, скажем, баз данных).

Дарио говорит, что сейчас ИИ-продукты мало персонализированы. Персонализация станет огромным источником привыкания и удержания пользователей. Клиенты не захотят переключаться, потому что потеряют настройки.

В ИИ традиционные бизнес-модели не работают - экспоненциальный рост реален, но трудно предсказуем.

Проблема с ИИ-агентами по Дарио - 95% времени
ИИ-агент работает автономно и справляется сам, а 5% времени нужно человеку, чтобы глубоко разобраться в деталях работы этого ИИ-агента.

Это как иметь сотрудника, который работает в другом офисе и делает 100 задач в день. Обычно все ОК, но иногда нужно понять, почему он принял конкретное решение в задаче №47. Это принципиально новая проблема дизайна интерфейсов, которую еще никто не решил.
13👍8🔥4
Связка нейроинтерфейсов с ИИ— следующий большой тренд: Ани Асланян в интервью для Forklog

В свежем интервью Forklog, основатель @blockchainrf Ани Асланян рассказала об истории создания канала, в каких перспективных направлениях России нужно развиваться, о ChatGPT moment для биотеха и раундах в нейротехе и индустрия нейроинтерфейсов "выходит из коробки".

Некоторые моменты, которые высвечены:

1. Прогноз смены интерфейсов - эпоха Стива Джобса прошла, мы движемся к нейроинтерфейсам из-за желания ускорить взаимодействие с ИИ.

2. Состояние индустрии нейроинтерфейсов - в 2025 году индустрия выходит из коробки и переходит к большому количеству клинических испытаний, за 2024 год стартапы собрали $2.3 млрд - инвестиций.

3. Проблема материалов - главный барьер для нейроимплантов не софт, а отсутствие биосовместимых материалов.

4. Google/DeepMind может создать сильный ИИ через изучение мозга.

5. Прорыв российских ученых - работа команды института ИИ МГУ с М. Лебедевым по созданию электродов за $1 и 3 дня.

Главной задачей человечества в 21 веке, по мнению Ани, должно стать изучение человеческого мозга.
👍147💯4👎1
Накануне презентации OpenAI утекли данные о GPT-5 на GitHub.

Этот пост был быстро заархивирован людьми и вот, что мы узнаем:

1. Архитектурные изменения:
GPT-5 объединяет возможности рассуждений из o-серии с мультимодальностью GPT-серии. Модель автоматически выбирает уровень "размышления" в зависимости от сложности задачи.

Есть 4 варианта модели под разные задачи:

gpt-5: логика и многоэтапные рассуждения

gpt-5-mini: экономичная версия

gpt-5-nano: скорость и низкая задержка

gpt-5-chat: корпоративные диалоги с пониманием контекста

2. GPT-5 делает акцент на агентность - выполнение задач через инструменты.

Из внутреннего тестирования видно, что модель научилась группировать действия (11 правок файлов за раз вместо одной), не отвлекается на долгосрочных задачах, точнее следует инструкциям. Меньше объяснений, больше выполнения.

3. OpenAI убирает необходимость вручную выбирать между моделями. GPT-5 сама определяет, какой уровень вычислений нужен для конкретной задачи. Для пользователя это означает одну точку входа вместо множества вариантов.
🔥217👍2
Часть пенсий в США будет в крипте - Трамп подписывает указ об этом

Этот указ позволит включать в пенсионные планы 401(k) альтернативные активы, такие как частный капитал, недвижимость, криптовалюты и другие.

Это открывает доступ к рынку пенсионных накоплений, объем которого оценивается ~ в $12,5 трлн.

Это значит, что часть пенсионных накоплений американцев сможет инвестироваться в криптоактивы через управляющие фонды или ETF.

Крупные финансовые компании - BlackRock, Apollo Global Management и Blackstone, уже давно лоббируют доступ к рынку 401(k), видя в нем огромный потенциал для роста. Например, Apollo и State Street уже запустили целевые фонды с компонентами частного капитала, а Blue Owl Capital сотрудничает с Voya для создания подобных продуктов.

Потенциальные плюсы:
1. Диверсификация портфелей.
2. Более высокая доходность, исторически частный капитал показывал более высокую доходность по сравнению с публичными рынками.
3. Инвестиции в недвижимость и инфраструктуру часто включают механизмы защиты от инфляции, такие как повышение арендной платы, привязанное к индексу потребительских цен.
4. Доступ для обычных инвесторов.
5. Включение биткоина и эфира может привлечь молодых инвесторов и увеличить ликвидность крипторынка. Например, биткоин обгонял Nasdaq по годовой доходности в 5 из последних 6 лет.

Потенциальные риски:
1. Низкая ликвидность.
2. Высокие комиссии.
3. Сложность и непрозрачность.
4. Криптовалюты и частный капитал подвержены значительным колебаниям.
5. Управляющие планами 401(k) могут столкнуться с повышенной ответственностью в случае убытков от альтернативных активов, что может замедлить их внедрение.
🔥7🤯43👍3🤔3👎1
Anthropic уже тестирует ИИ-агента в браузере и запустил автоматические проверки безопасности кода

Anthropic активно развивает свой ИИ-агент Claude Code, представив сразу несколько значимых обновлений.

Claude Code теперь доступен прямо на сайте
Claude.ai для раннего доступа. Новая версия интегрируется с GitHub и использует специальную конфигурацию "Claude Code Dispatch" для настройки рабочей среды.

Ключевые возможности:
1. Прямая работа с GitHub
2. Отслеживание активности агента в реальном времени
3. Создание черновиков pull request'ов
4. Возможность переключения в терминал через функцию "teleport".

Пользователи создали
библиотеку Claude Code Templates с готовыми конфигурациями для различных задач:

ИИ-специалисты: хакатон-стратег, эксперт по декомпозиции задач, промпт-инженер.

Архитектурные роли: GraphQL-архитектор, ИИ-инженер.

Бизнес-функции: бизнес-аналитик, контент-маркетолог, автоматизатор продаж.

Технические роли: специалист по поиску, интеграции платежей, поддержке клиентов.

Anthropic
представил 2новых инструмента безопасности:

1. Команда /security-review
Запускается из терминала и анализирует код на наличие:
- SQL-инъекций
- XSS-уязвимостей
- Проблем с обработкой данных
При обнаружении уязвимости можно сразу попросить Claude исправить её.

2. GitHub Actions интеграция-
а
втоматически проверяет каждый pull request и оставляет комментарии с:
- Объяснением найденных проблем
- Рекомендациями по исправлению
- Примерами безопасного кода.
🔥97👍3
Итак, реальные возможности GPT-5 vs. заявления OpenAI

Вчера OpenAI представили GPT-5 как "интеллект на уровне эксперта с докторской степенью" с такими показателями:

-
На 45% меньше ошибок, чем GPT-4o
- Автоматически выбирает режим работы под задачу
- Улучшенное пошаговое мышление (chain-of-thought)
- Есть мультимодальность: текст, изображения, голос
- Доступна всем пользователям ChatGPT.

Что показала независимая оценка METR за 3 недели до релиза:

1.
2 часа 17 минут - время выполнения сложных задач с 50% успехом
2. лучше o3 (1ч 30мин), но далеко от опасных порогов (40+ часов)

3. Ситуационная осведомлённость
— модель понимает, что её тестируют

4.
Стратегическое поведение — меняет ответы в зависимости от контекста

5.
Непонятные рассуждения — иногда производит неинтерпретируемые следы мышления.

Ключевые расхождения METR с OpenAI

1. OpenAI говорят: «У нас модель уровня
доктора наук». На это METR после тестирования - GPT-5 все ещё отстаёт от экспертов-людей.

2. OpenAI говорят: «У GPT-5 фокус на возможностях». На это METR - фокус на рисках безопасности.

3. OpenAI: «мы проводили тщательное тестирование безопасности». METR - модель показывает признаки обмана.

GPT-5 мощнее предшественников
— METR подтверждает улучшения. Но OpenAI преувеличивает — "доктор наук" пока не соответствует реальности.

Появляются новые риски — ситуационная осведомлённость и стратегическое поведение.

Время на подготовку сокращается — до потенциально опасных систем остаётся 1-2 года.
17👍10🔥4❤‍🔥2💯2
ИИ-агент учится напрямую у человека без разметки данных

Gensyn выпустили BlockAssist, где ИИ-агент учится играть в Minecraft, просто наблюдая за действиями игрока в реальном времени.

Вместо традиционного подхода с разметкой данных RLHF, здесь агент напрямую учится на человеческих действиях во время игры.

-
Обучение происходит локально на вашем устройстве
- Агенты могут делиться знаниями через P2P сеть
- Обученные модели можно загрузить на HuggingFace
- Пока поддерживает только Mac и Linux.

Зачем это нужно?
Minecraft — удобная песочница для экспериментов с ИИ:структурированный мир, понятные действия, измеримые результаты. Если подход сработает здесь, его можно будет адаптировать для более сложных задач.

Это исследовательский проект на ранней стадии. Код экспериментальный, функционал базовый. Не стоит ждать, что агент сразу станет строить сложные конструкции — пока это больше про сбор данных и тестирование подхода.

Попробовать можно тут.
🔥12👍85
Ещё больше полезного для ваших ИИ-агентов от Databricks, Salesforce и Microsoft

1. Microsoft представил универсальную платформу для оптимизации агентов

Agent Lightning — платформа, которая обеспечивает бесшовную оптимизацию агентов для любых существующих агентских фреймворков, но не ограничиваясь дообучением моделей, настройкой промптов, выбором моделей и тд.

2. Salesforce представляет CoAct-1 — мультиагентная система, которая объединяет управление через графический интерфейс (GUI) с прямым программным исполнением.

CoAct-1 построен вокруг 3-х специализированных агентов:
1. Оркестратор
2. Программист
3. GUI Оператор.

CoAct-1 достиг нового SOTA результата успешности 60.76% на сложном бенчмарке OSWorld, став первым CUA агентом, преодолевшим 60% барьер.

3. Databrick представил систему ALHF, которая делает агентов умнее в ответах

Это новая парадигма машинного обучения под названием
ALHF (Agent Learning from Human Feedback) — обучение агентов на основе человеческой обратной связи. В отличие от традиционных подходов, где системы учатся на численных наградах или статичных метках, ALHF позволяет агентам обучаться непосредственно на минимальной обратной связи на естественном языке
🔥7❤‍🔥5
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Виртуальная лаба из ИИ-агентов за несколько дней создала 92 варианта нанотел против COVID-19 Это работа команды из Стэнфорда и Chan Zuckerberg Biohub (компания Марка Цукерберга и его супруги). Что получилось? 1. ИИ-агенты за несколько дней создали 92…
⚡️Команда Цукерберга создала 1-й полноценный атлас клеток мышиного лемура. Это прорыв в клеточной биологии и сравнительной геномики приматов.

Эту работу сделала команда из 150 экспертов под руководством ученых из Chan Zuckerberg Biohub San Francisco (структура Марка Цукерберга и его супруги) и Стэнфордского университета. Эта команда создала атлас из 226,000 клеток из 27 органов и тканей - огромный объем данных высочайшего качества.

Другие проекты CZI тут и тут.

Впервые ученые смогли четко определить и обнаружить, какие типы клеток встречаются только у одного из этих видов при сравнении мыши, лемура и человека.

Исследование направлено на решение критической проблемы в медицине - биологического разрыва между мышами, на которых тестируют лекарства и людьми.

Данные из этого атласа используются для обучения и тестирования последней биологической ИИ модели CZI - TranscriptFormer, генеративной мультимодальной модели для одноклеточной транскриптомики.
👍13🔥12❤‍🔥4🤯311
Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Google только что представили новую платформу для оценки ИИ Современные ИИ-бенчмарки с трудом успевают за современными моделями. Хотя они полезны для измерения производительности модели в конкретных задачах, трудно понять, действительно ли модели, обученные…
Посмотрите этот матч по шахматам между Grok и Gemini, пока ни одна из моделей не играет в шахматы на высоком уровне, как человек

На этой неделе мы писали о новом бенчмарке от Google и Kaggle - Game Arena.

Так вот на платформе Kaggle прошёл необычный шахматный турнир Game Arena, где соревновались языковые модели ИИ: Grok 4 от xAI, Gemini 2.5 Pro от Google, Claude 4 Opus от Anthropic и другие. Это не привычные шахматные движки вроде Stockfish, а ИИ, созданные для обработки текста, которые учатся играть в шахматы с нуля.

Такие турниры нужны для тестирования способностей моделей к планированию и рассуждению.

Одним из самых ярких моментов стал полуфинальный матч Grok 4 против Gemini 2.5 Pro. Игра закончилась со счётом 2.5–2.5, а победителя определил тай-брейк в формате "армагеддон", где Grok вырвал победу.

Шахматы — сложная задача для языковых моделей, которые не видят доску так, как специализированные алгоритмы. Например, Claude 4 Opus выбыл в первом раунде, проиграв Gemini со счётом 0:4, из-за слабой позиционной игры.

В финале Grok 4 встретился с o3 от OpenAI, но проиграл 0:4.
👍14