Тест Тьюринга
2.13K subscribers
1.03K photos
179 videos
35 files
1.87K links
Актуальное в сфере искусственного интеллекта в России и в мире:
• Дайджест новостей
• Аналитические обзоры, переводы, справки

Для связи - @nastyapvlv28
Download Telegram
🧪 OpenAI объявила третью фазу своего развития: от проведения исследований и разработки продуктов к превращению ИИ в массовую инфраструктуру

Сэм Альтман и главный исследователь OpenAI Якуб Пахоцки опубликовали текст Built to benefit everyone: our plan. По статусу это публичное стратегическое заявление о том, как компания видит следующий этап развития AGI.

Три фазы развития OpenAI:
➡️ Первая — исследования на пути к AGI.
➡️ Вторая началась, когда исследования стали продуктами: ChatGPT, API, корпоративные решения, обучение на реальном использовании.
➡️ Третья — сделать продвинутый ИИ «обильным», доступным, безопасным и достаточно простым, чтобы им могли пользоваться люди, компании и организации.

Поэтому корректнее говорить не о том, что «главный продукт теперь не чат-бот». ChatGPT остаётся ключевым продуктом и каналом доступа к ИИ. Но акцент смещается: OpenAI говорит уже не только о чат-боте как интерфейсе, а об ИИ как базовой инфраструктуре для экономики, науки, образования и повседневной жизни.

В тексте говорится о трех главных целя OpenAI:
1️⃣ построить автоматизированного ИИ-исследователя;
2️⃣ ускорить экономику через научный прогресс, рост производительности и новые возможности;
3️⃣ дать каждому человеку персонального AGI-помощника.

Самая важная часть — ИИ-исследователь

OpenAI пишет, что ИИ, способный делать AI research, станет определяющим фактором скорости прогресса уже в ближайшие годы. Но формулировка осторожная: речь не о машине, которая полностью заменяет исследователя, а о системе, которая ускоряет и всё больше автоматизирует исследовательский процесс, оставаясь управляемой, подотчётной и связанной с людьми. Это принципиально.

Если ИИ научится участвовать в научном цикле — читать литературу, находить ошибки, проверять гипотезы, писать код, проектировать эксперименты, сравнивать альтернативы и итеративно улучшать решения, — тогда экономический эффект будет намного глубже, чем от автоматизации офисных задач.


Наука — это верхний контур экономического роста. Новые лекарства, материалы, инженерные решения, энергетические технологии, биотехнологии и промышленные процессы появляются из исследовательского цикла. Ускорение науки означает ускорение будущей экономики.

Экспертная реакция сдержанная

The Decoder отмечает, что OpenAI фактически отходит от риторики полной автономии и подчёркивает связку человека и машины. Business Insider делает акцент на переходе компании к «третьей фазе» — массовой доступности и практической полезности ИИ. Reuters в параллельном материале об Anthropic показывает более широкий контекст: ведущие лаборатории всё чаще обсуждают не только ускорение, но и необходимость координации, контроля и даже возможного замедления фронтирных разработок при росте рисков.

Насколько мы далеко от автономного ИИ-исследователя?

Мы уже близко подошли к сильному исследовательскому ИИ-ассистенту и видим первое поколение исследовательских агентов, но мы крайне далеко от автономного учёного «под ключ».

Современные системы уже умеют делать обзоры литературы, писать код, анализировать данные, помогать в генерации гипотез. Но полноценный автономный исследователь должен отличать красивую гипотезу от воспроизводимого открытия, понимать ограничения данных, проверять собственные ошибки и не терять научную цель в многошаговом процессе.

Поэтому горизонт 2028 года выглядит правдоподобно для внутреннего ускорения сильных исследовательских команд в OpenAI и других frontier-лабораториях. Но массовый автономный ИИ-исследователь, которому можно безопасно поручить научную задачу от постановки до результата, скорее всего, потребует больше времени.

Главная новость здесь не в том, что OpenAI обещает очередной продукт. Главная новость в другом: крупнейшая ИИ-компания прямо называет автоматизацию научного исследования одним из центральных механизмов будущего экономического роста. Если эта ставка сработает, ИИ будет ускорять экономику не только через замену отдельных операций, а через ускорение появления новых знаний.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
22🔥2
📖 Переворот в рецензируемой науке

В начале июня на arXiv появилась статья двух физиков, которые в разделе о методологии добавили фразу, которую раньше никто не писал в рецензируемой науке: «Доказательство было получено в результате взаимодействия с Claude (Sonnet 4.6 и Opus 4.7) и проверено нами».

Один из авторов — Джорджо Паризи, лауреат Нобелевской премии по физике 2021 года за открытие взаимодействия беспорядка и флуктуаций в физических системах от атомного до планетарного масштаба. Его соавтор — Франческо Дзампони.

Что именно доказали?

В рамках теории полного нарушения симметрии реплик (fullRSB) для плотных твёрдых сфер в бесконечном измерении Паризи с коллегами ещё в 2014 году ввели три критических показателя abc, описывающих переход к джаммингу. Первое соотношение b=(1+c)/2 было доказано аналитически. Второе — a+b=1 — численно проверено с произвольной точностью, но аналитически не доказывалось 12 лет. 

За 40 раундов диалога Claude вернулся к теоретическому фреймворку, который создал сам Паризи, и заполнил недостающий элемент доказательства. Физики проверили результат вручную и подтвердили корректность. 

Ирония ситуации в том, что уравнение a+b=1 относится именно к теории, за которую Паризи получил Нобелевскую премию.


Другие случаи, когда ИИ вышел за рамки просто помощника

1⃣ AlphaFold и Нобелевская премия по химии 2024 года. 
Дэвид Бейкер из Вашингтонского университета, Демис Хассабис и Джон Джампер из Google DeepMind получили Нобелевскую премию по химии именно за ИИ-системы предсказания структуры белков. Это первый случай, когда Нобелевский комитет напрямую наградил разработчиков ИИ-инструмента, а не учёных, которые его использовали.

2⃣ OpenAI и задача об единичном расстоянии 2026 года. 
Внутренняя модель OpenAI опровергла 80-летнюю гипотезу, применив метод из алгебраической теории чисел — башни классовых полей — к геометрической задаче, где никто не ожидал такой связи. Результат верифицировали лауреат Филдсовской премии Тим Гауэрс и Мелани Вуд из Гарварда. Группа математиков немедленно применила тот же метод и опровергла гипотезу сумм-произведений. Томас Блум написал: «Это превосходит самые смелые мои ожидания».

3⃣ Co-Scientist от Google DeepMind 2026 года. 
Мультиагентная система независимо предложила механизм поведения cf-PICIs в антимикробной резистентности — тот же, который исследовательская группа только что открыла сама, но не успела опубликовать. Система не была знакома с неопубликованными данными, она вывела механизм из публичной литературы.

Почему это меняет норму?

В случае Паризи ключевое не то, что Claude «помог». Ключевое — что слово «помог» уже недостаточно точно. Нобелевский лауреат написал, что доказательство было получено через взаимодействие с Claude, и поставил модель в методологическом разделе рядом с «проверено нами». Это не сноска и не acknowledgment — это описание механизма получения результата.

Для учёных вывод практический: ИИ сейчас работает лучше всего не как автор, пишущий за человека, а как «суперколлега», способный удерживать в рабочей памяти весь корпус литературы по области, предлагать нестандартные переносы методов из смежных дисциплин и работать в режиме структурированного диалога с верификацией на каждом шаге. Именно так работал Паризи: 40 раундов, каждый с проверкой результата.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2👎1💯1
🧠 ИИ – это источник нового взгляда на старые проблемы ученых и топ-менеджеров

Большинство ИИ систем, которые применяют ученые в науке и топ-менеджеры в бизнесе, делают одно из двух: либо извлекают что-то из неструктурированной базы знаний, либо перебирают и перепроверяют варианты в заданном пространстве. Это полезно и очень быстро. Но это не позволит сделать открытие или эвристический ход.

Чтобы немного разобраться в этом, обращаем внимание на новый препринт MIT, который проводит чёткую линию между тремя вещами:

➡️ Извлечение — найти что-то в базе.
➡️ Поиск — исследовать известное пространство в поисках нового.
➡️ Открытие — распознать, что само пространство нужно изменить.

Маркус Бюлер из MIT с коллегой Фионой Ван сформулировали это в форме математического фреймворка:
Научное открытие требует, чтобы пространство поиска само менялось, и ИИ-учёный должен инициировать этот сдвиг без вмешательства извне.


Бюлер — пионер AI for science, его лаборатория в MIT специализируется на мультиагентных системах, которые превращают разнородные данные в научные инсайты. Его новая работа переносит эту логику на уровень метода: не «найди ответ», а «обнаружь, в каком пространстве искать».
 
В чем суть?

В качестве примера авторы разработали подход к агентному открытию в материаловедении. В основном режиме система работает внутри заданной схемы. Но для открытия инициируется переход системы в другой режим: полученные новые данные постоянно сравниваются с исходным состоянием для выявления реальной новизны.

Ключевой механизм кроется в «типизированных артефактах»: каждый фрагмент информации несёт метаданные о том, что это за объект и откуда он взялся. Это отслеживание происхождения позволяет системе проверять собственную цепочку рассуждений и точно определять, дает ли её текущий подход сбой или порождает открытие.

Почему это важно для менеджера, а не только для учёного?

Различие «поиск / открытие» описывает не только проблему ИИ — оно описывает разницу между оптимизацией существующего бизнеса и созданием нового.

Большинство ИИ-инструментов, внедряемых в организациях сегодня, работают в режиме поиска: они оптимизируют процессы внутри заданной схемы. Это быстрее, дешевле, точнее. Но прорывные проекты случаются тогда, когда кто-то понимает, что старая схема устарела и нужна другая карта реальности.

Amazon не «искал» лучший способ доставлять книги, он понял, что сама новая логистика — это уже новый бизнес. Netflix не «оптимизировал» прокат DVD — он сменил носитель. Pixar не «улучшил» традиционную анимацию — он изменил инструмент и язык описания пространства.

Фреймворк Бюлера даёт этому явлению математическую форму: момент, когда «карта» устарела, не очевиден изнутри системы. Нужен механизм верификации — проверяемый граф данных, гипотез, провалов и принятых моделей, — который позволяет отличить «мы ищем не там» от «мы ищем не то».

Для менеджера прорывных проектов это означает конкретный вопрос при любом застревании команды: мы застряли потому, что не перебрали достаточно вариантов — или потому, что работаем с устаревшей картой проблемы? Это разные диагнозы и разные способы преодоления.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥2
🖥 Опенсорс как страховка от произвола БигТеха

Неделю назад правительство США впервые в истории приказало Anthropic отключить Fable и Mythos для всех неграждан США. Компания не смогла технически разделить пользователей и закрыла доступ для всего мира. Прецедент создан, и теперь если паттерн повторится для Sonnet или Opus, неамериканские пользователи Claude Code могут мгновенно остаться без инструмента.

На этом фоне три новые открытые модели выглядят как альтернатива или страховка:

1⃣ MiniMax M3: 428 млрд параметров, активных 23 млрд, 1 млн токенов контекста. Главная инновация — это MiniMax Sparse Attention, что дает экономию в 20 раз по вычислениям на больших контекстах, чем это было у предыдущего поколения.

3⃣ Kimi K2.7 Code: 1 трлн параметров, 32 млрд активных, 256 тыс. токенов контекста. Модель от Moonshot AI, реально открытые веса на HuggingFace под лицензией Modified MIT. Тратит на ~30% меньше токенов на размышление, чем у предыдущей версии K2.6.

3⃣ MiMo Code: форк популярного open-source агента OpenCode с собственной моделью MiMo-V2.5-Pro на 1 трлн параметров, временно бесплатной через анонимный режим без настройки. Поддерживает долговременную память проекта, голосовой ввод, совместим с навыками и командами Claude Code.

Что значит «открытые веса» на самом деле?

«Открытые веса» — это файлы с обученными параметрами модели, которые можно скачать и запустить на своём оборудовании без участия компании-разработчика.


Оговорка — для топовых моделей из этой тройки «своё оборудование» означает не домашний компьютер. По тестам независимых обзорщиков, 256-гигабайтный Mac способен запустить ужатую версию с заметной потерей качества, а для практичной интерактивной работы нужны минимум 8 видеокарт уровня H100. Это серверный кластер ценой в десятки тысяч долларов.

Открытые веса дают возможность кому-то развернуть модель и предложить доступ другим. Для обычного человека открытые веса практически означают «появился дешёвый облачный API», а не «можно запустить на ноутбуке».

Что реально доступно прямо сейчас?

Облачный API через агрегаторы вроде OpenRouter — это самый реалистичный путь. MiniMax M3 на старте стоила $0,30 за миллион токенов на входе и $1,20 на выходе. Kimi K2.7 Code — $0,95/$4,00 за миллион токенов. Для сравнения, Claude Sonnet 4.6 стоит $3/$15 за миллион токенов.

MiMo Code — самый простой вариант для старта: команда curl -fsSL https://mimo.xiaomi.com/install | bash ставит инструмент, режим MiMo Auto работает бесплатно и без настройки.

Что говорят бенчмарки?

Здесь данные расходятся в зависимости от того, кто их публикует. MiniMax сама заявляет 59% на SWE-Bench Pro — это ниже, чем у Opus 4.8, но некоторые независимые агрегаторы дают MiniMax M3 80,5% на SWE-bench Verified против 72,7% у Sonnet 4.6. Разброс в 17–21 пункт между разными методиками тестирования — это норма: модель показывает разные результаты в разных обвязках.

Kimi K2.7 по независимому обзору Flowtivity достигла 60,4% на SWE-bench Verified — новый максимум среди открытых моделей, и обогнала Opus 4.8 по точности вызова инструментов через MCP.

Отдельное исследование Kili Technology показало: между лабораторными бенчмарками и реальной работой агентов разрыв в среднем составляет 37%.


Удобство и реальные отзывы

Взгляд независимого теста VentureBeat особенно интересен. Одну и ту же модель MiMo-V2.5-Pro прогнали через два разных движка: фирменный MiMo Code и Claude Code. MiMo Code показал 62% на SWE-bench Pro против 57% у Claude Code. Разница пришла не от модели, а исключительно от того, как агент организует работу. На задачах длиной более 200 шагов MiMo Code, по заявлению Xiaomi, не входит в "петли галлюцинаций", в которые попадает Claude Code.

Вывод

Реалистичный сценарий для нетехнического пользователя — подключить дешёвый API через OpenRouter или поставить MiMo Code и пользоваться бесплатным режимом. Это не равноценная замена Claude Code по качеству на сложных задачах, но это работающая страховка на случай, если завтра доступ к Claude станет недоступен без американского паспорта.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
💥 Зачем выбирать между Claude, GPT, Gemini и DeepSeek, если можно использовать все сразу?

У каждой frontier-модели есть сильные и слабые стороны, и это давно не секрет. Например, некоторые считают, что Claude лучше рассуждает и следует инструкциям, а GPT-5.x сильнее в аналитике данных. При этом мы и сами заметили, что Gemini опережает в работе с длинными документами и поиском в сети. DeepSeek и Kimi неожиданно сильны в математике и стоят в разы дешевле.

Возникает логичный вопрос: а нельзя ли задать вопрос всем сразу и выбрать лучший ответ?

Можно. OpenRouter превратил эту идею в продукт — Fusion API. Система прогоняет запрос через 3–5 моделей одновременно. Пользователь может выбрать преднастроенный вариант Quality или Budget, и модели-участники будут работать параллельно. Также в панели включён web search, то есть каждая модель может найти актуальные данные перед ответом.

Стадии обработки запроса:
1️⃣ Ваш запрос поступает в Опенроутер ▶️ 2️⃣ несколько (от 1 до 8) моделей параллельно исполняют его, также происходит поиск в сети ▶️ 3️⃣ "судья" сравнивает все ответы ▶️ 4️⃣ финальная модель пишет итоговый текст.

Самое интересное — шаг судьи

Судья не просто выбирает лучший ответ. Судья возвращает структурированный JSON с пятью разделами:
➡️ consensus — в чём все модели согласны
➡️ contradictions — где прямо противоречат друг другу
➡️ partial coverage — что одна модель затронула, другая нет
➡️ unique insights — что нашла только одна модель
➡️ blind spots — что никто не заметил

Это уже не выбор победителя, а карта разногласий.

Реальные цифры

OpenRouter тестировал Fusion на бенчмарке DRACO: 100 задач глубокого исследования, разработан Perplexity. Панель Fable 5 + GPT-5.5 с судьёй Opus 4.8 смогла набрала 69,0%. Это выше, чем Fable 5 в одиночку — 65,3%. Бюджетная панель из Gemini 3 Flash, Kimi K2.6 и DeepSeek V4 Pro достигла 64,7% при вдвое меньшей стоимости.

Окупается ли?

Платить нужно за вызов каждой модели в панели плюс вызов судьи. Вариант "Quality" стоит больше чем в 3 раза дороже одного вызова модели Opus 4.8. Но качество превзойдет пока недоступный Fable 5. Если задача требует глубокого анализа, и ошибка обойдётся дорого, то это подходящий вариант.

Если нужен быстрый ответ на простой вопрос — один дешёвый Claude Haiku будет в сотни раз дешевле и достаточен. OpenRouter сам признаёт: Fusion не подходит для realtime-взаимодействий и задач, где важна скорость ответа — параллельный запуск нескольких моделей увеличивает задержку ответа пропорционально.

Можно ли собрать судью самостоятельно?

Технически — да, и это не очень сложно. Основа будет, например, на Python с несколькими API-ключами. Логика такая: один и тот же запрос отправляется параллельно к Claude, GPT и Gemini. Далее все три ответа собираются, формируется мета-промпт:
Вот три ответа на один вопрос. Определи: в чём они согласны, где противоречат, что каждый упустил, выбери лучшие элементы и синтезируй финальный ответ. 

Такой запрос отправляется судье — любой достаточно умной модели.

Это паттерн, давно известный как «mixture of agents» в академической литературе. Идея существует давно, но упаковать её в продуктовый API, чтобы вызывать так же, как любую одну модель - это то, что делает Fusion практически полезным.

Что OpenRouter добавляет сверх самодельной сборки: удобство, web поиск в каждой модели, пресеты из проверенных комбинаций и прозрачность логов. Сколько это стоит? 5.5% сверх стоимости всех вызовов.


Когда имеет смысл, когда нет?

Fusion работает хорошо там, где у моделей разные слепые зоны: юридический анализ, медицинское исследование, стратегические решения, глубокий фактчекинг. Модели галлюцинируют по-разному и ансамбль снижает вероятность того, что ни одна не поймала ошибку.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2💯2
🖥 Главный тренд десятилетия на рынке труда: человек + ИИ

На прошлой неделе компания PwC выпустила свой ежегодный доклад «2026 Global AI Jobs Barometer». Это масштабное исследование, которое анализирует более миллиарда онлайн-вакансий с шести континентов и 27 стран, а также финансовую отчетность тысяч компаний. По сути, это один из самых всеобъемлющих срезов того, как ИИ прямо сейчас меняет глобальный рынок труда — не в теории, а в реальных цифрах найма, зарплат и требуемых навыков.

Исследование делит все профессии на две категории:

➡️ Профессионализируемые (Professionalised) — профессии, где ИИ автоматизирует базовые задачи, повышая потребность в человеческой экспертизе (рентгенологи, рекрутеры, авиадиспетчеры) — 22% вакансий.
➡️ Демократизируемые (Democratised) — профессии, где ИИ автоматизирует более экспертные задачи, снижая порог входа (разработчики ПО, кредитные специалисты, финансовые менеджеры) — 78% вакансий.

Ключевые выводы

1️⃣ ИИ создаёт двухскоростной рынок труда (two-track labour market): профессионализируемые профессии растут вдвое быстрее демократизируемых и демонстрируют на 42% более высокий рост зарплат с 2021 года.

2️⃣ Бóльшая подверженность ИИ связана с ростом численности персонала, а не с его сокращением. В наиболее подверженных ИИ компаниях рост численности сотрудников вдвое выше, чем в наименее подверженных.

3️⃣ Самое интересное — это эффект «суперзвёзд». Среди компаний, наиболее активно использующих ИИ, топ-20% показали рост производительности труда на 163% с 2018 года — почти в 5 раз выше среднего по отрасли.

4️⃣ Навыки в наиболее подверженных ИИ профессиях меняются вдвое быстрее, чем в наименее подверженных. Новые задачи, добавляемые в ИИ-подверженные роли, в 2,5 раза чаще требуют «человеко-интенсивных» способностей: эмпатии, креативности, суждений, лидерства.

О чем всем стоит задуматься

Во-первых, о «сеньоризации» начальных позиций: анализ 2,4 млн вакансий в США показал, что ИИ-затронутые начальные роли в 7 раз чаще требуют навыков, которые раньше считались «старшими» — лидерства, креативности, умения вести переговоры. При этом такие «усложненные» начальные позиции выросли на 35% с 2019 года, тогда как обычные entry-level jobs сократились на 10%.

Иными словами, порог входа в профессию для молодых специалистов не снижается, а растёт.


Во-вторых, о пересмотре ценности человеческих навыков. Спрос на «чисто человеческие» способности — эмпатию, креативность, стратегическое мышление — взлетает. ИИ автоматизирует анализ, но не заменяет суждение.

И в-третьих, о новом неравенстве: выигрывают не те, кто просто внедряет ИИ, а те, кто использует его для усиления человеческого потенциала, а не для слепой автоматизации.

Наконец, PwC подчёркивает: для работодателей переобучение сотрудников может быть менее эффективным, чем перепроектирование их ролей с учётом сильных сторон ИИ и человека. В будущем конкурентоспособность компаний будет определяться не тем, как быстро они внедряют ИИ, а тем, как умно они перестраивают организацию работы вокруг ИИ.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2💯2
📚 В Российской государственной библиотеке появился инструмент анализа кандидатских и докторских

Российские диссертации — один из самых трудоемких форматов научного знания. При этом их невозможно найти в международных базах статей, которые сейчас легко анализировать при помощи ИИ и ML-инструментов.

Конечно, каждая отечественная диссертация обязана поступать в РГБ по требованиям о хранении обязательного экземпляра. Но найти их тоже было почти невозможно: только по ключевым словам, или только если знаешь точный заголовок или фамилию автора.

На Всероссийском библиотечном конгрессе 2026 года РГБ объявила о запуске национальной ИИ-платформы, которая открывает беспрецедентный доступ к 200 млн единиц хранения. Это значит, что появился инструмент поиска всего, что было написано и защищено в российской науке за 200 лет существования «Ленинки».

➡️ В основе платформы лежит Аналитическая нейросетевая справочно-информационная система — АНСИС, разработанная на отечественном ПО, включённом в реестр Минцифры. Вся инфраструктура и данные находятся на серверах РГБ, что гарантирует суверенитет информации.

➡️ Партнёром в разработке стала MWS AI — AI-подразделение МТС Web Services, в 2025 году объединившее ключевые AI-активы МТС, включая VisionLabs и Big Data МТС. Проект реализован совместной командой — технологами РГБ и инженерами MWS.

В РГБ теперь работает семантический поиск

Старый поиск в библиотечном каталоге работал буквально: если в заголовке диссертации написано «нейронные сети», а автор использовал термин «многослойный перцептрон», поиск не найдёт ничего.

Семантический поиск преобразует каждый текст в числовой вектор — математическое «отображение смысла» в многомерном пространстве. Близкие по смыслу тексты дают близкие векторы, даже если в них нет ни одного общего слова.


Например, запрос «применение глубокого обучения в кардиологии» найдёт диссертации про нейросетевую диагностику аритмий, ИИ в ЭКГ-анализе и предсказательные модели сердечно-сосудистых рисков вне зависимости от конкретной терминологии автора.

Все публикации включены в граф знаний

NER (Named Entity Recognition) — технология, которая в тексте автоматически распознаёт именованные сущности: людей, организации, даты, географические названия, научные концепции. Из этих сущностей строится граф: каждая сущность — узел, каждая связь между ними — ребро.

Диссертация «Иванова А.П., МФТИ, 2018, о методах сжатия нейронных сетей» соединяется с другими работами по смежным темам, с публикациями той же научной школы, с последующими работами, которые цитировали те же концепции. Вместо изолированных документов получается сеть: кто с кем работал, какие темы пересекаются, где есть научные школы.

Что теперь доступно?

Принципиально важно, что фонд главной библиотеки страны, отражающий 200 лет истории и знаний, становится доступен не только в виде полных текстов, но и в формате структурированных датасетов, которые могут использоваться для обучения собственных языковых моделей и создания новых ИИ-сервисов.

Почему это важно именно сейчас?

В контексте ограничений на западные ИИ-платформы вопрос о том, на каких данных обучать отечественные LLM, стоит остро. 200 миллионов единиц РГБ с задокументированным происхождением, сохранённых на российских серверах и открытых для использования в ML-задачах — это ресурс, которого раньше не существовало.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍3
👨‍🏫 ИИ помогает учиться или незаметно отучает думать?

Недавно вышло интригующее исследование CEPR Discussion Paper DP21577 о влиянии ИИ на качество образования. Это 30 месяцев исследований по более чем 26 тыс. китайских учеников в 7–12 классе, 9 предметов, ежемесячные экзамены, вступительные испытания в старшую школу и университет, плюс оценки домашних заданий с фиксацией времени их выполнения.

Ключевой вывод — использование генеративного ИИ повышает оценки за домашние задания на 18% и сокращает время их выполнения на 30%.


! Но оценки за ежемесячные экзамены падают на 20% уже через шесть месяцев. Результаты вступительных экзаменов (аналог ЕГЭ) снижаются на 18–24% и полный эффект проявляется только спустя два года.

Главный вопрос: это потеря знаний или просто развитие других навыков?

Наибольшее снижение оценок за экзамены отмечается среди примерно 80% пользователей ИИ, которые делали «ИИ-аутсорсинг домашней работы». Такие ученики показывали исключительно короткое время выполнения ДЗ при высоких оценках за само задание. Потери оказались наибольшими в общественных науках, затем в STEM и языках. Особенно большой эффект — у учеников младших классов.

Оставшиеся 20%, которые тратили на домашнюю работу столько же времени, что и те, кто ИИ не использовал, показали лишь минимальное снижение результатов на экзаменах.

Это ключевое разграничение. ИИ как замена мышлению даёт одни результаты. ИИ как наставник, который объясняет и уточняет материал, — другие.

Механизм: когнитивное делегирование

В исследовании измерялись знания, которые хранятся в долгосрочной памяти. Когда мозг тратит усилия на решение учебных задач, возникает то, что нейробиологи называют «консолидацией» — переносом знаний из рабочей памяти в долговременную через ошибки, повторение и усилие.

Когда ребёнок 30 месяцев не работает с задачами, а делегирует их, мозг перестаёт инвестировать в поддержание соответствующих нейронных путей. Этот механизм хорошо изучен: rалькуляторы ослабили навык счёта в уме, а GPS ослабляет пространственную память.

Исследователи формулируют простой принцип:
«Использование ИИ в поддержку занятий — это хорошо. Использование ИИ вместо выполнения домашней работы — очень плохо».


Потеря или перепрофилирование?

Исследование измеряло именно то, что должен измерять традиционный экзамен. И на этом поле у обучения с ИИ однозначный минус.

Но ни одно измерение в работе не охватывало другого. Те же 26 тыс. детей параллельно учились формулировать запрос так, чтобы получить полезный ответ; оценивать, насколько ИИ прав или ошибается; совмещать несколько инструментов для решения задачи; рефлексировать о том, что они знают и чего не знают. Это реальные навыки 2026 года, и они нигде в исследовании не измерены.

Честный ответ на вопрос «дети стали учиться хуже?» звучит так: они стали хуже справляться с тестами, проверяющими знание без доступа к инструментам.

Является ли это «учёбой» — вопрос не педагогический, а философский. Пока мы отвечаем «да», данные CEPR — однозначный приговор. Если мы готовы переопределить, что значит «учиться», то разговор становится сложнее.

Что это значит для педагогики?

Прямой вывод из 20% пользователей, у которых эффект был минимальным: детей нужно учить другому режиму взаимодействия с ИИ — не «дай ответ», а «объясни, проверь моё понимание, укажи на ошибку». Разница в поведении — это разница в исходе. И это то, чему можно и нужно учить.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👏1🤔1💯1
👨‍💻 Как заставить GPU меньше ждать: исследование Яндекса вошло в топ ICML

6 июля в Вене откроется ICML — Международная конференция по машинному обучению. Это не просто крупнейшее ежегодное собрание в области ML — это место, где определяется направление движения всей науки о данных на следующие несколько лет.

В 2026 году заявки на публикацию докладов конференции прислали около 24 тыс. исследовательских групп со всего мира. Из них программный комитет выделил лишь чуть более 500 работ со статусом Spotlight — самыми высокими оценками. Это 2,2% от всех поданных заявок.

Одна из этих 536 работ принадлежит команде Яндекса. Гордимся нашими большими друзьями и коллегами из российской компании-лидера в сфере ИИ!


Что решали ученые Яндекс и почему это сложно?

Графовые нейронные сети (GNN) — архитектура, которая работает не с изображениями или текстами, а с графами: объектами, между которыми есть связи. Например, графами являются социальная сеть (пользователи и их подписки), молекула (атомы и химические связи), интернет-магазин (пользователи, товары, покупки). Именно GNN лежат в основе лучших рекомендательных систем, инструментов разработки лекарств и детекторов мошенничества.

Но проблема и специфика работы с GNN состоит в том, что GPU, современный вычислительный инструмент для обучения нейросетей, спроектирован для другой задачи. Он умеет молниеносно умножать большие матрицы: ровные, плотные, предсказуемые структуры.

А в графах всё иначе. Каждый узел связан с разным количеством соседей. Данные лежат в памяти в разброс. Когда GPU начинает работать с графом, он постоянно прерывается и ждёт пока нужные данные загрузятся из разных мест памяти.

В это время тысячи вычислительных ядер простаивают. Сами вычисления при этом несложные, но проблема именно в ожидании.


Команда Яндекса — исследователи из Yandex Research, инженеры команд ML-инфраструктуры и инференса, студенты ШАД — разработала алгоритм, который меняет порядок обращения к памяти так, чтобы видеокарта ждала как можно меньше. Данные о результатах будут публичны после публикации доклада на конференции, но сам статус Spotlight говорит, что программный комитет счёл работу значимой как теоретически, так и практически.

Почему это важно именно сейчас?

Яндекс — не просто исследовательская компания с хорошей наукой. Это организация, чьи сервисы ежедневно обслуживают сотни миллионов запросов: в поиске, навигации, музыке, видео, такси. Каждый раз, когда алгоритм рекомендует вам трек или предлагает маршрут, за этим стоит GNN. Ускорение этой архитектуры — это снижение стоимости инференса, ускорение обучения моделей, способность работать с более крупными графами в те же сроки.

Работа будет опубликована в открытый доступ. Значит, тем же алгоритмом смогут воспользоваться исследователи в медицине, климатологии, фармацевтике — везде, где графовые нейросети применяются сегодня.

Отдельно стоит сказать о ШАД — Школе Анализа Данных, которую Яндекс основал ещё в 2007 году и которая уже почти двадцать лет готовит ML-специалистов класса мирового уровня. То, что студенты ШАД стали соавторами работы в топ-2,2% ICML — это результат выстраивания образовательной экосистемы, где граница между учёбой и передовой наукой намеренно размыта.

Статус Spotlight на ICML — не просто строчка в резюме. Это сигнал, который читают исследователи по всему миру: из России приходят идеи, которые стоит изучить.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2🏆2😁1🤣1
🤩 Японский путь в ИИ: оркестрация вместо масштабирования

На этой неделе токийский стартап Sakana AI выпустил Sakana Fugu и его флагманскую версию Fugu Ultra. Это мультиагентный оркестратор, работающий как обычная модель через единый OpenAI-совместимый API. Это событие является продолжением пяти параллельных трендов в развитии ИИ.

Япония выходит в мировые лидеры и делает это своим способом

Sakana AI основана двумя бывшими исследователями Google: Льоном Джонсом, один из восьми соавторов «Attention Is All You Need» — статьи, давшей миру архитектуру Transformer, и Дэвидом Ха. Лаборатория базируется в Токио, специализируется на эволюционных алгоритмах и коллективном интеллекте.

Япония не пытается догнать США в гонке масштабов и не строит, например, какой-нибудь ЦОД на 220 000 GPU. Вместо этого японский путь оказался изобретательным: не тренировать ещё более крупную модель, а обучить маленькую модель управлять чужими крупными.

Параллельно правительство Японии 22 июня опубликовало обновлённый Базовый план по ИИ с фокусом на кибер-риски и дипфейки. Регуляторная и коммерческая стратегии движутся синхронно, например, в отличие от ЕС.

Экспортный контроль становится центральной

Sakana прямо называет повод для выпуска своего сервиса:
«Anthropic приостановила Fable 5 и Mythos по приказу правительства США — это не абстрактный риск, если ваш банк, министерство или завод построили workflow вокруг одной модели».


Это первый в истории случай, когда frontier-продукт позиционируется через защиту от суверенного риска как центральный элемент.

Этот вопрос становится новой нормой: входит ли «доступность модели для пользователей с любым гражданством» в SLA-контракт? Sakana не единственная идет этим путем: Kimi K2.7, GLM-5.2, MiniMax M3 — все позиционируются через MIT лицензию, развёртываемую где угодно. Таким образом, сформировалась новая маркетинговая категория «инфраструктура ИИ-суверенитета».

Наука как фундамент нового продукта

Fugu в отличие от решения OpenRouter — это не «несколько API-запросов в пайплайне». Это обученная политика координации, описанная в двух статьях Sakana, представленных на ICLR 2026.

➡️ Trinity: маленький самообучаемый координатор, который управляет пулом LLM. Это эволюционный подход, координатор «совершенствуется» в управлении командой. 
➡️ Conductor: метод обучения coordinator-модели через RL на естественном языке. Здесь координатор учится не «правилам», а гибкому поведению.

Архитектура Fugu представляет собой одну координирующую LLM на 7 млрд параметров, которая обучена решать, когда, какую модель из пула, для чего и сколько раз вызвать, включая рекурсивный вызов себя. Разница между Fugu и обычным оркестратором — как между обученной собакой-поводырём и GPS-маршрутом.

Frontier-модели — это дорого. Оркестратор может быть дешевле, но не всегда

Fugu Ultra: $5 input / $30 output за миллион токенов. Подписки: $20 / $100 / $200 в месяц. Выглядит дешевле, чем Fable 5 "при жизни" ($10/$50).

НО $5/$30 — это цена запроса к координатору. Реальная стоимость = Fugu + стоимость всех вызовов к GPT-5.5, Opus 4.8 и Gemini «под капотом», которая пользователю не раскрывается. Аналогия тут такая: умный роутер может сэкономить деньги, выбирая правильную модель, но может и скрыть дорогую цепочку вызовов за одним аккуратным ответом.

Подтверждение тренда после OpenRouter Fusion

За одну неделю случилось четыре события про одну идею:

1️⃣ OpenRouter Fusion: ансамбль моделей с судьёй-синтезатором.
2️⃣ Cursor Origin: GitHub-инфраструктура для агентных workflow.
3️⃣ OpenAI Record & Replay: превращение действий пользователя в скиллы агента.
4️⃣ Sakana Fugu: обученный координатор для пула frontier-моделей.

Все четыре — об одной концепции. Выигрывает не одна модель, а система, которая умеет выбирать, спорить и собирать ответ.

Экономический смысл прост: если frontier-качество достигается через оркестрацию, то гонка «ещё более мощная одиночная модель» теряет смысл — за исключением задач, требующих внутренней согласованности длинных рассуждений.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2👏2
⚫️ Для оценки ИИ нужно всего 5 бенчмарков

Современный релиз языковой модели сопровождается отчётом с результатами на 40+ бенчмарках, причём те же самые оценки прогоняются многократно ещё до публичного релиза — чтобы отслеживать прогресс обучения, сравнивать архитектурные решения и выбирать лучший чекпоинт.

Авторы работы "You Don't Need to Run Every Eval" Ючень Зэн и Димитрис Папаилиопулос из подразделения Microsoft Research, AI Frontiers, задаются вопросом: а нужно ли вообще запускать все эти оценки?

Исследователи создали публичную матрицу оценок (score matrix), собрав результаты тестов 84 передовых моделей от 13 провайдеров (OpenAI, Google, Anthropic и др.) по 133 бенчмаркам. Матрица содержит 2604 наблюдаемых значения, что составляет лишь 23.3% от всех возможных ячеек.

📌 Ключевое открытие — матрица имеет эффективный ранг 2 (rank-2). Это значит, что оценки модели по всем 133 тестам в значительной степени определяются всего двумя скрытыми факторами. Матричное разложение с использованием SVD показало, что два фактора объясняют более 90% вариативности в оценках моделей;

Скрытые «два числа» — это не «интеллект» и «знания». Авторы не интерпретируют, что именно означают эти два фактора. Это приглашение для будущих исследований: что такое «ось X» и «ось Y» в пространстве способностей LLM?


На основе этой структуры был создан BenchPress — метод, который по небольшому набору известных оценок модели предсказывает все остальные с точностью ~4.6 балла.

Авторы обнаружили набор из пяти бенчмарков {GPQA-D, HLE, Codeforces, MMLU-Pro, ARC-AGI-1}, который восстанавливает остальные публичные оценки модели с точностью до 3.93 балла. Для меньшего вычислительного бюджета более дешёвый набор {GPQA-D, MMLU-Pro, Aider Polyglot, MATH-500, AIME 2026} позволяет предсказывать оценки с точностью до 4.55 балла.

О чем следует задуматься индустрии и не только?


1️⃣ Для разработчиков AI-моделей — прямая экономия ресурсов при итерациях. Вместо запуска десятков бенчмарков на каждом чекпоинте достаточно запустить 5, предсказав остальные. При сотнях итераций в процессе обучения это может сэкономить миллионы долларов и недели времени.

2️⃣ Для ИИ-исследователей — новая парадигма понимания способностей LLM. Если матрица оценок имеет ранг 2, значит за разнообразием задач стоят всего несколько фундаментальных способностей. Это ставит вопросы о природе «интеллекта» в современных LLM.

3️⃣ Для регуляторов и политиков — сигнал к пересмотру требований к тестированию. Если 133 бенчмарка несут не больше информации, чем 5, то регуляторные требования об «исчерпывающем тестировании» могут нуждаться в переосмыслении.

Неочевидные выводы

👉 «Гонка бенчмарков» теряет смысл. Компании публикуют десятки цифр при каждом релизе — не потому что они информативны, а потому что это стало индустриальным стандартом.

👉 Ранг 2 — это диагноз нынешнему поколению моделей. Авторы честно оговариваются: ранговая структура условна на текущем снапшоте из 84 моделей. Если появятся модели с принципиально новыми архитектурами или специализацией, например, только для биоинформатики, матрица может изменить ранг.

👉 Предсказание хорошо работает для «обычных» моделей, но ненадёжно для аутлаеров. Авторы разработали «уровень уверенности» именно потому, что для нетипичных моделей предсказания могут сильно ошибаться. Если вы разрабатываете действительно инновационную модель, вам всё равно придётся запускать полный набор оценок.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2💯2
😦 Anthropic превратила ИИ в цифрового сотрудника вашей команды

На прошлой неделе Anthropic выпустила Claude Tag и это событие оказалось устроено сложнее, чем выглядит с первого взгляда.

Claude Tag позволяет добавлять Claude в Slack-канал как постоянного участника. Вы пишете @Claude, ставите задачу, уходите работать, возвращаетесь к готовому результату. Пока вас не было, Claude работал: ходил в GitHub, запускал тесты, писал аналитику.

Ambient Mode, опциональный режим, делает шаг дальше. Claude не ждёт, пока его тегнут. Он сам замечает нерешённые задачи, потерянные в ходе обсуждений, и напоминает о них. Или сигнализирует в Slack о важном письме, которое попало например в Gmail.

Парадигмы: от сайта к существу

Андрей Карпаты, теперь уже как один из лидеров Anthropic, сформулировал значение этой новинки так:
«Это 3-й крупный редизайн UI/UX для LLM. Первый — LLM как чат бот на сайте, к которому идут. Второй — LLM как приложение, которое скачивают и которое может работать как оператор. Третий — это асинхронная сущность с инструментами и контекстом, работающая рядом с командами людей в том же пространстве».


Разница между вариантами — не в качестве ответов. Разница в том, кто инициирует взаимодействие, где хранится контекст и что происходит, когда вы уходите. В первых двух парадигмах ИИ ждёт согласованной задачи. В третьей — ИИ работает независимо от того, открыт ли у вас, например, браузер.

Главное изменение — "кому служит"

Все предыдущие ИИ-боты в Slack были привязаны к пользователю: каждый человек разговаривал со своей копией, в своём приватном треде, со своей историей. Когда задача переходила от человека к человеку, то контекст терялся, следующий член команды начинал диалог заново.

Claude Tag меняет адресата с пользователя на канал. Один @Claude живёт в канале, накапливает контекст из всего потока обсуждений, и этот контекст принадлежит команде, а не каждому то в отдельности. Когда один инженер передает задачу другому, то тот получает не только ссылку на репозиторий, но и участника команды, который уже знает, что обсуждалось последние две недели.

Это структурный сдвиг: авторизация, память и идентичность теперь привязаны к месту работы, а не к личному профилю.

Сущность, основанная на опыте команды

Здесь самый интересный философский вопрос. У Claude Tag нет личности в антропоморфном смысле. Но у него есть нечто, что в организационной культуре называют "институциональные знания": знание установок и целей команды, паттернов наименования, недавних решений, стилей коммуникации. Всё это накапливается не из обучающих данных, а из живого опыта работы в конкретном канале.

Нас зацепила позиция одного из комментаторов запуска Claude Tag, который сформулировал некий парадокс: «Вы впускаете в свою команду сущность, чьи ценности и вкусы заданы Anthropic и намеренно не поддаются вашему влиянию. Это коллега, на которого нельзя оказать давление через иерархию, социальное давление или корпоративную культуру. Это принципиально "другое" по сравнению с другими участниками Slack». То есть это сущность с ценностями извне — и с опытом изнутри.


Коллектив получает ИИ, который «помнит» последние три месяца работы команды, но чьи базовые установки определяет Anthropic, а не команда. Это порождает вопрос о том, кому принадлежит то, что накопил Claude в вашем канале?

Что требует внимания?

1⃣ Пока Tag доступен только в Slack, и пока только для Enterprise и Team тарифов.
2⃣ Billing per channel означает, что организации с несколькими активными каналами могут получить неожиданно огромный счёт.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3👏1💯1
📊 Codex обгоняет ChatGPT: что говорит внутренняя статистика OpenAI

Большинство знает что такое ChatGPT. Codex — это агентный coding-инструмент OpenAI: ИИ-агент, который не просто отвечает на вопросы в чате, а самостоятельно пишет код, запускает команды, тестирует и правит результат, пока человек занимается другими делами. По сути — автономный программист-исполнитель, которому делегируют задачу и ждут готовый результат.

OpenAI опубликовала внутреннюю статистику использования Codex.

1️⃣ Внутри OpenAI Codex практически вытеснил ChatGPT
По объёму генерируемых токенов сотрудники OpenAI используют Codex на 99,8%, а ChatGPT — лишь на 0,2%. Важная оговорка: это доля именно по объёму токенов, а не по числу людей, которые запускают приложение. То есть ChatGPT, скорее всего, открывают часто и по разным поводам, но Codex генерит несопоставимо больше «текста», потому что агент работает долго и самостоятельно, создает код, логи, правки.

Внутри компании, где разработка — это основной вид деятельности, агентный инструмент стал доминирующим способом производства.


2️⃣ У бизнес-клиентов похожая картина
Среди корпоративных пользователей на Codex приходится около 64% всего потребления токенов. Это значит, что тренд не уникален для самой OpenAI — бизнес в целом всё активнее переключается с диалогового режима на агентный.

3️⃣ Самые активные пользователи работают «в несколько рук» одновременно
Топ-1% самых активных пользователей Codex запускают агентов суммарно на 71 час в сутки. В сутках, разумеется, всего 24 часа. Это значит, речь о множестве параллельных сессий: человек одновременно ставит агенту несколько независимых задач, которые тот решает в фоне. Это меняет саму модель работы: вместо «жду ответа на один запрос» теперь происходит так: «раздаю поручения нескольким агентам и проверяю результат».

4️⃣ Резкий рост делегирования по-настоящему долгих задач
Самый яркий показатель — динамика по сложности запросов. Промпты на задачи, которые у человека заняли бы около 8 часов работы, ещё в декабре составляли примерно 2% от всех запросов. Сейчас это уже больше четверти. За несколько месяцев доля выросла более чем в 10 раз.
Это говорит не просто о росте популярности инструмента, а о смене доверия: люди стали поручать агенту не мелкие правки, а целые рабочие дни задач — то, что раньше требовало постоянного контроля.

5️⃣ Агентный режим выходит за пределы разработчиков
В отдельном исследовании OpenAI совместно с университетами зафиксирован рост числа активных пользователей агентного режима более чем в 5 раз за первое полугодие 2026. При этом основной прирост идёт не из исходной аудитории программистов, а от юристов, аналитиков и HR-специалистов.

Что в итоге?

Рост доли долгих задач говорит о том, что доверие к автономной работе агентов растёт быстрее, чем сама технология успевает измениться: люди готовы отдавать на аутсорс целые рабочие дни, а не отдельные подзадачи. А расширение аудитории за пределы разработчиков - это сигнал, что агентный подход («поставил задачу — получил готовый результат») постепенно становится универсальным паттерном работы с ИИ, а не нишей для технических специалистов.

Однако, это собственная статистика OpenAI о собственном продукте, без независимой верификации, но как индикатор внутреннего тренда в самой компании она показательна.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👏1
🔵 Claude Science: Anthropic выходит на территорию учёных

Claude Science — не новая модель, а рабочее приложение для учёных, построенное поверх уже существующих моделей Claude, включая Opus 4.8. Особого доступа или ограничений по мощности здесь нет. Это надстройка-среда, а не более способный ИИ, например, для биологии. Идея похожа на то, чем стал Claude Code для программистов: единое рабочее пространство вместо десятка разрозненных инструментов.

Детали

Anthropic представила Claude Science 30 июня на мероприятии для фармацевтических и биотех-специалистов. Продукт объединяет более 60 научных баз данных и инструментов для геномики, протеомики, структурной биологии, химинформатики и работы с единичными клетками.

Внутри — координирующий агент, который получает задачу на обычном языке и распределяет её между специализированными суб-агентами; отдельный агент-проверяющий следит за точностью цитат и расчётов и исправляет ошибки по ходу работы. Все результаты — от 3D-структур белков до треков генома — сопровождаются кодом и историей вычислений, то есть воспроизводимы.

Работать с системой можно локально на macOS и Linux или удалённо — через SSH или вход на HPC-кластер, вычисления выполняются на инфраструктуре самого пользователя, а не серверах Anthropic. Продукт сейчас в бета-версии, доступен подписчикам Pro, Max, Team и Enterprise.

Anthropic также анонсировала грантовую программу — до 50 проектов с финансированием до $30 тыс. каждый, приём заявок открыт до 15 июля.


Отдельно компания сообщила, что запускает собственную программу по разработке лекарств от «забытых» болезней — то есть станет не только поставщиком инструмента, но и его первым внутренним пользователем в фармацевтике.

Разбор новости

Запуск логично продолжает линию, начатую в октябре 2025 года с Claude for Life Sciences, но переводит её из формата «улучшенный чат-бот» в формат отдельного продукта — рабочей среды. Это часть более широкой стратегии Anthropic: не просто продавать доступ к моделям, а занимать «рабочий слой» конкретных профессий, как это уже произошло с программированием через Claude Code. Похожая логика применяется и к юридической сфере.

Anthropic подала конфиденциальные документы для IPO 1 июня, и диверсификация продуктовой линейки — прямой способ показать растущие источники выручки перед выходом на биржу. У конкурентов похожая динамика: OpenAI выпустила GPT-Rosalind в апреле, но ограничила доступ узким кругом корпоративных клиентов вроде Amgen и Moderna, тогда как Anthropic делает продукт доступным по подписке. Google DeepMind идёт третьим путём — через собственные фундаментальные научные модели вроде AlphaFold.

Критика

Все примеры успешного использования (Allen Institute, UCSF) — это кейсы, отобранные и представленные самой Anthropic, без независимой проверки. Заявления об ускорении работы учёных пока не подкреплены сторонними исследованиями эффективности — только внутренними демонстрациями и цитатами сотрудников компании.

Сравнение возможностей моделей Anthropic с уровнем аспиранта второго года, которое приводится в блоге компании, тоже основано на единичной оценке одного физика, а не на систематическом тестировании.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2
🖥 Как вычислительные мощности превращаются в новую «нефть»

Meta планирует выйти на рынок облачной инфраструктуры через внутреннюю инициативу Meta Compute. Цель — начать продавать избыточные мощности своих дата-центров и ИИ-чипов сторонним разработчикам. Это позволит компании монетизировать колоссальные затраты на инфраструктуру и напрямую конкурировать с «большой тройкой» (AWS, Microsoft Azure, Google Cloud), а также с новыми специализированными ИИ-облаками.

🐷 На фоне этих новостей акции Meta подскочили почти на 10%, так как инвесторы увидели реальный способ вернуть вложенные миллиарды. В то же время акции специализированных облачных ИИ-провайдеров (CoreWeave и Nebius) рухнули на 11–14%.

Интересный нюанс
Незадолго до этого Meta сама была вынуждена экстренно скупать мощности на стороне, так как её собственные стройки не поспевали за внутренними нуждами. Но закупки инфраструктуры происходят огромными неделимыми «порциями». Как только внутренние потребности стабилизировались, в том числе из-за перехода на собственные модели вместо Gemini от Google, у Meta внезапно образовался избыток — по оценкам аналитиков Jefferies, около 35% её мощностей сейчас простаивают.


Текущий тренд: от безумных трат — к жесткой оптимизации

Эта новость подтверждает переход ИИ-индустрии от стадии «слепой скупки чипов любой ценой» (Capital Expenditure Race) к стадии «борьбы за эффективность и оптимизацию активов» (Asset Turnover & Efficiency).

Meta здесь далеко не первопроходец:
➡️ xAI: самый яркий и свежий пример. xAI построила суперкластер Colossus 1 в Мемфисе, но обнаружив избыток мощностей, SpaceX сдала весь ЦОД в аренду Anthropic примерно за $1,25 млрд в месяц. Позже аналогичная сделка по аренде излишков была заключена и с Google на сумму порядка $920 млн в месяц.
➡️ Крупные майнинговые компании (например, Core Scientific, Hut 8): с падением доходности классического майнинга биткоина и изменением алгоритмов, эти компании перепрофилировали свои гигантские энергетические и серверные мощности под ИИ, сдавая их в долгосрочную аренду ИИ-стартапам и гиперскейлерам.
➡️ Традиционные облака и компании «второго эшелона» (Oracle): Oracle активно скупала чипы NVIDIA, но действует как «умный посредник», перепродавая и сдавая в субаренду избыточные вычислительные кластеры тем, кому не хватило прямых поставок.

С чем это связано?

Причина в структурном несовпадении поколений чипов и дискретности поставок. ЦОД вводятся в эксплуатацию гигантскими блоками. Невозможно запустить 2% дата-центра — вы запускаете его целиком. В моменты, когда одна большая нейросеть уже обучена, а следующая еще проектируется, образуются огромные «окна» простоя оборудования. Сдавать его в аренду на этот период — единственный способ не уйти в глубокий операционный убыток.

К чему ведет этот тренд?

1️⃣ Удар по neocloud-провайдерам: CoreWeave, Lambda Labs, Nebius
Это новый класс компаний, которые изначально создавались для сдачи в аренду мощностей под задачи ИИ. Они поднялись исключительно на дефиците GPU и теперь оказываются под ударом. Если такие гиганты, как Meta и SpaceX, вывалят на рынок свои «излишки», цены на аренду GPU поползут вниз. Выживут только те независимые облака, у которых есть уникальный софт для управления инфраструктурой, а не просто «железо».

2️⃣ Удешевление разработки ИИ для малого бизнеса.
Для конечных разработчиков и стартапов это отличная новость. Избыток предложения снизит стоимость аренды мощностей. Обучать и поддерживать небольшие специализированные модели станет намного дешевле.

3️⃣ Риск «инфраструктурного пузыря»
Ситуация начинает напоминать крах доткомов начала 2000-х. Тогда телекоммуникационные компании проложили миллионы километров оптоволокна в расчете на бесконечный рост интернета, а потом распродавали это «темное волокно» за бесценок. Если конечные ИИ-продукты не начнут приносить создателям реальный кэш от пользователей, то гигантские дата-центры Meta и SpaceX превратятся в памятники перепроизводству.

💬 Тест Тьюринга. События в сфере ИИ. Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1💯1