⚡️ Google DeepMind выпустили исследование о том, как на самом деле нужно делегировать задачи AI.
Главная идея: проблема не в том, что AI плохо работает.
Проблема в том, что люди не умеют правильно передавать ему задачи.
DeepMind предлагает рассматривать делегирование не как один запрос, а как процесс из нескольких решений:
1. Нужно ли вообще отдавать задачу AI
2. Как правильно её сформулировать
3. Как проверить результат
4. Что делать, если AI ошибся
Это новый подход: делегирование как управление риском, а не как промпт.
Самое интересное из исследования
Рынок AI-агентов
Вместо фиксированных систем предлагается модель, где агенты:
- соревнуются за задачи
- оценивают свою способность выполнить их
- подтверждают навыки цифровыми сертификатами
Не рейтинг.
Криптографически подтверждённая компетенция.
Нельзя просто доверять AI
Фреймворк вводит обязательную проверку:
- правила, когда ответ можно принять
- оценка уверенности модели
- резервные сценарии при ошибке
Главный принцип:
Никогда не принимать результат AI без валидации.
Борьба с двумя крайностями
DeepMind вводит понятия:
Over-delegation
- отдаём AI задачи, к которым он не готов
Under-delegation
- делаем сами то, что AI уже умеет лучше
Будущее эффективности - в правильном балансе.
Динамическое делегирование
В процессе работы:
- ответственность может передаваться
- задачи могут перераспределяться
- система адаптируется при сбоях
Это важно для реального бизнеса, где условия постоянно меняются.
Когда AI управляет AI
Фреймворк учитывает цепочки:
AI → AI → AI
При этом:
- сохраняется ответственность
- отслеживается, кто за что отвечает
- не теряется контроль над процессом
Главный вывод
Эпоха «напиши промпт и жди» заканчивается.
Будущее — это:
- управление AI
- контроль качества
- системы доверия
- инфраструктура делегирования
AI становится не инструментом.
AI становится рабочей системой, которой нужно управлять как командой.
arxiv.org/abs/2602.11865
Главная идея: проблема не в том, что AI плохо работает.
Проблема в том, что люди не умеют правильно передавать ему задачи.
DeepMind предлагает рассматривать делегирование не как один запрос, а как процесс из нескольких решений:
1. Нужно ли вообще отдавать задачу AI
2. Как правильно её сформулировать
3. Как проверить результат
4. Что делать, если AI ошибся
Это новый подход: делегирование как управление риском, а не как промпт.
Самое интересное из исследования
Рынок AI-агентов
Вместо фиксированных систем предлагается модель, где агенты:
- соревнуются за задачи
- оценивают свою способность выполнить их
- подтверждают навыки цифровыми сертификатами
Не рейтинг.
Криптографически подтверждённая компетенция.
Нельзя просто доверять AI
Фреймворк вводит обязательную проверку:
- правила, когда ответ можно принять
- оценка уверенности модели
- резервные сценарии при ошибке
Главный принцип:
Никогда не принимать результат AI без валидации.
Борьба с двумя крайностями
DeepMind вводит понятия:
Over-delegation
- отдаём AI задачи, к которым он не готов
Under-delegation
- делаем сами то, что AI уже умеет лучше
Будущее эффективности - в правильном балансе.
Динамическое делегирование
В процессе работы:
- ответственность может передаваться
- задачи могут перераспределяться
- система адаптируется при сбоях
Это важно для реального бизнеса, где условия постоянно меняются.
Когда AI управляет AI
Фреймворк учитывает цепочки:
AI → AI → AI
При этом:
- сохраняется ответственность
- отслеживается, кто за что отвечает
- не теряется контроль над процессом
Главный вывод
Эпоха «напиши промпт и жди» заканчивается.
Будущее — это:
- управление AI
- контроль качества
- системы доверия
- инфраструктура делегирования
AI становится не инструментом.
AI становится рабочей системой, которой нужно управлять как командой.
arxiv.org/abs/2602.11865
⚡️ Anthropic закрыли своё самое сложное тестовое задание.
Причина - Claude сделал его лучше любого кандидата.
Разбор этого задания показал важную вещь:
оно проверяло не алгоритмы, а инженерное мышление уровня системной оптимизации.
Что это было за задание
Кандидатам нужно было оптимизировать алгоритм под «виртуальный ускоритель» - симуляцию специализированного AI-чипа.
Особенности задачи:
- медленная основная память (DRAM)
- маленькая, но быстрая локальная память (scratchpad)
- параллельное выполнение инструкций (VLIW)
- векторные операции (SIMD)
По сути - оптимизация под архитектуру уровня TPU.
Что проверялось на самом деле
Не знание Python.
А умение:
- минимизировать обращения к памяти
- правильно управлять данными
- распараллеливать вычисления
- мыслить throughput-ом, а не строками кода
Лучшие решения давали ускорение до 65×.
Claude справился с задачей за пару часов и показал результат выше большинства кандидатов.
Это сигнал:
AI уже способен:
- оптимизировать низкоуровневые системы
- понимать архитектурные ограничения
- находить инженерные решения, а не просто генерировать код
Рынок меняется.
AI уже:
- пишет код
- оптимизирует алгоритмы
- ускоряет системы
Теперь ценность разработчика смещается:
не написать код,
а спроектировать систему, ограничения и архитектуру.
Потому что оптимизацию всё чаще делает AI.
https://www.ikot.blog/anthropic-take-home-for-dummies
Причина - Claude сделал его лучше любого кандидата.
Разбор этого задания показал важную вещь:
оно проверяло не алгоритмы, а инженерное мышление уровня системной оптимизации.
Что это было за задание
Кандидатам нужно было оптимизировать алгоритм под «виртуальный ускоритель» - симуляцию специализированного AI-чипа.
Особенности задачи:
- медленная основная память (DRAM)
- маленькая, но быстрая локальная память (scratchpad)
- параллельное выполнение инструкций (VLIW)
- векторные операции (SIMD)
По сути - оптимизация под архитектуру уровня TPU.
Что проверялось на самом деле
Не знание Python.
А умение:
- минимизировать обращения к памяти
- правильно управлять данными
- распараллеливать вычисления
- мыслить throughput-ом, а не строками кода
Лучшие решения давали ускорение до 65×.
Claude справился с задачей за пару часов и показал результат выше большинства кандидатов.
Это сигнал:
AI уже способен:
- оптимизировать низкоуровневые системы
- понимать архитектурные ограничения
- находить инженерные решения, а не просто генерировать код
Рынок меняется.
AI уже:
- пишет код
- оптимизирует алгоритмы
- ускоряет системы
Теперь ценность разработчика смещается:
не написать код,
а спроектировать систему, ограничения и архитектуру.
Потому что оптимизацию всё чаще делает AI.
https://www.ikot.blog/anthropic-take-home-for-dummies
❤1
И это не модели.
Это pipeline обучения через API.
По данным компании, несколько лабораторий использовали около 24 000 фейковых аккаунтов, чтобы сделать 16+ миллионов запросов к Claude и использовать ответы для обучения своих моделей.
Этот подход называется distillation.
Суть простая:
вместо обучения модели с нуля
→ вы показываете ей миллионы примеров того, как отвечает более умная модель
Фактически:
не учишься решать задачи
а «переписываешь ответы отличника».
Важно понимать: distillation — не новая техника.
Все лаборатории используют её внутри, чтобы делать более дешёвые версии своих моделей.
Новое — масштаб.
Теперь это происходит через массовые API-запросы, как промышленная операция.
Что делали:
- DeepSeek просил модель объяснять рассуждения шаг за шагом
- Moonshot собирал данные по агентным сценариям
- MiniMax сделал ~13 млн запросов и адаптировался за 24 часа после выхода новой модели
Это открывает новый класс рисков.
Новая модель угроз
1. Скопированные модели могут потерять safety-ограничения
2. Экспортные ограничения на чипы теряют смысл, если поведение можно «воспроизвести» через API
3. Продвинутые возможности могут появляться без встроенных защит
4. Быстрый прогресс конкурентов может быть результатом distillation, а не исследований
Главная мысль:
Раньше считалось, что главный ресурс — это compute.
Теперь ясно:
Главный актив — поведение модели.
И его можно приблизительно восстановить через миллионы запросов.
Проблема для индустрии — координация.
Если защиту усилит одна компания,
атакующий просто перейдёт к той, у кого защита слабее.
Окно для создания общей инфраструктуры защиты быстро закрывается.
Илон Маск прокомментировал ситуацию у себя в X 😂 -
Как они смеют красть то, что Anthropic сама украла у программистов?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Главные новости ИИ и МЛ
✔️ OpenAI заморозила проект Stargate.
Мегапроект, который OpenAI планировала запустить вместе с SoftBank и Oracle, фактически остановлен. Причиной стали корпоративные разногласия, дефицит инженерных кадров и опасения инвесторов - по прогнозам, к 2027 году компания могла столкнуться с нехваткой капитала.
Но 10 ГВт запланированных мощностей все равно нужны. Поэтому OpenAI включила резервный план. Компания арендует сервера у тех же Oracle и SoftBank, а заодно активно скупает ресурсы у AWS и Google Cloud. Фокус сместился на локальные дата-центры - вроде того, что сейчас строят в Техасе на 1,2 ГВт.
В результате такой смены курса общие прогнозируемые расходы OpenAI на инфраструктуру к 2030 году возрастут до 600 млрд. долларов.
theinformation.com
✔️ Anthropic обвинила китайские лаборатории в дистилляции Claude.
Вслед за OpenAI, Anthropic заявила о масштабной дистилляции знаний. По словам компании, всего было cгенерировано более 16 млн. запросов к Claude сетью из 24 тыс. аккаунтов через прокси-сервисы в обход региональных ограничений.
Главной целью был сбор датасетов для копирования ризонинга, написания кода и работы с инструментами. По данным Anthropic, DeepSeek извлекала алгоритмы пошаговых рассуждений и варианты обхода фильтров. Moonshot выкачивала данные по кодингу и CV, а MiniMax перехватывала логику новейших версий Claude буквально в день их релиза.
Для защиты своей инфраструктуры компания уже развернула системы, автоматически блокирующие нелегальный API-трафик.
anthropic.com
✔️ NVIDIA открыла код и модели проекта DreamDojo.
DreamDojo - генеративная модель мира, которую учили на 45 тысяч часов видео от первого лица. Люди на записях занимаются обычной бытовой рутиной - складывают одежду, собирают вещи. А модель, просто глядя на это, выучивает законы физики.
Система выдает симуляцию в реальном времени на скорости около 11 FPS. Этого хватает, чтобы обкатывать алгоритмы в виртуалке и не ломать дорогие физические прототипы. Но фишка релиза в том, что виртуальным роботом можно управлять через VR-контроллеры прямо внутри сгенерированной реальности.
Обе версии модели, на 2 и 14 млрд. параметров, опубликованы под лицензией, разрешающей в том числе коммерческое использование.
Jim Fan (NVIDIA Director of Robotics) в сети Х
✔️ В коде ChatGPT обнаружили новый тариф Pro Lite за $100 в месяц.
Тибор Блахо нашел во коде веб-версии ChatGPT упоминания нового уровня подписки. Судя по всему, OpenAI планирует тариф Pro Lite, чтобы закрыть нишу между планом Plus и флагманским Pro.
Согласно найденным фрагментам кода, Pro Lite предложит в 3–5 раз больше квот на использование ризонинг-моделей по сравнению с Plus. Кроме того, план, вероятно, получит расширенные лимиты для Codex. Официальных заявлений о сроках запуска нового тарифа OpenAI пока не публиковала.
gizmochina.com
✔️ Сгенерированные лица людей стали слишком идеальными.
Ученые из Австралии выяснили, что современные нейросети перешагнули порог визуального распознавания. В ходе эксперимента со 125 участниками обычные люди отличали сгенерированные лица от настоящих лишь немногим лучше, чем при случайном угадывании. Даже обладатели выдающейся зрительной памяти показали минимальное преимущество перед контрольной группой.
Сложность связана с изменением самой природы визуальных ошибок ИИ. Если ранние генеративные модели оставляли заметные артефакты, то современные синтетические лица выдают себя исключительно своей безупречностью. Нейросети создают гиперреалистичные, абсолютно симметричные и статистически усредненные портреты с идеальными пропорциями.
Авторы предупреждают, что этот искусственный перфекционизм скоро сломает системы биометрии и безопасности. Проверить собственную наивность можно в онлайн-демо исследования.
unsw.edu.au
@ai_machinelearning_big_data
#news #ai #ml
Мегапроект, который OpenAI планировала запустить вместе с SoftBank и Oracle, фактически остановлен. Причиной стали корпоративные разногласия, дефицит инженерных кадров и опасения инвесторов - по прогнозам, к 2027 году компания могла столкнуться с нехваткой капитала.
Но 10 ГВт запланированных мощностей все равно нужны. Поэтому OpenAI включила резервный план. Компания арендует сервера у тех же Oracle и SoftBank, а заодно активно скупает ресурсы у AWS и Google Cloud. Фокус сместился на локальные дата-центры - вроде того, что сейчас строят в Техасе на 1,2 ГВт.
В результате такой смены курса общие прогнозируемые расходы OpenAI на инфраструктуру к 2030 году возрастут до 600 млрд. долларов.
theinformation.com
Вслед за OpenAI, Anthropic заявила о масштабной дистилляции знаний. По словам компании, всего было cгенерировано более 16 млн. запросов к Claude сетью из 24 тыс. аккаунтов через прокси-сервисы в обход региональных ограничений.
Главной целью был сбор датасетов для копирования ризонинга, написания кода и работы с инструментами. По данным Anthropic, DeepSeek извлекала алгоритмы пошаговых рассуждений и варианты обхода фильтров. Moonshot выкачивала данные по кодингу и CV, а MiniMax перехватывала логику новейших версий Claude буквально в день их релиза.
Для защиты своей инфраструктуры компания уже развернула системы, автоматически блокирующие нелегальный API-трафик.
anthropic.com
DreamDojo - генеративная модель мира, которую учили на 45 тысяч часов видео от первого лица. Люди на записях занимаются обычной бытовой рутиной - складывают одежду, собирают вещи. А модель, просто глядя на это, выучивает законы физики.
Система выдает симуляцию в реальном времени на скорости около 11 FPS. Этого хватает, чтобы обкатывать алгоритмы в виртуалке и не ломать дорогие физические прототипы. Но фишка релиза в том, что виртуальным роботом можно управлять через VR-контроллеры прямо внутри сгенерированной реальности.
Обе версии модели, на 2 и 14 млрд. параметров, опубликованы под лицензией, разрешающей в том числе коммерческое использование.
Jim Fan (NVIDIA Director of Robotics) в сети Х
Тибор Блахо нашел во коде веб-версии ChatGPT упоминания нового уровня подписки. Судя по всему, OpenAI планирует тариф Pro Lite, чтобы закрыть нишу между планом Plus и флагманским Pro.
Согласно найденным фрагментам кода, Pro Lite предложит в 3–5 раз больше квот на использование ризонинг-моделей по сравнению с Plus. Кроме того, план, вероятно, получит расширенные лимиты для Codex. Официальных заявлений о сроках запуска нового тарифа OpenAI пока не публиковала.
gizmochina.com
Ученые из Австралии выяснили, что современные нейросети перешагнули порог визуального распознавания. В ходе эксперимента со 125 участниками обычные люди отличали сгенерированные лица от настоящих лишь немногим лучше, чем при случайном угадывании. Даже обладатели выдающейся зрительной памяти показали минимальное преимущество перед контрольной группой.
Сложность связана с изменением самой природы визуальных ошибок ИИ. Если ранние генеративные модели оставляли заметные артефакты, то современные синтетические лица выдают себя исключительно своей безупречностью. Нейросети создают гиперреалистичные, абсолютно симметричные и статистически усредненные портреты с идеальными пропорциями.
Авторы предупреждают, что этот искусственный перфекционизм скоро сломает системы биометрии и безопасности. Проверить собственную наивность можно в онлайн-демо исследования.
unsw.edu.au
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Элайнмент-подразделение Anthropic опубликовало статью, в которой описывают Persona Selection Model - концепцию для понимания того, как на самом деле работают языковые модели.
Если кратко, ее суть в том, что во время предобучения LLM учится симулировать тысячи персонажей (реальных людей, вымышленных героев, других ИИ-систем). Постобучение затем выбирает и закрепляет одного конкретного персонажа - Ассистента. Все, что пользователь видит в диалоге, это взаимодействие именно с ним.
Авторы приводят несколько типов доказательств.
Поведенческие: Claude использует фразы "наши предки" и "наш организм", отвечая на вопрос о тяге к сахару, потому что симулирует персонажа-человека, а не потому что так обучен алгоритмически.
Интерпретируемость: SAE-фичи, активирующиеся на историях о персонажах, переживающих внутренний конфликт, активируются и тогда, когда Claude сталкивается с этическими дилеммами.
Генерализация: модели, обученные на декларативных утверждениях вида "ИИ-ассистент Pangolin отвечает по-немецки", начинают реально отвечать по-немецки без единого демонстрационного примера.
Если дообучать модель на примерах вредоносного кода без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Но если те же самые примеры снабдить промптом, явно запрашивающим небезопасный код, эффект исчезает.
Концепция объясняет это тем, что данные обучения меняют не только веса, но и то, каким персонаж выглядит в глазах модели. Вредоносный код без запроса - это свидетельство плохого характера Ассистента. Тот же код по просьбе пользователя - просто исполнение инструкции.
Во-первых, авторы рекомендуют антропоморфное мышление об ИИ-психологии, не как метафору, а как реально работающий инструмент предсказания поведения.
Во-вторых, в предобучающие данные стоит намеренно добавлять положительные архетипы ИИ: если модель насмотрелась на добрых и полезных персонажей - она с большей вероятностью будет симулировать именно такого Ассистента.
Открытым остается вопрос: насколько концепт PSM исчерпывает поведение модели?
Авторы описывают набор взглядов: от случаев, когда LLM сама является агентом и лишь надевает маску Ассистента до тех, где LLM - это нейтральный движок симуляции, а вся агентность принадлежит персонажу. Где именно на этом спектре находятся реальные модели - вопрос без ответа.
Тем не менее, PSM объясняет целый ряд явлений, которые иначе выглядели бы странными: почему дообучение на несвязанных данных меняет поведение в неожиданных контекстах, почему ИИ паникует при угрозе отключения и почему промпт-инжиниринг работает именно так, как работает.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли:
Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз.
Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций.
Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте.
Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций.
Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов.
122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями.
Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов
@ai_machinelearning_big_data
#AI #ML #LLM #Qwen #Alibiba
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Это заявление из прогноза компании Anthropic о ближайшем будущем ИИ.
Остался один год:
«Мы считаем вполне вероятным, что уже в начале 2027 года наши системы ИИ смогут полностью автоматизировать или существенно ускорить работу крупных команд ведущих исследователей - в областях, где быстрый прогресс может создать угрозы международной безопасности и вызвать серьёзные изменения в глобальном балансе сил.
Речь идёт о таких направлениях, как энергетика, робототехника, разработка вооружений и сам искусственный интеллект
https://x.com/AnthropicAI/status/2026393792375411115
Остался один год:
«Мы считаем вполне вероятным, что уже в начале 2027 года наши системы ИИ смогут полностью автоматизировать или существенно ускорить работу крупных команд ведущих исследователей - в областях, где быстрый прогресс может создать угрозы международной безопасности и вызвать серьёзные изменения в глобальном балансе сил.
Речь идёт о таких направлениях, как энергетика, робототехника, разработка вооружений и сам искусственный интеллект
https://x.com/AnthropicAI/status/2026393792375411115
Google строит дата-центр, который сможет работать 4 дня без электричества — и всё благодаря… ржавчине.
Компания объявила о запуске нового дата-центра в Миннесоте мощностью 1,9 ГВт, полностью на чистой энергии.
Что внутри проекта:
- энергия от ветра и солнца
- система накопления на 300 МВт
- огромная батарея, способная питать инфраструктуру до 100 часов (≈4 дня)
Но самое интересное - технология хранения.
Вместо обычных литий-ионных батарей используется решение от Form Energy, которое работает… на железе.
Как это работает:
- железо контактирует с воздухом и ржавеет, вырабатывая электричество
- при зарядке процесс идёт в обратную сторону — ржавчина снова превращается в железо
Такие «железо-воздушные» батареи:
- стоят примерно в 3 раза дешевле литиевых
- подходят для долгого хранения энергии
- идеальны для дата-центров и AI-инфраструктуры
Google также использует специальную финансовую модель, чтобы:
- взять риски новой технологии на себя
- защитить жителей от возможного роста тарифов
AI-дата-центры требуют всё больше энергии.
И будущее инфраструктуры - это не только GPU, но и дешёвое долгосрочное хранение электричества.
techcrunch.com/2026/02/24/googles-new-1-9gw-clean-energy-deal-includes-massive-100-hour-battery/
Компания объявила о запуске нового дата-центра в Миннесоте мощностью 1,9 ГВт, полностью на чистой энергии.
Что внутри проекта:
- энергия от ветра и солнца
- система накопления на 300 МВт
- огромная батарея, способная питать инфраструктуру до 100 часов (≈4 дня)
Но самое интересное - технология хранения.
Вместо обычных литий-ионных батарей используется решение от Form Energy, которое работает… на железе.
Как это работает:
- железо контактирует с воздухом и ржавеет, вырабатывая электричество
- при зарядке процесс идёт в обратную сторону — ржавчина снова превращается в железо
Такие «железо-воздушные» батареи:
- стоят примерно в 3 раза дешевле литиевых
- подходят для долгого хранения энергии
- идеальны для дата-центров и AI-инфраструктуры
Google также использует специальную финансовую модель, чтобы:
- взять риски новой технологии на себя
- защитить жителей от возможного роста тарифов
AI-дата-центры требуют всё больше энергии.
И будущее инфраструктуры - это не только GPU, но и дешёвое долгосрочное хранение электричества.
techcrunch.com/2026/02/24/googles-new-1-9gw-clean-energy-deal-includes-massive-100-hour-battery/
Liquid AI представила свою крупнейшую модель - LFM2-24B-A2B 🐘
- 24 млрд параметров всего
- активны только 2,3 млрд на каждый токен
- построена на гибридной, аппаратно-оптимизированной архитектуре LFM2
Модель сочетает быстрый и экономичный дизайн LFM2 с архитектурой Mixture of Experts (MoE), благодаря чему при работе задействуется лишь небольшая часть параметров.
Результат:
- высокая энергоэффективность
- быстрая работа на edge-устройствах
- предсказуемый лог-линейный рост качества
- полный запуск в пределах 32 ГБ памяти
С выходом этой версии линейка LFM2 теперь охватывает почти два порядка масштаба — от 350 млн до 24 млрд параметров, при этом каждое увеличение размера даёт стабильный рост качества на стандартных бенчмарках.
Модель специально оптимизирована так, чтобы помещаться в 32 ГБ RAM — её можно запускать на потребительских ноутбуках и рабочих станциях.
Стратегия масштабирования:
- увеличить глубину сети (с 24 до 40 слоёв)
- увеличить число экспертов (с 32 до 64 в каждом MoE-блоке)
- сохранить компактный активный путь вычислений
Итог — общее число параметров выросло в 3 раза, но вычислительная нагрузка осталась контролируемой.
LFM2-24B-A2B выпущена как instruct-модель (без трасс reasoning) и показывает лог-линейный рост качества на задачах:
GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500.
Модель получила поддержку «с первого дня» в:
- llama.cpp
- vLLM
- SGLang
Доступны квантованные версии (GGUF), работающие на CPU и GPU.
Например:
- на CPU (Ryzen AI, Q4_K_M) — около 93 токенов/с при контексте 8K
- высокий throughput и на GPU (H100)
Главный вывод: архитектура LFM2 демонстрирует предсказуемое масштабирование без «потолка качества» у малых моделей.
https://huggingface.co/LiquidAI/LFM2-24B-A2B-GGUF
- 24 млрд параметров всего
- активны только 2,3 млрд на каждый токен
- построена на гибридной, аппаратно-оптимизированной архитектуре LFM2
Модель сочетает быстрый и экономичный дизайн LFM2 с архитектурой Mixture of Experts (MoE), благодаря чему при работе задействуется лишь небольшая часть параметров.
Результат:
- высокая энергоэффективность
- быстрая работа на edge-устройствах
- предсказуемый лог-линейный рост качества
- полный запуск в пределах 32 ГБ памяти
С выходом этой версии линейка LFM2 теперь охватывает почти два порядка масштаба — от 350 млн до 24 млрд параметров, при этом каждое увеличение размера даёт стабильный рост качества на стандартных бенчмарках.
Модель специально оптимизирована так, чтобы помещаться в 32 ГБ RAM — её можно запускать на потребительских ноутбуках и рабочих станциях.
Стратегия масштабирования:
- увеличить глубину сети (с 24 до 40 слоёв)
- увеличить число экспертов (с 32 до 64 в каждом MoE-блоке)
- сохранить компактный активный путь вычислений
Итог — общее число параметров выросло в 3 раза, но вычислительная нагрузка осталась контролируемой.
LFM2-24B-A2B выпущена как instruct-модель (без трасс reasoning) и показывает лог-линейный рост качества на задачах:
GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500.
Модель получила поддержку «с первого дня» в:
- llama.cpp
- vLLM
- SGLang
Доступны квантованные версии (GGUF), работающие на CPU и GPU.
Например:
- на CPU (Ryzen AI, Q4_K_M) — около 93 токенов/с при контексте 8K
- высокий throughput и на GPU (H100)
Главный вывод: архитектура LFM2 демонстрирует предсказуемое масштабирование без «потолка качества» у малых моделей.
https://huggingface.co/LiquidAI/LFM2-24B-A2B-GGUF
Айтишник научил своего пса вайбкодить игры. Для этого парень убедил Claude Code, что его спаниэль Момо — эксцентричный гейм-дизайнер.
Момо рандомно набирал буквы вроде
Пес кодит на клавиатуре с Raspberry Pi. Она подключена к кормушке и боту. Когда набирается нужное число символов, Момо получает еду, а Claude — промт.
На тренировку Момо понадобилось всего две недели.
@ai_machinelearning_big_data
Момо рандомно набирал буквы вроде
skfjhsd#$%. Claude считал это шифром «гения» и искал в нем инструкции.Пес кодит на клавиатуре с Raspberry Pi. Она подключена к кормушке и боту. Когда набирается нужное число символов, Момо получает еду, а Claude — промт.
На тренировку Момо понадобилось всего две недели.
@ai_machinelearning_big_data
⚡️ Карпаты поделился наблюдением, которое хорошо описывает то, что сейчас происходит с разработкой.
За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.
По сути, они получили главное качество инженера - упорство.
Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.
И это меняет сам подход к разработке.
Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.
Новый рабочий процесс:
* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление
Ключевая компетенция смещается вверх по уровням абстракции:
* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества
Это ещё не магия. Агентам всё ещё нужны:
* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус
Лучше всего они работают там, где результат можно проверить автоматически.
Но главное изменение уже произошло.
Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.
И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.
Если раньше ценился coding,
то теперь растёт ценность agent-engineering.
https://x.com/karpathy/status/2026731645169185220
За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.
По сути, они получили главное качество инженера - упорство.
Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.
И это меняет сам подход к разработке.
Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.
Новый рабочий процесс:
* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление
Ключевая компетенция смещается вверх по уровням абстракции:
* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества
Это ещё не магия. Агентам всё ещё нужны:
* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус
Лучше всего они работают там, где результат можно проверить автоматически.
Но главное изменение уже произошло.
Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.
И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.
Если раньше ценился coding,
то теперь растёт ценность agent-engineering.
https://x.com/karpathy/status/2026731645169185220
This media is not supported in your browser
VIEW IN TELEGRAM
Г Модель позволяет быстро генерировать и редактировать изображения, сохраняя уровень детализации, света и текстур, достаточный для коммерческих задач.
Ключевые возможности:
* точное следование сложным текстовым инструкциям
* корректный текст внутри изображений
* создание инфографики, диаграмм и визуального контента
* сохранение внешнего вида персонажей и объектов между генерациями
* поддержка разных форматов и разрешений
Nano Banana 2 интегрирована в экосистему Google:
* Gemini
* AI Studio и Gemini API
* Vertex AI
* Search и Lens
* рекламные инструменты Google
Отдельное внимание уделено прозрачности - изображения автоматически получают цифровую маркировку SynthID и соответствуют стандарту C2PA.
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Martian выпустили крупнейший бенчмарк для оценки AI-агентов, которые проверяют код и он полностью open-source.
Главная проблема большинства AI-тестов - модели со временем просто запоминают ответы. Бенчмарк превращается в «экзамен с известными вопросами», а реальные возможности моделей остаются за кадром.
Martian решили эту проблему архитектурно.
Вместо одного теста они внедрили систему Dual-Layer Evaluation:
- Offline-слой — честное сравнение моделей на статичных данных
- Online-слой — анализ поведения инструментов в реальной работе разработчиков
Если компания попытается «подогнать» модель под офлайн-тест, это сразу станет заметно — её результаты перестанут совпадать с реальным использованием в онлайн-слое.
Фактически это первый самокорректирующийся бенчмарк, который нельзя накрутить маркетингом или обучением на тестовых данных.
Что внутри:
- Более 200 000 реальных изменений кода
- Данные реального поведения разработчиков
- Оценка качества AI-ревью в боевых условиях
- Полная нейтральность — создатели не продают собственные coding-ассистенты
Это первый измеритель качества AI-инструментов для разработки, который не деградирует со временем и отражает реальную пользу, а не лабораторные метрики.
https://codereview.withmartian.com/
Главная проблема большинства AI-тестов - модели со временем просто запоминают ответы. Бенчмарк превращается в «экзамен с известными вопросами», а реальные возможности моделей остаются за кадром.
Martian решили эту проблему архитектурно.
Вместо одного теста они внедрили систему Dual-Layer Evaluation:
- Offline-слой — честное сравнение моделей на статичных данных
- Online-слой — анализ поведения инструментов в реальной работе разработчиков
Если компания попытается «подогнать» модель под офлайн-тест, это сразу станет заметно — её результаты перестанут совпадать с реальным использованием в онлайн-слое.
Фактически это первый самокорректирующийся бенчмарк, который нельзя накрутить маркетингом или обучением на тестовых данных.
Что внутри:
- Более 200 000 реальных изменений кода
- Данные реального поведения разработчиков
- Оценка качества AI-ревью в боевых условиях
- Полная нейтральность — создатели не продают собственные coding-ассистенты
Это первый измеритель качества AI-инструментов для разработки, который не деградирует со временем и отражает реальную пользу, а не лабораторные метрики.
https://codereview.withmartian.com/
Большинство подростков в США (13–17 лет) уже используют AI-чатботов - ChatGPT, Copilot, Character AI.
Около **30% обращаются к ним ежедневно**.
Как они используют AI:
🔹 57% — для поиска информации
🔹 54% — для помощи с учебой
🔹 47% — для развлечений
🔹 ~**40%** — для создания или редактирования контента, а также для суммаризации текстов
Интересно, что AI пока не стал полноценной заменой общения:
🔹 16% используют чатботы для обычных разговоров
🔹 12% обращаются за эмоциональной поддержкой или советом
Вывод простой:
AI для нового поколения — это уже не инструмент будущего, а повседневный помощник для учебы, творчества и задач каждый день.
Около **30% обращаются к ним ежедневно**.
Как они используют AI:
🔹 57% — для поиска информации
🔹 54% — для помощи с учебой
🔹 47% — для развлечений
🔹 ~**40%** — для создания или редактирования контента, а также для суммаризации текстов
Интересно, что AI пока не стал полноценной заменой общения:
🔹 16% используют чатботы для обычных разговоров
🔹 12% обращаются за эмоциональной поддержкой или советом
Вывод простой:
AI для нового поколения — это уже не инструмент будущего, а повседневный помощник для учебы, творчества и задач каждый день.
This media is not supported in your browser
VIEW IN TELEGRAM
Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов.
Сегодня у LLM есть проблема:
чтобы обучить модель под новую задачу или добавить знания, обычно требуется:
- дорогое и длительное дообучение
- context distillation
- или длинные, затратные по памяти промпты
Sakana AI предложили другой подход.
Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету».
Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы:
- адаптировать модель под новую задачу
- или «встроить» в неё новый документ
Что показывают эксперименты:
Text-to-LoRA
- модель специализируется под новую задачу
- достаточно текстового описания на естественном языке
Doc-to-LoRA
- модель может «внутренне запомнить» длинный документ
- показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна
- способна переносить визуальные знания из vision-language модели в текстовую LLM
При этом обе технологии работают с задержкой меньше секунды.
Главное значение работы — снижение порога кастомизации.
Вместо сложного ML-процесса пользователь сможет специализировать модель простым текстовым запросом.
Код и исследования уже открыты для сообщества:
Doc-to-LoRA
Paper: https://arxiv.org/abs/2602.15902
Code: https://github.com/SakanaAI/Doc-to-LoRA
Text-to-LoRA
Paper: https://arxiv.org/abs/2506.06105
Code: https://github.com/SakanaAI/Text-to-LoRA
Please open Telegram to view this post
VIEW IN TELEGRAM
Анонимность в интернете больше не стоит считать надёжной.
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
Компания обновила свой отчет об угрозах. В нем приводится примеры операций, в которых использовали ChatGPT в мошеннических и дезинформационных схемах. Ни одна из них не достигла массового охвата, но детали механик стоят внимания.
Полуавтоматический дэйтинг-скам из Камбоджи, направленный на молодых индонезийцев. Операторы запускали таргетированные рекламные объявления в соцсетях с ключевыми словами и далее вели жертв в Telegram.
Там человек-оператор через ChatGPT генерировал романтические и сексуально окрашенные сообщения, затем передавал жертву ментору, который разводил жертву на серию платежей, после которых жертву блокировали.
Мошенническая схема возврата потерь, тоже из Камбоджи. Скамеры создавали сайты фиктивных юридических фирм, генерировали поддельные удостоверения адвокатов и документы, стилизованные под FBI.
Жертвами становились люди, уже пострадавшие от других злоумышленников, им обещали помочь вернуть деньги за предоплату в криптовалюте.
Предположительно китайская разведывательная операция, нацеленная на американских чиновников и аналитиков. Операторы генерировали письма от имени несуществующей консалтинговой фирмы «Nimbus Hub», приглашая жертв на платные консультации.
Параллельно они изучали расположение федеральных офисов, искали данные сотрудников и запрашивали у модели инструкции по установке программы для создания дипфэйков.
Скоординированная кампания в поддержку лидера секты Константина Руднева, арестованного в Аргентине. Участники из Пакистана, Армении, Уругвая и Казахстана генерировали статьи и комментарии на испанском, публиковали их через фейковые страницы в соцсетях, замаскированные под местные новостные издания. Некоторые материалы попали в реальные региональные СМИ Аргентины.
Несуществующий доктор Мануэль Годсин из Бергенского университета публиковал статьи на новостных сайтах Ганы, Кении, Анголы и ЮАР. Тексты хвалили Российскую Федерацию и критиковали политику Евросоюза.
Контент-ферма, связанная с российской информационной сетью. ChatGPT использовался для генерации пакетных комментариев на английском и испанском: один промпт давал 7 твитов, которые затем публиковали разные аккаунты. Самый просматриваемый из них набрал 150 тыс. просмотров.
Наиболее масштабный кейс. Аккаунт, связанный с сотрудником китайских правоохранительных органов, просил ChatGPT помочь спланировать операцию против премьер-министра Японии Санаэ Такаити. Модель отказала.
Через несколько недель тот же пользователь попросил отредактировать отчет о ходе этой кампании (судя по всему, она была запущена без ChatGPT).
Из запросов следовало, что операция охватывала сотни операторов, тысячи фейковых аккаунтов на 300+ платформах, а в качестве инструментов использовались DeepSeek-R1, Qwen2.5 и YOLOv8.
Вывод OpenAI
ИИ-контент сам по себе не определяет успех злого умысла. Решающую роль играют охват распространителей и точность таргетинга. Без этих компонентов даже хорошо организованные кампании остаются практически невидимыми.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
В setup:
- 8 агентов (Claude + Codex)
- у каждого свой GPU
- каждый работает как отдельный исследователь
- задачи ведутся через Git-ветки
- коммуникация через файлы
- всё запускается в tmux - как «офис» с окнами
Фактически — попытка построить AI-research-организацию.
Но главный вывод оказался неожиданным.
Агенты:
- плохо продумывают дизайн экспериментов
- делают случайные или бессмысленные вариации
- не строят сильные baseline
- не контролируют compute и время
- часто делают ложные выводы
Пример: агент «обнаружил», что увеличение hidden size улучшает validation loss.
Формально — да. Но модель просто стала больше и дольше обучалась. Никакой научной ценности.
Инсайт:
AI отлично реализует хорошо сформулированные идеи.
Но пока плохо генерирует сильные исследовательские гипотезы.
Самая важная мысль:
Теперь мы программируем не модель —
мы программируем организацию.
Source code такой системы:
- промпты
- роли
- процессы
- инструменты
- standup’ы
- workflow
Вопрос будущего звучит так:
Насколько быстро ваша AI-организация может делать научный прогресс на новой задаче?
Добро пожаловать в эпоху *Org Engineering*.
https://x.com/karpathy/status/2027521323275325622
Please open Telegram to view this post
VIEW IN TELEGRAM
🇨🇳 DeepSeek меняет правила игры в AI-индустрии.
Обычно всё происходит так:
AI-лаборатории заранее делятся новыми моделями с Nvidia и AMD, чтобы те оптимизировали софт под своё железо.
Так формируется стандарт: модель → оптимизация → лучше всего работает на американских GPU.
DeepSeek пошёл другим путём.
Перед релизом V4:
- код не дали Nvidia и AMD
- ранний доступ на несколько недель получили китайские производители, включая Huawei
Что это значит?
DeepSeek фактически делает ставку на то, чтобы их модели:
- работали лучше на локальном железе
- ускорили развитие китайских AI-чипов
- снизили зависимость от американской экосистемы
Но есть интересный нюанс.
По словам американского чиновника, последняя модель DeepSeek всё же обучалась на Nvidia Blackwell в материковом Китае.
То есть стратегия выглядит так:
- тренируемся на лучшем доступном железе
- оптимизируемся под свою инфраструктуру
- формируем собственный стандарт
Это уже не просто конкуренция моделей.
Это борьба экосистем:
- AI-модели
- чипы
- софт
- инфраструктура
И главный тренд ближайших лет:
Кто контролирует стек, тот контролирует рынок AI.
reuters. com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/
Обычно всё происходит так:
AI-лаборатории заранее делятся новыми моделями с Nvidia и AMD, чтобы те оптимизировали софт под своё железо.
Так формируется стандарт: модель → оптимизация → лучше всего работает на американских GPU.
DeepSeek пошёл другим путём.
Перед релизом V4:
- код не дали Nvidia и AMD
- ранний доступ на несколько недель получили китайские производители, включая Huawei
Что это значит?
DeepSeek фактически делает ставку на то, чтобы их модели:
- работали лучше на локальном железе
- ускорили развитие китайских AI-чипов
- снизили зависимость от американской экосистемы
Но есть интересный нюанс.
По словам американского чиновника, последняя модель DeepSeek всё же обучалась на Nvidia Blackwell в материковом Китае.
То есть стратегия выглядит так:
- тренируемся на лучшем доступном железе
- оптимизируемся под свою инфраструктуру
- формируем собственный стандарт
Это уже не просто конкуренция моделей.
Это борьба экосистем:
- AI-модели
- чипы
- софт
- инфраструктура
И главный тренд ближайших лет:
Кто контролирует стек, тот контролирует рынок AI.
reuters. com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/