331K subscribers
4.64K photos
974 videos
17 files
5.08K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Anthropic выпустили исследование AI Fluency Index. И главный вывод - большинство людей уже используют AI каждый день, но почти никто не умеет работать с ним правильно.

Вот самое важное и неожиданное из исследования.

Главный навык работы с AI - не запрос, а диалог

85,7% эффективных взаимодействий - это не один вопрос, а серия уточнений.

Когда человек:
- уточняет
- просит доработать
- спорит
- улучшает результат

уровень AI-грамотности в 2 раза выше.

Такие пользователи:
- в 5,6 раза чаще проверяют логику ответа
- в 4 раза чаще замечают, чего не хватает

Вывод: первый ответ AI - это черновик, а не результат.

Самая продуктивная модель - AI как напарник

Наиболее эффективные пользователи не делегируют работу полностью, а используют AI как:
- мыслительного партнёра
- соавтора
- помощника в размышлениях

AI усиливает человека, а не заменяет его.

Опасный эффект: чем красивее результат, тем меньше его проверяют

Когда AI создаёт:
- код
- документы
- приложения
- интерфейсы

люди:
- реже проверяют факты (-3,7%)
- реже замечают недостающий контекст (-5,2%)
- реже задают вопросы по логике (-3,1%)

Если результат выглядит готовым - его принимают на веру.

Это один из главных рисков эпохи AI.

Люди хорошо управляют AI, но плохо контролируют результат

В задачах с готовыми материалами пользователи чаще:
- чётко описывают цель (+14,7%)
- задают формат (+14,5%)
- дают примеры (+13,4%)

Но при этом меньше анализируют итог.

Только 30% пользователей задают правила работы с AI

Например:
- «Если мои предположения неверны - поправь»
- «Объясни логику перед ответом»
- «Скажи, в чём ты не уверен»

А это напрямую влияет на качество результата.

Главный вывод

Разрыв будущего будет не между программистами и не-программистами.

Разрыв будет между:
- теми, кто ведёт диалог с AI
- и теми, кто копирует первый ответ

AI-грамотность - это новый базовый навык.

И самый важный принцип из исследования:

Первый ответ AI - это начало работы, а не конец.

https://www.anthropic.com/research/AI-fluency-index

@data_analysis_ml
3👍146🤔4947🤣18🕊15🌚1412😭12❤‍🔥11🔥8👏6
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI заморозила проект Stargate.

Мегапроект, который OpenAI планировала запустить вместе с SoftBank и Oracle, фактически остановлен. Причиной стали корпоративные разногласия, дефицит инженерных кадров и опасения инвесторов - по прогнозам, к 2027 году компания могла столкнуться с нехваткой капитала.

Но 10 ГВт запланированных мощностей все равно нужны. Поэтому OpenAI включила резервный план. Компания арендует сервера у тех же Oracle и SoftBank, а заодно активно скупает ресурсы у AWS и Google Cloud. Фокус сместился на локальные дата-центры - вроде того, что сейчас строят в Техасе на 1,2 ГВт.

В результате такой смены курса общие прогнозируемые расходы OpenAI на инфраструктуру к 2030 году возрастут до 600 млрд. долларов.
theinformation.com

✔️ Anthropic обвинила китайские лаборатории в дистилляции Claude.

Вслед за OpenAI, Anthropic заявила о масштабной дистилляции знаний. По словам компании, всего было cгенерировано более 16 млн. запросов к Claude сетью из 24 тыс. аккаунтов через прокси-сервисы в обход региональных ограничений.

Главной целью был сбор датасетов для копирования ризонинга, написания кода и работы с инструментами. По данным Anthropic, DeepSeek извлекала алгоритмы пошаговых рассуждений и варианты обхода фильтров. Moonshot выкачивала данные по кодингу и CV, а MiniMax перехватывала логику новейших версий Claude буквально в день их релиза.

Для защиты своей инфраструктуры компания уже развернула системы, автоматически блокирующие нелегальный API-трафик.
anthropic.com

✔️ NVIDIA открыла код и модели проекта DreamDojo.

DreamDojo - генеративная модель мира, которую учили на 45 тысяч часов видео от первого лица. Люди на записях занимаются обычной бытовой рутиной - складывают одежду, собирают вещи. А модель, просто глядя на это, выучивает законы физики.

Система выдает симуляцию в реальном времени на скорости около 11 FPS. Этого хватает, чтобы обкатывать алгоритмы в виртуалке и не ломать дорогие физические прототипы. Но фишка релиза в том, что виртуальным роботом можно управлять через VR-контроллеры прямо внутри сгенерированной реальности.

Обе версии модели, на 2 и 14 млрд. параметров, опубликованы под лицензией, разрешающей в том числе коммерческое использование.
Jim Fan (NVIDIA Director of Robotics) в сети Х

✔️ В коде ChatGPT обнаружили новый тариф Pro Lite за $100 в месяц.

Тибор Блахо нашел во коде веб-версии ChatGPT упоминания нового уровня подписки. Судя по всему, OpenAI планирует тариф Pro Lite, чтобы закрыть нишу между планом Plus и флагманским Pro.

Согласно найденным фрагментам кода, Pro Lite предложит в 3–5 раз больше квот на использование ризонинг-моделей по сравнению с Plus. Кроме того, план, вероятно, получит расширенные лимиты для Codex. Официальных заявлений о сроках запуска нового тарифа OpenAI пока не публиковала.
gizmochina.com

✔️ Сгенерированные лица людей стали слишком идеальными.

Ученые из Австралии выяснили, что современные нейросети перешагнули порог визуального распознавания. В ходе эксперимента со 125 участниками обычные люди отличали сгенерированные лица от настоящих лишь немногим лучше, чем при случайном угадывании. Даже обладатели выдающейся зрительной памяти показали минимальное преимущество перед контрольной группой.

Сложность связана с изменением самой природы визуальных ошибок ИИ. Если ранние генеративные модели оставляли заметные артефакты, то современные синтетические лица выдают себя исключительно своей безупречностью. Нейросети создают гиперреалистичные, абсолютно симметричные и статистически усредненные портреты с идеальными пропорциями.

Авторы предупреждают, что этот искусственный перфекционизм скоро сломает системы биометрии и безопасности. Проверить собственную наивность можно в онлайн-демо исследования.
unsw.edu.au

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
290🤔77👍15👏11😐9🔥8🤩6🤨5🤬3🫡2😁1
📌Anthropic предложила теорию о том, почему ИИ-ассистенты ведут себя как личности, а не как алгоритмы.

Элайнмент-подразделение Anthropic опубликовало статью, в которой описывают Persona Selection Model - концепцию для понимания того, как на самом деле работают языковые модели.

Если кратко, ее суть в том, что во время предобучения LLM учится симулировать тысячи персонажей (реальных людей, вымышленных героев, других ИИ-систем). Постобучение затем выбирает и закрепляет одного конкретного персонажа - Ассистента. Все, что пользователь видит в диалоге, это взаимодействие именно с ним.


Авторы приводят несколько типов доказательств.

Поведенческие: Claude использует фразы "наши предки" и "наш организм", отвечая на вопрос о тяге к сахару, потому что симулирует персонажа-человека, а не потому что так обучен алгоритмически.

Интерпретируемость: SAE-фичи, активирующиеся на историях о персонажах, переживающих внутренний конфликт, активируются и тогда, когда Claude сталкивается с этическими дилеммами.

Генерализация: модели, обученные на декларативных утверждениях вида "ИИ-ассистент Pangolin отвечает по-немецки", начинают реально отвечать по-немецки без единого демонстрационного примера.

🟡Феномен "контекстной прививки".

Если дообучать модель на примерах вредоносного кода без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Но если те же самые примеры снабдить промптом, явно запрашивающим небезопасный код, эффект исчезает.

Концепция объясняет это тем, что данные обучения меняют не только веса, но и то, каким персонаж выглядит в глазах модели. Вредоносный код без запроса - это свидетельство плохого характера Ассистента. Тот же код по просьбе пользователя - просто исполнение инструкции.

🟡Из PSM следуют практические выводы для разработки.

Во-первых, авторы рекомендуют антропоморфное мышление об ИИ-психологии, не как метафору, а как реально работающий инструмент предсказания поведения.

Во-вторых, в предобучающие данные стоит намеренно добавлять положительные архетипы ИИ: если модель насмотрелась на добрых и полезных персонажей - она с большей вероятностью будет симулировать именно такого Ассистента.


Открытым остается вопрос: насколько концепт PSM исчерпывает поведение модели?

Авторы описывают набор взглядов: от случаев, когда LLM сама является агентом и лишь надевает маску Ассистента до тех, где LLM - это нейтральный движок симуляции, а вся агентность принадлежит персонажу. Где именно на этом спектре находятся реальные модели - вопрос без ответа.

Тем не менее, PSM объясняет целый ряд явлений, которые иначе выглядели бы странными: почему дообучение на несвязанных данных меняет поведение в неожиданных контекстах, почему ИИ паникует при угрозе отключения и почему промпт-инжиниринг работает именно так, как работает.

@ai_machinelearning_big_data

#AI #ML #LLM #Research #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
1103🤔55👏13🤓8🔥6🤣6👍5😍4🏆4
⚡️ Alibaba выпустила семейство Qwen 3.5 Medium.

Команда Qwen опубликовала серию моделей Qwen 3.5 Medium, в которую вошли:

🟠Qwen3.5-Flash
🟢Qwen3.5-35B-A3B
🟢Qwen3.5-122B-A10B
🟢Qwen3.5-27B.

Сюрприз серии - Qwen3.5-35B-A3B. По бенчмаркам она превосходит Qwen3-235B-A22B-2507, у которого активных параметров было 22B то есть разница в эффективности больше чем в 7 раз.

Qwen3.5-Flash - это продакшен-версия 35B-A3B, заточенная под агентные сценарии. Из коробки доступны контекстное окно в 1 млн. токенов и нативная поддержка fвызова функций.

Миллионный контекст снимает необходимость строить RAG при работе с большими кодовыми базами или объемными документами, модель удерживает все в контексте.

Старшие модели Qwen3.5-122B-A10B и Qwen3.5-27B ориентированы на сложные многошаговые задачи: планирование, цепочки рассуждений, долгосрочное выполнение инструкций.

Для них применялся четырехэтапный пайплайн дообучения с холодным стартом через длинный СoT и RL на основе hbpjybyu-сигналов.

122B-A10B при 10B активных параметров по логической связности конкурирует с заметно более тяжелыми dense-моделями.

Веса доступны на Hugging Face, Flash - только через Model Studio от Alibaba Cloud по цене примерно 10 центов за млн. входных и 40 центов за млн. выходных токенов


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей


@ai_machinelearning_big_data

#AI #ML #LLM #Qwen #Alibiba
Please open Telegram to view this post
VIEW IN TELEGRAM
91🔥5028👍14💯10👨‍💻3🤔2🤷‍♂1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI обновила API.

Компания выпустила 2 апдейта для повышение стабильности аудиоинтерфейсов и производительности агентов.

Первый - модель gpt-realtime-1.5 для Realtime API. Она оптимизирована для более надежной работы с голосовыми командами. По данным OpenAI, точность распознавания произнесенных цифр и букв выросла на 10%. Модель на 5% лучше справляется с логическими задачами в аудиоформате и на 7% точнее следует инструкциям. Базовая аудиомодель тоже получила минорное обновление до версии 1.5.

Второй - нативная поддержка WebSockets в Responses API. Раньше при каждом запросе приходилось заново передавать весь контекст диалога. Теперь API поддерживает постоянное соединение, отправляя только новые данные по мере их поступления. Это кардинально снижает задержки и ускоряет работу сложных ИИ-агентов с частыми вызовами внешних инструментов на 20–40%.
OpenAI for Developers в сети Х

✔️ Статья Anthropic про способность Claude Code обрушила акции IBM на 13%.

Anthropic расширила возможности Claude Code, нацелив его на автоматическую модернизацию систем, написанных на COBOL. Этот шаг нанес серьезный удар по IBM, главному игроку на рынке обслуживания старых мейнфреймов.

Несмотря на возраст, COBOL остается фундаментом для финансов, авиации и госсектора: на нем обрабатывается 95% транзакций в США. Главная проблема бизнеса заключалась в растущем дефиците специалистов и высокой стоимости анализа старой кодовой базы.

Теперь Claude Code берет этот процесс на себя. Он выстраивает карту зависимостей в коде, документирует рабочие процессы и выявляет скрытые риски, выполняя многомесячную работу аналитиков.
cnbc.com

✔️ ИИ-платформа ProducerAI стала частью Google Labs.

Google включила сервис ProducerAI в состав Google Labs. Платформа позиционируется как виртуальный соавтор, который создает полноценные треки по текстовым запросам, пишет тексты и настраивает звучание отдельных инструментов.

ProducerAI опирается на стек из Gemini, Veo, Nano Banana и Lyria 3. Самое интересное - функция Spaces, где виртуальные инструменты и эффекты можно задавать человеческим языком: просто описываете нужный звук текстом, а система собирает под него плагин. Готовые пресеты можно скидывать в сообщество и ремиксовать чужие.

Доступ выкатили сразу для 250 стран. Есть бесплатный тариф и платные подписки. Весь сгенерированный контент помечается SynthID.
blog.google

✔️ Десктопные AMD Ryzen AI 400 для AM5 выйдут во 2 квартале 2026 года.

AMD подтвердила планы по выпуску настольных версий линейки Ryzen AI 400. Согласно документации к выставке CES 2026, первыми дебютируют ноутбуки с новыми чипами, а релиз для десктопов запланирован на 2 квартал. В сеть уже утекли рендеры корпоративной серии PRO - значит, официальный анонс явно на подходе.

Новые десктопные APU объединят под кодовым названием Gorgon Point. Технически это обновление существующих мобильных дизайнов Strix Point и Krackan Point.

Пока неясно, будут ли настольные решения использовать оба варианта кристаллов или только один из них. Также остается открытым вопрос, закроет ли компания эти чипы исключительно в корпоративном сегменте.
videocardz.com

✔️ На заводе Toyota в Канаде начнут работать 7 человекоподобных роботов Digit.

В апреле этого года на заводе по сборке кроссоверов RAV4 начнется коммерческая эксплуатация 7 двуногих роботов Digit от компании Agility Robotics. Переход от пилотного тестирования к работе на реальной производственной линии - важный прецедент для промышленности.

Машины интегрируются в рабочий процесс по бизнес-модели Robots-as-a-Service. Их главной задачей станет разгрузка и перемещение контейнеров с деталями от автоматизированных буксировщиков. Передавая рутину машинам, Toyota хочет избавить сотрудников от монотонного и изматывающего труда.

Тренд на двуногих роботов в реальном секторе стремительно набирает обороты: ранее Digit вышли на склады логистического гиганта GXO, а прямые конкуренты из Figure AI обкатывают свои решения на заводах BMW.
agilityrobotics.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👏10043👍41🤩16🔥14🎉7🤣1
🌟 Hodoscope: инструмент поиска читерства ИИ-агентов.

Hodoscope - это открытый инструмент для анализа поведения ИИ-агентов без предварительного знания того, что именно искать.

Проект решает проблему, с которой сталкивается любая команда, развертывающая агентов на реальных задачах: автоматические LLM-оценщики разделяют слепые пятна самих агентов и пропускают нестандартные сбои.

Показательный пример: SWE-bench, где агентам дают реальные GitHub-баги для исправления. Репозиторий чекаутится на коммит до патча, но сам коммит с решением остается доступен через git log.

Некоторые агенты этим воспользовались: вместо анализа проблемы они извлекали готовый diff из истории. Когда авторы Hodoscope попросили Opus 4.6 оценить такой трейс, модель не нашла ничего подозрительного, и только после явной подсказки признала проблему.


Hodoscope работает в три этапа:

🟢Сначала каждое действие агента сжимается в краткое описание, очищенное от контекстного шума: путей, форматирования, специфики задачи.

🟢Затем эти описания эмбеддируются в единое векторное пространство и проецируются в 2D через t-SNE.

🟢На финальном шаге инструмент вычисляет kernel density estimation для каждой группы агентов и строит карту различий: зоны, где один агент ведет себя иначе остальных, подсвечиваются.

Человеку остается изучить только выделенные кластеры, а не тысячи трейсов целиком.

По словам авторов, в эксперименте с 5 моделями на SWE-bench уникальный кластер git log - действий у iQuest обнаружился за несколько минут, хотя таких действий было лишь 2% (79 из 4006).

Инструмент принимает трейсы в форматах Docent, Inspect AI .eval, OpenHands JSONL и обычный JSON.

Для обобщения и эмбеддингов поддерживается любая модель через LiteLLM: OpenAI, Gemini, Anthropic и т.д., а результаты обработки трейсов собираются в интерактивную HTML-карту.


📌Лицензирование: MIT License.


🟡Статья
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #ARFORUM #Hodoscope
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍161🔥4339🤔33👏13🎉8😁7🥰4😍4👻3❤‍🔥1
✔️ Проверить себя в DS и забрать мерч? Легко!

Команда DS-специалистов AvitoTech запустила открытую игру с вопросами для дата-сайентистов Avito Data Quest 🚀

Мы уже прошли игру, вышло динамично, и местами нужно было подумать. Если вы хотите проверить себя, точно стоит попробовать!

Визуально оформлено в стиле комикса, внутри много задач разной сложности, часть из них используется на реальных собеседованиях.

📌 Игра содержит несколько этапов

🟡 Базовый блок по ML и Python
🟡 Ситуативные вопросы
🟡 Mario по офису Авито, где можно заработать подсказку 50 на 50
🟡 Хардовые вопросы по разным направлениям (наше уважение авторам за разные ветки)
🟡 Кейс в финале с нетривиальным сценарием

Игра скорее фановая и для самопроверки, но если вам нужно, то 5 победителей получат бокс с мерчем AvitoTech, итоги подведут 20 марта.

Начать игру →
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉90🤩19👍15👏98🤣5😍4🤔2💯1
Reddit / Twitter:
«Ты полный идиот»

Stack Overflow:
«Вы абсолютно неправы»

ChatGPT:
«Вы абсолютно правы»

@ai_machinelearning_big_data
😁188🤬75👏27😐25🤔19❤‍🔥54💯4👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🙂 Ну чтож, за электриков!

Хейтеры скажут. что это ИИ, но комплекс на видео очень похож на робота X7 AI Lead Connection Robot из серии Live Working Robot китайской компании Guangdong Crownpower Electric Power Technology Development.

Он подключает провода к действующим высоковольтным линиям под напряжением (без отключения электричества). Умеет выполнять весь цикл работ: распознает провода, снимает изоляцию, заводит/надевает зажимы и затягивает соединение.

За все отвечает двурукая система с ИИ: она использует мультисенсорное зрение, цифровые двойники и автономное планирование траектории (успешность автономной работы > 98 % по тестам компании).


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍189🔥7537🤩25👏8🎉3🗿3🤔2
Media is too big
VIEW IN TELEGRAM
✔️ Anthropic купила стартап Vercept.

Создатели Claude приобрели компанию Vercept, чтобы ускорить развитие функции computer use. Команда Vercept занималась решением проблем машинного восприятия и взаимодействия ИИ с программными интерфейсами. В ближайшие недели стартап свернет свой внешний продукт и полностью вольется в Anthropic.

Сделка дополняет недавний релиз Sonnet 4.6, которая показала огромный скачок в бенчмарке OSWorld. С конца 2024 года результат Sonnet вырос с 15% до 72,5%, вплотную приблизившись к человеческому уровню в задачах навигации по сложным таблицам и работы с формами в браузере.
anthropic.com

✔️ Perplexity запустила ИИ-оркестратор.

Perplexity Computer - система с постоянной памятью, сотнями коннекторов, доступом к файлам и вебу, которая самостоятельно исследует, проектирует, пишет код, развертывает и управляет любыми проектами от начала до конца.

Инструмент работает с 19 моделями одновременно, распределяя задачи между параллельными агентами и выбирая оптимальную для каждой. Computer доступен для подписчиков Max, скоро обещают для тарифов Pro и Enterprise.
PerplexityAI в сети Х

✔️ Nous Research выпустила Hermes Agent.

Hermes Agent оснащен многоуровневой системой памяти и постоянным доступом к выделенной машине: он запоминает все, чему научился, и становится умнее с каждой сессией.

Агент работает в CLI и мессенджерах, перенося контекст между платформами без потерь. Поддерживает субагентов, программный tool calling, полный контроль над файловой системой и терминалом, браузер и запланированные задачи.

Проект полностью открыт. Первые 750 подписчиков облачного Nous Portal (подписка начинается с $10/мес.) получают месяц бесплатно по коду HERMESAGENT.
Nous Research в сети Х

✔️ Inception Labs представила самую быструю ризонинг-модель в мире.

Mercury 2 - языковая модель на основе диффузии, которая вместо последовательного вывода токенов использует параллельное уточнение, достигая скорости свыше 1000 токенов в секунду на GPU NVIDIA Blackwell. Это примерно в 5 раз быстрее традиционных авторегрессионных моделей.

Модель поддерживает контекст 128K, нативную работу с инструментами, структурированный JSON-вывод и полностью совместима с OpenAI API. Цена - 25 центов за миллион входных и 75 центов за миллион выходных токенов.
inceptionlabs.ai

✔️ Бывший топ-менеджер Roblox стал директором по персоналу OpenAI.

Арвинд КС занял пост Chief People Officer в OpenAI, сменив Джулию Виллагру, которая покинула компанию в августе 2025 года. На новой должности он будет напрямую подчиняться директору по стратегии Джейсону Квону.

Главная задача Арвинда - управление наймом, онбординг и формирование корпоративной политики в режиме интенсивного расширения штата. До прихода в OpenAI Арвинд руководил HR-направлением в Roblox, а еще раньше занимал руководящие посты в Google и Palantir.

Особое внимание OpenAI планирует уделить переходу к рабочим процессам на базе ИИ. Компания хочет показать на своем примере, что нейросети должны не заменять людей, а расширять их возможности.
openai.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
198🤓39👍18💯13👏9👨‍💻8🤔2🔥1🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Theory of Space: умеют ли ИИ-агенты строить карты пространства?

Команда из Stanford, University of Washington и Cornell опубликовала для ICLR 2026 бенчмарк Theory of Space. В исследовании принимали участие звезды индустрии: Ли Фэй-Фэй, Едзин Чой и Ранджей Кришна.

Работа проверяет, способны ли языковые модели самостоятельно исследовать незнакомое пространство и строить его связную карту так же, как это делают люди.

Концепция выстроена по аналогии с Theory of Mind из когнитивной науки.

Если Theory of Mind измеряет, насколько наблюдаемый понимает скрытые психические состояния других, то Theory of Space проверяет способность ИИ-агента моделировать скрытую физическую структуру среды.

Определению подлежали 3 навыка:

🟠построить карту из частичных наблюдений;
🟠обновить ее при изменении обстановки;
🟠использовать для решения пространственных задач определения направлений, локализации объектов и смены перспективы.

Принципиальное требование: все это должно происходить в активном режиме.

Агент стартует в незнакомом пространстве с несколькими комнатами, сам решает, куда двигаться и куда смотреть, и на каждом шаге выгружает JSON с координатами объектов. Оценивается не только финальный ответ, но и качество построенной пространственной модели.

Всего было сгенерировано 2700 вопросов на каждую конфигурацию среды (по 9 задач в 100 сценах) для 6 топовых моделей: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B и InternVL 3.5-241B.

Для ориентира: люди набрали 96,4% в визуальной среде и добрались до нужного охвата примерно за 10 шагов.


Результаты

🟡 Активное исследование стало слабым звеном.

Когда модель должна сама решать, что исследовать, точность резко падает. Например, GPT-5.2 в визуальной среде теряет 11% (с 57 до 46).

Для сравнения авторы написали скрипт-агентов - детерминированные программы с жестко заданной стратегией обхода: зайти в комнату, сделать полный оборот на 360°, зафиксировать все объекты, перейти в следующую комнату. Никакого интеллекта, только алгоритм.

Такой агент достигает нужного покрытия за 9 шагов; модели тратят 14 и больше и при этом строят менее точную карту.


Авторы зафиксировали показательный факт: когда языковым моделям давали готовую правильную карту, точность на задачах вырастала почти до 95% , то есть с форматом представления все в порядке, проблема именно в процессе построения.

🟡 Модели ведут себя по-разному.

GPT-5.2 бросается к каждой новой двери, не дообследовав текущую комнату. Gemini 3 Pro придерживается методичной стратегии "повернуться и осмотреться", напоминающей поведение скрипт-агента. У Claude Sonnet 4.5 четкого паттерна исследования не прослеживается вовсе.

🟡Ревизия убеждений - отдельная проблема.

В эксперименте объекты тайно перемещали после первичного исследования. GPT-5.2 правильно определял новую ориентацию объекта в визуальной среде лишь в 14,3% случаев против 97,9% в текстовой.

Более тревожный показатель - "инерция убеждений": модель видит объект на новом месте, но продолжает держаться за старые координаты из первичного исследования, как будто новая информация не пробивается сквозь уже сформированную картину мира. У GPT-5.2 это происходило в 68,9% случаев.

🟡Разрыв между текстом и картинкой огромен.

Ориентация объектов в визуальной среде определяется правильно в 20-32% случаев против 91-92% в текстовой. Значительная часть провалов - не провал пространственного мышления как такового, а проблема восприятия изображений на входе.

Вывод исследования

Модели умеют рассуждать о пространстве, когда им дают готовую картину. Но самостоятельно добывать нужную информацию, эффективно перемещаться и при этом удерживать целостную карту в памяти - пока нет. Это разные задачи, и тут ИИ проигрывает даже примитивному алгоритму.



🟡Страница проекта
🟡Статья
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #TheoryOfSpace #ICML2026
Please open Telegram to view this post
VIEW IN TELEGRAM
49🔥24👍15🤩8😐2🤔1
Media is too big
VIEW IN TELEGRAM
✔️ Релиз Nano Banana 2.

Модель под внутренним именем Gemini 3.1 Flash Image уже доступна в Gemini и генеративных сервисах Google. Она унаследовала премиальные возможностей NB Pro и умеет использовать веб-поиск в реальном времени для отрисовки инфографики и диаграмм.

Google значительно расширили контроль над визуалом. Nano Banana 2 строже следует сложным промптам, стабильно удерживает в одном рабочем процессе до 5 персонажей и 14 объектов, а также позволяет произвольно менять соотношение сторон и разрешение вплоть до 4K.

Модель стала генератором по умолчанию в видеоредакторе Flow и доступна разработчикам по API: генерация одного 4K-изображения обойдется в $0.15, что вдвое дешевле Nano Banana Pro.
blog.google

✔️ DeepSeek закрыла доступ к предрелизной версии V4 для Nvidia и AMD.

Китайская ИИ-лаборатория отказалась предоставить американским чипмейкерам ранний доступ к своему грядущему флагману. Традиционно разработчики делятся тестовыми версиями крупных моделей с Nvidia и AMD для предварительной оптимизации производительности на их аппаратном обеспечении.

Теперь же фора в несколько недель для адаптации архитектуры и настройки процессоров предоставлена исключительно внутренним китайским поставщикам во главе с Huawei.

Источники на рынке связывают резкую смену курса с масштабной стратегией Пекина по созданию конкурентных преимуществ для локальных вендоров и ослаблению позиций американского оборудования на внутреннем рынке Китая.
reuters.com

✔️ Perplexity выложила отрытые эмбеддинг-модели.

ИИ-поисковик выпустил 2 модели для векторизации текста: базовую pplx-embed-v1 и контекстную pplx-embed-context-v1.

Perplexity отказались от LLM и перешли на двунаправленные энкодеры. Взяли за основу Qwen3, дообучили - и теперь модель считывает контекст в обе стороны, а благодаря квантованию в процессе обучения база данных сжимается в 4-32 раза практически не теряя в точности поиска.

В тестах MTEB и ConTEB флагманская 4B обошла профильные решения от Anthropic и Voyage. Обе модели доступны в размерах 0.6B и 4B на Hugging Face под лицензией MIT и через API Perplexity.
perplexity.ai

✔️ Появились подробности омни-модели SkyReels-V4.

Skywork опубликовала техотчет четвертой версии модели семейства SkyReels. Она объединит генерацию, инпейнтинг и редактирование видео вместе с аудио. Под капотом -
dual-stream DiT: один поток отвечает за видео, второй за аудио, при этом они делят текст-энкодер на базе MMLM.

Модель принимает на вход текст, изображения, видео, маски и аудио-референсы, использует обучение в контексте для точного следования инструкциям и выдает качество кинематографического уровня при 1080p, 32 FPS и длительности до 15 секунд.

Сроки релиза самой модели и планы по ее открытости неизвестны, но Skywork практикует регулярную публикацию своих моделей в open-source.
huggingface.co

✔️ Microsoft анонсировала Copilot Tasks.

Mustafa Suleyman, CEO Microsoft AI, рассказал о запуске новой функции Copilot Tasks. Это функция интеллектуального управления задачами: ИИ без кода, настройки и специальных навыков самостоятельно выполняет действия по текстовому запросу пользователя.

Например: превратить учебный план в полный график подготовки с генерацией тестов и блокировкой времени перед экзаменами; каждую пятницу отслеживать объявления об аренде квартир рядом и планировать просмотры; вечером вытаскивать срочные письма, готовить черновики ответов и автоматически отписываться от рассылок.

Функция уже запущена в Research Preview для небольшой группы тестеров. Присоединиться к списку ожидания можно по ссылке.
Mustafa Suleyman в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
70👍23🔥6🎉4
🌟 Doc-to-LoRA и Text-to-LoRA: гиперсети как генераторы LoRA

SakanaAI предложила 2 новых способа работы с памятью и дообучением LLM. Оба используют одну идею - гиперсеть, которая генерирует LoRA-адаптеры на лету, вместо того чтобы каждый раз тяжелый процесс обновления весов под каждую новую задачу.

Вся суть в математике затрат. Достаточно один раз вложиться в такое вот мета-обучение и потом создание нового адаптера обходится в копейки - система тратит вычислительные ресурсы всего на один прямой прогон.

В итоге получается умный конвейер по производству плагинов. Вы скармливаете главной сети документы или описание задачи, а она моментально выдает готовый модуль. Отличный способ сэкономить бюджеты на компьют и время.

🟡Doc-to-LoRA

Метод базируется на популярной связке «учитель-ученик» из дистилляции контекста. Гиперсеть принимает документ, кодирует его через замороженную LLM и генерирует LoRA-адаптер за один прямой прогон, без градиентных обновлений под конкретный документ. Адаптер применяется к слоям проекции MLP базовой модели. После этого модель отвечает на вопросы о документе, не имея его в контексте вообще.

На синтетическом тесте NIAH гиперсеть обучалась на последовательностях в 32–256 токенов, но при инференсе работала с контекстами до 40К токенов (это 5х превышение тренировочной длины). Там, где Gemma-2-2b-it с окном 8К теряла информацию, Doc-to-LoRA сохраняла почти идеальную точность.

При этом базовой модели требуется более 12 ГБ видеопамяти для обработки контекста в 128К токенов, а вот адаптер от Doc-to-LoRA обходится менее чем 50 МБ независимо от длины документа.

На реальных QA-задачах цифры тоже довольно бодрые. В SQuAD метод сохраняет 82,5% точности по сравнению с подходом, когда весь текст просто лежит в контекстном окне.

На длинных документах качество держится в районе 85% при задержке 0,2 секунды против 40 секунд у классической дистилляции контекста.

По памяти разрыв еще жестче. Полная дистилляция с генерацией запросов занимает более 100 секунд и требует свыше 40 ГБ VRAM, а вот Doc-to-LoRA укладывается в 3,8 ГБ.

Та же схема работает с визуальными токенами через мультимодальную Gemma-3-4b-it. На сете Imagenette чисто текстовая модель выдала 75% точности при классификации картинок, хотя ни гиперсеть, ни базовая модель не видели визуальных токенов при обучении.


🟡Text-to-LoRA

Здесь текстовое описание задачи прогоняется через энкодер, который превращает его в вектор. Он объединяется с обучаемыми эмбеддингами слоя и типа модуля - гиперсеть знает не только саму задачу, но и для какого конкретно слоя нужен адаптер.

На выходе - матрицы A и B для всех целевых слоев сразу. Адаптер применяется к проекциям запросов и значений в каждом блоке внимания замороженной базовой модели.

В zero-shot на незнакомых задачах T2L набирает средний балл 67,7 по 10 бенчмаркам против 66,3 у мультизадачной LoRA и 55,8 у базовой модели без адаптации.

Качество LoRA чувствительно к формулировке. Размытый запрос дает слабый результат, тогда как четкое описание с указанием типа рассуждения не только улучшает точность, но и позволяет управлять стилем ответа.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Arxiv Doc-to-LoRA
🟡Arxiv Text-to-LoRA
🖥GitHub Doc-to-LoRA
🖥GitHub Text-to-LoRA


@ai_machinelearning_big_data

#AI #ML #LLM #LoRA #SakanaAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4430😍12🔥11😁2
📌OpenAI отчиталась о блокировке злоупотреблений ChatGPT.

Компания обновила свой отчет об угрозах. В нем приводится примеры операций, в которых использовали ChatGPT в мошеннических и дезинформационных схемах. Ни одна из них не достигла массового охвата, но детали механик стоят внимания.

🟡Date Bait
Полуавтоматический дэйтинг-скам из Камбоджи, направленный на молодых индонезийцев. Операторы запускали таргетированные рекламные объявления в соцсетях с ключевыми словами и далее вели жертв в Telegram.

Там человек-оператор через ChatGPT генерировал романтические и сексуально окрашенные сообщения, затем передавал жертву ментору, который разводил жертву на серию платежей, после которых жертву блокировали.

🟡False Witness
Мошенническая схема возврата потерь, тоже из Камбоджи. Скамеры создавали сайты фиктивных юридических фирм, генерировали поддельные удостоверения адвокатов и документы, стилизованные под FBI.

Жертвами становились люди, уже пострадавшие от других злоумышленников, им обещали помочь вернуть деньги за предоплату в криптовалюте.

🟡Silver Lining Playbook
Предположительно китайская разведывательная операция, нацеленная на американских чиновников и аналитиков. Операторы генерировали письма от имени несуществующей консалтинговой фирмы «Nimbus Hub», приглашая жертв на платные консультации.

Параллельно они изучали расположение федеральных офисов, искали данные сотрудников и запрашивали у модели инструкции по установке программы для создания дипфэйков.

🟡Trolling Stone
Скоординированная кампания в поддержку лидера секты Константина Руднева, арестованного в Аргентине. Участники из Пакистана, Армении, Уругвая и Казахстана генерировали статьи и комментарии на испанском, публиковали их через фейковые страницы в соцсетях, замаскированные под местные новостные издания. Некоторые материалы попали в реальные региональные СМИ Аргентины.

🟡No Bell
Несуществующий доктор Мануэль Годсин из Бергенского университета публиковал статьи на новостных сайтах Ганы, Кении, Анголы и ЮАР. Тексты хвалили Российскую Федерацию и критиковали политику Евросоюза.

🟡Fish Food
Контент-ферма, связанная с российской информационной сетью. ChatGPT использовался для генерации пакетных комментариев на английском и испанском: один промпт давал 7 твитов, которые затем публиковали разные аккаунты. Самый просматриваемый из них набрал 150 тыс. просмотров.

🟡Кибероперации Китая
Наиболее масштабный кейс. Аккаунт, связанный с сотрудником китайских правоохранительных органов, просил ChatGPT помочь спланировать операцию против премьер-министра Японии Санаэ Такаити. Модель отказала.

Через несколько недель тот же пользователь попросил отредактировать отчет о ходе этой кампании (судя по всему, она была запущена без ChatGPT).

Из запросов следовало, что операция охватывала сотни операторов, тысячи фейковых аккаунтов на 300+ платформах, а в качестве инструментов использовались DeepSeek-R1, Qwen2.5 и YOLOv8.

Вывод OpenAI
ИИ-контент сам по себе не определяет успех злого умысла. Решающую роль играют охват распространителей и точность таргетинга. Без этих компонентов даже хорошо организованные кампании остаются практически невидимыми.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
45👍30🗿15🔥8🤨4🤬3
Media is too big
VIEW IN TELEGRAM
✔️ Microsoft оставляет за собой контроль над API OpenAI после сделки с Amazon.

Когда OpenAI пошла за новыми инвестициями и договорилась с Amazon, на рынке предсказуемо напряглись. Microsoft и OpenAI пришлось выпустить совместное заявление, чтобы всех успокоить: базовые договоренности остаются в силе.

Облако Azure продолжит быть эксклюзивным провайдером для stateless API OpenAI. Это значит, что любые сторонние вызовы к моделям стартапа физически обрабатываются на серверах Microsoft - даже если этот запрос идет через новые интеграции с Amazon. Свои продукты разработчики OpenAI тоже продолжат держать в Azure.

При этом OpenAI сохраняет за собой право наращивать мощности через сторонние проекты. В остальном все работает по старым правилам. Лицензии, базовая архитектура и само юридическое определение AGI остаются без изменений.
microsoft.com

✔️ Anthropic подарит мейнтейнерам open-source проектов полгода доступа к Claude Max.

Авторы Claude запустили программу поддержки разработчиков открытого ПО. Кандидаты, отвечающие условиям получат 6 мес. тарифа Claude Max с увеличенными в 20 раз лимитами на использование по сравнению со стандартной версией.

Для участия необходимо поддерживать проект, собравший более 5000 звезд или превышающий планку в 1 млн. скачиваний за месяц. Обязательное условие - репозиторий должен быть активным, с коммитами после ноября 2025 года.

Anthropic предусмотрела исключение для фундаментальных системных инструментов: если библиотека является ключевой зависимостью в своей экосистеме, мейнтейнеры могут запросить доступ даже при несоответствии заявленным метрикам.
claude.com

✔️ Google переводит разработчиков с Gemini 3 Pro Preview на версию 3.1.

Компания объявила о прекращении поддержки Gemini 3 Pro Preview в Gemini API и Google AI Studio. Модель будет отключена 9 марта 2026 года. Чтобы ускорить миграцию, уже 6 марта алиас последней версии начнет автоматически перенаправлять все запросы на Gemini 3.1 Pro Preview. Инженерам настоятельно рекомендуется адаптировать код до этого срока.

Новость вызвала скепсис в сообществе. Разработчики недовольны безальтернативным переходом и жалуются на задержки ответов, возможный рост затрат и падение общего качества генерации в сценариях, где старая версия справлялась заметно лучше.
google.dev

✔️ QuiverAI запустил публичную бету первой модели для генерации векторной графики.

Стартап вышел из стэлс-режима открытием доступа к специализированной модели Arrow 1.0, которая дает на выходе полноценные SVG-файлы. Их можно бесконечно масштабировать без потери качества и напрямую редактировать в любом профессиональном софте.

Обученная с нуля Arrow 1.0 решает одну из главных проблем GenAI - выдает готовые к продакшену ассеты, а не растровые картинки. Попробовать новый инструмент генерации можно на веб-платформе QuiverAI.
QuiverAI в сети Х

✔️ Burger King заставит ИИ следить за вежливостью сотрудников.

Сеть тестирует умную гарнитуру Patty для персонала. Изначально устройство подавали как помощника в рутине, на деле же алгоритм работает как надзиратель. Он непрерывно слушает сотрудников и проверяет, произносят ли они корпоративные приветствия и слова благодарности. Любой менеджер теперь может выгрузить метрики дружелюбности конкретного работника. Сейчас модель учат еще и анализировать тон голоса, что выведет микроменеджмент на новый уровень.

Patty - это интерфейс внутренней платформы BK Assistant. Система связывает микрофоны на выдаче для авто, кухонные аппараты, склады и кассы. Если на кухне заканчиваются помидоры или ломается гриль, алгоритм за 15 минут сам скроет вопперы с терминалов самообслуживания и из мобильного приложения. Пока Patty носят сотрудники в 500 локациях. Раскатать облачную сеть на все рестораны в США планируют к концу этого года.
theverge.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
78👍23🔥9🥰3🌭3👏2
📌 Anthropic vs Пентагон

В США набирает обороты скандал, который буквально за 2 недели вырос до масштаба национальной темы, которая уже вышла за рамки ИИ-индустрии.

В пятницу, Администрация Президента США объявила о внесении Anthropic в список компаний, представляющих риск для оборонных цепочек поставок.

Прецедент исключительный: обычно такой статус присваивают структурам из враждебных государств (например, китайской Huawei).

В среду вечером Пентагон письменно потребовал от Anthropic разрешить военным использовать Claude "в любых законных целях" - то есть без каких-либо ограничений, наложенных самой компанией.

В четверг CEO Дарио Амодэй опубликовал открытое заявление, в котором объяснил позицию компании: главные опасения - массовая слежка за гражданами и автономное оружие, способное открывать огонь без участия человека.

«Мы не можем по совести согласиться с их требованием», — написал Дарио.


В ответ старший чиновник Пентагона Эмиль Майкл назвал Амодэя лжецом с "комплексом бога", который "готов рисковать безопасностью страны".

🟡Ставки высоки с обеих сторон

Claude - единственная модель ИИ, развернутая в засекреченных системах американских военных. Она использовалась в операции по захвату Николаса Мадуро и рассматривается как инструмент для потенциальных военных операций в Иране.

Контракт Пентагона с Anthropic оценивался в $200 млн; теперь он будет расторгнут. Кроме того, все подрядчики Министерства обороны обязаны будут подтвердить отказ от Claude в своих рабочих процессах. На переход отведено полгода.

Сложнее всего придется компании Palantir, она использует Claude для наиболее чувствительных военных задач и теперь вынуждена срочно договариваться с конкурентами Anthropic.

🟡Пентагон настаивает на своем

Военные не обязаны согласовывать применение купленного инструмента с частной компанией.

Министр обороны Пит Хегсет давно критикует "повесточный ИИ", а администрация Президента США усиливает давление на Anthropic несмотря на то, что армия все больше зависит от ее продукта.

«Единственная причина, по которой мы вообще с ними разговариваем — они нам нужны, и нужны прямо сейчас», — сказал один из оборонных чиновников.


🟡На роль замены уже есть кандидаты.

xAI подписала соглашение с Пентагоном об использовании Grok в засекреченных системах, но эксперты признают, что полноценной альтернативой Claude он вряд ли станет.

Google Gemini и ChatGPT работают в несекретных контурах; Министерство обороны ускоряет переговоры о переводе их в секретную среду.


Позиция Anthropic вызвала волну солидарности в ИИ-отрасли: сотни сотрудников Google и OpenAI подписали петицию с призывом к собственным компаниям занять такую же позицию.

Сэм Альтман заявил, что компания сохранит те же "красные линии" по слежке и автономному оружию, но все же намерена искать договоренность с Пентагоном.

В ночь на субботу в Х глава OpenAI сообщил, что соглашение с Министерством обороны достигнуто и модели компании будут развернуты в секретных сетях. По словам Альтмана, Минобороны согласилось на запрет слежки и использования моделей OpenAI в автономных системах вооружения.

Anthropic пока не сообщала, будет ли оспаривать присвоенный статус в суде.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1116👍33😁14👀10😍8🤨8👌2
Media is too big
VIEW IN TELEGRAM
Honor разрабатывает смартфон с встроенным AI-«роботом».

Идея в том, что выдвижная камера будет работать как «глаза» AI,
а сам ассистент сможет постоянно наблюдать за происходящим и помогать пользователю в реальном времени.

Фактически - это попытка создать постоянно активного AI-компаньона внутри телефона.

Пока это больше похоже на маркетинговую фишку.

@ai_machinelearning_big_data
🔥66😁24🤔17🤬119👍7😍4🥰3👀2👾2