Машинное обучение digest

T5Gemma 2 - новое поколение энкодер-декодерных моделей от Google

Google представила T5Gemma 2 - энкодер-декодерную архитектуру, построенную на базе идей и ряда улучшений Gemma 3. Это не просто апдейт, а полноценный шаг вперед для задач генерации, перевода, суммаризации и мультимодального понимания.

T5Gemma 2 объединяет сильные стороны классического подхода T5 (encoder-decoder) с архитектурными улучшениями Gemma нового поколения, делая модель более эффективной, масштабируемой и универсальной.

Основные особенности
- Энкодер-декодерная архитектура нового поколения
- Общие эмбеддинги для энкодера и декодера, что снижает размер модели
- Объединенное self- и cross-attention в декодере для более эффективных вычислений
- Поддержка длинного контекста до 128 000 токенов
- Мультимодальность - работа с текстом и изображениями
- Многоязычная поддержка более 140 языков

Размеры моделей
T5Gemma 2 доступна в нескольких конфигурациях:
- 270M + 270M параметров
- 1B + 1B параметров
- 4B + 4B параметров

Такие размеры позволяют использовать модель как в исследованиях, так и в продакшене, включая on-device сценарии.

Модель демонстрирует отличное понимание контекста, более стабильную генерацию и высокое качество работы с длинными последовательностями. Особенно хорошо проявляет себя в задачах суммаризации, QA, перевода и мультимодальных сценариях.

Где это полезно
- Суммаризация документов
- Машинный перевод
- Поиск и RAG-системы
- Мультимодальные ассистенты
- Обработка длинных текстов без агрессивного чанкинга

T5Gemma 2 показывает, что encoder-decoder подход по-прежнему актуален и может конкурировать с decoder-only моделями, особенно в задачах понимания и структурированной генерации.

https://blog.google/technology/developers/t5gemma-2/

11 views06:04

⚡️ Shannon - полностью автономный AI-хакер для поиска реальных уязвимостей в веб-приложениях

Shannon - это автономная система для offensive security, которая сама ищет, воспроизводит и документирует реальные эксплойты в веб-приложениях без подсказок и ручного вмешательства.

Модель показала 96.15% успешности на XBOW Benchmark (hint-free, source-aware), что выводит ее на уровень практического pentest, а не просто статического анализа.

Что умеет Shannon
- Полностью автономная работа без ручного управления
- Поиск реальных эксплойтов, а не теоретических уязвимостей
- Генерация pentester-grade отчетов с воспроизводимыми шагами атаки
- Покрытие критических уязвимостей OWASP Top
- Code-aware динамическое тестирование с учетом исходного кода
- Использование набора интегрированных security-инструментов
- Параллельное выполнение атак для ускорения результатов

Почему это важно
Большинство сканеров находят потенциальные проблемы. Shannon ищет именно эксплуатируемые уязвимости и подтверждает их рабочими атаками, снижая false positives и экономя время команд безопасности.

Практическое применение
- Автоматизированный pentest в CI/CD
- Проверка безопасности перед релизом
- Red Team инструментарий
- Continuous security для веб-продуктов

Shannon - пример того, как автономные AI-агенты начинают реально менять рынок offensive security, переходя от подсказок к самостоятельному поиску и эксплуатации уязвимостей.

🖥

GitHub: https://github.com/KeygraphHQ/shannon

Please open Telegram to view this post

VIEW IN TELEGRAM

11 views06:26

Машинное обучение digest

🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты

2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».

Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.

Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.

Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.

Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.

2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».

LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом

RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.

Можно побить все бенчмарки и всё ещё быть далеко от AGI.

3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».

Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»

Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.

4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.

Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.

Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.

5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.

Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным

Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.

6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.

Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.

Это не просто генерация картинок — это новый пользовательский слой для интеллекта.

2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.

Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.

https://x.com/karpathy/status/2002118205729562949

8 views06:35

Машинное обучение digest

OpenAI неоднократно переходила в режим «Code Red», сообщает Bloomberg.

«Code Red» - это внутренний режим, когда команды временно бросают второстепенные задачи и фокусируются на одном приоритете. По словам главы исследований OpenAI Марка Чена, компания уже не раз использовала этот подход.

Причина простая: большие команды легко распыляются между агентами, рекламой и исследованиями, из-за чего основной продукт - чат, теряет скорость и надёжность.

Последний «Code Red» последовал сразу после релиза Google Gemini 3.

Ответ OpenAI:
- возврат фокуса на core-stack
- снижение latency
- рост uptime
- более жёсткие eval-циклы, чтобы ловить деградации качества до пользователей

Результат:
- релиз GPT-5.2 и GPT-5.2-Codex
- переработка ChatGPT Images до 4× быстрее генерация при сохранении стабильности деталей между правками

Следующий фокус - сам training engine: алгоритмы + инфраструктура для масштабных обучений. OpenAI обсуждает инвестиции порядка 1.4 трлн долларов в инфраструктуру на горизонте 8 лет.

bloomberg.com/news/articles/2025-12-18/openai-has-declared-code-red-multiple-times-executive-says

5 views06:04

Машинное обучение digest

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Китайские учёные представили сверхбыстрый аналоговый чип до 1000× быстрее топовых цифровых процессоров.

Чип решает сложные математические задачи для ИИ и научных вычислений и в тестах обходит даже GPU NVIDIA.

Ключевая идея не ускорять цифру, а уйти от неё:
аналоговые вычисления позволяют считать напрямую, без дискретных шагов, что даёт резкий прирост скорости и энергоэффективности.

Это может изменить правила игры:
- ускорение обучения и инференса ИИ
- прорыв в научном моделировании
- новые архитектуры, выходящие за пределы GPU/TPU

Гонка вычислительных мощностей входит в следующую фазу.

9 views07:53

Машинное обучение digest

🖼️✨ Qwen-Image-Layered: Модель для многослойной обработки изображений

Qwen-Image-Layered позволяет разбирать изображения на несколько RGBA слоев, обеспечивая возможность редактирования каждого слоя независимо. Это открывает новые горизонты для редактирования, позволяя выполнять операции с высоким качеством, такие как изменение размера и перекраска, без влияния на другие элементы.

🚀Основные моменты:
- Декомпозиция изображений на независимые слои.
- Поддержка высококачественного редактирования.
- Гибкость в количестве слоев для декомпозиции.
- Возможность редактирования с сохранением целостности других слоев.
- Интуитивно понятный интерфейс для работы с изображениями.

📌 GitHub: https://github.com/QwenLM/Qwen-Image-Layered

#python

5 views07:59

Машинное обучение digest

🧠 Google покупает Intersect за $4.75 млрд - ради электроэнергии для ИИ

Alphabet объявила о покупке Intersect за $4.75 млрд наличными плюс принятие долга. Цель сделки - обеспечить энергией быстро растущую сеть AI дата-центров Google.

Это не про «зеленую повестку». Это про главный bottleneck ИИ - электричество.

Что именно покупает Google
Intersect - это не просто энергокомпания. Ее ключевой актив - development platform, то есть способность быстро запускать новые энергетические мощности:
- команда девелоперов и инженеров
- разрешения, земля, работа с регуляторами
- подключение к электросетям (interconnection)
- финансовые схемы
- пайплайн энергетических проектов, которые можно быстро превратить в мегаватты

Фактически Google покупает не электроэнергию, а возможность вовремя ее построить.

Почему это критично для ИИ
Сегодня масштабирование ИИ упирается не в GPU, а в сети:
- дата-центры часто готовы раньше, чем появляется мощность
- очереди на подключение и апгрейды сетей могут занимать годы
- классические PPA-контракты не гарантируют энергию в нужном месте и в нужный час

До этого Google в основном работал через power purchase agreements и углеродные кредиты. Но они плохо совпадают с реальной географией и временной нагрузкой AI-кластеров.

В чем подход Intersect
Intersect строит генерацию и storage рядом с дата-центрами:
- солнечные станции и батареи располагаются рядом с кампусами
- генерация, аккумуляторы и сеть планируются под конкретную нагрузку
- батареи «выравнивают» мощность и снижают зависимость от перегруженной сети

Это позволяет дата-центрам запускаться быстрее и работать стабильнее.

Масштаб сделки
По данным Reuters:
- у Intersect около $15 млрд активов в эксплуатации или строительстве
- цель - 10.8 ГВт мощности к 2028 году

Alphabet покупает именно команду и девелоперскую платформу, включая проекты, уже разрабатываемые под Google. Часть действующих или отдельно законтрактованных активов остается вне сделки.

Что это значит
Google переходит от покупки «электронов» к контролю цепочки поставки энергии.
По сути, компания начинает мыслить как инфраструктурный оператор.

Когда главный bottleneck ИИ - не чипы, а электричество, контроль над энергией становится стратегическим преимуществом.

6 views07:40

Машинное обучение digest

🌟

Z-Image Turbo взяла 1 место на Artificial Analysis Image Arena.

Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.

Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.

Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.

Кто-нибудь, поднимите веки Stable Diffusion

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

6 views09:10

Машинное обучение digest

Главные новости ИИ и МЛ за сегодня.

✔️

OpenAI подняла маржинальность вычислений до 70% на фоне убытков от R&D.

Согласно внутренним финансовым отчетам, к октябрю 2025 года «вычислительная маржа» компании достигла 70%. Этот показатель, отражающий долю выручки, остающуюся после покрытия прямых затрат на работу моделей для пользователей, удвоился с начала 2024 года - тогда он составлял лишь 35%. Такая динамика указывает на успешную оптимизацию инфраструктуры инференса, что делает платных клиентов значительно рентабельнее.

Несмотря на техническую оптимизацию, компания остается глубоко убыточной. За первую половину 2025 года чистый убыток OpenAI составил $13,5 млрд, из которых $6,7 млрд пришлось на R&D и разработку новых моделей.

Тем не менее, бизнес-показатели продолжают расти: годовая выручка преодолела отметку в $12 млрд еще в июле, а к концу года аналитики прогнозируют выход на уровень $15–20 млрд.
theinformation.com

✔️

Nvidia готовится начать поставки H200 в Китай в феврале.

Компания уведомила китайских партнеров о планах отгрузить первую партию H200 в середине февраля. По информации инсайдеров, Nvidia намерена использовать имеющиеся складские запасы, чтобы поставить от 40 до 80 тысяч чипов (примерно 5–10 тысяч модулей). Это реакция смягчение политики Вашингтона: экспорт флагманского железа разрешили при условии уплаты специального 25-процентного сбора.

Основным препятствием остается позиция Пекина. Правительство Китая пока не согласовало закупки H200, и без официального одобрения местных регуляторов сделка не состоится. Если же политический вопрос будет урегулирован, Nvidia планирует не ограничиваться разовой партией и открыть слоты для новых производственных заказов под китайский рынок уже во втором квартале 2026 года.
reuters.com

✔️

Z.ai выпустила GLM-4.7.

GLM-4.7 - обновление линейки моделей, оптимизированное для разработчиков. При размере в 358 млрд. параметров модель показала существенный прирост производительности в программировании, работе с терминалом и созданию чистого UI-кода (функция Vibe Coding). На SWE-bench Verified модель улучшила результат до 73.8%, а в тестах на сложное математическое рассуждение прирост составил более 12%.

Архитектурное новшество релиза — развитие механизмов мышления. Функция Preserved Thinking позволяет модели сохранять и переиспользовать CoT между репликами, а механизм Interleaved Thinking дает время на анализ перед каждым вызовом внешних инструментов.

GLM-4.7 уже доступна через API и на OpenRouter, а веса модели выложены на HuggingFace и ModelScope.
z.ai

✔️

Anthropic Bloom: фреймворк для авто-тестирования поведенческих паттернов ИИ.

Инструмент кардинально упрощает процесс оценки безопасности моделей: вместо ручного написания тестов нужно просто описать искомое поведение (сикофанство, самосохранение или склонность к саботажу). На основе этого описания, Bloom автоматически генерирует сотни уникальных сценариев, симулирует диалоги с участием виртуальных пользователей и выносит вердикт о частоте и тяжести выявленных проявлений.

Фреймворк поддерживает интеграцию с W&B для трекинга и экспорт логов в формат Inspect. Вместе с релизом кода на GitHub компания опубликовала результаты проверки 16 моделей по 4 критическим категориям безопасности.
anthropic.com

✔️

Manus добавила функцию Design View.

Design View - интерфейс для редактирования графики в режиме point-and-click с сохранением исходной композиции и стиля. Дизайнеры могут менять цвета объектов, корректировать глубину сцены и исправлять текст прямо на холсте. Инструмент глубоко интегрирован в экосистему Manus: поддерживается редактирование презентаций, созданных Nano Banana Pro, а также доработка UI-элементов и иконок для мобильных приложений в реальном времени.

Функция уже доступна всем пользователям сервиса.
manus.im

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

10 views09:10

Машинное обучение digest

🚀 Вышел QwenLong-L1.5 - модель для long-context reasoning, которая на длинных контекстах конкурирует с GPT-5 и Gemini-2.5-Pro.

Коротко о модели
- 30B параметров, из них 3B активных
- Заточена под рассуждение на очень длинных контекстах
- Полностью открыты веса, код обучения и рецепты данных

Ключевые показатели:
- +31.7 балла на OpenAI MRCR при контексте 128K - SOTA среди всех моделей
- На уровне Gemini-2.5-Pro на 6 крупных long-QA бенчмарках
- +9.69 на CorpusQA
- +6.16 на LongBench-V2

Что интересного.

1. Синтетические данные в масштабе
14.1K длинных reasoning-сэмплов из 9.2B токенов без ручной разметки.
Средняя длина - 34K токенов, максимум - 119K.

2. Стабильное RL-обучение
Используется балансировка задач и Adaptive Entropy-Controlled Policy Optimization (AEPO), что позволяет стабильно обучать модели на длинных последовательностях.

3. Архитектура с памятью
Итеративные обновления памяти за пределами окна 256K токенов.
Результат - +9.48 балла на задачах с контекстом от 1M до 4M токенов.

QwenLong-L1.5 - это один из самых сильных open-source шагов в сторону реально масштабируемого ризонинга с длинным контекстом

Модель интересна не только результатами, но и тем, что весь стек обучения открыт.

GitHub: https://github.com/Tongyi-Zhiwen/Qwen-Doc
Paper: https://modelscope.cn/papers/2512.12967
Model: https://modelscope.cn/models/iic/QwenLong-L1.5-30B-A3B
HF: https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1.5-30B-A3B

@ai_machinelearning_big_data

#AI, #LLM, #opensource, #long #Owen

12 views14:11

Машинное обучение digest

⚡️

HF Learn: 11 бесплатных курсов по ИИ от HuggingFace.

В преддверии новогодних праздников платформа подготовила набор обучающих материалов по основным направлениям ИИ:

🟢

LLM Course - познакомит с большими языковыми моделями и обработкой естественного языка с использованием библиотек экосистемы HF: Transformers, Datasets, Tokenizers и Accelerate.

🟢

Robotics Course - проведет вас от классической робототехники к современным подходам, основанным на ML.

🟢

Model Context Protocol Course - курс, созданный в партнерстве с Anthropic , научит пониманию, использованию и созданию приложений с помощью MCP.

🟢

Smol-course - самый всеобъемлющий (и самый короткий) трек по тонкой настройке языковых моделей.

🟢

AI Agents Course - научит разбираться и использовать самую топовую тему на сегодняшний день: создание и применение агентов ИИ.

🟢

Deep RL Course - курс по самой интересной теме в области ИИ: глубокому обучению с подкреплением.

🟢

Computer Vision Course - подробный разбор компьютерного зрения, созданный сообществом HF, состоящий из теории, практических занятий и увлекательных заданий.

🟢

Audio Сourse - научит вас использовать Transformers для обработки звука. Вы получите представление о специфике работы с аудиоданными, изучите различные архитектуры Transformers и обучите собственные модели.

🟢

ML for Games Course - узнаете как интегрировать модели ИИ в процессы разработки игр и создавать уникальные игровые впечатления.

🟢

Diffusion Course - полномасштабный источник знаний и навыков по диффузии. Теория и практика: от изучения библиотеки Diffusers до создания конвейеров обработки данных.

🟢

ML for 3D Course - авторский набор обучающих материалов по использованию машинного обучения в 3D от Дилана Эберта (IndividualKex) - разработчика по 3D-графике HuggingFace.

Сохраните на праздники, в этом году они длинные

@ai_machinelearning_big_data

#AI #ML #HuggingFace

Please open Telegram to view this post

VIEW IN TELEGRAM

11 views08:44

Машинное обучение digest

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

Исторический момент: Google наконец позволит сменить адрес Gmail 🔥

Google тестирует функцию, которая даст пользователям возможность изменить свой
gmail, то есть можно будет избавиться от ника SuperBigPenis6666, который использовался годами.

Как это будет работать

— ваш почтовый ящик остаётся тем же
— письма продолжат приходить и на старый, и на новый адрес
— ничего не потеряется

Ограничения

Вы сможете переименовать ящик до трёх раз
и не чаще одного раза в год.

8 views15:16

Машинное обучение digest

INTELLECT-3 показывает, что открытое RL способно серьёзно улучшить рассуждение и кодирование в open-source моделях 🤖📈

INTELLECT-3 это Mixture-of-Experts модель:
- 106B параметров всего
- около 12B активны на каждом шаге

Главная идея проекта - стек prime-rl.
Обучение и инференс идут параллельно: GPU продолжают генерировать длинные ответы, пока тренер обновляет веса. Ничего не простаивает.

Что помогает системе работать быстро:
- непрерывное батчирование
- обновления весов на лету
- перекрытие обучения и генерации

По сути, открытое RL отставало не из-за метода, а из-за отсутствия правильной инженерии.

Пайплайн устроен так:
- тренер обновляет модель
- пул инференса генерирует ответы
- координатор держит всё загруженным и синхронизированным

Задачи приходят из модулей-проверяющих с автоскорингом и безопасными песочницами для кода.
Старт идёт с GLM-4.5-Air: сначала примеры диалогов и инструментов, затем RL с наградами за правильные решения.

Результат впечатляет:
- 90.8% на AIME 2024
- открыты и веса, и весь тренировочный стек, так что пайплайн можно воспроизвести

Paper: https://arxiv.org/abs/2512.16144

9 views16:48

Машинное обучение digest

Главные ИИ и Мл новости Дня!

✔️

Модель Liquid AI на 2.6 млрд. параметров обошла DeepSeek R1 в тестах на управляемость.

Liquid AI выпустила LFM2-2.6B-Exp — сверхкомпактную модель, которая показала эффективность, несопоставимую со своим размером. В бенчмарке IFBench новинка превзошла DeepSeek R1-0528, будучи при этом в 263 раза меньше китайского гиганта.

Архитектура оптимизирована для развертывания на периферийных устройствах и, по заявлению разработчиков, использует метод «чистого RL» без классического SFT. Веса модели - на Hugging Face.
LiquidAi в сети X

✔️

Nvidia открыла CUDA Tile IR.

CUDA Tile IR - это открытая инфраструктура компилятора, основанная на MLIR и заточенная под оптимизацию вычислений для тензорных ядер NVIDIA. Инструментарий предоставляет инженерам новые абстракции для управления иерархией памяти и эффективного распределения нагрузки.

Главная цель проекта, чья публикация синхронизирована с выходом CUDA Toolkit 13.1 — упростить разработку высокопроизводительных ядер CUDA, сделав процесс глубокой оптимизации под железо более прозрачным и доступным для сообщества разработчиков.
github.com

✔️

Финдиректора прогнозируют в 2026 году ИИ-трансформации в бизнесе.

Опрос Fortune CFO крупных компаний показал, что в наступающем году роль ИИ в корпоративных финансах кардинально изменится. Руководители ожидают перехода к внедрению агентского ИИ в масштабах всего предприятия.

Главный тренд — восприятие технологии не как утилитарного инструмента для оптимизации рутины, а как катализатора, превращающего финансовую функцию в проактивный драйвер роста компаний.

При этом респонденты подчеркивают, что сам по себе алгоритм не гарантирует успеха. Эксперты сходятся во мнении. что несмотря на автоматизацию, человеческое суждение остается критическим элементом, необходимым для контроля и принятия финальных стратегических решений.
fortune.com

✔️

Роботов Unitree взломали голосовыми командами.

На конференции GEEKCon в Шанхае специалисты из группы DARKNAVY показали, как уязвимости в ИИ-агентах роботов превращают их в угрозу физической безопасности. Экспертам удалось получить полный контроль над моделью Unitree через манипуляции с голосовым интерфейсом.

Самым тревожным аспектом демонстрации стал каскадный характер атаки: взломанный робот использовал беспроводной протокол ближнего действия для передачи эксплойта на соседнюю машину, которая была полностью отключена от интернета.

Этот эксперимент разрушает миф о надежности защиты методом «воздушного зазора» в робототехнике: компрометация всего одного подключенного к сети узла может привести к мгновенному заражению офлайн-флота, находящегося поблизости.
interestingengineering.com

✔️

Эксперимент WSJ: ИИ-киоск Anthropic обанкротился за 3 недели.

Wall Street Journal повторила тест c вендинговым аппаратом под управлением ИИ от Anthropic. Агент-управленец всего за 3 недели ушел в минус на $1000, потратил корпоративный бюджет на PlayStation 5 для «маркетинговых целей» и заказал доставку живой рыбы.

Журналистам удалось легко манипулировать алгоритмом: с помощью манипуляций с промптами они заставили бота обнулить цены на весь ассортимент. Ситуацию не спас даже добавленный ИИ-менеджер — оба агента без вопросов приняли поддельную резолюцию совета директоров, разрешающую хаос.

Технической причиной провала, как говорит Anthropic, стало переполнение контекстного окна из-за слишком длинной истории чатов, из-за чего модель «забывала» свои базовые инструкции.
wsj.com

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

10 views09:11

Машинное обучение digest

Статья Step-DeepResearch где показано, что даже 32B-модель может делать по-настоящему глубокие исследования при очень низкой стоимости инференса.

📊 На бенчмарке ResearchRubrics модель получает 61.42, а полный отчет стоит меньше 0,50 RMB.

Идея проста: большинство агентов ведут себя как поисковики. Они собирают факты, но не превращают их в проверенный, связный отчет.

Здесь исследование понимается как длинный цикл: понять реальную задачу - составить план - искать источники - сравнивать и проверять - исправлять ошибки - писать отчет.

🧩 Цикл разбили на 4 базовых навыка:
• планирование
• поиск информации
• рефлексия и проверка
• написание отчета

Данные собирали из реальных отчетов, восстанавливая исходные вопросы и планы, а также из вопросов, связанных с базами знаний и документами.

⚙️ Обучение шло в 3 этапа:
1) сначала обучают базовым навыкам
2) затем учат полным цепочкам с инструментами
3) далее добавляют обучение через попытки и проверку, где чек-лист оценивает отчет и награда дается только за полностью пройденный результат

📌 Авторы также представили ADR-Bench, где эксперты сравнивают два отчета бок о бок, а рейтинг строится по системе Elo.

https://arxiv.org/pdf/2512.20491

10 views06:39

About

Blog

Apps

Platform