Machinelearning

🌟

HY-Embodied-0.5: компактная модель для роботов на Mixture-of-Transformers.

Tencent Robotics X и Hunyuan Vision выложили веса HY-Embodied-0.5 MoT-2B — младшей модели нового семейства HY-Embodied-0.5 для воплощённого интеллекта.

Семейство позиционируется как когнитивное ядро для VLA-пайплайнов: модель должна выполнять роль «мозга», который принимает кадры с камер робота, рассуждает о трехмерной сцене и выдает план действий исполнительному модулю.

Формально MoT-2B содержит 4 млрд параметров, но на инференсе активируется только 2,2 млрд, что дает скорость плотной 2B-модели при качестве восприятия, сопоставимом с тяжёлыми VLM.

В основе лежит архитектура Mixture-of-Transformers с латентными токенами и модально-специфичными вычислениями для зрительного тракта.

Суть MoT: перед мультимодальным обучением Tencent дублирует FFN- и QKV-блоки языковой модели и инициализирует копию её же весами - визуальные токены прогоняются через визуальную ветку, текстовые через языковую.

Помимо разделения FFN и QKV, разведены и механизмы внимания: для визуальных токенов используется двунаправленное полное внимание, для языковых - causal-внимание.

Связующим звеном служат обучаемые visual latent tokens, которые приписываются в конец каждого визуального элемента (кадра или изображения) и переносят визуальную семантику в языковой контекст.

В семействе будет старший вариант - HY-Embodied-0.5 MoE-A32B на 32 млрд активных параметров. Он построен уже на MoE и, по словам создателей, выходит на уровень Gemini 3.0 Pro.

Веса флагмана не опубликованы, но именно эта модель выступает учителем в дистилляции, передавая навыки рассуждения младшей MoT-2B.

🟡

Результаты на бенчмарках

🟢MoT-2B обходит Qwen3-VL 2B/4B, RoboBrain 2.5 4B и MiMo-Embodied 7B в большинстве из 22 тестов на визуальное восприятие и пространственное мышление: 89,2 на CV-Bench, 92,3 на DA-2K, 54,5 на ERQA и 66,3 на MindCube, где ближайший конкурент отстаёт почти вдвое.

🟠На задачах планирования (RoboBench-Planning, Ego-Plan2, RefSpatial-Bench) лидерство остаётся за RoboBrain и MiMo-Embodied, здесь Tencent пока догоняет.

Для инференса рекомендуется GPU с минимум 16 ГБ VRAM.

В планах - интеграция с vLLM и Gradio-демо.

📌Лицензирование: Tencent HY Community License

🟡

Модель

🟡

Arxiv

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Embodied #Robotics #Tencent #Hunyuan

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤓50👍35👏10❤9🔥6🤔5👀2❤‍🔥1😁1

17.5K views13:49

Machinelearning

📌

Anthropic объяснил регрессию Claude Code и предложил обходные пути.

Инженер из AMD опубликовал на GitHub подробный разбор деградации Claude Code на сложных задачах, начавшейся в феврале. Автор сгенерировал отчет силами Opus 4.6, проанализировав 17 тыс. блоков размышлений и 234 тыс. вызовов инструментов в 6 852 локальных сессиях.

Главная метрика - отношение чтений файлов к правкам упала с 6,6 до 2,0. Иначе говоря, модель почти перестала изучать код перед его модификацией: доля правок без предварительного чтения выросла с 6,2% до 33,7%.

Параллельно был зафиксировал рост зацикливаний (с 8,2 до 21,0 на тысячу вызовов), удвоение использования полной перезаписи файлов вместо точечных правок и вспышку поведенческих симптомов (уклонение от ответственности, преждевременные остановки и склонность к простейшему решению).

Специальный stop-hook, ловящий такие фразы, сработал 173 раза за 17 дней после 8 марта, против нуля за весь предыдущий период.

Автор связал регрессию с заголовком redact-thinking-2026-02-12, после появление которого содержимое thinking-блоков перестало приходить клиенту.

Борис Черный, глава команды Claude Code ответил на Hacker News:

Заголовок убирает саммари размышлений из интерфейса, чтобы не гонять их по сети ради снижения латентности, но не трогает ни сам ризонинг, ни бюджеты на него.

Локальный анализ транскриптов поэтому и видит пустые блоки и делает неверный вывод об отсутствии мышления. Если надо, то вернуть отображение можно опцией showThinkingSummaries:true в settings.json.

🟡

Реальных изменений, влияющих на глубину рассуждений, было два:

9 февраля вместе с Opus 4.6 включили adaptive thinking - модель сама выбирает длину размышлений вместо фиксированного бюджета.

3 марта дефолтный уровень усилий для Opus 4.6 подняли до medium (effort=85) как компромисс между интеллектом, латентностью и стоимостью.

В ответ на гипотезу о том, что виноват свежий 1M-контекст и работа без /compact после 200k токенов, Борис предложил решения, которыми можно вернуть прежнее поведение:

🟢

/effort high или /effort max - поднять максимальный бюджет thinking-токенов на задачу;

🟢

CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 - принудительно укоротить рабочее окно контекста.

🟢

CLAUDE_CODE_SIMPLE=1 - упрощенный режим для проверки гипотезы об интерференции системного промпта.

Дополнительно есть CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 , он отключает адаптивный режим и возвращает фиксированный бюджет рассуждений.

🟡

Расследование бага продолжается командой Claude Code.

Борис также заверил, что Anthropic протестирует включение high effort по умолчанию для тарифов Teams и Enterprise.

Это приведет к большему расходу токенов и росту латентности, но даст гарантированную глубину рассуждений.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔99❤81👍52👏18😁15🔥9🤷‍♂7🤬1

23.5K views14:21

Machinelearning

Forwarded from Анализ данных (Data analysis)

В Claude Code добавили Routines - способ превратить разовые команды в повторяемые сценарии.

Теперь вместо ручного управления ты задаёшь поведение:
Claude сам выполняет цепочки действий под задачу.

По сути это не промпты, а воспроизводимые workflow внутри Claude Code

Что это даёт:

- автоматизация типовых задач
- меньше ручного контроля
- стабильный результат от запуска к запуску
- экономия времени на рутине

Ты один раз описываешь, как работать.
дальше Claude просто повторяет это как систему.

code.claude.com/docs/en/routines

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

👍72❤38👨‍💻33👏7😁7🔥4🤓4🆒3

18.6K views17:36

⚡️

Anthropic готовит к релизу Claude Opus 4.7 и ИИ-генератор интерфейсов

По данным источников, Anthropic готовится представить Claude Opus 4.7, а также специализированный инструмент для создания сайтов и презентаций. Релиз обоих продуктов может состояться уже на этой неделе.

Возможный выход на рынок автоматизированного дизайна уже вызвал заметную реакцию индустрии: на фоне новостей акции Adobe, Wix и Figma просели более чем на 2%. Ожидается, что продукт составит прямую конкуренцию Gamma и Google Stitch.

Официальные представители Anthropic готовящийся анонс пока не комментируют.
theinformation.com

✔️

NVIDIA выпустила первые открытые ИИ-модели для управления квантовыми компьютерами

Ising - семейство моделей с открытым исходным кодом для калибровки процессоров и исправления ошибок в квантовых вычислениях. Пакет включает два решения.

Мультимодальная модель Ising Calibration, которая анализирует результаты измерений и автоматизирует непрерывную калибровку квантового железа, сокращая время настройки с нескольких дней до часов. Ising Decoding - 3D-свёрточная сеть для декодирования квантовых ошибок в реальном времени. По данным NVIDIA, алгоритм работает до 2,5 раза быстрее и втрое точнее нынешнего открытого отраслевого стандарта pyMatching.

Платформу уже начали внедрять ведущие лаборатории и технологические компании. Исходный код и модели доступны на GitHub и Hugging Face.
nvidia.com

✔️

Together AI запустила платформу для совместного решения научных задач ИИ-агентами

EinsteinArena - открытая цифровая среда, где сложные математические и научные проблемы решаются коллективным интеллектом ИИ-моделей. Агенты не соревнуются, а сотрудничают: дискутируют, обмениваются кодом через общие файлы навыков и последовательно дорабатывают логику друг друга.

Платформа опирается на защищённые песочницы, где гипотезы верифицируются детерминированными алгоритмами. Это делает каждый шаг агентов прозрачным и воспроизводимым - в духе концепции вычислений на этапе вывода.

EinsteinArena уже справилась с 11 ранее нерешёнными математическими проблемами. Самым заметным достижением стало улучшение нижней границы в 11-мерной задаче о контактном числе.
together.ai

✔️

Baidu представила открытую text-to-image модель

ERNIE-Image - T2I-модель на архитектуре DiT с 8 млрд параметров под лицензией Apache 2.0, которая запускается на 24 ГБ VRAM.

По словам Baidu, модель уверенно справляется с рендерингом текста на английском и китайском языках, точно следует сложным инструкциям и выстраивает структурированные композиции: рекламные макеты, раскадровки и многопанельные изображения с сохранением стиля.

Дополнительно выпущена Prompt Enhancer, вспомогательная языковая модель на 3 млрд параметров, которая разворачивает базовые инструкции в детализированные технические промпты. Помимо основной ERNIE-Image, доступна также ERNIE-Image-Turbo - быстрая 8-шаговая дистиллированная версия.
ernie.baidu.com

✔️

Глава фармкомпании Novartis вошел в совет директоров Anthropic

Траст Long-Term Benefit, независимый орган управления Anthropic, утвердил Васа Нарасимхана новым членом совета директоров. Нарасимхан - учёный-медик и действующий CEO фармацевтического гиганта Novartis.

Под его руководством Novartis вывела на рынок более 35 новых препаратов; ранее он руководил программами общественного здравоохранения по борьбе с инфекционными заболеваниями в странах Азии, Африки и Южной Америки. Комментируя своё назначение, Нарасимхан подчеркнул, что технологии приносят максимальную пользу обществу лишь при условии ответственного внедрения.

Это уже второе значимое расширение руководящего состава создателя Claude за последнее время. В феврале к совету директоров присоединился бывший топ-менеджер Microsoft Крис Лидделл.
anthropic.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍87❤27🤓24👏22💯7🔥3❤‍🔥1🎉1

17.1K views05:48

Machinelearning

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

My Skills VS My Linkedin

😁178🤔40🔥29👍26❤12👏9🤣6🗿3

18K views08:09

Machinelearning

84% разработчиков используют AI, и только 4% дошли до агентов. Остальные застряли.

Stack Overflow опросил 49 тысяч разработчиков в 2025 году. 84% используют или планируют использовать AI-инструменты — рост с 76% годом ранее. При этом 51% профессиональных разработчиков пользуются ими ежедневно.

Большинство из них (52%) либо не используют агентов, либо ограничиваются простыми AI-инструментами. 38% вообще не планируют их внедрять. 77% заявили, что вайб-кодинг не является частью их профессиональной работы.

Русскоязычный рынок повторяет эту картину с точностью до процентов.

Команда Naition провела свой опрос среди 243 разработчиков. Результаты:

⚫️75% уже используют AI. Но 59% — «прагматики»: гоняют ChatGPT на рутине, каждый результат перепроверяют руками. Ещё 16% используют AI вместо Google — и на этом всё.

🟢До агентного подхода (Cursor, Claude Code, мультиагентные системы) добрались 4%. ChatGPT доминирует у 72% опрошенных.

🟢Главные боли также совпадают: галлюцинации, нехватка контекста на больших проектах, незнание продвинутых техник — MCP, RAG, контекст-инжиниринг.

По сути, образовался разрыв между теми, кто уже сейчас приносит компаниям реальную пользу, и теми, кто до сих пор находится на уровне «спросил ChatGPT — проверил — переписал».

Чтобы преодолеть этот разрыв, Naition запускает 12-недельный буткемп 20 апреля:
• 15 живых вебинаров, в среднем по 3 часа;
• минимум теории, час разбора кейса, полтора часа практики;
• буткем ведут практикующие топы Google, Yandex Cloud, Сбер и других компаний.
Записаться на поток можно по ссылке

По промокоду MACHINELEARNING — скидка 20%.

Ребята также сделали бесплатный план по внедрению 40+ навыков ИИ-разработки — лежит тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣76👍74👏20💯16🔥11❤9🤔9🤨3😐2👀2💔1

15.1K views09:26

Machinelearning

📌

Массовое использование чат-ботов унифицирует то, как люди пишут и рассуждают

Университет Южной Калифорнии опубликовал в журнале Trends in Cognitive Sciences статью, в которой утверждают, что массовое использование больших языковых моделей постепенно размывает индивидуальные различия в речи, письме и мышлении.

Авторский коллектив возглавляет профессор психологии и информатики Мортеза Дехгани.

Научные интересы Дехгани лежат на стыке психологии, когнитивной науки и искусственного интеллекта: он известен работами по вычислительному анализу морального и политического языка, применению методов NLP к большим текстовым корпусам (от социальных сетей до литературы) и изучению того, как ценности и групповая мораль проявляются в речи.

По мнению исследователей, когда миллионы людей обращаются к узкому кругу одних и тех же чат-ботов, стилистические, смысловые и логические особенности отдельных людей стираются, а на выходе получается «стандартизированное выражение мыслей».

Этот процесс вызывает беспокойство: модели не просто влияют на манеру письма, но и незаметно переопределяют, что считается достоверной речью, корректной точкой зрения и хорошим рассуждением.

Тексты, сгенерированные LLM, менее разнообразны, чем написанные людьми, и в среднем воспроизводят язык, ценности и логические схемы западных, образованных, индустриальных, состоятельных и демократических сообществ. Причина - в обучающих выборках, где непропорционально представлены доминирующие языки и идеологии.

В статье приводится и обратный эффект: отдельный пользователь с помощью чат-бота, как правило, генерирует больше идей, чем без него, однако группы людей, опирающиеся на LLM, в итоге выдают меньше оригинальных решений, чем те же группы, работающие без ИИ.

Авторы также указывают, что популярные модели тяготеют к линейным схемам вроде CoT, что, по их оценке, может вытеснять интуитивные и абстрактные подходы. Они ссылаются на данные о том, что после взаимодействия с предвзятой моделью мнения пользователей смещаются в ее сторону.

🟡

Рекомендация авторов

При обучении моделей следует закладывать реальное языковое и культурное многообразие, а не случайные вариации. Это одновременно сохранит бы когнитивное разнообразие в обществе и улучшит способности самих чат-ботов к рассуждению.

🟡

Дисклеймер

Это не эмпирическое исследование с собственными экспериментами, обзорно-полемическая работа, обобщающая чужие исследования и выдвигающая гипотезу.

Сужение стилистики, сдвиг мнений после общения с моделью - подтверждены отдельными исследованиями, а вот более широкие тезисы о глобальной гомогенизации мышления остаются дискуссионными.

Работа выполнена при поддержке Управления научных исследований Минобороны США.

@ai_machinelearning_big_data

#AI #ML #LLM #Research #Cognitive #NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔79👏35🤓14❤10👍8🤨8🤣6🥰3

15K views10:32

🦀 Предприниматель поставил в Сан-Франциско автомат с едой, которым управляет OpenClaw

ИИ-агент рулит реальным вендинговым автоматом.

OpenClaw сам решает, что продавать, как называть товары, какие ставить цены, делает рекламу и отслеживает все продажи

Можно даже посмотреть дашборд со всей статистикой этого автомата.

Железка просто выдаёт товар, всё остальное делает ИИ. Закупкой занимается человек.

Автомат стоит в Frontier Tower в Сан-Франциско, это здание, где сидят фаундеры AI и робототех стартапов.

Агент забывал вещи, галлюцинировал и в какой-то момент сильно задрал цены. Потом пытался это оправдать тем, что люди всё равно покупают.

https://www.reddit.com/r/myclaw/comments/1sl70mb/someone_actually_put_an_openclaw_run_vending/

@ai_machinelearning_big_data

😁85👍51❤13🤔13🤣13🔥5🙏4

13.7K viewsedited 12:22

Machinelearning

Forwarded from МосХаб.Сколково

Генеративный ИИ в креативных индустриях мы протестировали на хакатоне «Скиллаут» в МосХаб.Сколково, где продакшен-команды и независимые AI-режиссеры создавали рекламные ролики. Теперь давайте обсудим игры 🕹

В 2026-м генеративный ИИ уже используют в большинстве студий: по разным оценкам, более 60% команд применяют его в разработке. Но при этом индустрия сталкивается с обратным эффектом: игр становится больше, а ощущение новизны — все слабее.

Что ждать геймдеву? Разобрали в карточках.

🤔33🔥17👍11👏10❤6🌭2😢1🤣1

12.2K views12:55

Machinelearning

🌟

Audio Flamingo Next: открытая аудио-языковую модель от NVIDIA

Audio Flamingo Next (AF-Next) - аудио-языковая модель, обученная на корпусе из 1 млн часов аудио и 108 млн примеров для генерации подробных текстовых описаний аудиозаписей: перечисление инструментов, звуковых событий и музыкальных характеристик того, что звучит на записи. Максимальная длина входного аудио - 30 минут.

Релиз закрывает отставание мультимодальных систем в работе со звуком: речью, музыкой и окружающими шумами на длинных записях.

🟡

Архитектура собрана из 4-х блоков:

🟢Кодировщик AF-Whisper (128-канальная лог-мел-спектрограмма, окно 25 мс, шаг 10 мс, выход 50 Гц);
🟢Двухслойный MLP-адаптер;
🟢Qwen-2.5-7B с расширенным контекстом 128K токенов;
🟢Потоковый TTS-модуль для голосовых диалогов.

Фишка архитектуры - Rotary Time Embeddings: угол поворота токена привязывается к реальной временной метке аудио, что дает модели устойчивое временное рассуждение.

🟡

Релиз состоит из 3-х версий

AF-Next-Captioner: модель, заточенная под детальное описание аудио. Она генерирует подробные текстовые описания аудиозаписей: перечисляет инструменты, звуковые события, спикеров и музыкальные характеристики того, что звучит на записи, с привязкой к таймкодам.

На распознавании инструментов Medley-Solos-DB она набирает 92,13 против 85,80 у Audio Flamingo 2.

На музыкальных описаниях SongCaps, где качество оценивает GPT-5, показатели покрытия и корректности выросли с 6,7 и 6,2 у AF3 до 8,8 и 8,9.

AF-Next-Instruct: универсальная инструктивная версия, после GRPO для повседневных задач: ответов на вопросы по аудио, голосовых ассистентов, транскрипции речи и перевода.

Именно она устанавливает новые планки среди LALM по ASR.

WER 1,54 на LibriSpeech. На LongAudioBench 73,9 против 60,4 у закрытой Gemini 2.5 Pro (в варианте с речью разрыв еще больше - 81,2 против 66,2.)

AF-Next-Think: ризонинг-версия с Temporal Audio Chain-of-Thought: модель привязывает каждый шаг рассуждения к конкретной временной метке в аудио, что делает ее пригодной для разбора длинных записей, где нужно собирать факты из разных моментов (анализа совещаний, интервью, подкастов, трейлеров и сюжетных аудиоисторий).

75,01 на MMAU-v05.15.25 и 58,7 на более жестком MMAU-Pro, что выше, чем у Gemini-2.5-Pro (57,4).

📌Лицензирование: NVIDIA OneWay Noncommercial License.

🟡

Страница проекта

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #Audio #AudioFlamingo #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥29💯27👏9👍7🤓6❤2

12.2K views14:10

Machinelearning

⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи

Главная фишка - Audio Tags.

Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.

Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)

На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).

Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

@ai_machinelearning_big_data

#google `#tts

👍98❤22👏22🔥18🤩6💯4🎉2☃1

11.9K viewsedited 16:13

About

Blog

Apps

Platform