Forwarded from AI VK Hub
Рекомендательные системы — один из ключевых механизмов, на которых держатся современные продукты. Они помогают пользователям находить контент, товары и сервисы, а бизнесу — повышать вовлеченность и качество пользовательского опыта. Вместе с Владимиром Байкаловым, ведущим исследователем AI VK, разбираем главные тренды в рекомендациях и последние значимые работы.
🔗 Список статей
#aivk #recsys
Масштабирование🟣 Действия говорят громче слов: последовательные преобразователи с триллионом параметров для генеративных рекомендаций🟣 Масштабирование трансформеров для рекомендательных систем до одного миллиарда параметров🟣 LLaTTE: законы масштабирования для многоэтапного моделирования последовательностей в крупномасштабных рекламных рекомендательных системах
Lifelong Recommendations🟣 TransAct V2: моделирование последовательностей действий пользователя на протяжении всей жизни в рекомендациях Pinterest🟣 TWIN V2: расширение моделирования ультра‑длинных последовательностей поведения пользователя для улучшения CTR‑предсказания в Kuaishou🟣 LONGER: повышение эффективности моделирования длинных последовательностей в промышленных рекомендательных системах🟣 Укрощение ультра-длинных последовательностей пользовательского поведения в генеративных рекомендациях на уровне сессий
Generative Retrieval🟣 Память трансформера как дифференцируемый поисковый индекс🟣 Рекомендательные системы с генеративным поиском🟣 Sparse Meets Dense: унифицированные генеративные рекомендации с каскадными разреженно-плотными представлениями
Semantic IDs🟣 Повышение стабильности эмбеддингов в рекомендательных системах с помощью Semantic ID🟣 ActionPiece: контекстная токенизация последовательностей действий для генеративных рекомендаций🟣 Обучаемая токенизация объектов для генеративных рекомендаций🟣 Semantic ID переменной длины для рекомендательных систем
End to End Рекомендации🟣 OneRec: объединение retrieval и ranking в генеративной рекомендательной модели с итеративным выравниванием предпочтений🟣 OxygenREC: генеративный фреймворк, следующий инструкциям, для рекомендаций в электронной коммерции🟣 EGA: унифицированный end-to-end генеративный фреймворк для промышленных рекламных систем
LLMxRecSys🟣 PLUM: адаптация предварительно обученных языковых моделей для генеративных рекомендаций промышленного масштаба🟣 OneRec‑Think: рассуждение в тексте для генеративной рекомендации🟣 ReaSeq: использование мировых знаний через рассуждение для последовательного моделирования
#aivk #recsys
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤓38👍18❤9👏9🥰3🤨3🙈2
This media is not supported in your browser
VIEW IN TELEGRAM
Концепт, который работает внутри AI Studio, пишет HTML и CSS прямо в процессе серфинга вместо загрузки готовых страниц с серверов. Внешний вид и контент формируются на основе промптов, кликов и контекста навигации.
Технология органично вписывается в концепцию автономных ИИ-агентов, которым может понадобиться быстро собрать временный дашборд или вспомогательный инструмент для текущей задачи.
До идеала еще очень далеко. Поскольку верстка и контент полностью генерируются на не лучшей версии Gemini, браузер уязвим, склонен немного галлюцинировать, искажать стили и тратит прорву токенов на инференс.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔57❤18🔥17👨💻13👏9👍8👌3😁1
Соло-разработчик с доступом к Claude Code теперь может развернуть целую гейм-дев студию с креативным директором, лидами отделов и профильными специалистами.
В основу геймдизайнерских подходов заложены MDA Framework, теория самодетерминации и проектирование состояния потока.
Claude Code Game Studios - шаблон для Claude Code, который организует ИИ-сессию в трёхуровневую иерархию из 48 специализированных агентов.
На вершине 3 директора (креативный, технический и продюсер), работающие на модели Opus.
Уровнем ниже 8 руководителей отделов на Sonnet: геймдизайнер, ведущий программист, арт-директор, директор по звуку, нарративный директор и другие.
Третий уровень - специалисты на Sonnet и Haiku: от геймплэй-программиста и дизайнера экономики до DevOps-инженера и специалиста по доступности.
Агенты взаимодействуют по четкому протоколу: вертикальная делегация задач сверху вниз, горизонтальные консультации между агентами одного уровня, эскалация конфликтов к общему руководителю.
Каждый агент работает строго в границах своего домена и не модифицирует чужие файлы без явного поручения.
Помимо агентов, шаблон включает 37 команд, покрывающих весь цикл разработки: планирование спринтов, ревью кода и дизайна, аудит ассетов, генерацию идей, подготовку к релизу.
Отдельная категория - командные воркфлоу, которые координируют работу нескольких агентов над конкретной фичей: боевой системой, нарративом, интерфейсом или звуком.
Параллельно работают 8 хуков, привязанных к событиям git и жизненному циклу сессии. Они срабатывают автоматически: валидируют коммиты на захардкоженные значения и корректность данных, предупреждают о пушах в защищённые ветки, подгружают контекст текущего спринта при старте и фиксируют результаты при завершении.
Ещё один слой - 11 правил, привязанных к путям в проекте. Они применяются при редактировании файлов в соответствующих директориях и задают стандарты для каждой зоны кодовой базы.
Агенты задают вопросы, предлагают несколько вариантов с плюсами и минусами, показывают черновик. Но финальное решение всегда за человеком, ничего не фиксируется без его одобрения.
Для каждого предусмотрен свой лид-агент с набором суб-специалистов: у Godot это GDScript, шейдеры и GDExtension, у Unity - DOTS/ECS, VFX и UI Toolkit, у Unreal - GAS, Blueprints и Replication.
Проект открыт к кастомизации: агентов можно добавлять и удалять, промпты редактировать, хуки - перенастраивать.
@ai_machinelearning_big_data
#AI #ML #Vibecoding #Gamedev #Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
❤71👍23🤣11🥰9😁4🥱4😐3✍2🤔1
Media is too big
VIEW IN TELEGRAM
Модель превосходит 2.5 Flash Native Audio по скорости отклика и тоньше распознает акустические нюансы, темп и высоту голоса. Важным техническим улучшением стала способность эффективно фильтровать фоновый шум. Модель уже доступна через Gemini Live API в платформе Google AI Studio.
Gemini 3.1 Flash Live лучше справляется с вызовом внешних инструментов и строго следует системным инструкциям. Модель не выходит за установленные рамки при неожиданных поворотах диалога и поддерживает мультимодальное общение на 90+ языках в реальном времени.
Новинка ляжет в основу потребительских сервисов Gemini Live и Search Live. Общение с ИИ станет более плавным: сократится количество неловких пауз, а контекст беседы будет удерживаться в 2 раза дольше. Параллельно с релизом модели Google делает Search Live доступной более чем в 200 странах.
blog.google
Модель для синтеза речи Voxtral TTS поддерживает 9 языков (русского нет) и умеет клонировать голос по аудиосэмплу короче 5 секунд, копируя не только тембр, но и микроинтонации, акценты и естественные особенности дикции. При этом она способна на лету менять язык произношения, сохраняя оригинальные характеристики спикера.
Архитектура построена на базе LLM Ministral 3B. Создатели сделали ставку на скорость работы в реальном времени: генерация 10-секундной аудиодорожки занимает около 1,6 секунды. Веса базовой модели опубликованы на Hugging Face под некоммерческой лицензией, а протестировать Voxtral TTS можно через Mistral Studio и Le Chat.
mistral.ai
Cohere Transcribe - обученная с нуля на 14 языках модель автоматического распознавания речи на 2 млрд. параметров на архитектуре Conformer, которая справляется со сложной акустикой, перекрывающимися голосами и специфическими акцентами.
Cohere заявляет рекордную точность. Transcribe возглавила рейтинг HuggingFace Open ASR Leaderboard: средний показатель WER для английского языка составил всего 5.42%. Модель обошла Whisper Large v3 от OpenAI, ElevenLabs Scribe v2 и Qwen3-ASR.
Развернуть модель можно локально, на edge-устройствах, либо воспользоваться API и платформой Cohere Model Vault. Веса доступны на Hugging Face.
cohere.com
Новые GPU на архитектуре Battlemage созданы специально для инференса нейросетей и ресурсоемких вычислений. Старшая модель Arc Pro B70 получила 32 ядра Xe с частотой 2,8 ГГц, что дает 22,9 TFLOPS в операциях FP32.
Младшая версия, Arc Pro B65, сохраняет тот же объем видеопамяти, но использует лишь 20 ядер Xe. Обе карты оснащены памятью GDDR6 с 256-битной шиной и пропускной способностью 608 ГБ/с.
Arc Pro B70 уже поступила в продажу по цене $949, что делает ее значительно доступнее Nvidia RTX Pro 4000 ($1800). Младшая модель B65 начнет продаваться через партнерскую сеть Intel в середине апреля.
newsroom.intel.com
С 24 апреля обновится политика конфиденциальности GitHub. Промпты, сгенерированные ответы, фрагменты кода и связанный с ними контекст подписчиков тарифов Free, Pro и Pro+ будут автоматически собираться для тренировки моделей. Чтобы защитить свои проекты, разработчикам придется вручную отключить передачу данных в настройках приватности.
Платформа анализирует широкий спектр данных. В датасет попадает код, комментарии и документация, архитектура репозитория, названия файлов, паттерны навигации в IDE и реакции на предложенные автодополнения.
GitHub заявляет, что собранная телеметрия может передаваться только Microsoft и ее аффилированным компаниям. Нововведение не затронет корпоративный сегмент планов Copilot Business и Enterprise.
github.blog
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍128👏26🤩14🔥9❤8🥰4💯4🤣2🫡1
В сети Х завирусился скриншот со страницы репозитория Рarameter-golf, на котором среди топовых контрибьюторов значился Claude. Пост набрал больше 100 тыс. просмотров. Твиттерские решили, что OpenAI пишет код на продукте конкурента.
Parameter Golf - это открытый конкурс, запущенный OpenAI 18 марта.
Задача: обучить лучшую языковую модель, которая вместе с кодом тренировки помещается в 16 МБ и обучается не дольше 10 минут на восьми GPU H100.
Качество оценивают по степени сжатия валидационного датасета FineWeb (метрика bits per byte: чем ниже, тем лучше.
Базовый показатель - 1,2244 BPB, лучший рекордный результат уже опустился до 1,0541.
В этом челлендже участник форкает репозиторий, улучшает модель и присылает пулл-реквест с кодом, логами и описанием подхода. Принятый PR вливается в основную ветку - так и набирается статистика контрибьюторов на GitHub.
Claude попал в рейтинг из-за того, что некоторые участники конкурса использовала Claude Code для подготовки решений.
Claude Code автоматически добавляет себя соавтором коммитов через заголовок «Co-authored-by» в Git. Но если посмотреть подробней, реальный вклад Claude - 2 коммита с добавлением около 4500 строк и нулем удалений.
У других контрибьюторов из верхней части списка при том же числе коммитов десятки тысяч строк: объемные логи и веса моделей.
Один из участников конкурса описал, как без опыта в ML создавал решение в тандеме Claude и Codex: Claude генерировал архитектурные гипотезы, Codex ограничивал их практическими рамками, а человек принимал финальные решения.
В качестве основной идеи агенты выбрали переиспользование слоев через FiLM conditioning и добавили хэширование триграмм, выдав весьма приличный результат в 1.1634 BPB при весе модельки всего 15.34, причем по ходу дела обнаружилось, что модный Test-Time Training адски ломает рекуррентные сетки.
Так что это история не о том, что OpenAI использует Claude. Она о том, что ИИ-ассистенты слишком быстро стали настолько обыденным инструментом разработки, что люди еще не привыкли отличать вклад машины от вклада человека.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤔111👍39🤓25😁14❤13👏7👌5❤🔥3🔥3
GitVerse стал полноценной средой для разработки с участием ИИ
Платформа GitVerse интегрировала ИИ-помощника GigaCode, который теперь помогает управлять проектами через чат. Автономные агенты сами создают репозитории и настраивают пайплайны, упрощая технические процессы.
Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев подчеркнул, что ИИ стал активным партнером, который берет на себя рутину и позволяет инженерам сосредоточиться на творчестве. Безопасность тоже автоматизировали: система сама ищет уязвимости в коде. Дополнительно в платформе появился сервис Pages для быстрого запуска сайтов и документации прямо из репозитория.
#AI #ML #aiagents #gitverse
Платформа GitVerse интегрировала ИИ-помощника GigaCode, который теперь помогает управлять проектами через чат. Автономные агенты сами создают репозитории и настраивают пайплайны, упрощая технические процессы.
Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев подчеркнул, что ИИ стал активным партнером, который берет на себя рутину и позволяет инженерам сосредоточиться на творчестве. Безопасность тоже автоматизировали: система сама ищет уязвимости в коде. Дополнительно в платформе появился сервис Pages для быстрого запуска сайтов и документации прямо из репозитория.
#AI #ML #aiagents #gitverse
😁75👍66🔥46❤44🤩32👏19😍7👨💻4🌭3🤬2🐳2
Media is too big
VIEW IN TELEGRAM
В веб-версии появился Video Studio - инструмент бесконечного холста, на котором ИИ пишет сценарий, прорабатывает персонажей и собирает финальный ролик.
В основе - модель Seedance 2.0. Встроенный ИИ-агент набрасывает идею и делает раскадровку, после чего генерирует видео и картинки, а функция omni reference следит, чтобы лицо героя или стиль окружения не плыли от кадра к кадру. Готовую генерацию можно допилить руками в обычных инструментах CapCut.
Студия заточена под шортсы, анимацию, рекламу и обучающие ролики. Пока доступ открыт для Юго-Восточной Азии, Ближнего Востока, Африки и Латинской Америки.
Когда инструмент доберется до остальных регионов - CapCut не говорит, но обещают скоро.
На пробный период насыпают бесплатных кредитов.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡113🤩30❤21👏17🤔7👍4🔥3
GLM-5.1 теперь доступна для всех пользователей плана GLM Coding!
http://z.ai/subscribe
@ai_machinelearning_big_data
#news #ai #ml #glm
http://z.ai/subscribe
@ai_machinelearning_big_data
#news #ai #ml #glm
🎉48❤36👍31🔥13👏9
Ещё одна сильная история, которая вирусится на Reddit, о том, как ИИ поставил диагноз там, где врачи не смогли.
У мужчины из Индии был 62-летний дядя с тяжёлым набором болезней: диализ, диабет, гипертония и перенесённый инсульт. Плюс сильные мигрени, которые возникали только когда он ложился спать.
Его смотрели разные специалисты, делали МРТ и другие обследования. Но никто не мог объяснить, почему боль зависит от положения тела.
И тут подключили Claude.
В итоге устройство за $317, рекомендованное Claude, решило проблему, с которой не справились годы визитов к врачам.
7 врачей: «мы сделали все, что могли»
Claude: «вот решение»
reddit.com/r/ClaudeAI/comments/1s41fny/25_years_multiple_specialists_zero_answers_one/
@ai_machinelearning_big_data
У мужчины из Индии был 62-летний дядя с тяжёлым набором болезней: диализ, диабет, гипертония и перенесённый инсульт. Плюс сильные мигрени, которые возникали только когда он ложился спать.
Его смотрели разные специалисты, делали МРТ и другие обследования. Но никто не мог объяснить, почему боль зависит от положения тела.
И тут подключили Claude.
«Он не просто указал на проблему. Он составил чёткий диагностический план: к какому врачу идти в первую очередь, какие анализы сдавать, какие вопросы задавать. Подобрал подходящий CPAP-аппарат, объяснил все настройки и даже написал инструкцию по обслуживанию на гуджарати, моём родном языке».
В итоге устройство за $317, рекомендованное Claude, решило проблему, с которой не справились годы визитов к врачам.
7 врачей: «мы сделали все, что могли»
Claude: «вот решение»
reddit.com/r/ClaudeAI/comments/1s41fny/25_years_multiple_specialists_zero_answers_one/
@ai_machinelearning_big_data
2👍141🤩90👏35❤21🙏15🤣14🔥4😁4🥰3💯2
👀 Релиз SAM 3.1 - одной из самых сильных open-source моделей для компьютерного зрения.
Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.
Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.
Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.
Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.
Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.
В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.
По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.
Теперь модель может отслеживать до 16 объектов за один проход.
С multiplexing все объекты обрабатываются одновременно:
• меньше лишних вычислений
• нет узких мест по памяти
Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!
На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.
https://github.com/facebookresearch/sam3
@ai_machinelearning_big_data
#ai #ml #llm #cv #python
Модель понимает, что происходит на изображении или видео, и умеет находить объекты по текстовому описанию. Можно буквально написать «человек в красной футболке» и она найдёт нужных людей.
Работает не только с картинками, но и с видео. Объект можно задать один раз, и дальше модель будет отслеживать его между кадрами.
Ключевая идея - open-vocabulary. Модель не ограничена фиксированными классами, как старые системы. Она оперирует огромным количеством понятий и может находить практически любые объекты.
Ещё важный момент можно комбинировать способы управления: текст, клики, рамки, маски. Это даёт гораздо больше контроля и точности.
Под капотом новая архитектура, где отдельно решаются задачи поиска объектов и их отслеживания. За счёт этого модель лучше различает похожие вещи и стабильнее работает на видео.
В репозитории уже есть всё для старта: готовые веса, код, примеры и ноутбуки.
По факту это уже не просто инструмент для разметки, а полноценный vision-движок, который можно встраивать в реальные продукты от аналитики видео до автоматизации разметки данных.
Теперь модель может отслеживать до 16 объектов за один проход.
С multiplexing все объекты обрабатываются одновременно:
• меньше лишних вычислений
• нет узких мест по памяти
Результат: скорость обработки видео увеличивается примерно в 2 раза
с 16 до 32 FPS на одном NVIDIA H100!
На новом бенчмарке SA-CO, который включает 270 тысяч уникальных концептов, SAM 3 достигает 75–80% от уровня человека.
https://github.com/facebookresearch/sam3
@ai_machinelearning_big_data
#ai #ml #llm #cv #python
3🤩110👍46🎉29❤23👏14🔥12🙏1🌚1👾1
Media is too big
VIEW IN TELEGRAM
Из-за ошибки в CMS в открытый доступ попали около 3000 внутренних документов Anthropic. Главной утечкой стала информация о разработке новой модели, которая в черновиках упоминается как Mythos и Capybara. Представители компании подтвердили тестирование продукта.
Mythos или Capybara представляет собой новый класс моделей, стоящий на ступень выше актуальной флагманской Opus. Разработчики заявляют о качественном скачке в логике, написании кода и кибербезопасности - результаты тестов значительно превосходят показатели Opus 4.6.
В документах говорится, что возможности модели по поиску уязвимостей могут представлять угрозу. Из-за этого релиз будет крайне осторожным: сначала API откроют узкой группе раннего доступа. Другой преградой для релиза стала высокая стоимость инференса - Anthropic пытается оптимизировать архитектуру, чтобы сделать использование модели рентабельным.
fortune.com
Обновление ориентировано в первую очередь на корпоративные IT-команды, которые смогут упаковывать рабочие процессы, интеграции и настройки MCP-серверов в версионируемые пакеты. Из коробки Codex поддерживает работу с Slack, Figma, Notion и Gmail.
Через эти плагины Codex может брать на себя задачи по планированию, сбору информации и координации, которые предшествуют разработке и управлять последующими процессами.
Новая функция уже доступна в приложении Codex, CLI и расширениях для IDE. В будущем OpenAI планирует запустить официальный каталог плагинов и добавить платформу для их публикации.
OpenAI Developers в сети Х
Федеральный суд США вынес предварительное постановление, запрещающее Министерству обороны разрывать связи с разработчиком чат-бота Claude. Судья встала на сторону стартапа, расценив действия властей как незаконную месть за корпоративную позицию, а не как защиту национальной безопасности.
Суд также отверг аргументы правительства о риске саботажа со стороны Anthropic. Юристы стартапа доказали техническую невозможность подобных сценариев: после развертывания модели на стороне заказчика компания лишается доступа к ней и не может удаленно отключить нейросеть, изменить ее код или отследить, как именно военные ее применяют.
Вступление судебного приказа в силу отложено на семь дней, чтобы дать правительству время на апелляцию. Представитель Минобороны назвал вердикт «позором», сославшись на фактические ошибки суда.
bloomberg.com
Google добавила в Gemini возможность легкого перехода с конкурирующих ИИ-платформ. Теперь можно перенести предпочтения, сохраненный контекст и полную историю чатов из ChatGPT и Claude.
Механика миграции работает двумя способами. Для переноса персональных настроек используется промпт: его нужно скопировать в старый ИИ-ассистент для генерации сводки, а затем вставить ответ в Gemini. Историю диалогов предлагается загружать архивом истории в формате ZIP объемом до 5 ГБ. Это позволит продолжить старые беседы уже в интерфейсе Google.
В рамках обновления раздел Past Chats также переименован в Memory.
blog.google
Вслед за релизом инструмента Video Studio на базе Seedance 2.0, CapCut открыла доступ к функциям генерации для новых регионов. Теперь обновление доступно пользователям из Европы, Канады, Австралии, Новой Зеландии и Южной Кореи.
Опробовать возможности модели можно в бесплатном пробном периоде на всех платформах сервиса, включая мобильное приложение, десктопный клиент и веб-версию.
Для пользователей сервиса также опубликовано руководство по работе с новыми ИИ-инструментами редактора.
СupCut в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44🤔38👍26🔥6👏2😍2
Media is too big
VIEW IN TELEGRAM
27 марта года в широкий прокат вышла полуторачасовая документалка «The AI Doc: Or How I Became an Apocaloptimist».
Фильм сняли оскароносный режиссер Дэниел Рорер и Чарли Тайрелл, номинировавшийся на премию Академии за короткометражку. Премьера картины состоялась на кинофестивале «Сандэнс» 27 января этого года.
Сюжет строится на личной истории Рорера: узнав, что станет отцом, он пытается понять, в каком мире предстоит жить его ребенку. Об этом он разговаривает с ключевыми фигурами отрасли и независимыми исследователями.
Среди собеседников - глава OpenAI Сэм Альтман, основатели Anthropic Дарио и Даниэла Амодеи, руководитель Google DeepMind Демис Хассабис, лауреат премии Тьюринга Джошуа Бенжио, исследовательница этики ИИ Тимнит Гебру, а также Элиезер Юдковский, один из наиболее известных сторонников жесткого контроля над развитием ИИ-систем.
Фильм подсвечивает полярный спектр мнений: от потери рабочих мест, тотальной слежке, возможности появления неуправляемого сверхразума до аргументов в пользу того, что ИИ способен ускорить открытия в медицине и борьбе с изменением климата.
Название содержит неологизм «апокалоптимист» - так режиссер обозначил позицию, при которой человек признает серьезность угроз, но отказывается от пассивного отчаяния.
На Rotten Tomatoes картина набрала 89% положительных рецензий из 35 опубликованных, а на Metacritic средняя оценка составляет 60 баллов из 100 на основе 9 рецензий. Зрительский рейтинг на IMDb: 7,3 из 10.
Ленту показывают в оффлайн кинотеатрах США и на избранных онлайн-платформах (Fandango at Home и Apple TV). В бесплатные кинотеатры пока не завезли.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔65👍50❤14🤣11👏9🔥5🥱5🙈2💯1👻1
This media is not supported in your browser
VIEW IN TELEGRAM
Рука уменьшена в размерах на 60% и теперь практически совпадает по габаритам с ладонью взрослого человека.
Это не вопрос эстетики: при обучении робота через телеуправление оператором-человеком несовпадение пропорций приводит к деградации обучающих данных. Инженеры называют это «проблемой изоморфизма» и Xiaomi говорит, что решила ее.
Число активных степеней свободы выросло до 22–27, что на 83% больше, чем у предыдущей версии.
Площадь тактильных сенсоров, покрывающих ладонь, подушечки и фаланги пальцев стала 8200 мм².
Увеличение площади дает возможность манипулировать объектами на ощупь, без опоры на компьютерное зрение: робот может закручивать винты и удерживать перо, не повредив его.
Для сбора обучающих данных Xiaomi использует тактильные перчатки. Оператор выполняет действия руками, а система в реальном времени записывает данные о захвате и передает их собственным ИИ-моделям компании.
Предыдущие версии руки выходили из строя менее чем за 10 тыс. циклов захвата из-за износа компонентов. Новая конструкция прошла 150 тыс циклов ( это примерно 61 час непрерывной работы).
Фишка апдейта - бионические потовые железы.
Система микронасосов испаряет жидкость через каналы охлаждения, изготовленные с помощью передовых производственных технологий, и рассеивает около 10 Вт тепла.
Принцип заимствован у человеческого тела: испарение отводит тепло от встроенных моторов и предотвращает перегрев компактного корпуса при длительных силовых захватах.
Ранее Xiaomi продемонстрировала работу робота на реальной автомобильной сборочной линии - 3 часа непрерывной работы с показателем успешности 90,2%. Обновленная рука рассчитана на то, чтобы довести эту цифру до 99,9%.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80❤29🔥18😁4👾2
Не мультимодальную сборку из отдельных компонентов, а единую нативную архитектуру, которая с первого слоя работает с текстом, изображением, аудио и видео одновременно.
Главное, что отличает модель от конкурентов: Audio-Visual Vibe Coding. Описываешь голосом в камеру что нужно сделать, модель генерирует рабочий код сайта или игры.
Плюс Script-Level Captioning, который превращает видео в полноценный сценарий с таймкодами и привязкой реплик к спикерам.
• По бенчмаркам Qwen3.5-Omni-Plus бьёт Gemini 3.1 Pro в большинстве категорий.
• По распознаванию речи WenetSpeech: 4.30/5.84 против 11.5/14.2.
• По пониманию аудио VoiceBench: 93.1 против 88.9.
•
• По зрению MVBench: 79.0 против 74.1. По тексту MMLU-Redux: 94.2 против 95.9 (тут паритет). Итого 215 SOTA-результатов по подзадачам.
Модель корректно реагирует на перебивание и не ломается от фонового шума), встроенный WebSearch и Function Calling, поддержка 74 языков в ASR и 29 в TTS.
Доступна через Qwen Chat, HuggingFace и API Alibaba Cloud.
Qwenchat: https://chat.qwen.ai
Blog: https://qwen.ai/blog?id=qwen3.5-omni
Hugging Face Offline Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Offline-Demo
Hugging Face Online Demo: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo
@ai_machinelearning_big_data
#ai #ml #qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥55💯38❤25🎉8👨💻4💘2