Speech Info
1.06K subscribers
89 photos
5 videos
52 links
Инженеры из Яндекса разбирают и комментируют горячие статьи об ML и аудио.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
Как Яндекс Браузер переводит видео с сохранением оригинальных голосов

Перевод видео в Яндекс Браузере появился ещё в 2021 году. Сегодня компания представляет новую версию этой технологии, способную сохранять тембр и интонации оригинального голоса. А сам перевод стал точнее благодаря YandexGPT. В статье на Хабре вы можете почитать все подробности о том, как устроен инструмент, а здесь расскажем коротко.

В основе технологии синтеза речи лежит модифицированная опенсорс-модель Tortoise-TTS. Сама по себе она выдаёт результаты хорошего качества, почти неотличимые от человеческой речи. Однако есть несколько проблем, которые не позволяют использовать модель в продакшене.

Одна из них связана с качеством zero-shot-синтеза, то есть генерации аудио тем же голосом, что и в аудиопромпте. Результат может быть не похожим на исходник, а при переносе тембра с английского на русский появляется акцент.

Чтобы исправить это, в Яндексе использовали фонемное представление текста и создали общий алфавит для английских и русских фонем. Благодаря этому произношение модели стало более правильным. Для моделирования тембра голоса внедрили биометрические эмбеддинги и контролировали качество речи с помощью метрики UTMOS. А проблему акцента при переводе с английского на русский решили с помощью синтетического датасета, где голос одного и того же человека представлен на двух языках.

Ещё один недостаток Tortoise-TTS — низкая скорость инференса, из-за которой модель и получила своё название. В Яндексе оптимизировали её архитектуру, уменьшили количество итераций в диффузионной модели и применили технику дистилляции знаний. Благодаря этому, генерация ответа происходит в реальном времени.

SBS-тестирование показало, что новый перевод видео в Яндекс Браузере значительно превосходит решение ElevenLabs: 62% побед против 34%. Что касается исключительно озвучивания, то есть превращения текста в речь, то здесь система Яндекса также впереди: 46% против 42%.

Speech Info
🔥137🥰3
Кто о чём, а мы — продолжаем делиться постерами с ICLR!

Несём ещё несколько любопытных работ, которые заметили и прокомментировали наши засланные казачки.

Restructuring Vector Quantization with the Rotation Trick

Чтобы лучше реконструировать входные данные в VQ-VAE, нужен всего лишь простой советский... Rotation trick! Суть идеи в том, что за счёт поворота центры кластеров сдвигаются в разные стороны, что заставляет лучше использовать векторы в кодбуке. Добавляются три строчки кода без замедления обучения — и получается качество реконструкции на уровне VQ-GAN. Есть код — и, учитывая простоту имплементации, решение можно будет легко попробовать на практике.

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Vision-Language Model Dialog Games for Self-Improvement

Две независимые друг от друга работы. В первой — сделали несколько процедурно генерируемых игр. Стэйты игр скармливали разным LLM в текстовом и визуальном формате и замеряли качество работы — лучшие результаты у Gemini. Во второй статье отметили, что Gemini «из коробки» неплохо справляется с процедурно генерируемыми играми разной семантики. (Есть предположение, что Google использует текстовое описание партий игр, как источник данных на претрейне).

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

Авторы предложили бенчмарк для сравнения моделей распознавания речи по разным аспектам: устойчивости к шуму, far-field и акценту. Правда, в их формуле расчёта упоминается не самая надёжная метрика PESQ, а обсудить этот выбор на месте, к сожалению, было не с кем: авторы не приехали.

Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling

Собрали датасет с YouTube — выбрали записи с чистой игрой на пианино. На основе них с помощью пайплайна MAESTRO подготовили датасет, который можно использовать для генеративной музыки. Также обучили модель, которая делает MIDI-транскрипцию аудиофайлов. Бонус: на постере есть красивая визуализация со сравнением композиторов (в самой статье её нет).

Никита Рыжиков, Степан Комков и Влад Батаев специально для Speech Info

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🔥2🥴1
WavChat: A Survey of Spoken Dialogue Models. Часть 3/4

Продолжаем пошагово разбираться в классификации, которую предлагают в большом обзоре актуальных разговорных систем.

В предыдущих сериях: 1, 2.

Классификация по парадигме тренировки: использовали ли постпретрейн, какие задачи решали. Основной тейк этой части классификации довольно очевидный. Текстовые модели добились значительных успехов, а вот остальные (в том числе акустические), пока не могут похвастаться ни размером обучающих корпусов, ни количеством электричества, которое тратят на их обучение. Для выхода из этого тупика, нужно, чтобы при добавлении аудиомодальности тренировочная парадигма позволяла использовать мощности существующих текстовых моделей. Нужно научиться хорошо конвертировать входные запросы в акустические токены, а потом также хорошо оперировать ими. То есть, в обучении должны быть задачи, решение которых требует обуславливаться на аудиоконтекст. Например, задача ASR.

Авторы рассматривают разные способы объединять текстовые и аудиоданные на этапе тренировки (как на картинке). Но одними из самых многообещающих считают интерливинг и chain-of-modality.

Оба этих подхода позволяют учиться на больших корпусах частично структурированных данных, запоминая как структуру аудиоданных, так и взаимное обусловливание речи и текста друг на друга. А вот обучение адаптера в text-only-output-парадигме на большом наборе датасетов из разных задач (как было в SALMONN и Qwen-Audio) авторы считают не очень жизнеспособным. Полноценно обучить синтезу, в отрыве от других задач, нельзя — а значит, диалог с такой моделью проиграет в естественности другим подходам.

Из этой части лично я сделал вывод, что в диалоговых системах критично наличие постпретрейн-стадии для аудиомодальности. Во-первых, хорошие диалоговые системы, представленные в статье, по большей части основаны на этой парадигме. Во-вторых, интуиция подсказывает, что за счëт такой стадии можно выиграть в выразительности синтеза и использовать большие датасеты неструктурированных аудиоданных.

Продолжение следует.

Никита Рыжиков Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥5
WavChat: A Survey of Spoken Dialogue Models. Часть 4/4

Публикуем последнюю часть классификации и выводы из большого обзора современных разговорных ИИ.

В предыдущих сериях: 1, 2, 3.

Классификация по подходу к обеспечению диалоговости: стриминг, симплекс, дюплекс, полудюплекс. Стриминговая модель может обрабатывать запросы пользователя прямо в процессе их появления, не дожидаясь конца монолога. Например, Qwen, нестриминговая модель — она ждёт, пока вы договорите, и обрабатывает всё аудио, прежде чем ответить. В настоящем же диалоге всё по-другому: собеседник слушает и осмысляет вашу реплику непрерывно, и может начать отвечать после неё с минимальной задержкой. Нестриминговые модели могут работать в симплекс-подходе, когда диалог больше похож на обмен голосовыми сообщениями.

Полудюплекс включает в себя автоматическое определение конца речи, после которого она обрабатывается и ответ возвращается в виде аудио — как это реализовано в Alexa, Алисе и других умных помощниках.

В полноценной дюплекс-реализации модель каждый чанк времени обрабатывает входящие реплики и генерирует выходные. Когда она слушает, она генерирует тишину или поддакивает, показывая что на связи. А если её перебить, сможет естественно остановиться, договорив слово до конца. Так получаются наиболее живые диалоги, но попытку сделать полноценный дюплекс на момент написания статьи сделали только в Moshi.

Ещë в статье была часть про бенчи, которая скорее расстроила: эффективно измерять качество именно диалоговых систем пока толком не на чем. Есть замеры, которые сравнивают отдельные аспекты «умности» диалоговых систем/ALM. При этом у выигрывающих по бенчам статей далеко не всегда самые впечатляющие демо.

Если пытаться идти вглубь и смотреть, как сравниваются исходные статьи, то можно найти противоречия даже в базовых замерах. Например, в задержках.

Авторы проделали большую работу: собрали и систематизировали значимые статьи. Но аспекты, по которым они проводили систематизацию, коррелируют между собой, поэтому обзор повторяется, переходя от одного к другому. Например, парадигма тренировки на 90% определяется выбором представления звука.

Для себя я вынес следующее:

1. SpiritLLM, Moshi, SyncLM — интересные реализации диалоговых систем.

2. Победят акустические токены + длительная стадия пост-претрейна на большом объёме аудио + файнтюн на диалогах (даже синтезированных). Но это не точно.

3. Нормальных бенчей нет.

4. Дюплекс — правильный путь, но работает пока только у Moshi, и то плохо. Спойлер, выходящий за пределы этого обзора: кажется, у Sesame.com получилось.

5. Статей становится всё больше, так что будущее — за e2e-диалоговыми системами.

Итоговый вывод: скам статья или не скам? На мой взгляд, статья — не скам. Например, с неё будет полезно начать, чтобы понять, что вообще происходит в отрасли.

Никита Рыжиков Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥86👍5🏆4
Moshi в деталях: новая архитектура диалоговой системы в реальном времени. Часть 1/2

Разбираем статью о real-time dialogue-модели Moshi, которая, в отличие от предыдущих диалоговых систем, объединяет в одной архитектуре три компонента: ASR (распознавание речи), LLM (языковая модель) и TTS (синтез речи). Такая схема позволяет воспринимать речь и генерировать ответ одновременно. Управление тем, когда говорить и когда слушать, реализовано через специальный управляющий токен. (Даже я не всегда так умею — прим. автора).

Архитектура модели состоит из четырёх частей, и у всех звучные названия. В этом посте уместим разбор двух первых частей, а в следующем — ещё двух.

Helium

Простая текстовая модель, предсказывающая следующий токен.

Претрейн модели проводился на 2,1 трлн токенов. (Для сравнения: Llama 2 — 1,8 трлн, Llama 3 — 15,6 трлн). Данные собирали, фильтруя CommonCrawl — огромный дамп интернета, где много мусора, но если хорошо почистить, получается неплохой датасет. В итоге датасет состоит из 87,5% CommonCrawl и 12,5% Wikipedia.

После претрейна провели три дополнительных этапа обучения: пост-тренировку, файнтюнинг и инструкционное обучение — чтобы модель лучше справлялась с диалогами. По оценке авторов, Helium сравнима с Llama 2 и первым Mistral, но не дотягивает до Llama 3.

Mimi

Нейросетевой аудиокодек на основе Residual Vector Quantization (RVQ). Архитектура — стандартный энкодер-декодер, но с интересными деталями: обычно в аудиокодеках используются только свёрточные слои, а тут добавили трансформеры — в конце энкодера и в начале декодера. Это сделало кодек умнее (и тяжелее).

Ещё одно важное отличие Mimi от остальных аудиокодеков — у него довольно маленькая герцовка. Mimi нужно 12,5 векторов, чтобы закодировать секунду аудио. Для сравнения у EnCodec — 75, WavTokenizer — 40. За счёт этого трансформер поверх такого кодека можно учить с бóльшим батчем (в секундах) и быстрее инферить.

Набор лоссов у Moshi примерно такой же, как и у HiFi-GAN-a. Единственное отличие — это то, что авторы убрали L1-loss между STFT-спектрограммами, из-за плохой корреляции с человеческим восприятием. Без него субъективные метрики получались лучше.

Главное ноу-хау Mimi — семантическая дистилляция, которая позволяет получить акустические токены со свойствами семантических.

Акустические токены создаются кодек-моделями вроде Mimi. Из них можно хорошо и качественно восстановить аудиозапись, но они плохо кодируют смысл и плохо связаны между собой. Из-за этого дальнейшей модели (в нашем случае — Moshi) сложно их предсказывать.

Семантические токены делаются SSL-моделями — здесь это WavLM. Эти токены хорошо связаны между собой, они кодируют смысл сказанного в аудиозаписи. Но они не предназначены для того, чтобы восстанавливать из них аудиозапись.

Получается, что нужны акустические токены со свойствами семантических — это то, чего авторы пытались достичь семантической дистилляцией.

Решение — дистиллировать семантические эмбеддинги WavLM в акустические эмбеддинги Mimi. Для этого нужно посчитать косинусное расстояние между эмбеддингами WavLM и Mimi и использовать это как дополнительную компоненту лосса. Есть одна проблема — у моделей разные герцовки: у WavLM — 50, а у Moshi — 12.5, в 4 раза реже. Мы не можем просто посчитать косинусное расстояние между соответствующими эмбеддингами. Чтобы справиться с этим, авторы применили AveragePooling со stride-ом 4 к последовательности эмбеддингов из WavLM и привели обе последовательности к одной частоте — 12,5.

В следующей части разберём главное об устройстве модели Moshi и алгоритма Inner-monologue.

Роман Кайль Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13👍105
Moshi в деталях: новая архитектура диалоговой системы в реальном времени. Часть 2/2

Продолжаем разбирать Moshi — диалоговую систему, которая совмещает распознавание, чат-бота и синтез речи в одной модели. В первой части речь шла о LLM Helium и аудиокодеке Mimi. Здесь — о том, как устроена сама Moshi и как работает механизм переключения между «слушать» и «говорить».

Moshi

На следующем этапе авторы хотят научить текстовую LLM Helium аудиомодальности, а конкретно — предсказывать токены от Mimi. Да ещё и так, чтобы модель не потеряла свои LLM-ные знания.

Наша задача — предсказывать матрицу из токенов с размерностями времени на 8 кодеков. Для этого модель Moshi состоит из двух трансформеров: Temporal Transformer и Depth Transformer.

Temporal Transformer — это большой трансформер, проинициализированный весами Helium. Он будет авторегрессивно идти по размерности времени и генерировать эмбеддинг для каждого тика времени. Depth Transformer инициализируется шумом. Его задача — на каждом шаге Temporal Transformer-a закондишениться на сгенерированный эмбеддинг и развернуть его в 8 Mimi-токенов.

Учиться вся эта конструкция будет в три этапа. Тут опускаем много подробностей, но идея примерно такая:

1. Учимся на огромном, шумном audio-only датасете. На этом этапе моделька познаёт аудиомодальность и пытается соотнести её с текстовой модальностью.

2. Учимся на синтетических диалоговых данных. Здесь модель учиться слушать и слышать одновременно, подстраивается под диалоговый формат (так называемый full-duplex-режим).

3. Тюнимся на более качественном диалоговом датасете. Модель обретает свой голос и выучивает более осознанные диалоговые ответы.

Важнейшая фича Moshi — full-duplex: способность модели одновременно слушать и говорить. С ней диалог получается плавнее и человечнее, в нём могут быть одновременные реплики, перебивания и междометия. Модель достигает режима full-duplex с помощью алгоритма Inner Monologue.

Inner-monologue

Для начала, мы хотим сделать так, чтобы одно и то же слово, представленное в виде текстовых токенов и в виде аудиотокенов, занимало одно и то же количество токенов. Для этого авторы взяли датасет и модель WhisperV3 и сделали алайнмент. То есть для каждого слова в тексте нашли время, когда оно начинает и заканчивает произноситься. После этого авторы взяли специальные паддинг-токены и в текстовой модальности добавили их после каждого слова — столько, чтобы по длине они совпадали с количеством токенов, которое занимает это слово в аудиомодальности.

Дальше мы хотим учить модельку на этих данных. Тут полезно посмотреть на картинку.

— Мы хотим, чтобы в каждый момент времени наша моделька работала с тремя стримами информации: аудио, которое произносит пользователь (8 токенов), аудио, которое произносит Moshi (8 токенов), и текст, разбавленный паддингами, который произносит Moshi (1 токен). На картинке они показаны сверху вниз.

— Мы хотим все три стрима подавать на вход к модельке. Соответственно для каждого стрима токенов будет своя матрица эмбеддингов, которые в итоге складываются.

— На выход мы хотим получать только текст и аудио реплик. На картинке — это оранжево-жёлто-зелёные (каждый цвет — отдельное слово) токены. Текст предсказывает линейная голова поверх Temporal Transformer, а для аудиотокенов есть Depth Transformer.

— В такой парадигме моделька учится и инферится.

Moshi вышла 7 месяцев назад и, кажется, уже потихоньку устаревает. Если попользоваться демкой, сначала она приводит в восхищение, но потом становятся заметны косяки: модель говорит глупости, неуместно перебивает, начинает отвечать с большой задержкой. Она ощутимо слабее, чем, например, VoiceMode от OpenAI. Но у ребят подробная статья, много интересных выводов и экспериментов, а также выложенный в открытый доступ кодек. Это довольно большой вклад в область.

Роман Кайль Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥5❤‍🔥3
Обзор статей с ICASSP 25. Часть 1: шумоподавление в наушниках

В апреле в Индии прошла конференция ICASSP 2025, на которой побывал руководитель группы встроенного голосового ввода Алексей Рак. В этом году обошлось без откровений, но кое-что любопытное всё же нашлось. Пожалуй, главный тренд: заметно меньше статей о колонках — индустрия уходит в наушники и стриминг. В этом и следующем постах разберём интересные статьи с конференции — начнём двух работ о шумоподавлении в наушниках.

Towards Sub-millisecond Latency Real-Time Speech Enhancement Models on Hearables

Статья от Google о шумоподавлении в режиме прозрачности для наушников. Такая технология нужна, когда не хочешь снимать наушники, но хочешь слышать речь вокруг. При этом нужно, чтобы голоса усиливались, а шум — наоборот, глушился. Но вся магия работает, только если нет сильной задержки. Иначе речь дублируется, так как амбушюры не полностью поглощают речь, а наушники проигрывают очищенные разговор с задержкой. Поэтому важно уложиться в лаг в пару миллисекунд.

Авторы сделали компактную нейросеть, которая предсказывает параметры FIR-фильтра — по сути, какую свёртку применить к звуку. Эта свёртка обновляется каждые 8 мс, но применяется сразу к новым аудиофрагментам, так что задержка остаётся минимальной — 2–3 мс (алгоритмическая задержка — 1 мс, а всё остальное — вычислительная). Работает даже на слабом железе — тестировали на 600 MHz HiFi4 Audio DSP(Cadence), и там всё летает.

Статья даёт понять, насколько вообще можно опустить задержку в таких системах, если аккуратно подойти к задаче и сделать лёгкую модель.

BONE CONDUCTED SIGNAL GUIDED SPEECH ENHANCEMENT FOR VOICE ASSISTANTON EARBUDS

Ещё одна статья о шумоподавлении, но уже для очистки того, что пользователь наушников говорит, а не слышит. Человек говорит в шумной обстановке (на улице, на ветру, в метро), и сам этого может даже не замечать. Снаружи всё гудит, а внутри уха — тишина. Только вот собеседнику слышно совсем не так.

В современных наушниках уже есть не только внешние микрофоны, но и внутренние, которые улавливают сигнал через кость черепа. Он искажён, но в нём почти нет внешнего шума. Его и используют.

Вход у модели — два канала: грязный внешний микрофон и искажённый, но «чистый» костный сигнал. Всё это подаётся в Cleanformer — это их старая модель, адаптированная под такую задачу. Cleanformer предсказывает маску, которую потом накладывают на внешний сигнал, чтобы его «почистить»: сохранить полезные частоты и убрать шум. Похожую модель Google использует уже довольно давно для очистки звука в умных колонках.

Цель — сделать так, чтобы в особо шумных условиях голос всё равно звучал понятно. Для реального применения такой подход годится, если в устройстве есть костный канал — а он уже есть во многих моделях наушников.

В следующей части разберём пару работ о голосовой активации.

Алексей Рак Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥165👍4
Обзор статей с ICASSP 25. Часть 2: голосовая активация

В прошлой части рассказали о работах на тему шумоподавления в наушниках, теперь переходим к голосовой активации. Сегодня кратко о двух статьях: одна — о визуальном споттере (активация по звуку и видео, но без активационной фразы), вторая — о кастомных keyword spotters.

An Efficient and Streaming Audio Visual Active Speaker Detection System

Статья от Apple на тему детекции активного спикера в стриминговом видео с помощью аудио- и видеосигналов. Такая задача уже решается в колонках Amazon и Google. Архитектура построена на двух похоже устроенных энкодерах: аудио- и визуальном. В них используются каузальные свёртки, которые не «заглядывают» в будущее — это важно для стриминга.

После извлечения признаков фреймы выравниваются и объединяются, чтобы для каждого момента времени были и аудио-, и визуальные фичи. Поверх этого авторы обучают трансформер. Трансформеру за счёт использования масок также ограничивали возможность «заглядывать» в будущее.

Ключевое исследование — о том, какие маски использовать в трансформере: сколько контекста из прошлого и будущего ему давать. Контекст из будущего начинает помогать, только если в модель уже подаётся достаточно длинный контекст из прошлого — примерно от 15 фреймов.

По ощущениям, решение довольно зрелое: авторы утверждают, что обучали модель не только на YouTube, но и на внутренних данных.

SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting

Ещё одна статья — о кастомных keyword-spotters: пользователь задаёт произвольную фразу, на которую должна реагировать модель. На эту тему в последнее время выходит довольно большое количество статей. Для начала GPT-подобная модель превращает текст в последовательность фонем.

Архитектура включает fully connected-слой, который кодирует фонемы в эмбеддинги, и аудиопарсер, который учится по звуку восстанавливать ту же последовательность. Главная особенность работы — продуманные лоссы, которые помогают модели устойчиво обучаться.

Во-первых, аудиомодель учат предсказывать последовательность фонем — это даёт хорошую привязку к произнесённому тексту. Во-вторых, добавляют рантайм-механизм сопоставления между аудио и заданной последовательностью: с помощью cross-attention проверяют, совпадают ли векторы в нужных местах. И в-третьих, делают то же самое, но уже для всех префиксов заданной последовательности. Если на нужной фонеме случается несовпадение — срабатывает сигнал об ошибке.

Если первые два пункта уже встречались ранее, то третий — нововведение этой статьи, которое, судя по результатам, приносит заметный прирост по качеству.

Основной вывод: такой подход с дополнительными лоссами и проверкой совпадений позволяет сильно улучшить точность детекции по сравнению с базовыми моделями. Концепция не совсем новая, но реализация аккуратная и работающая.

В следующей части обзора расскажем о двух LLM для улучшения ASR.

Алексей Рак Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍6🔥6
Synthio, Fugatto и MMAU: интересное с аудио на ICLR 2025

На ICLR в этом году было не так много статей на тему аудио, но несколько интересных работ всё же встретились — продолжаем разбирать их в этом и следующих постах.

Сегодня расскажем, как синтетические данные помогают обучать аудиоклассификаторы (Synthio), об универсальной модели, которая по тексту и аудио решает множество задач (Fugatto), и о свежем бенчмарке на понимание сложных аудиозадач — от ритма до аккордов (MMAU).

Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data

В статье предлагают пайплайн для генерации синтетических аудиоданных с помощью T2A-модели, которая по текстовому описанию создаёт аудио. Её сначала выравнивают на основе предпочтений, используя ограниченное количество размеченных примеров. После этого модель генерирует синтетику, пригодную для задач классификации.

На втором этапе добавляют фильтрацию: оценивают соответствие между текстом и аудио и отбирают качественные пары. Дополнительно текст можно уточить с помощью LLM. На выходе — расширенный синтетический датасет, который даёт прирост точности в разных аудиоклассификационных задачах.

Fugatto 1: Foundational Generative Audio Transformer Opus 1

Fugatto — универсальная аудиомодель, которая по текстовому описанию и/или аудиопримеру решает задачи синтеза речи (TTS), преобразования голоса (VC), генерации аудио по тексту (T2A), шумоподавления и другие. Всё в одной архитектуре.

Модель построена на flow matching — это позволяет отказаться от GAN-дискриминаторов и легче масштабировать обучение. В качестве данных собирают максимально разнообразные открытые датасеты по всем типам задач. Для генерации инструкций, которым должна следовать модель, используют LLM: она пишет код на Python, который вызывает нужный аудиоэффект (например, через библиотеку Pedalboard).

Авторы показывают emergent-эффекты: модель способна выполнять необычные преобразования, которых явно не было в обучении — например, «лающий женский голос» или «мяукание саксофона». Также они демонстрируют, как можно итеративно прогонять сэмплы между A2T- и T2A-моделью, уточняя выходы на каждом шаге.

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

Авторы собрали бенчмарк из 10 000 аудиозаданий, вручную размеченных специалистами. Каждое задание состоит из аудио, текстового вопроса и нескольких вариантов ответа. Примеры задач — от понимания какой конкретный звук длится дольше всего на аудио до музыкального анализа: нужно определить аккорд-прогрессию, ритмический рисунок или эмоциональную окраску.

Бенчмарк сложный: требует не просто услышать звук, но и понять его структуру. Некоторые модели (например, MuLaLaMa и SALMONN) почти не теряют точности при замене аудио на шум — значит, не используют сам звук. А вот Gemini 1.5 Pro и Qwen2 действительно извлекают аудиосигнал: при шуме качество падает. Gemini 1.5 Pro лучше всего справляется с задачами фонетического анализа.

MMAU подчёркивает важность реального аудиопонимания: на нём даже сильные мультимодели работают на уровне 59% точности. Из аблейшна авторов следует, что основная доля ошибок приходится на perceptual errors. То есть моделям пока сложно понимать, что именно происходит на записи.

Влад Батаев Специально для Speech Info

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍4
DMDSpeech: Distilled Diffusion Model Surpassing The Teacher in Zero-shot Speech Synthesis via Direct Metric Optimization

Сегодня разберём статью о синтезе речи с помощью диффузионных моделей. Авторы из Adobe Research утверждают, что им удалось избавиться от главного недостатка такого подхода — медленного итеративного инференса — при помощи оригинального метода дистилляции.

Называется новый метод Direct Metric Optimization. Именно он вкупе с уже известной (но не очень популярной) методикой дистилляции DMD и бейзлайн-архитектурой Latent Speech Diffusion позволяет улучшить качество генераций.

Latent Speech Diffusion — диффузионный трансформер, оперирующий в пространстве непрерывных латентов (continious latents). Латенты авторы получают из чистой wave-формы при помощи энкодера дискретного аудиокодека. Потом добавляют к ним шум, U-net-подобной архитектурой итеративно расшумляют и декодируют с помощью стандартного диффузионного лосса.

Поскольку модель не авторегрессионная, размерность выхода необходимо знать заранее. Её выясняют, перемножая количество фонем на speaking rate речевого промпта.

Метод DMD работает так: расшумлённый результат ученика в заданный момент времени приближают к аналогичному результату учителя от одного зашумлённого латента. Для этого обучают специальную состязательную модель:

- при помощи дискриминатора отличать результаты ученика и учителя;
- сокращать за счёт ученика разницу между ним и учителем.

Предложенный метод генерации речи — end-to-end. Это значит, что в обучение для Direct Metric Optimization можно добавлять SV- и ASR-лоссы.

Аудиосэмплы доступны на GitHub.

Дмитрий Попов Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥118💯5
Обзор статей с ICASSP 25. Часть 3: LLM для улучшения в ASR

Две статьи от Meta* с ICASSP 2025 показывают, как сократить число вызовов декодера в ASR: в одной модель сразу предсказывает несколько токенов, в другой — принимает только те, у которых логиты выше порога. Разбираем, как устроены эти методы и как они влияют на скорость и WER.

Efficient Streaming LLM for Speech Recognition

Статья о стриминговой ASR-модели SpeechLLM-XL. Её архитектура состоит из двух компонентов: аудиоэнкодера и LLM-декодера. На вход декодеру одновременно подаются выходы аудиоэнкодера (как в обычной ASR) и токены, которые декодер уже успел предсказать.

В обычном последовательном предсказании на вход сразу передаются звуковые токены, а затем модель догенерирует предсказание по одному токену — и каждый раз сгенерированный токен добавляется ко входу. Таким образом модель работает в decoder-only-режиме.

Основная сложность со стримингом в том, что нужно попеременно передавать новый полученный звук и текстовые токены, которые предсказала модель. Это делается следующим образом. Во время инференса модель обрабатывает аудио по чанкам. После каждого декодер может сгенерировать не один токен, а сразу несколько — пока не встретит специальный маркер конца предсказания. Это позволяет системе работать в стриминге и не откладывать вывод до самого конца. Такой режим авторы реализуют через модифицированную схему тренировки, где модель учат предсказывать текст по частичному аудиоконтексту.

Особенность SpeechLLM-XL — в устройстве генерации: в каждый момент LLM-декодер видит и текущий аудиочанк, и собственные предыдущие предсказания. Это позволяет ему лучше моделировать зависимость между звучанием и текстом, особенно в условиях ограниченного контекста.

Авторы сравнивают свою модель с другими стриминговыми ASR-решениями. По качеству SpeechLLM-XL обходит все перечисленные в работе бейзлайны на dev-наборах LibriSpeech. Например, на clean-части она показывает WER 2,5% против 2,9% у Transducer и 2,7% у ReaLLM при схожем размере чанка и lookahead — хотя сложно не заметить, что в целом скоры у бейзлайнов великоваты.

Faster Speech-LLaMA with Multi-token Prediction

Авторы пытаются ускорить LLM-декодер в ASR. Идея в том, что вместо генерации одного токена за раз, как в обычной LLM, они учат декодер предсказывать сразу несколько токенов. Чтобы не вызывать LLM отдельно для каждого из них, добавляют в декодер несколько «голов» — по числу токенов, которые нужно предсказать. Эти головы работают параллельно: каждая предсказывает свой токен, зная предыдущие.

Получается схема из трёх шагов:

1) Predict: модель сразу предсказывает K токенов.
2) Verify: среди них ищем самую длинную префикс-последовательность, которую можно подтвердить более строгим one-step-декодером.
3) Accept: принимаем только подтверждённые токены и продолжаем с новой гипотезой.

Это позволяет сократить число вызовов декодера без сильной потери качества. На графике видно, как число вызовов на слово (ось Y) падает, особенно при 4–6 головах, а качество (WER по оси X) остаётся на уровне. Лучший компромисс — 4 головы: ускорение ×2, при этом WER почти не растёт.

Верификацию авторы реализуют двумя способами:

— по порогу вероятности;
— по позиции гипотезы в top-N (например, если гипотеза оказалась в топ-5, то её можно принять).

Интересно, что при увеличении числа голов качество даже немного улучшалось. Хотя авторы отмечают это только на LibriSpeech, а на других датасетах наблюдается небольшая просадка.

По сути, это доработка идеи DeepSeek: там тоже пробовали multi-token prediction, но здесь её применили именно в ASR.

Алексей Рак Специально для Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥54