Speech Info
1.06K subscribers
86 photos
5 videos
51 links
Инженеры из Яндекса разбирают и комментируют горячие статьи об ML и аудио.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
WavChat: A Survey of Spoken Dialogue Models. Часть 2/4

Попробуем пошагово проследить классификацию, которую предлагают в большом обзоре разговорных ИИ.

Предыдущая часть

Классификация моделей по архитектуре: каскадность или сквозная реализация (end2end). С каскадными моделями всё стандартно. ASR конвертирует пользовательский запрос в текст и передаёт в LLM, а LLM отправляет ответ в TTS. Так работает большинство голосовых помощников прошлого поколения: они очень слабы в выражении эмоций, потому что, переводя входящий запрос в текст, теряют информацию о тоне голоса, эмоциях и интонациях. В итоге ответные реплики нейросети выглядят неестественно. Кроме того, при передаче данных из системы в систему добавляются паузы, что приводит к дополнительным задержками.

End2end-модели должны победить эту проблему: вместо того чтобы пошагово преобразовывать каждую фразу пользователя в текст, они работают сразу с аудио и учитывают невербальный контекст беседы.

Авторы выделяют модели вроде SALMONN или Qwen-Audio, которые объединяют не весь стек, а лишь его части: ASR+LLM и отдельная модель для TTS.

Классификация по способу представления звука: токенизация или энкодер. Перед созданием ALM нужно ответить на вопрос, каким образом модель будет обрабатывать звук. Есть два основных подхода. Энкодеры превращают аудио в непрерывное представление эмбеддов, а токенизаторы, наоборот, в дискретную последовательность — набор токенов, с которыми можно работать аналогично текстовым.

В случае с токенайзерами есть ещё одна точка ветвления — они могут быть семантическими или акустическими. Семантические (например, wav2vec, BEST-RQ, HuBERT и WavLM) восстанавливают участки аудио по контексту. А акустические (EnCodec, Mimi, SpeechTokenizer и т.д.) сжимают и разжимают аудио до ограниченного набора токенов.

Авторы отмечают, что токенайзеры, особенно акустические, сегодня доминируют в публикациях и позволяют реализовать next-token prediction — ключевой механизм для ALM. Но в итоге склоняются к тому, что будущее — за более сложными токейнайзерами, которые объединят в себе плюсы работы с семантическими и акустическими токенами.

Продолжение следует.

Никита Рыжиков Специально для Speech Info
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍81
This media is not supported in your browser
VIEW IN TELEGRAM
1
У нас прямое включение из Сингапура, где ML-инженеры из Яндекса готовятся к началу ICLR`25! А пока предлагаем полюбоваться огнями вечерней столицы.
12🔥116
Первый день ICLR 2025: интересные статьи и один грустный тренд

Конференция ICLR 2025 идёт полным ходом. Статей на тему аудио пока не слишком много, но уже есть кое-что любопытное. Не стесняйтесь писать в комментариях — о чём ещё стоит рассказать.

Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks

Статья про бенчмарк для spoken language моделей. Представляет собой набор из множества задач по описанию разных аспектов для моделей, принимающих аудио на вход.

Авторы мало касаются диалогов или voice-to-voice-сценариев — фокус смещён на задачи распознавания, понимания и другие аспекты обработки аудио.

Число заданий увеличили с 70 до 180, и собираются сделать ещё больше. Оценка построена на иерархии задач, и внутри неё значения скоров осредняются без взвешивания.

Была первая фаза бенчмарка, сейчас идёт вторая, а в третьей говорят о диалоговых замерах.

SyllableLM: Learning Coarse Semantic Units for Speech Language Models

SyllableLM — дистилляция HuBERT с целью уменьшить число токенов и сделать их ближе к слогам. Синтез речи в статье не оценивался, и авторы отметили, что рецензенты тоже грустили по этому поводу. Примеры генерации из полученных токенов есть на сайте, но, судя по всему, не очень хорошие.

Flow Matching Achieves Almost Minimax Optimal Convergence

Рубрика «Если долго сидеть на берегу реки, можно увидеть, как проплывает труп твоего врага»игнорировать ML-тренд (а именно Flow Matching), можно увидеть статью, его обличающую». Авторы показывают, что гарантии сходимости по времени для Flow Matching и обычного диффузионного процесса имеют одинаковый порядок. Но сравнивать эти подходы напрямую сложно: один оценивает сходимость через KL-дивергенцию, другой — через расстояние Вассерштейна.

И напоследок — немного печальный тренд

Кажется, квантовые фонды (Hudson River Trading, Jane Street, Jump Trading и прочие) пытаются доминировать: в выставочном центре очень много их стендов. Не теряем надежды увидеть больше научных работ!

Никита Рыжиков и Степан Комков специально для Speech Info

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍9🔥3
Немного кадров с места событий: масштабы холлов, атмосфера докладов, фантастические виды и яркие сингапурские цветы (Нейро говорит, что это ​​Муссенда филиппинская).

Speech Info

#YaICLR
3👍2
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Мечта многих — заменить олдскул в аудиокодеках на нормальный трансформер. У авторов это, наконец, получилось, хоть и не сразу. Они обнаружили, что «трансформер в лоб» не работает — и пошли разбираться почему. На постере причину не написали, но мы спросили — ведь ML-аудитории важны не только архитектура и таблички с метриками.

Так вот. Если обучить трансформерный кодек и проверить его через adversarial-атаку на дискриминатор, можно увидеть: искажения группируются по границам STFT-патчей, которые мы снимаем с wave-формы. Это значит, что трансформеры умеют подстраиваться под дискриминатор, ломая wave-форму в правильных узких областях. А эти узкие места всегда повторяются из-за регулярности периодичности.

Можно заметить, что сейчас мода на дискриминаторы с периодикой по простым числам. Авторы действуют нестандартно: используют дискриминаторы не по числам, а по золотому сечению. Говорят, что просто перебирали разные периодичности и пришли к этому решению. (Ссылку на работу Луки Пачоли дать забыли).

Ещё одна находка: моменты тишины убивают LayerNorm-статистики, поэтому сеть учится их игнорировать. Выход простой: значительно увеличивать эпсилон в формуле.

В остальном — авторы честно признались, что использовали FSQ, потому что это модно, а размер кодбука был спущен сверху продуктово.

В целом это всё напоминает статью Zoom с Interspeech, где использовали достаточно большой дискриминатор — и без просадок в инференсе получили буст качества.

Степан Комков специально для Speech Info

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
👍145👀1
ICLR 2025 в Сингапуре близится к завершению

В этом году конференция приняла 3704 статьи (из 11 672 поданных). Для сравнения: в прошлом году их было 2 260. Мы старались освещать наиболее интересные работы, а в этом посте собрали все наши материалы о ICLR 2025:

- Прямое включение из Сингапура
- Подборка интересных статей первого дня конференции
- Атмосферные фото и видео с места событий
- Обзор статьи “Scaling Transformers for Low-Bitrate High-Quality Speech Coding”

А ещё к нам в руки попали любопытные фото: так выглядят четыре дня на другой крупной конференции (сверху) и два дня на ICLR (снизу) — интенсивность программы видна невооружённым глазом!

Больше разборов, интересных постеров, фото и видео с ICLR вы найдёте в наших других каналах: @timeforcv, @RecSysChannel, @MLunderhood, @stuffyNLP.

Speech Info

#YaICLR
4👍2🔥1
Как Яндекс Браузер переводит видео с сохранением оригинальных голосов

Перевод видео в Яндекс Браузере появился ещё в 2021 году. Сегодня компания представляет новую версию этой технологии, способную сохранять тембр и интонации оригинального голоса. А сам перевод стал точнее благодаря YandexGPT. В статье на Хабре вы можете почитать все подробности о том, как устроен инструмент, а здесь расскажем коротко.

В основе технологии синтеза речи лежит модифицированная опенсорс-модель Tortoise-TTS. Сама по себе она выдаёт результаты хорошего качества, почти неотличимые от человеческой речи. Однако есть несколько проблем, которые не позволяют использовать модель в продакшене.

Одна из них связана с качеством zero-shot-синтеза, то есть генерации аудио тем же голосом, что и в аудиопромпте. Результат может быть не похожим на исходник, а при переносе тембра с английского на русский появляется акцент.

Чтобы исправить это, в Яндексе использовали фонемное представление текста и создали общий алфавит для английских и русских фонем. Благодаря этому произношение модели стало более правильным. Для моделирования тембра голоса внедрили биометрические эмбеддинги и контролировали качество речи с помощью метрики UTMOS. А проблему акцента при переводе с английского на русский решили с помощью синтетического датасета, где голос одного и того же человека представлен на двух языках.

Ещё один недостаток Tortoise-TTS — низкая скорость инференса, из-за которой модель и получила своё название. В Яндексе оптимизировали её архитектуру, уменьшили количество итераций в диффузионной модели и применили технику дистилляции знаний. Благодаря этому, генерация ответа происходит в реальном времени.

SBS-тестирование показало, что новый перевод видео в Яндекс Браузере значительно превосходит решение ElevenLabs: 62% побед против 34%. Что касается исключительно озвучивания, то есть превращения текста в речь, то здесь система Яндекса также впереди: 46% против 42%.

Speech Info
🔥137🥰3
Кто о чём, а мы — продолжаем делиться постерами с ICLR!

Несём ещё несколько любопытных работ, которые заметили и прокомментировали наши засланные казачки.

Restructuring Vector Quantization with the Rotation Trick

Чтобы лучше реконструировать входные данные в VQ-VAE, нужен всего лишь простой советский... Rotation trick! Суть идеи в том, что за счёт поворота центры кластеров сдвигаются в разные стороны, что заставляет лучше использовать векторы в кодбуке. Добавляются три строчки кода без замедления обучения — и получается качество реконструкции на уровне VQ-GAN. Есть код — и, учитывая простоту имплементации, решение можно будет легко попробовать на практике.

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Vision-Language Model Dialog Games for Self-Improvement

Две независимые друг от друга работы. В первой — сделали несколько процедурно генерируемых игр. Стэйты игр скармливали разным LLM в текстовом и визуальном формате и замеряли качество работы — лучшие результаты у Gemini. Во второй статье отметили, что Gemini «из коробки» неплохо справляется с процедурно генерируемыми играми разной семантики. (Есть предположение, что Google использует текстовое описание партий игр, как источник данных на претрейне).

Speech Robust Bench: A Robustness Benchmark For Speech Recognition

Авторы предложили бенчмарк для сравнения моделей распознавания речи по разным аспектам: устойчивости к шуму, far-field и акценту. Правда, в их формуле расчёта упоминается не самая надёжная метрика PESQ, а обсудить этот выбор на месте, к сожалению, было не с кем: авторы не приехали.

Aria-MIDI: A Dataset of Piano MIDI Files for Symbolic Music Modeling

Собрали датасет с YouTube — выбрали записи с чистой игрой на пианино. На основе них с помощью пайплайна MAESTRO подготовили датасет, который можно использовать для генеративной музыки. Также обучили модель, которая делает MIDI-транскрипцию аудиофайлов. Бонус: на постере есть красивая визуализация со сравнением композиторов (в самой статье её нет).

Никита Рыжиков, Степан Комков и Влад Батаев специально для Speech Info

#YaICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5🔥2🥴1