Speech Info

Как TortoiseTTS изменил правила игры в синтезе речи

В 2017–2019 годах TTS-сообщество начало учиться на заметно больших объёмах данных, чем до этого, и выбирало между двумя классами моделей, которые можно обучать. Первый вариант — взять трансформер из NLP и научить его предсказывать аудиотокены. Второй — использовать диффузии, как в генерации изображений, и генерировать спектрограммы. Оба варианта давали частичный результат. Диффузии хорошо передавали голос, но интонацию — слабо. Трансформеры, наоборот, хорошо моделировали интонацию, но теряли сходство с голосом.

В 2022 году инженер Джеймс Беткер, много лет проработавший в Garmin, решил пойти другим путём. В одиночку он начал собирать свою модель дома! Он купил восемь б/у RTX 3090, которые до этого майнили крипту, собрал из них кластер, и два года вёл блог, в котором подробно описывал каждую итерацию своего ресёрча. Формат — не статьи с графиками, а Markdown и картинки от руки. Иногда — просто пост с одной мыслью и решением.

Спустя два года такой работы появился TortoiseTTS. Гибрид трансформера и диффузии, вдохновленный архитектурой DALL-e 1, только вместо изображений — аудио.

Что сделал Беткер:

1. Сначала — кодек. Беткер обучил VQ-VAE, который сжимал аудио до 25 токенов в секунду. Это довольно маленький битрейт для получения качественного восстановления, но такой цели и не стояло — кодек нужен был как интерфейс между аудио и трансформером.

2. Потом — трансформер. Модель по тексту и примеру голоса, который надо скопировать, предсказывала токены этого кодека. Поскольку токенов было мало, он мог использовать большие батчи, что критично при ограниченных ресурсах. Но важнее другое: трансформер давал не только токены, но и латенты, из которых эти токены предсказываются. (Они понадобятся нам на следующем этапе.) Именно этот кусок пайплайна отвечает за генерацию правильной похожести голоса и разумные интонации.

3. Дальше — диффузия. По примеру голоса и сгенерированным GPT латентам она предсказывала спектрограмму. Задача этой модельки в том, чтобы получившаяся запись была качественной и хорошо сохранилась похожесть голоса.

4. В конце — предобученный вокодер UnivNet, который предсказывает аудио по спектрограмме.

В результате получился пайплайн: текст → латента (из GPT) → спектрограмма (из диффузии) → аудио. В модельке есть ещё несколько хаков, но мы не останавливаемся на них, чтобы упростить повествование.

За счёт комбинации GPT и диффузии этому способу удалось усесться на оба стула: он хорошо моделировал интонацию и клонировал голос. И это обучилось на кластере из восьми видеокарт!

После выхода Tortoise в 2022 году появилось много похожих работ. Например:

— CosyVoice (Alibaba): заменили VQ-VAE на кодек, обученный на ASR-задаче, чтобы эмбеддинги хранили больше информации о речи. Вместо диффузии применили Flow Matching — он даёт звук быстрее за меньшее число шагов.
— Seed-TTS (ByteDance): заменили токенизатор, отказались от CLVP, дообучили модель на 5 голосах.
— Base TTS (Amazon): взяли большую GPT (1B параметров вместо 300M) и использовали токены из WavLM.

Получается, что Tortoise стал не столько готовым решением, сколько универсальной схемой, которую подхватили сразу несколько крупных команд. Ну а Джеймса Беткера наняли в OpenAI сразу после релиза финальной версии модели.

Эта история — только малая часть интересного из Speech Сourse от Яндекса и ШАД. Все лекции, слайды, домашки и полезные ссылки выложены на GitHub. Курс охватывает биометрию, распознавание, синтез, шумоподавление. А на тему TTS — целых четыре лекции.

Роман Кайль ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤23🔥11👍8👏3

1.25K views08:05

Speech Info

Как прошла ICLR 2025: впечатления инженеров Яндекса

Мы попросили инженеров Яндекса подвести личные итоги конференции ICLR 2025 и рассказать, чем она запомнилась. О трендах в индустрии, интересных статьях на тему аудио и впечатлениях — в наших карточках.

Работы и ссылки, которые упоминаются в посте:

— π0.5: a VLA with Open-World Generalization
— Scaling Transformers for Low-Bitrate High-Quality Speech Coding
— MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer
— UniWav: Towards Unified Pre-training for Speech Representation Learning and Generation
— FlowDec: A flow-based full-band general audio codec with high perceptual
— Vevo: Controllable Zero-Shot Voice Imitation with Self-Supervised Disentanglement
— Announcing the Test of Time Award Winners from ICLR 2015

Speech Info

#YaICLR

👍13❤8🔥6👎1

1.16K views09:53

Speech Info

Aligner-Encoders: Self-Attention Transformers Can Be Self-Transducers

Можно ли выучить выравнивание между аудио и текстом без архитектур вроде RNN-T и без использования blank-токенов? Авторы этой статьи считают, что можно. Достаточно self-attention-энкодера с отдельной головой, которая решает, на каких шагах нужно выпускать токены.

Классические ASR-модели (RNN-T, AED) формируют выравнивание во время декодирования: логиты зависят от возможных переходов по временной оси. Это требует либо динамического программирования (в CTC), либо перебора всех допустимых путей (в RNN-T). В Aligner-Encoder модель учится решать, стоит ли выпускать токен на каждом аудиофрейме. В энкодер добавляют FF-слой (aligner head), обучаемый по меткам из CTC loss. Принудительное выравнивание не требуется.

Токены добавляются только тогда, когда aligner говорит «да» — без использования blank-символов или графа выравнивания. Модель не создаёт лишних гипотез, декодинг упрощается, сложность по памяти — существенно ниже: O(U×Vocab) против O(U×T×Vocab) у RNN-T.

Что касается архитектуры, энкодер состоит из 2D-свёрток и Conformer-блоков (FFN, multi-head attention, 1D conv, residuals). Вход — log-mel-спектрограммы (окно 32 мс, шаг 10 мс), токены — WordPiece, используется label smoothing (δ = 2/V), чтобы избежать смещения к коротким предсказаниям.

Начиная с 14-го слоя self-attention, первые текстовые токены начинают фокусироваться на соответствующих аудиофреймах — это можно проследить по диагональному паттерну. Модель при этом «сдвигает» важные представления ближе к началу, сохраняя порядок токенов. В обычных энкодерах такого сдвига не происходит.

Модель обучалась на трёх англоязычных датасетах:
— LibriSpeech (960 часов),
— Voice Search,
— YouTube (670 тысяч часов псевдозаписей длиной 5–15 секунд).

Для оценки на YouTube выделили 30 часов 8-минутных аудиофрагментов (по 15 часов на валидацию и тест). Модель показывает точность на уровне CTC-базлайна на LibriSpeech и превосходит его на YouTube.

Авторы также проверяют, можно ли использовать обученный aligner в других моделях. В одном из экспериментов инициализируют RNN-T слоями из выученного энкодера и получают улучшение по метрикам. Это показывает, что aligner-head может использоваться как самостоятельный механизм выравнивания.

Несмотря на то, что в названии статьи сделан акцент на выравнивание, главная польза модели — в скорости и простоте. В сравнительном эксперименте все модели были одного размера (100 млн параметров). На обучении Aligner оказался в 10 раз быстрее RNN-T (29 мс против 290 мс на шаг), главным образом за счёт отказа от сканирования по временной оси в join-сети. Это также позволило снизить пиковое потребление памяти на 18 % (−1.4 ГБ). На инференсе модель тоже самая быстрая: каждый шаг декодера занимает 0,19 мс против 8,5 мс у AED. Общая сложность — O(U), тогда как у RNN-T — O(U+T), где U — длина текста, T — длина аудио. Переупорядочивание гипотез в beam почти не требуется. Отдельно подчёркивается, что хоть AED и делает шаги почти так же быстро, как Aligner, благодаря трансформерной природе он сходится за меньшее число итераций.

Илья Новицкий ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍6🔥3

1.07K views09:04

Speech Info

Архитектура KWS от Яндекса: как колонка с Алисой выбирает, куда слушать

Исследователи из Яндекса представят на конференции Interspeech 2025 в Роттердаме статью Multichannel Keyword Spotting for Noisy Conditions. Мы поговорили с авторами и узнали, как устроена нейросетевая архитектура KWS (keyword spotting), объединяющая два подхода: мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Задача: распознавать команды в шуме

В колонках есть задача голосовой активации — нужно, чтобы устройство услышало команду даже когда работает телевизор, пылесос или кто-то говорит фоном. Для улучшения работы в таких условиях можно использовать алгоритмы шумоподавления, как, например, в Zoom. Однако даже если такие модели улучшают звук для пользователей, они могут заметно ухудшать качество для моделей. Скорее всего, это происходит из-за того, что модели шумоподавления обучаются на синтетических данных, а модели голосовой активации — на реальных данных и учатся очищать шумы во внутреннем представлении сигнала.

Решение: несколько микрофонов

Получая информацию с нескольких микрофонов, можно сделать модель шумоподавления ощутимо лучше. Микрофоны расположены в разных точках устройства, и звук доходит до каждого с небольшой задержкой — за счёт этого можно понимать, откуда он пришёл, и подавлять сигнал конкретного направления.

В статье предлагается считать, что основной сигнал в каждый момент времени — это шум. И мы можем всегда очищать это направление. А чтобы услышать активационную фразу пользователя — «Алиса» — для очистки использовать направления сигнала секунду назад. Такой подход помогает убрать шумы, не затрагивая голосовую команду.

Но тогда возникает риск подавить голос пользователя, если он говорил до этого. Поэтому канал после шумоподавления не используется отдельно, а подаётся вместе с обычным. Чтобы модель могла выбрать между ними, добавили модуль attention. Он получает оба сигнала, вычисляет веса для частот каждого канала и складывает их с этими весами. В итоге на вход основной модели поступает комбинированный сигнал.

Архитектура: SVDF E2E + Attention + ANC

В основе модели — SVDF E2E. Это базовая архитектура, которая уже используется в проде Алисы. Добавляются механизм внимания и блок адаптивного шумоподавления Adaptive Noise Cancellation (ANC).

В статье эту архитектуру сравнивают с другими подходами. Приходят к выводу, что, например, Beamforming хоть и усиливает голос с нужного направления, но в целом работает хуже. Ещё пробовали вариант с двумя отдельными моделями, где каждая обрабатывает свой канал, а активация срабатывает, если сработала хотя бы одна модель. Такой способ даёт худшее качество и требует больше параметров. Удивительнее всего было увидеть, что Ensemble дает качество хуже, чем агрегация с помощью attention. Модель не просто выбирает звуковой сигнал, который нужно слушать, а некоторую комбинацию из звуковых каналов.

Полученные результаты: FRR — 5,5% при FA/h = 0,1. FRR отвечает за отзывчивость, а fah — за ложные срабатывания, и в обоих случаях — чем меньше, тем лучше. Этот результат превосходит Beamforming (6,7%) и Ensemble (6,4%). При этом модель остаётся компактной и не требует дополнительных ресурсов.

Обучение на двух датасетах

Модель обучалась и тестировалась на двух датасетах. Лабораторный — содержит 900 симулированных шумовых сцен (улица, кухня, пылесос и прочее) с разными голосами и уровнями шума. Полевой — это 10 млн анонимизированных примеров команд.

Технология, описанная в статье, проверена временем: она в проде с 2022 года и сейчас используется во всех современных колонках с Алисой. Архитектура хорошо масштабируется на edge-устройства — смарт-колонки и другие бытовые ИИ. В перспективе тот же механизм можно использовать, чтобы выбирать наилучший звуковой канал для передачи в облако.

Speech Info

🔥18❤6👍6

1.11K views06:01

Speech Info

Обзор статей с ICASSP 25. Часть 4: другие интересные статьи

В заключительной части — три статьи: оценка качества аудио с помощью self-supervised-моделей, сравнение претрейнов для speaker recognition и новый подход к мультиспикерной ASR с учётом информации о говорящем. Предыдущие части: 1, 2, 3.

Distillation and Pruning for Scalable Self-Supervised Representation-Based Speech Quality Assessment

Авторы предлагают модель оценки качества речи на базе XLS-R. Сначала они обучают большую модель (XLS-R-SQA) на разных датасетах, включая Zoom-звонки, синтетические и музыкальные данные. Чтобы учесть различия между датасетами, в архитектуру добавляют обучаемые scale и shift для каждого из них. На инференсе используется общий вариант модели, который, судя по результатам, хорошо работает на разных типах данных. Но полученная модель слишком большая, чтобы использовать её для оценки качества шумоподавления.

Чтобы её уменьшить используют два способа: дистиллируют в меньшую (DistillMOS) и обрезку параметров (PruneMOS). Обе версии показывают стабильное качество на звонках, синтетических и музыкальных датасетах.

Авторы сравнивают полученные модели с DNSMOS — популярной системой оценки качества для шумоподавления, обученной на данных DNS Challenge. Показывают, что DNSMOS хорошо работает на звонках, но хуже обобщается на другие домены данных.

Основной вывод: DistillMOS и PruneMOS достигают сопоставимого качества при меньшем размере и лучше обобщаются за пределами звонковых сетов. Однако использовать предполагается именно DistillMOS, потому что прунинг работает лучше при достаточно в большом количестве параметров.

In Search of Optimal Pretraining Strategy for Robust Speaker Recognition

Статья от российских авторов, которые изучают, как выбор претрейна влияет на устойчивость speaker verification моделей. Они используют TDNN-архитектуру поверх разных замороженных энкодеров: HuBERT, W2V, ASR-TDNN, и оценивают её на нескольких открытых датасетах.

На VOiCES и VoxCeleb1 системы на self-supervised фичах показывают сопоставимые или немного лучшие результаты по сравнению с бейзлайнами вроде ECAPA-TDNN и CAM++. Однако основное внимание в статье уделено обобщающей способности. На SRE'16, '19 и '21 (модели не обучались на этих датасетах) наименьший EER достигается при использовании ASR-претрейна и его фьюжена с другими энкодерами. Например, на SRE’19 CAM++ даёт 13.88, ASR-TDNN — 16.42, а их фьюжен — 9.66.

Авторы также анализируют влияние масштаба энкодера на переносимость. Эксперименты показывают, что более крупные энкодеры (например, обученные на LibriSpeech и VoxCeleb) помогают лучше обобщаться, даже если downstream TDNN остаётся компактным.

META-CAT: Speaker-Informed Speech Embeddings via Meta Information Concatenation for Multi-talker ASR

Авторы исследуют задачу мультиспикерной ASR: модель должна распознавать речь сразу нескольких говорящих и приписывать реплики каждому из них. Решение основано на использовании speaker-aware эмбеддингов, собранных через элементное перемножение двух компонентов: ASR-эмбеддингов и вероятностей принадлежности каждого временного кадра конкретному спикеру.

Модель состоит из замороженного энкодера для диаризации и обучаемых компонентов — ASR-энкодера, speaker encoding слоя и RNNT-декодера. На вход модель получает аудио с несколькими спикерами и (опционально) короткий «query»-пример нужного говорящего. Выходом становится либо полная транскрипция с разметкой по спикерам (MS-ASR), либо только текст нужного говорящего (TS-ASR).

Ключевая часть архитектуры — блок speaker encoding. Он принимает ASR-эмбеддинги и вероятности по спикерам (из диаризации) и формирует многомерное представление, в котором каждый из каналов отвечает за конкретного спикера. Это представление затем поступает в декодер.

Авторы отдельно отмечают, что модель можно использовать и в сценарии, где нужно отслеживать только одного говорящего. В будущей работе авторы обещают поддержку стриминга.

Алексей Рак ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥2

910 views14:19

Speech Info

Voxtral

Сегодня разбираем статью об опенсорсной модели Voxtral от Mistral AI. Ключевая идея решения в том, чтобы к уже обученной текстовой LLM «прикрутить» аудио. Для этого используют готовый ASR-энкодер (Whisper) и адаптер, после чего ответы генерирует языковой декодер. Аудио режут на фрагменты по 30 секунд, обрабатывают их энкодером, склеивают эмбеддинги и прореживают в четыре раза в адаптере, уменьшая длину последовательности. На вход декодеру можно подать и текстовые токены, например вопрос или инструкцию.

Есть две версии модели. В составе Mini-версии — аудиоэнкодер на 640 млн параметров, адаптер на 25 млн, текстовые эмбеддинги на 400 млн и декодер на ~3,6 млрд (всего ~4,7 млрд); в Small — аналогичный аудиоэнкодер и адаптер на 52 млн, но уже 670 млн в эмбеддингах и 22,9 млрд в декодере (всего ~24,3 млрд). Контекст аудиоветки — до 32 тысяч токенов, что соответствует примерно 40 минутам звука.

Для предобучения длинное аудио сначала размечают (VAD → транскрипция → диаризация), затем разбивают на пары (Aₙ, Tₙ) и учат на двух паттернах: repetition, где по аудио восстанавливают его транскрипцию, и continuation, где по аудио восстанавливают следующий текст. На первом проходе замораживают аудиоэнкодер и языковой декодер, обучая только адаптер — это заметно помогает в задачах понимания речи, тогда как на чистом ASR почти не сказывается.

Стадия SFT нужна, чтобы модель умела больше, чем просто распознавание речи. Датасет SFT состоит из синтетических примеров. В случае, когда инструкция передается текстом для длинных аудио, транскрипцию из ASR обрабатывает LLM, генерируя пары «вопрос-ответ». Если же инструкция задана в аудио формате, то авторы адаптируют текстовые SFT-датасеты с помощью озвучки инструкций через предобученную TTS-модель.

Есть и стадия RL/DPO-подобного обучения по парам ответов, которая даёт выигрыш в основном на маленькой модели. При этом для задачи ASR на большой модели данный этап даже снижал качество, поэтому в релиз он не вошёл.

Авторы отдельно показывают, что обучение только на interleaved-паттерне портит ASR, а только на ASR-паттерне — не даёт навыков понимания. Смешение двух задач примерно 50/50 даёт хороший баланс распознавания и понимания.

В бенчмарках Voxtral улучшает Whisper (взятый за энкодер) и показывает SOTA среди открытых моделей на части тестов по ASR. В переводе речи и аудиопонимании результаты конкурентны открытым моделям, а по синтетическим мультимодальным тестам на озвученных TTS данных местами уступают проприетарным системам уровня GPT-4o и Gemini. При этом текстовые навыки LLM после добавления аудио практически не страдают.

Влад Батаев ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤6👍4🤩1👀1

978 views09:34

Speech Info

Интересные статьи на Interspeech 2025

В Роттердаме проходит Interspeech 2025, крупнейшая мировая конференция по речевым технологиям. Тема этого года — Fair and Inclusive Speech Science and Technology. Спешим поделиться двумя интересными статьями от Alibaba Group (создателей Cosy Voice, около-SOTA TTS-модели).

Long-Context Speech Synthesis with Context-Aware Memory
Для сохранения контекста и натуральности синтеза длинных предложений авторы предлагают механизм памяти — раздельно для текста и звука, — который авторегрессионно обновляется. При обучении история поддерживается на уровне параграфа.

Differentiable Reward Optimization for LLM based TTS system
В работе предложили метод вычисления reward-функции напрямую из токенов аудиокодека с помощью Multi-Task Reward. Модель одновременно оценивает несколько аспектов синтеза: точность произношения (через задачу ASR), эмоциональную окраску (SER), качество звучания (SQA), а также характеристики говорящего — пол и возраст. Для дифференцируемости используют Gumbel-Softmax. Главные результаты: SOTA на SEED-TTS, а также возможность контролировать в TTS-системе эмоции, пол, возраст и MOS (Mean Opinion Score).

Работы отобрал ❣ Дмитрий Попов
Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤7❤‍🔥3

872 views09:12

Speech Info

В этом году Яндекс привёз на Interspeech статью Multichannel Keyword Spotting for Noisy Conditions о нейросетевой архитектуре KWS.

Решение объединяет мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Подробнее о работе рассказывали здесь, а теперь делимся маленьким фоторепортажем с постера!

Speech Info

❤18🔥10👏7👍2

894 views12:06

Speech Info

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня завершается Interspeech 2025

Под занавес конференции делимся несколькими атмосферными фото и видео:

— Фрагмент Show&Tell-сессии с физической моделью голосового тракта. Редкий случай, когда на конференции показывают не абстрактные алгоритмы, а реальную говорящую машину.

— Команда Яндекса — как обычно, в эпицентре идей и технологий.

— Анонс Interspeech 2026: в следующем году встречаемся в Сиднее!

Speech Info

👍9🔥5😁3🙏1

1.01K views13:50

About

Blog

Apps

Platform