Speech Info

Voxtral

Сегодня разбираем статью об опенсорсной модели Voxtral от Mistral AI. Ключевая идея решения в том, чтобы к уже обученной текстовой LLM «прикрутить» аудио. Для этого используют готовый ASR-энкодер (Whisper) и адаптер, после чего ответы генерирует языковой декодер. Аудио режут на фрагменты по 30 секунд, обрабатывают их энкодером, склеивают эмбеддинги и прореживают в четыре раза в адаптере, уменьшая длину последовательности. На вход декодеру можно подать и текстовые токены, например вопрос или инструкцию.

Есть две версии модели. В составе Mini-версии — аудиоэнкодер на 640 млн параметров, адаптер на 25 млн, текстовые эмбеддинги на 400 млн и декодер на ~3,6 млрд (всего ~4,7 млрд); в Small — аналогичный аудиоэнкодер и адаптер на 52 млн, но уже 670 млн в эмбеддингах и 22,9 млрд в декодере (всего ~24,3 млрд). Контекст аудиоветки — до 32 тысяч токенов, что соответствует примерно 40 минутам звука.

Для предобучения длинное аудио сначала размечают (VAD → транскрипция → диаризация), затем разбивают на пары (Aₙ, Tₙ) и учат на двух паттернах: repetition, где по аудио восстанавливают его транскрипцию, и continuation, где по аудио восстанавливают следующий текст. На первом проходе замораживают аудиоэнкодер и языковой декодер, обучая только адаптер — это заметно помогает в задачах понимания речи, тогда как на чистом ASR почти не сказывается.

Стадия SFT нужна, чтобы модель умела больше, чем просто распознавание речи. Датасет SFT состоит из синтетических примеров. В случае, когда инструкция передается текстом для длинных аудио, транскрипцию из ASR обрабатывает LLM, генерируя пары «вопрос-ответ». Если же инструкция задана в аудио формате, то авторы адаптируют текстовые SFT-датасеты с помощью озвучки инструкций через предобученную TTS-модель.

Есть и стадия RL/DPO-подобного обучения по парам ответов, которая даёт выигрыш в основном на маленькой модели. При этом для задачи ASR на большой модели данный этап даже снижал качество, поэтому в релиз он не вошёл.

Авторы отдельно показывают, что обучение только на interleaved-паттерне портит ASR, а только на ASR-паттерне — не даёт навыков понимания. Смешение двух задач примерно 50/50 даёт хороший баланс распознавания и понимания.

В бенчмарках Voxtral улучшает Whisper (взятый за энкодер) и показывает SOTA среди открытых моделей на части тестов по ASR. В переводе речи и аудиопонимании результаты конкурентны открытым моделям, а по синтетическим мультимодальным тестам на озвученных TTS данных местами уступают проприетарным системам уровня GPT-4o и Gemini. При этом текстовые навыки LLM после добавления аудио практически не страдают.

Влад Батаев ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤6👍4🤩1👀1

978 views09:34

Speech Info

Интересные статьи на Interspeech 2025

В Роттердаме проходит Interspeech 2025, крупнейшая мировая конференция по речевым технологиям. Тема этого года — Fair and Inclusive Speech Science and Technology. Спешим поделиться двумя интересными статьями от Alibaba Group (создателей Cosy Voice, около-SOTA TTS-модели).

Long-Context Speech Synthesis with Context-Aware Memory
Для сохранения контекста и натуральности синтеза длинных предложений авторы предлагают механизм памяти — раздельно для текста и звука, — который авторегрессионно обновляется. При обучении история поддерживается на уровне параграфа.

Differentiable Reward Optimization for LLM based TTS system
В работе предложили метод вычисления reward-функции напрямую из токенов аудиокодека с помощью Multi-Task Reward. Модель одновременно оценивает несколько аспектов синтеза: точность произношения (через задачу ASR), эмоциональную окраску (SER), качество звучания (SQA), а также характеристики говорящего — пол и возраст. Для дифференцируемости используют Gumbel-Softmax. Главные результаты: SOTA на SEED-TTS, а также возможность контролировать в TTS-системе эмоции, пол, возраст и MOS (Mean Opinion Score).

Работы отобрал ❣ Дмитрий Попов
Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤7❤‍🔥3

871 views09:12

Speech Info

В этом году Яндекс привёз на Interspeech статью Multichannel Keyword Spotting for Noisy Conditions о нейросетевой архитектуре KWS.

Решение объединяет мультиканальный вход и attention-механизм для более точного распознавания голосовых команд в шумных помещениях.

Подробнее о работе рассказывали здесь, а теперь делимся маленьким фоторепортажем с постера!

Speech Info

❤18🔥10👏7👍2

894 views12:06

Speech Info

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня завершается Interspeech 2025

Под занавес конференции делимся несколькими атмосферными фото и видео:

— Фрагмент Show&Tell-сессии с физической моделью голосового тракта. Редкий случай, когда на конференции показывают не абстрактные алгоритмы, а реальную говорящую машину.

— Команда Яндекса — как обычно, в эпицентре идей и технологий.

— Анонс Interspeech 2026: в следующем году встречаемся в Сиднее!

Speech Info

👍9🔥5😁3🙏1

1.01K views13:50

Speech Info

Streaming Sortformer: Speaker Cache-Based Online Speaker Diarization with Arrival-Time Ordering

Сегодня разбираем статью с Interspeech 2025 от NVIDIA, посвящённую стриминговой end-to-end-диаризации спикеров с использованием Arrival-Time Ordering Cache. Основное применение — интеграция в multi-talker ASR. На конференции статью представлял основной автор, исследователь NVIDIA, Иван Меденников.

В работе представляют улучшение предыдущей модели Sortformer, в которой были предложены архитектура с Sort Loss и метод выравнивания сегментов диаризации с токенами ASR. Ключевой новинкой стал Arrival-Order Speaker Cache (AOSC) — кэш эмбеддингов спикеров, упорядоченных по времени появления. Модель работает в скользящем окне: в кэш добавляются фреймы с наивысшими оценками уверенности для каждого спикера, с динамическим распределением (минимум K фреймов на спикера и silence embeddings для переходов).

Интересные аспекты:

— Sort Loss (сортирует спикеров по времени появления, в отличие от attractor-based EEND) не заменяет полностью PIL, но их комбинация работает лучше, так как Sort Loss выполяет функцию регуляризации.
— Стриминговая версия превосходит офлайн-версию на длинных записях, устраняя train-inference mismatch (обучение на 90-секундных сегментах vs произвольная длина теста).
— Инициализация от предобученного офлайн Sortformer полезна, но fine-tuning с AOSC обязателен, так как фреймы в кэше могут быть непоследовательными.
— Обучение проводилось на 5150 часах симулированных смесей и 2030 часах реальных данных. С синтетикой нужно быть осторожными: модель склонна к оверфиту на background noise.

Эксперименты показывают SOTA для E2E-онлайн-диаризации с достаточно низкой latency.

Ограничения модели следующие: фиксированное максимальное число спикеров (4 в работе), масштабирование требует данных с большим числом дикторов и растёт вычислительная сложность PIL (O(N!) для перестановок).

Дмитрий Попов ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍7🔥6👀1

985 views08:05

Speech Info

Audio Flamingo 3

Сегодня разбираем статью о модели Audio Flamingo 3, в которой авторы предлагают новый энкодер AF-Whisper. Одно из его ключевых отличий — умение обрабатывать все три типа аудио: речь, звуки и музыку. По словам авторов, большинство аудио-LLM используют три отдельных энкодера для этих задач.

Основной вклад работы, который отмечают в статье: новый аудиоэнкодер, использование chain-of-thought, поддержка multi-turn-диалогов, понимание длинных записей и voice-to-voice-диалоги. Кроме этого, модель полностью в открытом доступе, включая код обучения и использованные датасеты.

Что касается бенчмарков, авторы сравнились как с опенсорсными, так и с проприетарными решениями — модель везде показала лучшие результаты. Наиболее близкой они считают GPT-4 Audio, но при этом отмечают её закрытость.

Архитектура

AF-Whisper построен на базе Whisper, который дообучили вместе с LLM. Есть недостаток — модель не стриминговая: работает с 30-секундными фрагментами звука, обрабатывая соседние куски без маскировки, а затем собирает аудио произвольной длины. Whisper разморозили, добавили адаптер с кросс-аттеншеном (как в Audio Flamingo 2) и сгенерировали синтетические описания готовых аудио с помощью GPT-4.1.

Этапы обучения

Сначала обучают только адаптер, чтобы не повредить энкодер и LLM. Затем идёт совместное обучение энкодера и адаптера, после чего следуют дополнительные стадии: 1) SFT — разморожена вся сеть; 2) расширение контекста и reasoning — разморожена только LLM; 3) для добавления диалогов снова разморожена вся сеть.

Данные

Основная часть статьи посвящена описанию данных. Первая и вторая стадии используют пост-опенсорсные датасеты, конвертированные в единый формат: например, в задачах ASR модель явно просили выполнить транскрибацию. Далее идёт стадия Audio Skills XL с добавлением пар «вопрос-ответ».

Авторы отмечают, что одного ASR и классификации аудио по открытым датасетам недостаточно для появления reasoning, поэтому они генерируют дополнительные данные:

— берут 30-секундные аудиофрагменты;
— создают датасет из 4,5 млн новых вопросов-ответов, в основном multi-choice;
— источники — YouTube8M, Music4All, Million Song Dataset;
— на основе метаданных и аудио GPT-4.1 генерирует промпты и ответы.

Для описания звуковых событий применяют аналогичный подход, используя также Audio Flamingo 2, который умеет давать базовые описания.

Reasoning

Отдельный датасет сделали для длинных аудио с задачами на рассуждение. Разметку reasoning добавляли в небольшое число сэмплов и прямо на уровне промпта просили модель объяснить ход рассуждений. Ответы — до 40 слов. Префиксы для reasoning генерировали в Gemini, так как он давал меньше галлюцинаций.

Примеры решаемых задач: определение сарказма и эмоционального состояния, извлечение информации из длинного аудио, определение порядка событий, суммаризация,
отслеживание смены темы разговора.

Multi-turn-диалоги

Последним этапом авторы добавили данные для естественных многошаговых диалогов — 75 тысяч примеров, сгенерированных GPT.

Инфраструктура

Обучение проводили на кластере из 128 A100. Авторы отмечают, что ключ к качественной модели — чистый датасет. В экспериментах вариант с reasoning давал заметный прирост качества.

Всеволод Ковшов ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤7👍5

985 views08:02

Speech Info

Интересные статьи на Speech Synthesis Workshop 1/2

Speech Synthesis Workshop — это воркшоп, который проходит при конференции Interspeech. В этом году разработчик службы синтеза речи Дарья Дятлова побывала на мероприятии и поделилась интересными статьями.

Analyzing and Improving Speaker Similarity Assessment for Speech Synthesis

Авторы сравнивают схожесть оригинального голоса спикера и синтезированного моделью с помощью автоматической метрики. Выдеяют четыре тезиса-предпосылки.

1. Обычно для такого сравнения используют косинусную близость двух векторов, полученных из эмбедов модели для верификации спикеров (SV). Лучшая SV-модель — не всегда лучший экстрактор фичей для метрики схожести спикеров.

2. Характеристики голоса спикера можно разделить на две группы. Первые — спектральные — статичны и не меняются от записи. По ним легко отделить одного спикера от другого. Вторые — темп, длительность, громкость речи — динамичны и могут меняться от записи к записи. Эмбеддинги большинства моделей для SV не содержат информации о динамических характеристиках аудио.

3. Эмбединги моделей SV содержат информацию о чистоте сигнала и длительности аудио — это не прямая характеристика голоса спикера, а определенный баес датасета или TTS-модели. При конструировании метрики на основе этих эмбедингов стоит иметь это ввиду и применять определённые фильтры, которые помогают сгладить эффект.

4. Грубым способом оценки ритма может быть оценка темпа речи спикера. Однако такой способ — сравнение средних величин количества слогов на секунду аудио — признак с плохой разделительной способностью.

Что предложили

В статье предложили метрику U3D (Unit Duration Distribution Distance), которая оценивает одну из динамических характеристик речи спикера — её ритм. Метрика основана на сравнении распределений длительности групп фонем. Это не фонемы в буквальном смысле (они извлекаются в unsupervised-сетапе путём кластеризации эмбеддингов HuBERT), но дальше для простоты буду называть их фонемами.

Каждому элементу в последовательности из спич-юнитов присваивается индекс ближайшей к нему фонемы, после чего последовательность разделяется на сегменты идущих друг за другом фонем. Для каждой фонемы считается длительность в количестве спич-юнитов для каждой записи спикера. Затем тестовая и контрольная выборки распределений сравниваются через метрику Вассерштейна. В результате авторы показали, что метрика обладает высокой разделительной способностью и робастна к сравнению схожих спикеров.

Почему это круто

Большая часть статьи посвящена не самой метрике, а подводке к тому, зачем вообще она нужна и почему не всегда достаточно просто считать косинусную близость между эмбедами какой-то модели верификации спикеров и называть это speaker-similarity.
Пайплайн unsupervised-разметки легко адаптируется и хорошо ложится не только на задачу ритма и не только для подсчёта метрики.

Продолжение следует.

Дарья Дятлова ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤6🔥4

1.18K viewsedited 09:00

Speech Info

Интересные статьи на Speech Synthesis Workshop 2/2

Разберём ещё две любопытные работы с Speech Synthesis Workshop. Одна посвящена управлению стилем на уровне слов, другая — синтезу речи с невербальными характеристиками.

Lina-Style: Word-Level Style Control in TTS via Interleaved Synthetic Data

Авторы предложили, как из небольшой выборки с разметкой стиля и большого неразмеченного корпуса построить полностью синтетический датасет с локальными (на уровне слова) метками стиля и его интенсивностью, а затем дообучить модель, чтобы она кондишенилась на метки. Для этого они использовали свою предыдущую работу, модель Lina-Speech. Архитектурно это текстовый энкодер и аудиодекодер с Gated Linear Attention (GLA). GLA, кстати, позволяет легко использовать prefix free prompting через initial state-tuning. Этим и воспользовались авторы.

Сначала они взяли претрейн Lina-Speech на неэмоциональной речи. Дотюнили его через initial state-tuning на несколько стилей (neutral, happy, confused, enunciated). Затем синтезировали несколько вариантов одной и той же реплики в разных стилях. Во время синтеза также использовали classifier‑free guidance (CFG), случайно сэмплировали альфа, поэтому насинтезированные аудио получились в разных стилях и с разной их интенсивностью.

Для каждого аудио построили соответствие текста аудиотокенам. Для этого извлекли матрицы soft-алайнмента текста и аудио и превратили их в матрицы hard-алайнмента с помощью Monotonic Alignment Search (MAS). Таким образом получили соответствие токенов аудио отдельным словам. Склеили слова из разных стилей в одно предложение и получили синтетический интерливинг-датасет с word-level-разметкой на стиль.

Осталось затюнить итоговую модель. На этом этапе дообучили базовый претрейн, добавив новые параметры: эмбеддинги стилей, интенсивностей и linear для их комбинации.

Почему это круто

Потому что это — пример сбора синтетического датасета с локальными метками стиля с нуля. В изначальном датасете сэмплов с word-level-разметкой не было. Ну и успешное обучение на синте подтвердило, что метод рабочий. Позалипать на сэмплы можно тут.

NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech

Янднекс тоже привёз свою статью, написанную совместно с коллегами из VK Lab. В ней предложили датасет для синтеза речи с невербальными характеристиками на английском языке и рассказали о пайплайне его сбора. Невербальные характеристики — это смех, вздох, кашель и другие звуки, которые мы издаём в речи и которые не являются словами.

В реальной жизни таких невербальных характеристик много, но разметки для них часто нет. Авторы взяли два опенсорсных датасета — Expresso и VoxCeleb — и сначала с помощью опенсорсных моделей получили грубую разметку по невербальным характеристикам и эмоциям. Затем уточнили результаты с помощью ручной разметки и отфильтровалы шумные сэмплы (например, аудио со смехом, который оказался закадровым). После этого зафьюзили варианты правильных транскрипций от нескольких разметчиков и получили итоговый датасет: 13 часов аудио с 10 типами невербальных характеристик.

Затюнили на своём датасете CosyVocie и сравнились с CosyVoice2, который обучался на проприетарном датасете, нестатзначимо проиграли в SbS. В статье раскрыли детали пайплайна разметки, а датасет выложили на Hugging Face. Там немного, но это честная работа.

Почему это круто

Синтез с невербальными характеристиками нужен для синтеза спонтанного и разговорного стилей речи. NVTTS может быть использован для файнтьюна, а также как стартовая точка для скейла и unsupervised-разметки датасета большего размера.

Дарья Дятлова ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥3

892 views09:04

Speech Info

Interspeech 2025: впечатления инженеров Яндекса

Мы по традиции попросили инженеров Яндекса подвести личные итоги конференции — на этот раз Interspeech 2025 — и рассказать, чем она запомнилась. В карточках собрали заметки, впечатления и самые интересные работы.

Статьи, которые упоминаются в посте:
— Low-Bitrate and Speaker-Decoupled Discrete Speech Codec;
— Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback;
— В статье Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising;
— Adaptive Knowledge Distillation for Device-Directed Speech Detection.

Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.

❤10👍6🔥6

916 views16:50

About

Blog

Apps

Platform