Speech Info

Интересные статьи на Speech Synthesis Workshop 2/2

Разберём ещё две любопытные работы с Speech Synthesis Workshop. Одна посвящена управлению стилем на уровне слов, другая — синтезу речи с невербальными характеристиками.

Lina-Style: Word-Level Style Control in TTS via Interleaved Synthetic Data

Авторы предложили, как из небольшой выборки с разметкой стиля и большого неразмеченного корпуса построить полностью синтетический датасет с локальными (на уровне слова) метками стиля и его интенсивностью, а затем дообучить модель, чтобы она кондишенилась на метки. Для этого они использовали свою предыдущую работу, модель Lina-Speech. Архитектурно это текстовый энкодер и аудиодекодер с Gated Linear Attention (GLA). GLA, кстати, позволяет легко использовать prefix free prompting через initial state-tuning. Этим и воспользовались авторы.

Сначала они взяли претрейн Lina-Speech на неэмоциональной речи. Дотюнили его через initial state-tuning на несколько стилей (neutral, happy, confused, enunciated). Затем синтезировали несколько вариантов одной и той же реплики в разных стилях. Во время синтеза также использовали classifier‑free guidance (CFG), случайно сэмплировали альфа, поэтому насинтезированные аудио получились в разных стилях и с разной их интенсивностью.

Для каждого аудио построили соответствие текста аудиотокенам. Для этого извлекли матрицы soft-алайнмента текста и аудио и превратили их в матрицы hard-алайнмента с помощью Monotonic Alignment Search (MAS). Таким образом получили соответствие токенов аудио отдельным словам. Склеили слова из разных стилей в одно предложение и получили синтетический интерливинг-датасет с word-level-разметкой на стиль.

Осталось затюнить итоговую модель. На этом этапе дообучили базовый претрейн, добавив новые параметры: эмбеддинги стилей, интенсивностей и linear для их комбинации.

Почему это круто

Потому что это — пример сбора синтетического датасета с локальными метками стиля с нуля. В изначальном датасете сэмплов с word-level-разметкой не было. Ну и успешное обучение на синте подтвердило, что метод рабочий. Позалипать на сэмплы можно тут.

NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech

Янднекс тоже привёз свою статью, написанную совместно с коллегами из VK Lab. В ней предложили датасет для синтеза речи с невербальными характеристиками на английском языке и рассказали о пайплайне его сбора. Невербальные характеристики — это смех, вздох, кашель и другие звуки, которые мы издаём в речи и которые не являются словами.

В реальной жизни таких невербальных характеристик много, но разметки для них часто нет. Авторы взяли два опенсорсных датасета — Expresso и VoxCeleb — и сначала с помощью опенсорсных моделей получили грубую разметку по невербальным характеристикам и эмоциям. Затем уточнили результаты с помощью ручной разметки и отфильтровалы шумные сэмплы (например, аудио со смехом, который оказался закадровым). После этого зафьюзили варианты правильных транскрипций от нескольких разметчиков и получили итоговый датасет: 13 часов аудио с 10 типами невербальных характеристик.

Затюнили на своём датасете CosyVocie и сравнились с CosyVoice2, который обучался на проприетарном датасете, нестатзначимо проиграли в SbS. В статье раскрыли детали пайплайна разметки, а датасет выложили на Hugging Face. Там немного, но это честная работа.

Почему это круто

Синтез с невербальными характеристиками нужен для синтеза спонтанного и разговорного стилей речи. NVTTS может быть использован для файнтьюна, а также как стартовая точка для скейла и unsupervised-разметки датасета большего размера.

Дарья Дятлова ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍5🔥3

890 views09:04

Speech Info

Interspeech 2025: впечатления инженеров Яндекса

Мы по традиции попросили инженеров Яндекса подвести личные итоги конференции — на этот раз Interspeech 2025 — и рассказать, чем она запомнилась. В карточках собрали заметки, впечатления и самые интересные работы.

Статьи, которые упоминаются в посте:
— Low-Bitrate and Speaker-Decoupled Discrete Speech Codec;
— Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback;
— В статье Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising;
— Adaptive Knowledge Distillation for Device-Directed Speech Detection.

Speech Info

* Компания Meta признана экстремистской; её деятельность в России запрещена.

❤10👍6🔥6

914 views16:50

Speech Info

SMARTMOS: Modeling Subjective Audio Quality Evaluation for Real-Time Applications

Сегодня разбираем статью от Meta* о решении SMARTMOS, применяемом в звонках (WhatsApp и др.) для оценки качества звука после шумоподавления и других алгоритмов обработки. В продакшене важно не только понимать общий показатель качества, но и иметь возможность разложить его на составляющие: насколько хорошо слышна речь, насколько повлияли потери пакетов, сколько шума осталось и какую аудиозапись в итоге получает собеседник на свой девайс. Именно такую детализированную оценку даёт SMARTMOS.

Для этой задачи использована небольшая стриминговая нейросеть. Она работает прямо на устройстве и предсказывает скоры для двух задач по 10-секундному сегменту аудио: Noise Suppression (NS) и Packet Loss Concealment (PLC). Внутри Noise Suppression есть разделение по аспектам: Speech MOS, Noise MOS и Overall MOS. Интересно, что архитектура энкодера совпадает с используемой в оффлайн-ASR в умных очках Meta.

Обучение делается на сегментах длиной около 10 секунд. Логика в том, что на длинных кусках качество можно оценить надёжнее, поскольку короткие отрезки в середине разговора могут давать искажённые результаты.

Данные для обучения собираются из тестов реальных приложений — в релизном процессе есть тестировщики, которые записывают аудио по сценариям, эти записи логируются и размечаются людьми. Чтобы компенсировать нехватку данных, авторы использовали не только человеческую разметку (MOS-оценки), но и часть выборки с semi-supervised-метками.

Чтобы модель была достаточно лёгкой для запуска на любых устройствах, применяются оптимизации:

— используется VAD, тишина дропается, чтобы не тратить ресурсы;
— сегменты фиксированы по 10 секунд;
— энкодер принимает куски по 100 мс, обрабатывая их в стримминговом режиме;
— декодер (предиктор) аккумулирует все выходы энкодера и выдаёт одну оценку на весь сегмент.

Такой подход позволяет существенно снизить нагрузку на CPU: пиковая нагрузка распределяется более равномерно по времени.

Meta уже использует это решение в продакшене на всех типах звонков. Подобные решения будут полезны всем, кто делает продукты для звонков. В реальности у нас почти никогда нет простого способа измерить, насколько хорошо работает шумоподавление. Модель вроде SMARTMOS могла бы закрыть этот пробел и дать мониторинг качества прямо в проде.

Борис Шелудько ❣ Специально для Speech Info

* Компания Meta, владеющая WhatsApp, признана экстремистской; её деятельность в России запрещена.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍8🔥4

1.08K views12:01

Speech Info

Работы об аудиокодеках и новых подходах к сжатию речи

Большинство статей на конференции Interspeech традиционно представлены академией. В силу ограниченности ресурсов в них нет результатов обучения на действительно больших датасетах или надёжных асессорских замеров. Поэтому их можно рассматривать скорее в качестве источника идей, чем как решения для продакшна. Сегодня разберём несколько таких работ.

LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec

Авторы исходят из того, что кодирование в последовательности токенов глобальной, не зависящей от времени информации приводит к её дублированию для каждого таймстемпа и лишней трате capacity. Оптимальнее кодировать только то, что меняется со временем, а остальное передавать отдельно — в виде фиксированного вектора.

В качестве глобальной информации в работе используют тембр голоса спикера. Обучающий сэмпл включает два аудио: таргет и промпт от того же спикера. Перед подачей в энкодер тембр таргета искусственно искажается, а декодеру дополнительно передаются SSL-фичи промпта через position-agnostic cross-attention. Модель учится предсказывать мел-спектрограмму и SSL-семантические токены исходного таргета (до искажения).

В результате выход энкодера не содержит информации о тембре таргета, и декодер учится извлекать её из промпта (а благодаря боттлнеку эта информация не зашивается в токены энкодера). При этом position-agnostic attention предотвращает утечку из промпта остальной, зависящей от времени, информации.

Статья интересна идейно, но использование в качестве глобальной информации только тембра кажется слишком ограничивающим. В списке ссылок приведена работа с ICASSP 2024 с аналогичной мотивацией, но более общим подходом.

Fewer-token Neural Speech Codec with Time-invariant Codes

Архитектура учится end-to-end и состоит из нескольких частей: энкодер и квантайзер для токенов переменной длины; энкодер (с average pooling на последнем слое), квантайзер для фиксированного глобального вектора и совместный декодер.

Чтобы закодировать в глобальном векторе именно не зависящую от времени информацию, добавляется дополнительная компонента лосса. Вычисляется глобальный вектор для другого аудио того же спикера и минимизируется косинусное расстояние между ним (с навешенным stop-gradient) и глобальным вектором таргета.

Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ

Статья содержит две основные идеи.

Мотивация первой: в токенах можно не кодировать информацию о шуме, тем самым объединив задачи кодирования и enhancement и дополнительно сэкономив capacity.

Модель учится в две стадии. На первой кодек просто обучается на чистых данных. На второй — его учат удалять из токенов данные о шуме, то есть получать одинаковые токены для чистого и шумного аудио. Для этого в энкодер добавляют новый denoising-слой, а во время обучения искусственно зашумляют каждое аудио и добавляют к лоссу дополнительную компоненту: L1-расстояние между входом denoising-слоя для чистого аудио и выходом для шумного.

Вторая идея — адаптивный bitrate в зависимости от количества информации, содержащейся в каждом фрейме аудио. Например, фреймы с голосом можно кодировать более детально, чем фреймы с тишиной. Для этого на выходах энкодера обучается предиктор, возвращающий количество первых RVQ-токенов, которые необходимо просуммировать для данного фрейма. К лоссу добавляется дополнительная компонента — суммарное число предсказанных токенов.

Дарья Петренко ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13🔥11💯6

829 views10:05

Speech Info

Три идеи для улучшения ASR: DuRep, OWSM-Biasing и Pinyin-Guided ASR

Сегодня делимся подборкой трёх свежих работ по архитектурам и подходам в распознавании речи. Все они так или иначе решают задачу повышения устойчивости и адаптивности моделей.

DuRep: Dual-Mode Speech Representation Learning via ASR-Aware Distillation

Команда из Amazon предложила пайплайн для обучения, который включает несколько стадий. Сначала используется BestRQ pretraining, затем проводится full-context fine-tuning — тут ничего нового. Но дальше начинается интересное: авторы предлагают особый тип дистилляции, по сути дополнительный претрейн, после которого уже выполняется финальная настройка.

Под dual-mode здесь понимается не «аудио–текст», как может показаться, а режим, объединяющий стриминг и full-context. У исследователей есть full-context-энкодер, и они хотят получить dual-mode-энкодер, который можно использовать как претрейн. Для этого применяют кодбук и токенизацию, обучаясь с кросс-энтропийной функцией потерь — почти как в обычном претрейне.

Ключевой нюанс — жонглирование масками. Они рандомизируют как левый, так и правый контексты при обучении, что помогает улучшить качество кодирования.

Для стриминга это работает, потому что модель учится с учителем, имеющим полный контекст, и получает больше информации. Для full-context улучшения можно объяснить тем, что дистилляция с варьирующимися масками предотвращает переобучение: датасет у авторов не слишком сложный, и такая регуляризация помогает повысить общую устойчивость модели.

OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary

Основная идея статьи в том, чтобы к seq2seq-модели добавить biasing list, который позволяет учитывать редкие или специфические слова (например, имена собственные). Редкие слова обычно разбиваются на несколько BPE-токенов, что мешает корректному распознаванию. Чтобы избежать этого, каждое слово из biasing list представляется как единый токен — элемент динамического словаря (<Raphael>, <Nelly> и т.д.).

Выходная матрица логитов расширяется за счёт этих слов, что позволяет модели напрямую предсказывать редкие слова как единые токены. Обучаются при этом только эмбеддинги и, по сути, деэмбеддинги.

Нюанс в том, что при генерации декодеру приходится выдавать такие токены, опираясь только на сигнал от biasing encoder. Это необычно, но при хорошем обучении, вероятно, сработает.

Во время тренировки в biasing list случайно добавляют слова из обучающего набора, чтобы модель училась работать с разнообразными словами.

Pinyin-Guided Chinese Speech Recognition with Large Language Model

Пиньинь — это упрощённая запись китайских иероглифов латинскими буквами (иногда с цифрами, обозначающими тоны). По сути, авторы обучают ASR-модель на базе LLM.

Китайские иероглифы могут произноситься по-разному, и здесь возникает дисбаланс: прозвучало одно, записано другое — модель может путаться. Поэтому авторы предлагают ввести промежуточное состояние: сначала модель выдаёт pinyin-токены, которые напрямую отражают произнесённое, а уже потом конвертирует их в целевые токены — сами китайские иероглифы.

Концептуально интересно, что модель фактически делает нечто вроде ризонинга: не выдаёт результат сразу, а проходит через дополнительный слой осмысления.

Идею можно применять и в других задачах: например, в переводе — сначала генерировать промежуточные слова на исходном языке, затем переводить; в музыке — восстанавливать произнесённые названия треков через промежуточное фонетическое представление; аналогично и с англицизмами — сначала фиксировать звучание, потом корректировать форму.

Евгений Ганкович ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10🔥5👍4

1.37K views12:32

Speech Info

Qwen3-Omni Technical Report [1/2]

Сегодня начинаем разбирать техрепорт Qwen 3 Omni — самого нового мультимодального Qwen. Авторы заявляют, что модель достигает SOTA-результатов или близких к ним сразу на всех типах данных. Качество не ухудшается ни в одном направлении по сравнению с немультимодальными моделями Qwen. Другими словами, Qwen 3 Omni показывает качество на тексте не хуже, чем текстовая версия Qwen 3 или визуальная Qwen 3-VL, при сопоставимых размерах моделей.

Из интересных нововведений: модель умеет обрабатывать очень длинные входы — до 40 минут. Также она поддерживает большое количество языков: как для взаимодействий текстом (119), так и в задачах speech-understanding (19) или speech-generation (10). В статье отмечается, что улучшен ризонинг независимо от модальности входа, а latency остаётся низкой — всё работает достаточно быстро.

Идейно Qwen 3 Omni очень похож на Qwen 2.5 Omni:

— Используется Thinker-Talker-архитектура. Thinker — языковая модель, которая умеет принимать на вход данные разных модальностей и выдавать текст. Talker принимает выходы Thinker и генерирует аудио. Важное отличие от предыдущего Qwen в том, что теперь Thinker/Talker — это MoE-модели (Mixture of Experts).

— Разные модальности кодируются за счёт соответствующих энкодеров. В Qwen 3 Omni эти энкодеры обновили: для картинок вместо Qwen 2.5 VL используется Qwen 3 VL, а для аудио авторы обучили свой энкодер с нуля.

Одно из основных отличий новой модели от 2.5 Omni заключается в том, как выходы Thinker подаются в Talker. Для изображений и аудио по-прежнему используют хиддены Thinker для соответствующих модальностей, а вот текст теперь передаётся в виде обычных текстовых эмбеддингов. По словам авторов, эмбеддинги уже достаточно хорошо отражают текст, а скрытые состояния избыточны. Такой подход делает систему гибче: можно использовать разные промпты для Thinker и Talker или добавлять дополнительный контекст (например, через RAG), не ухудшая качество.

Как уже упоминалось, в статье используется новый аудиоэнкодер: вместо дообучения Whisper, авторы обучают свою encoder-decoder-модель с нуля. Из интересного в плане архитектуры можно выделить более сильный downsampling factor: 8 вместо 4 (то есть применяется более сжатое представление в аудиомодальности, фреймы по 80 мс вместо 40 мс).

Для обучения под разные задачи использовали 20 млн часов аудио. Из них 80% — задача ASR на китайские и английские псевдолейблы, 10% — задача ASR для других языков и ещё 10% — задача audio understanding. Во время обучения используется window attention с разными размерами окна, чтобы модель могла одинаково хорошо работать и в офлайн-сценариях (с большим контекстом), и в стриминговом режиме (с коротким). После обучения декодер выбрасывается, а энкодер используется для кодирования аудио в самом Qwen 3 Omni.

Основное изменение для видеомодальности заключается в том, как видео подаётся на вход модели. Теперь изображения и аудио чередуются не фиксированными двухсекундными блоками, как раньше, а динамически — в потоке, с гибким соотношением кадров, что делает мультимодальный стриминг более естественным.

В следующей части поговорим о том, как в новой модели поменялась генерация аудио, как проходило предобучение и что авторы говорят о результатах.

Александр Паланевич ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤8🔥7

1.01K views12:18

Speech Info

Qwen3-Omni Technical Report [2/2]

Продолжаем разбор техрепорта Qwen3-Omni. В первой части рассказали об архитектурных отличиях от Qwen2.5-Omni.

В генерации аудио также произошли изменения. Помимо Talker, используются ещё две модели: MTP-модуль (авторегрессионная dense-модель размером 80М) и Code2Wav (декодер для кодеков, сверточная модель размером 200М), которые работают с RVQ-токенами (Residual Vector Quantization). Схема работы следующая:

- Поверх Talker есть линейный слой, который предсказывает нулевой кодбук.
- С помощью MTP-модели, вместо того, чтобы предсказывать оставшиеся RVQ-токены последовательно, предсказываются сразу все — по аналогии с multi token prediction (такой подход используется, например, в Deepseek).
- Полученные RVQ-токены подаются в модель Code2Wav, которая преобразует их в вейвформу. Этот подход эффективнее, чем в Qwen2.5-Omni, где использовались трансформерные модели для отображения в мел-спектрограмму и только затем — в вейвформу.

Как и в случае Qwen2.5-Omni, значительная часть статьи уделена тому, как модель стримится. Авторы вновь используют асинхронный prefilling. Как только Thinker заканчивает prefilling для текущего чанка, его выходы отдаются в Talker, чтобы он тоже мог начать prefilling. При этом Thinker уже начинает обрабатывать следующий чанк.

Также исследователи заявляют, что используют только левый контекст для генерации аудио, в отличие от Qwen2.5-Omni, где создавалась задержка из-за того, что необходимо было накопить немного правого контекста.

Как и для Qwen2.5-Omni, предобучение проходит в три этапа:

- На первом замораживается LLM и обучаются только энкодеры и адаптеры для них (Encoder Alignment Stage). Причём начинают именно с адаптеров. В качестве инициализации для LLM используется Qwen3, для энкодера изображений — Qwen3-VL, для энкодера аудио — новый аудиоэнкодер, который обучили ранее.
- На второй стадии все параметры размораживаются, добавляются более разнообразные мультимодальные данные и задачи.
- На третьем этапе увеличивается контекстное окно с 8192 до 32768 токенов, чтобы модель могла обрабатывать длинные входы. Также в данные добавляются более длинные аудио/видео.

Дальше начинается post-training, который разделён для Thinker и Talker.

Для Thinker была только одна стадия — SFT (supervised fine-tuning), теперь добавлены ещё две: дистилляция, которая используется для получения более компактных LLM (по принципу Strong-to-Weak Distillation из Qwen3), и RL (GSPPO) — обучение с подкреплением, где оценивается качество отклика модели. Для задач с чёткими критериями (mathematics, coding) применяются награды, которые вычисляются по заранее заданным правилам. Для остальных задач, где сложно сформулировать чёткую награду, используется подход LLM-as-a-judge, где для оценки ответа модели используются Qwen3 и Qwen2.5-VL.

Для Talker раньше было три стадии, теперь — четыре. Первая — предварительное обучение на большом объёме данных с мультимодальным контекстом; вторая — добавление более качественных данных для борьбы с галлюцинациями после первой стадии; затем DPO (Direct Preference Optimization) и Speaker Fine-Tuning, чтобы Talker научился копировать тембр и интонации во время генерации аудио.

В качестве бонуса исследователи выпустили в опенсорс Qwen3-Omni-30B-A3B-Captioner — модель для решения задачи audio captioning на основе Qwen3-Omni-30B-A3B.

В результатах показано, что модель не теряет в качестве по сравнению с немультимодальными: сильна в ASR (китайский, английский), превосходит в музыкальных задачах, держит SOTA в тексте и визуале и поддерживает межъязыковой voice cloning.

Александр Паланевич ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤8😎6👏1

992 viewsedited 12:20

Speech Info

Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning

Разбираем статью о Vevo2 — унифицированной модели для генерации контролируемой речи и пения. Цель авторов — создать гибкий механизм независимого управления текстом, просодией (мелодией), стилем (акцентом, эмоциями, вибрато) и тембром для обеих модальностей. В этом посте разберём вклад, который работа вносит в индустрию.

Вклад в данные для пения

Во-первых, авторы решают проблему дефицита аннотированных данных для пения. Предлагаются два аудиотокенизатора (не требующих ручной аннотации для музыкальных данных):

— Prosody Tokenizer (6.25 Гц) — VQ-VAE, обучаемый на реконструкции хромаграммы; кодирует просодию речи, мелодию пения и даже инструментальных звуков.
— Content-Style Tokenizer (12.5 Гц) — VQ-VAE, реконструирующий хромаграмму и скрытые состояния Whisper; кодирует лингвистический контент, просодию и стиль для речи и пения, устойчив к различному тембру, что авторы демонстрируют результатами в Voice Conversion.

Выбор хромаграммы с низкой частотой обусловлен простотой расчёта, устойчивостью к шуму и различным источникам, а также octave-free-представлением (снижает разрыв диапазона F0 между речью и пением).

Архитектура Vevo2 включает два этапа:

1. Авторегрессивное моделирование Content-Style-токенов (AR-трансформер, инициализированный Qwen 2.5 (0,5B):

— На вход принимает текст + (опционально) Prosody-токены + Content-Style токены референса.
— Поддерживает Explicit Prosody Learning (EPL) (просодия как явный ввод) и Implicit Prosody Learning (IPL) (просодия генерируется in-context).
— Во время претрейна стратегии EPL/IPL чередуются равновероятно для всех данных — это унифицирует обучение речи и пения.

2. Акустическое моделирование (Flow-Matching):
— Преобразует Content-Style-токены в мел-спектрограмму, обуславливаясь на референс тембра.
— Финальный waveform — через Vocos-вокодер, дообученный на речь и пение.

Вклад в пострейн (GRPO)

Этот этап нужен для повышения разборчивости речи и просодической схожести с контролирующей последовательностью, а также для обобщения на инструментальные источники мелодии.

Используется сумма двух наград:
— Intelligibility Reward: обучается на контрастив хороших-плохих пар (текст, Content-Style токены). Стратегии EPL/IPL как и на претрейне чередуются равновероятно.
— Prosody Similarity Reward: косинусная близость между хромаграммой ground-truth и реконструкцией (через декодер Content-Style Tokenizer) из сгенерированных Content-Style-токенов.

Унифицированное моделирование даёт взаимные преимущества: обилие речевых данных улучшает качество пения, пение — выразительность и просодический контроль речи. Vevo2 достигает SOTA в SVS, SVC, humming-to-singing, instrument-to-singing и близких к лучшим результатов в TTS/VC.

Дмитрий Попов ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍7🔥5🤔1

1.35K views11:07

Speech Info

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [1/2]

Сегодня начинаем разбирать статью, представляющую OmniVinci — мультимодальную LLM от Nvidia, сравнимую по качеству с SOTA-моделями на бенчмарках всех модальностей. Главным вкладом своей работы авторы считают не столько численные результаты на бенчмарках, сколько тот факт, что в техрепорте они объясняют все дизайн-решения, связанные с архитектурой модели и сбором данных для тренировки. Одно из таких экспериментально подтвержденных решений — использование в качестве аудиоэнкодера энкодера из Audio Flamingo 3 (альтернативой выступал аудиоэнкодер Qwen2.5). Но особое внимание авторы уделяют трём идеям: OmniAlignNet, Temporal Embedding Grouping и Constrained Rotary Time Embedding — о них и пойдёт речь в посте.

OmniAlignNet

В процессе обучения модели каждое видео разбивается на аудиопоток и поток изображений; при этом семантически эти потоки связаны, так как звук может дополнять картинку (и наоборот). Чтобы аудиоэмбеддинги и эмбеддинги картинок были в одном латентном пространстве, модели и нужен модуль OmniAlignNet.

Общий пайплайн работы модуля выглядит следующим образом:

1) для аудиального и визуального потоков получаем последовательность эмбеддингов;

2) используем эти последовательности как key-value-эмбеддинги для cross attention; смешиваем их с query-эмбеддингом (свой для каждого потока) и получаем для каждого видео два мультимодальных эмбеддинга (audio-omni и visual-omni);

3) мультимодальные эмбеддинги прогоняем через три self-attention-слоя и L2-норму;

4) для батча мультимодальных эмбеддингов максимизируем кросс-модальное расстояние (скалярное прооизведение) для эмбеддингов, соответствующих разным сэмплам, и минимизируем в обратном случае (для эмбеддингов, соответствующих одинаковым сэмплам) — contrastive loss, похожий на то, что было в CLIP (симметричная кросс-энтропия из vision в audio и наоборот).

OmniAlignNet хорошо справляется с моделированием верхнеуровневых семантических связей между аудиальными и визуальными эмбеддингами. При этом для того, чтобы моделировать более низкоуровневые связи, авторы предлагают два вида преобразования эмбеддингов, речь о которых пойдет дальше.

TEG: Temporal Embedding Grouping

Идея TEG в том, что правильное упорядочивание эмбеддингов разных модельностей помогает языковой модели лучше улавливать локальные смысловые зависимости. Гиперпараметр этого метода — размер временного окна T_g, которое контролирует гранулярность группировки эмбеддингов: эмбеддинги делятся на чанки размером T_g; модальности внутри чанков чередуются.

Авторы утверждают, что такая гранулярная конкатенация эмбеддингов улучшает качество модели по сравнению с подходом, где эмбеддинги конкатенируются крупными блоками (блок vision → блок audio → блок vision…).

Constrained Rotary Time Embedding (CRTE)

CRTE — это модификация Rotary Time Embeddings (RoTE, не путать с RoPE), трёхстадийный процесс, состоящий из генерации базовых частот, модификации этих частот и rotary-части, т.е. поворота эмбеддингов.

На этапе генерации базовых частот в CRTE предлагается добавить гиперпараметр T_max — этот множитель добавляется в знаменатель при вычислении базовых частот. Чем меньше T_max, тем больше учитываются близкие друг другу эмбеддинги (и наоборот): w_i = 2π/(T_max·θ^(i/C)).

На этапе модификации базовых частот CRTE продолжает идею RoTE: для определения углов поворота эмбеддингов используются настоящие расстояния в секундах, в отличие от дискретных позиций у RoPE: Ω_{i,j} = ω_i · t_j, где t_j — реальная временная метка.

Авторы проводят ablation study и доказывают, что все предложенные модификации действительно улучшают качество модели на мультимодальных бенчмарках (см. третий скриншот).

В продолжении разбора мы подробнее расскажем, какие ещё эксперименты были проведены авторами статьи, а также о разнице между implicit learning и explicit learning у мультимодальных моделей.

Екатерина Козлова ❣ Специально для Speech Info

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14🔥7👏7👍2

1.03K views10:19

About

Blog

Apps

Platform