Interspeech 2025: впечатления инженеров Яндекса
Мы по традиции попросили инженеров Яндекса подвести личные итоги конференции — на этот раз Interspeech 2025 — и рассказать, чем она запомнилась. В карточках собрали заметки, впечатления и самые интересные работы.
Статьи, которые упоминаются в посте:
— Low-Bitrate and Speaker-Decoupled Discrete Speech Codec;
— Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback;
— В статье Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising;
— Adaptive Knowledge Distillation for Device-Directed Speech Detection.
Speech Info
* Компания Meta признана экстремистской; её деятельность в России запрещена.
Мы по традиции попросили инженеров Яндекса подвести личные итоги конференции — на этот раз Interspeech 2025 — и рассказать, чем она запомнилась. В карточках собрали заметки, впечатления и самые интересные работы.
Статьи, которые упоминаются в посте:
— Low-Bitrate and Speaker-Decoupled Discrete Speech Codec;
— Fine-Tuning Text-to-Speech Diffusion Models Using Reinforcement Learning with Human Feedback;
— В статье Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising;
— Adaptive Knowledge Distillation for Device-Directed Speech Detection.
Speech Info
* Компания Meta признана экстремистской; её деятельность в России запрещена.
❤10👍6🔥6
SMARTMOS: Modeling Subjective Audio Quality Evaluation for Real-Time Applications
Сегодня разбираем статью от Meta* о решении SMARTMOS, применяемом в звонках (WhatsApp и др.) для оценки качества звука после шумоподавления и других алгоритмов обработки. В продакшене важно не только понимать общий показатель качества, но и иметь возможность разложить его на составляющие: насколько хорошо слышна речь, насколько повлияли потери пакетов, сколько шума осталось и какую аудиозапись в итоге получает собеседник на свой девайс. Именно такую детализированную оценку даёт SMARTMOS.
Для этой задачи использована небольшая стриминговая нейросеть. Она работает прямо на устройстве и предсказывает скоры для двух задач по 10-секундному сегменту аудио: Noise Suppression (NS) и Packet Loss Concealment (PLC). Внутри Noise Suppression есть разделение по аспектам: Speech MOS, Noise MOS и Overall MOS. Интересно, что архитектура энкодера совпадает с используемой в оффлайн-ASR в умных очках Meta.
Обучение делается на сегментах длиной около 10 секунд. Логика в том, что на длинных кусках качество можно оценить надёжнее, поскольку короткие отрезки в середине разговора могут давать искажённые результаты.
Данные для обучения собираются из тестов реальных приложений — в релизном процессе есть тестировщики, которые записывают аудио по сценариям, эти записи логируются и размечаются людьми. Чтобы компенсировать нехватку данных, авторы использовали не только человеческую разметку (MOS-оценки), но и часть выборки с semi-supervised-метками.
Чтобы модель была достаточно лёгкой для запуска на любых устройствах, применяются оптимизации:
— используется VAD, тишина дропается, чтобы не тратить ресурсы;
— сегменты фиксированы по 10 секунд;
— энкодер принимает куски по 100 мс, обрабатывая их в стримминговом режиме;
— декодер (предиктор) аккумулирует все выходы энкодера и выдаёт одну оценку на весь сегмент.
Такой подход позволяет существенно снизить нагрузку на CPU: пиковая нагрузка распределяется более равномерно по времени.
Meta уже использует это решение в продакшене на всех типах звонков. Подобные решения будут полезны всем, кто делает продукты для звонков. В реальности у нас почти никогда нет простого способа измерить, насколько хорошо работает шумоподавление. Модель вроде SMARTMOS могла бы закрыть этот пробел и дать мониторинг качества прямо в проде.
Борис Шелудько❣ Специально для Speech Info
* Компания Meta, владеющая WhatsApp, признана экстремистской; её деятельность в России запрещена.
Сегодня разбираем статью от Meta* о решении SMARTMOS, применяемом в звонках (WhatsApp и др.) для оценки качества звука после шумоподавления и других алгоритмов обработки. В продакшене важно не только понимать общий показатель качества, но и иметь возможность разложить его на составляющие: насколько хорошо слышна речь, насколько повлияли потери пакетов, сколько шума осталось и какую аудиозапись в итоге получает собеседник на свой девайс. Именно такую детализированную оценку даёт SMARTMOS.
Для этой задачи использована небольшая стриминговая нейросеть. Она работает прямо на устройстве и предсказывает скоры для двух задач по 10-секундному сегменту аудио: Noise Suppression (NS) и Packet Loss Concealment (PLC). Внутри Noise Suppression есть разделение по аспектам: Speech MOS, Noise MOS и Overall MOS. Интересно, что архитектура энкодера совпадает с используемой в оффлайн-ASR в умных очках Meta.
Обучение делается на сегментах длиной около 10 секунд. Логика в том, что на длинных кусках качество можно оценить надёжнее, поскольку короткие отрезки в середине разговора могут давать искажённые результаты.
Данные для обучения собираются из тестов реальных приложений — в релизном процессе есть тестировщики, которые записывают аудио по сценариям, эти записи логируются и размечаются людьми. Чтобы компенсировать нехватку данных, авторы использовали не только человеческую разметку (MOS-оценки), но и часть выборки с semi-supervised-метками.
Чтобы модель была достаточно лёгкой для запуска на любых устройствах, применяются оптимизации:
— используется VAD, тишина дропается, чтобы не тратить ресурсы;
— сегменты фиксированы по 10 секунд;
— энкодер принимает куски по 100 мс, обрабатывая их в стримминговом режиме;
— декодер (предиктор) аккумулирует все выходы энкодера и выдаёт одну оценку на весь сегмент.
Такой подход позволяет существенно снизить нагрузку на CPU: пиковая нагрузка распределяется более равномерно по времени.
Meta уже использует это решение в продакшене на всех типах звонков. Подобные решения будут полезны всем, кто делает продукты для звонков. В реальности у нас почти никогда нет простого способа измерить, насколько хорошо работает шумоподавление. Модель вроде SMARTMOS могла бы закрыть этот пробел и дать мониторинг качества прямо в проде.
Борис Шелудько
* Компания Meta, владеющая WhatsApp, признана экстремистской; её деятельность в России запрещена.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍8🔥4
Работы об аудиокодеках и новых подходах к сжатию речи
Большинство статей на конференции Interspeech традиционно представлены академией. В силу ограниченности ресурсов в них нет результатов обучения на действительно больших датасетах или надёжных асессорских замеров. Поэтому их можно рассматривать скорее в качестве источника идей, чем как решения для продакшна. Сегодня разберём несколько таких работ.
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
Авторы исходят из того, что кодирование в последовательности токенов глобальной, не зависящей от времени информации приводит к её дублированию для каждого таймстемпа и лишней трате capacity. Оптимальнее кодировать только то, что меняется со временем, а остальное передавать отдельно — в виде фиксированного вектора.
В качестве глобальной информации в работе используют тембр голоса спикера. Обучающий сэмпл включает два аудио: таргет и промпт от того же спикера. Перед подачей в энкодер тембр таргета искусственно искажается, а декодеру дополнительно передаются SSL-фичи промпта через position-agnostic cross-attention. Модель учится предсказывать мел-спектрограмму и SSL-семантические токены исходного таргета (до искажения).
В результате выход энкодера не содержит информации о тембре таргета, и декодер учится извлекать её из промпта (а благодаря боттлнеку эта информация не зашивается в токены энкодера). При этом position-agnostic attention предотвращает утечку из промпта остальной, зависящей от времени, информации.
Статья интересна идейно, но использование в качестве глобальной информации только тембра кажется слишком ограничивающим. В списке ссылок приведена работа с ICASSP 2024 с аналогичной мотивацией, но более общим подходом.
Fewer-token Neural Speech Codec with Time-invariant Codes
Архитектура учится end-to-end и состоит из нескольких частей: энкодер и квантайзер для токенов переменной длины; энкодер (с average pooling на последнем слое), квантайзер для фиксированного глобального вектора и совместный декодер.
Чтобы закодировать в глобальном векторе именно не зависящую от времени информацию, добавляется дополнительная компонента лосса. Вычисляется глобальный вектор для другого аудио того же спикера и минимизируется косинусное расстояние между ним (с навешенным stop-gradient) и глобальным вектором таргета.
Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ
Статья содержит две основные идеи.
Мотивация первой: в токенах можно не кодировать информацию о шуме, тем самым объединив задачи кодирования и enhancement и дополнительно сэкономив capacity.
Модель учится в две стадии. На первой кодек просто обучается на чистых данных. На второй — его учат удалять из токенов данные о шуме, то есть получать одинаковые токены для чистого и шумного аудио. Для этого в энкодер добавляют новый denoising-слой, а во время обучения искусственно зашумляют каждое аудио и добавляют к лоссу дополнительную компоненту: L1-расстояние между входом denoising-слоя для чистого аудио и выходом для шумного.
Вторая идея — адаптивный bitrate в зависимости от количества информации, содержащейся в каждом фрейме аудио. Например, фреймы с голосом можно кодировать более детально, чем фреймы с тишиной. Для этого на выходах энкодера обучается предиктор, возвращающий количество первых RVQ-токенов, которые необходимо просуммировать для данного фрейма. К лоссу добавляется дополнительная компонента — суммарное число предсказанных токенов.
Дарья Петренко❣ Специально для Speech Info
Большинство статей на конференции Interspeech традиционно представлены академией. В силу ограниченности ресурсов в них нет результатов обучения на действительно больших датасетах или надёжных асессорских замеров. Поэтому их можно рассматривать скорее в качестве источника идей, чем как решения для продакшна. Сегодня разберём несколько таких работ.
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec
Авторы исходят из того, что кодирование в последовательности токенов глобальной, не зависящей от времени информации приводит к её дублированию для каждого таймстемпа и лишней трате capacity. Оптимальнее кодировать только то, что меняется со временем, а остальное передавать отдельно — в виде фиксированного вектора.
В качестве глобальной информации в работе используют тембр голоса спикера. Обучающий сэмпл включает два аудио: таргет и промпт от того же спикера. Перед подачей в энкодер тембр таргета искусственно искажается, а декодеру дополнительно передаются SSL-фичи промпта через position-agnostic cross-attention. Модель учится предсказывать мел-спектрограмму и SSL-семантические токены исходного таргета (до искажения).
В результате выход энкодера не содержит информации о тембре таргета, и декодер учится извлекать её из промпта (а благодаря боттлнеку эта информация не зашивается в токены энкодера). При этом position-agnostic attention предотвращает утечку из промпта остальной, зависящей от времени, информации.
Статья интересна идейно, но использование в качестве глобальной информации только тембра кажется слишком ограничивающим. В списке ссылок приведена работа с ICASSP 2024 с аналогичной мотивацией, но более общим подходом.
Fewer-token Neural Speech Codec with Time-invariant Codes
Архитектура учится end-to-end и состоит из нескольких частей: энкодер и квантайзер для токенов переменной длины; энкодер (с average pooling на последнем слое), квантайзер для фиксированного глобального вектора и совместный декодер.
Чтобы закодировать в глобальном векторе именно не зависящую от времени информацию, добавляется дополнительная компонента лосса. Вычисляется глобальный вектор для другого аудио того же спикера и минимизируется косинусное расстояние между ним (с навешенным stop-gradient) и глобальным вектором таргета.
Towards Bitrate-Efficient and Noise-Robust Speech Coding with Variable Bitrate RVQ
Статья содержит две основные идеи.
Мотивация первой: в токенах можно не кодировать информацию о шуме, тем самым объединив задачи кодирования и enhancement и дополнительно сэкономив capacity.
Модель учится в две стадии. На первой кодек просто обучается на чистых данных. На второй — его учат удалять из токенов данные о шуме, то есть получать одинаковые токены для чистого и шумного аудио. Для этого в энкодер добавляют новый denoising-слой, а во время обучения искусственно зашумляют каждое аудио и добавляют к лоссу дополнительную компоненту: L1-расстояние между входом denoising-слоя для чистого аудио и выходом для шумного.
Вторая идея — адаптивный bitrate в зависимости от количества информации, содержащейся в каждом фрейме аудио. Например, фреймы с голосом можно кодировать более детально, чем фреймы с тишиной. Для этого на выходах энкодера обучается предиктор, возвращающий количество первых RVQ-токенов, которые необходимо просуммировать для данного фрейма. К лоссу добавляется дополнительная компонента — суммарное число предсказанных токенов.
Дарья Петренко
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥11💯6
Три идеи для улучшения ASR: DuRep, OWSM-Biasing и Pinyin-Guided ASR
Сегодня делимся подборкой трёх свежих работ по архитектурам и подходам в распознавании речи. Все они так или иначе решают задачу повышения устойчивости и адаптивности моделей.
DuRep: Dual-Mode Speech Representation Learning via ASR-Aware Distillation
Команда из Amazon предложила пайплайн для обучения, который включает несколько стадий. Сначала используется BestRQ pretraining, затем проводится full-context fine-tuning — тут ничего нового. Но дальше начинается интересное: авторы предлагают особый тип дистилляции, по сути дополнительный претрейн, после которого уже выполняется финальная настройка.
Под dual-mode здесь понимается не «аудио–текст», как может показаться, а режим, объединяющий стриминг и full-context. У исследователей есть full-context-энкодер, и они хотят получить dual-mode-энкодер, который можно использовать как претрейн. Для этого применяют кодбук и токенизацию, обучаясь с кросс-энтропийной функцией потерь — почти как в обычном претрейне.
Ключевой нюанс — жонглирование масками. Они рандомизируют как левый, так и правый контексты при обучении, что помогает улучшить качество кодирования.
Для стриминга это работает, потому что модель учится с учителем, имеющим полный контекст, и получает больше информации. Для full-context улучшения можно объяснить тем, что дистилляция с варьирующимися масками предотвращает переобучение: датасет у авторов не слишком сложный, и такая регуляризация помогает повысить общую устойчивость модели.
OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary
Основная идея статьи в том, чтобы к seq2seq-модели добавить biasing list, который позволяет учитывать редкие или специфические слова (например, имена собственные). Редкие слова обычно разбиваются на несколько BPE-токенов, что мешает корректному распознаванию. Чтобы избежать этого, каждое слово из biasing list представляется как единый токен — элемент динамического словаря (<Raphael>, <Nelly> и т.д.).
Выходная матрица логитов расширяется за счёт этих слов, что позволяет модели напрямую предсказывать редкие слова как единые токены. Обучаются при этом только эмбеддинги и, по сути, деэмбеддинги.
Нюанс в том, что при генерации декодеру приходится выдавать такие токены, опираясь только на сигнал от biasing encoder. Это необычно, но при хорошем обучении, вероятно, сработает.
Во время тренировки в biasing list случайно добавляют слова из обучающего набора, чтобы модель училась работать с разнообразными словами.
Pinyin-Guided Chinese Speech Recognition with Large Language Model
Пиньинь — это упрощённая запись китайских иероглифов латинскими буквами (иногда с цифрами, обозначающими тоны). По сути, авторы обучают ASR-модель на базе LLM.
Китайские иероглифы могут произноситься по-разному, и здесь возникает дисбаланс: прозвучало одно, записано другое — модель может путаться. Поэтому авторы предлагают ввести промежуточное состояние: сначала модель выдаёт pinyin-токены, которые напрямую отражают произнесённое, а уже потом конвертирует их в целевые токены — сами китайские иероглифы.
Концептуально интересно, что модель фактически делает нечто вроде ризонинга: не выдаёт результат сразу, а проходит через дополнительный слой осмысления.
Идею можно применять и в других задачах: например, в переводе — сначала генерировать промежуточные слова на исходном языке, затем переводить; в музыке — восстанавливать произнесённые названия треков через промежуточное фонетическое представление; аналогично и с англицизмами — сначала фиксировать звучание, потом корректировать форму.
Евгений Ганкович❣ Специально для Speech Info
Сегодня делимся подборкой трёх свежих работ по архитектурам и подходам в распознавании речи. Все они так или иначе решают задачу повышения устойчивости и адаптивности моделей.
DuRep: Dual-Mode Speech Representation Learning via ASR-Aware Distillation
Команда из Amazon предложила пайплайн для обучения, который включает несколько стадий. Сначала используется BestRQ pretraining, затем проводится full-context fine-tuning — тут ничего нового. Но дальше начинается интересное: авторы предлагают особый тип дистилляции, по сути дополнительный претрейн, после которого уже выполняется финальная настройка.
Под dual-mode здесь понимается не «аудио–текст», как может показаться, а режим, объединяющий стриминг и full-context. У исследователей есть full-context-энкодер, и они хотят получить dual-mode-энкодер, который можно использовать как претрейн. Для этого применяют кодбук и токенизацию, обучаясь с кросс-энтропийной функцией потерь — почти как в обычном претрейне.
Ключевой нюанс — жонглирование масками. Они рандомизируют как левый, так и правый контексты при обучении, что помогает улучшить качество кодирования.
Для стриминга это работает, потому что модель учится с учителем, имеющим полный контекст, и получает больше информации. Для full-context улучшения можно объяснить тем, что дистилляция с варьирующимися масками предотвращает переобучение: датасет у авторов не слишком сложный, и такая регуляризация помогает повысить общую устойчивость модели.
OWSM-Biasing: Contextualizing Open Whisper-Style Speech Models for Automatic Speech Recognition with Dynamic Vocabulary
Основная идея статьи в том, чтобы к seq2seq-модели добавить biasing list, который позволяет учитывать редкие или специфические слова (например, имена собственные). Редкие слова обычно разбиваются на несколько BPE-токенов, что мешает корректному распознаванию. Чтобы избежать этого, каждое слово из biasing list представляется как единый токен — элемент динамического словаря (<Raphael>, <Nelly> и т.д.).
Выходная матрица логитов расширяется за счёт этих слов, что позволяет модели напрямую предсказывать редкие слова как единые токены. Обучаются при этом только эмбеддинги и, по сути, деэмбеддинги.
Нюанс в том, что при генерации декодеру приходится выдавать такие токены, опираясь только на сигнал от biasing encoder. Это необычно, но при хорошем обучении, вероятно, сработает.
Во время тренировки в biasing list случайно добавляют слова из обучающего набора, чтобы модель училась работать с разнообразными словами.
Pinyin-Guided Chinese Speech Recognition with Large Language Model
Пиньинь — это упрощённая запись китайских иероглифов латинскими буквами (иногда с цифрами, обозначающими тоны). По сути, авторы обучают ASR-модель на базе LLM.
Китайские иероглифы могут произноситься по-разному, и здесь возникает дисбаланс: прозвучало одно, записано другое — модель может путаться. Поэтому авторы предлагают ввести промежуточное состояние: сначала модель выдаёт pinyin-токены, которые напрямую отражают произнесённое, а уже потом конвертирует их в целевые токены — сами китайские иероглифы.
Концептуально интересно, что модель фактически делает нечто вроде ризонинга: не выдаёт результат сразу, а проходит через дополнительный слой осмысления.
Идею можно применять и в других задачах: например, в переводе — сначала генерировать промежуточные слова на исходном языке, затем переводить; в музыке — восстанавливать произнесённые названия треков через промежуточное фонетическое представление; аналогично и с англицизмами — сначала фиксировать звучание, потом корректировать форму.
Евгений Ганкович
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥5👍4
Qwen3-Omni Technical Report [1/2]
Сегодня начинаем разбирать техрепорт Qwen 3 Omni — самого нового мультимодального Qwen. Авторы заявляют, что модель достигает SOTA-результатов или близких к ним сразу на всех типах данных. Качество не ухудшается ни в одном направлении по сравнению с немультимодальными моделями Qwen. Другими словами, Qwen 3 Omni показывает качество на тексте не хуже, чем текстовая версия Qwen 3 или визуальная Qwen 3-VL, при сопоставимых размерах моделей.
Из интересных нововведений: модель умеет обрабатывать очень длинные входы — до 40 минут. Также она поддерживает большое количество языков: как для взаимодействий текстом (119), так и в задачах speech-understanding (19) или speech-generation (10). В статье отмечается, что улучшен ризонинг независимо от модальности входа, а latency остаётся низкой — всё работает достаточно быстро.
Идейно Qwen 3 Omni очень похож на Qwen 2.5 Omni:
— Используется Thinker-Talker-архитектура. Thinker — языковая модель, которая умеет принимать на вход данные разных модальностей и выдавать текст. Talker принимает выходы Thinker и генерирует аудио. Важное отличие от предыдущего Qwen в том, что теперь Thinker/Talker — это MoE-модели (Mixture of Experts).
— Разные модальности кодируются за счёт соответствующих энкодеров. В Qwen 3 Omni эти энкодеры обновили: для картинок вместо Qwen 2.5 VL используется Qwen 3 VL, а для аудио авторы обучили свой энкодер с нуля.
Одно из основных отличий новой модели от 2.5 Omni заключается в том, как выходы Thinker подаются в Talker. Для изображений и аудио по-прежнему используют хиддены Thinker для соответствующих модальностей, а вот текст теперь передаётся в виде обычных текстовых эмбеддингов. По словам авторов, эмбеддинги уже достаточно хорошо отражают текст, а скрытые состояния избыточны. Такой подход делает систему гибче: можно использовать разные промпты для Thinker и Talker или добавлять дополнительный контекст (например, через RAG), не ухудшая качество.
Как уже упоминалось, в статье используется новый аудиоэнкодер: вместо дообучения Whisper, авторы обучают свою encoder-decoder-модель с нуля. Из интересного в плане архитектуры можно выделить более сильный downsampling factor: 8 вместо 4 (то есть применяется более сжатое представление в аудиомодальности, фреймы по 80 мс вместо 40 мс).
Для обучения под разные задачи использовали 20 млн часов аудио. Из них 80% — задача ASR на китайские и английские псевдолейблы, 10% — задача ASR для других языков и ещё 10% — задача audio understanding. Во время обучения используется window attention с разными размерами окна, чтобы модель могла одинаково хорошо работать и в офлайн-сценариях (с большим контекстом), и в стриминговом режиме (с коротким). После обучения декодер выбрасывается, а энкодер используется для кодирования аудио в самом Qwen 3 Omni.
Основное изменение для видеомодальности заключается в том, как видео подаётся на вход модели. Теперь изображения и аудио чередуются не фиксированными двухсекундными блоками, как раньше, а динамически — в потоке, с гибким соотношением кадров, что делает мультимодальный стриминг более естественным.
В следующей части поговорим о том, как в новой модели поменялась генерация аудио, как проходило предобучение и что авторы говорят о результатах.
Александр Паланевич❣ Специально для Speech Info
Сегодня начинаем разбирать техрепорт Qwen 3 Omni — самого нового мультимодального Qwen. Авторы заявляют, что модель достигает SOTA-результатов или близких к ним сразу на всех типах данных. Качество не ухудшается ни в одном направлении по сравнению с немультимодальными моделями Qwen. Другими словами, Qwen 3 Omni показывает качество на тексте не хуже, чем текстовая версия Qwen 3 или визуальная Qwen 3-VL, при сопоставимых размерах моделей.
Из интересных нововведений: модель умеет обрабатывать очень длинные входы — до 40 минут. Также она поддерживает большое количество языков: как для взаимодействий текстом (119), так и в задачах speech-understanding (19) или speech-generation (10). В статье отмечается, что улучшен ризонинг независимо от модальности входа, а latency остаётся низкой — всё работает достаточно быстро.
Идейно Qwen 3 Omni очень похож на Qwen 2.5 Omni:
— Используется Thinker-Talker-архитектура. Thinker — языковая модель, которая умеет принимать на вход данные разных модальностей и выдавать текст. Talker принимает выходы Thinker и генерирует аудио. Важное отличие от предыдущего Qwen в том, что теперь Thinker/Talker — это MoE-модели (Mixture of Experts).
— Разные модальности кодируются за счёт соответствующих энкодеров. В Qwen 3 Omni эти энкодеры обновили: для картинок вместо Qwen 2.5 VL используется Qwen 3 VL, а для аудио авторы обучили свой энкодер с нуля.
Одно из основных отличий новой модели от 2.5 Omni заключается в том, как выходы Thinker подаются в Talker. Для изображений и аудио по-прежнему используют хиддены Thinker для соответствующих модальностей, а вот текст теперь передаётся в виде обычных текстовых эмбеддингов. По словам авторов, эмбеддинги уже достаточно хорошо отражают текст, а скрытые состояния избыточны. Такой подход делает систему гибче: можно использовать разные промпты для Thinker и Talker или добавлять дополнительный контекст (например, через RAG), не ухудшая качество.
Как уже упоминалось, в статье используется новый аудиоэнкодер: вместо дообучения Whisper, авторы обучают свою encoder-decoder-модель с нуля. Из интересного в плане архитектуры можно выделить более сильный downsampling factor: 8 вместо 4 (то есть применяется более сжатое представление в аудиомодальности, фреймы по 80 мс вместо 40 мс).
Для обучения под разные задачи использовали 20 млн часов аудио. Из них 80% — задача ASR на китайские и английские псевдолейблы, 10% — задача ASR для других языков и ещё 10% — задача audio understanding. Во время обучения используется window attention с разными размерами окна, чтобы модель могла одинаково хорошо работать и в офлайн-сценариях (с большим контекстом), и в стриминговом режиме (с коротким). После обучения декодер выбрасывается, а энкодер используется для кодирования аудио в самом Qwen 3 Omni.
Основное изменение для видеомодальности заключается в том, как видео подаётся на вход модели. Теперь изображения и аудио чередуются не фиксированными двухсекундными блоками, как раньше, а динамически — в потоке, с гибким соотношением кадров, что делает мультимодальный стриминг более естественным.
В следующей части поговорим о том, как в новой модели поменялась генерация аудио, как проходило предобучение и что авторы говорят о результатах.
Александр Паланевич
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤8🔥7
Qwen3-Omni Technical Report [2/2]
Продолжаем разбор техрепорта Qwen3-Omni. В первой части рассказали об архитектурных отличиях от Qwen2.5-Omni.
В генерации аудио также произошли изменения. Помимо Talker, используются ещё две модели: MTP-модуль (авторегрессионная dense-модель размером 80М) и Code2Wav (декодер для кодеков, сверточная модель размером 200М), которые работают с RVQ-токенами (Residual Vector Quantization). Схема работы следующая:
- Поверх Talker есть линейный слой, который предсказывает нулевой кодбук.
- С помощью MTP-модели, вместо того, чтобы предсказывать оставшиеся RVQ-токены последовательно, предсказываются сразу все — по аналогии с multi token prediction (такой подход используется, например, в Deepseek).
- Полученные RVQ-токены подаются в модель Code2Wav, которая преобразует их в вейвформу. Этот подход эффективнее, чем в Qwen2.5-Omni, где использовались трансформерные модели для отображения в мел-спектрограмму и только затем — в вейвформу.
Как и в случае Qwen2.5-Omni, значительная часть статьи уделена тому, как модель стримится. Авторы вновь используют асинхронный prefilling. Как только Thinker заканчивает prefilling для текущего чанка, его выходы отдаются в Talker, чтобы он тоже мог начать prefilling. При этом Thinker уже начинает обрабатывать следующий чанк.
Также исследователи заявляют, что используют только левый контекст для генерации аудио, в отличие от Qwen2.5-Omni, где создавалась задержка из-за того, что необходимо было накопить немного правого контекста.
Как и для Qwen2.5-Omni, предобучение проходит в три этапа:
- На первом замораживается LLM и обучаются только энкодеры и адаптеры для них (Encoder Alignment Stage). Причём начинают именно с адаптеров. В качестве инициализации для LLM используется Qwen3, для энкодера изображений — Qwen3-VL, для энкодера аудио — новый аудиоэнкодер, который обучили ранее.
- На второй стадии все параметры размораживаются, добавляются более разнообразные мультимодальные данные и задачи.
- На третьем этапе увеличивается контекстное окно с 8192 до 32768 токенов, чтобы модель могла обрабатывать длинные входы. Также в данные добавляются более длинные аудио/видео.
Дальше начинается post-training, который разделён для Thinker и Talker.
Для Thinker была только одна стадия — SFT (supervised fine-tuning), теперь добавлены ещё две: дистилляция, которая используется для получения более компактных LLM (по принципу Strong-to-Weak Distillation из Qwen3), и RL (GSPPO) — обучение с подкреплением, где оценивается качество отклика модели. Для задач с чёткими критериями (mathematics, coding) применяются награды, которые вычисляются по заранее заданным правилам. Для остальных задач, где сложно сформулировать чёткую награду, используется подход LLM-as-a-judge, где для оценки ответа модели используются Qwen3 и Qwen2.5-VL.
Для Talker раньше было три стадии, теперь — четыре. Первая — предварительное обучение на большом объёме данных с мультимодальным контекстом; вторая — добавление более качественных данных для борьбы с галлюцинациями после первой стадии; затем DPO (Direct Preference Optimization) и Speaker Fine-Tuning, чтобы Talker научился копировать тембр и интонации во время генерации аудио.
В качестве бонуса исследователи выпустили в опенсорс Qwen3-Omni-30B-A3B-Captioner — модель для решения задачи audio captioning на основе Qwen3-Omni-30B-A3B.
В результатах показано, что модель не теряет в качестве по сравнению с немультимодальными: сильна в ASR (китайский, английский), превосходит в музыкальных задачах, держит SOTA в тексте и визуале и поддерживает межъязыковой voice cloning.
Александр Паланевич❣ Специально для Speech Info
Продолжаем разбор техрепорта Qwen3-Omni. В первой части рассказали об архитектурных отличиях от Qwen2.5-Omni.
В генерации аудио также произошли изменения. Помимо Talker, используются ещё две модели: MTP-модуль (авторегрессионная dense-модель размером 80М) и Code2Wav (декодер для кодеков, сверточная модель размером 200М), которые работают с RVQ-токенами (Residual Vector Quantization). Схема работы следующая:
- Поверх Talker есть линейный слой, который предсказывает нулевой кодбук.
- С помощью MTP-модели, вместо того, чтобы предсказывать оставшиеся RVQ-токены последовательно, предсказываются сразу все — по аналогии с multi token prediction (такой подход используется, например, в Deepseek).
- Полученные RVQ-токены подаются в модель Code2Wav, которая преобразует их в вейвформу. Этот подход эффективнее, чем в Qwen2.5-Omni, где использовались трансформерные модели для отображения в мел-спектрограмму и только затем — в вейвформу.
Как и в случае Qwen2.5-Omni, значительная часть статьи уделена тому, как модель стримится. Авторы вновь используют асинхронный prefilling. Как только Thinker заканчивает prefilling для текущего чанка, его выходы отдаются в Talker, чтобы он тоже мог начать prefilling. При этом Thinker уже начинает обрабатывать следующий чанк.
Также исследователи заявляют, что используют только левый контекст для генерации аудио, в отличие от Qwen2.5-Omni, где создавалась задержка из-за того, что необходимо было накопить немного правого контекста.
Как и для Qwen2.5-Omni, предобучение проходит в три этапа:
- На первом замораживается LLM и обучаются только энкодеры и адаптеры для них (Encoder Alignment Stage). Причём начинают именно с адаптеров. В качестве инициализации для LLM используется Qwen3, для энкодера изображений — Qwen3-VL, для энкодера аудио — новый аудиоэнкодер, который обучили ранее.
- На второй стадии все параметры размораживаются, добавляются более разнообразные мультимодальные данные и задачи.
- На третьем этапе увеличивается контекстное окно с 8192 до 32768 токенов, чтобы модель могла обрабатывать длинные входы. Также в данные добавляются более длинные аудио/видео.
Дальше начинается post-training, который разделён для Thinker и Talker.
Для Thinker была только одна стадия — SFT (supervised fine-tuning), теперь добавлены ещё две: дистилляция, которая используется для получения более компактных LLM (по принципу Strong-to-Weak Distillation из Qwen3), и RL (GSPPO) — обучение с подкреплением, где оценивается качество отклика модели. Для задач с чёткими критериями (mathematics, coding) применяются награды, которые вычисляются по заранее заданным правилам. Для остальных задач, где сложно сформулировать чёткую награду, используется подход LLM-as-a-judge, где для оценки ответа модели используются Qwen3 и Qwen2.5-VL.
Для Talker раньше было три стадии, теперь — четыре. Первая — предварительное обучение на большом объёме данных с мультимодальным контекстом; вторая — добавление более качественных данных для борьбы с галлюцинациями после первой стадии; затем DPO (Direct Preference Optimization) и Speaker Fine-Tuning, чтобы Talker научился копировать тембр и интонации во время генерации аудио.
В качестве бонуса исследователи выпустили в опенсорс Qwen3-Omni-30B-A3B-Captioner — модель для решения задачи audio captioning на основе Qwen3-Omni-30B-A3B.
В результатах показано, что модель не теряет в качестве по сравнению с немультимодальными: сильна в ASR (китайский, английский), превосходит в музыкальных задачах, держит SOTA в тексте и визуале и поддерживает межъязыковой voice cloning.
Александр Паланевич
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤8😎6👏1
Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning
Разбираем статью о Vevo2 — унифицированной модели для генерации контролируемой речи и пения. Цель авторов — создать гибкий механизм независимого управления текстом, просодией (мелодией), стилем (акцентом, эмоциями, вибрато) и тембром для обеих модальностей. В этом посте разберём вклад, который работа вносит в индустрию.
Вклад в данные для пения
Во-первых, авторы решают проблему дефицита аннотированных данных для пения. Предлагаются два аудиотокенизатора (не требующих ручной аннотации для музыкальных данных):
— Prosody Tokenizer (6.25 Гц) — VQ-VAE, обучаемый на реконструкции хромаграммы; кодирует просодию речи, мелодию пения и даже инструментальных звуков.
— Content-Style Tokenizer (12.5 Гц) — VQ-VAE, реконструирующий хромаграмму и скрытые состояния Whisper; кодирует лингвистический контент, просодию и стиль для речи и пения, устойчив к различному тембру, что авторы демонстрируют результатами в Voice Conversion.
Выбор хромаграммы с низкой частотой обусловлен простотой расчёта, устойчивостью к шуму и различным источникам, а также octave-free-представлением (снижает разрыв диапазона F0 между речью и пением).
Архитектура Vevo2 включает два этапа:
1. Авторегрессивное моделирование Content-Style-токенов (AR-трансформер, инициализированный Qwen 2.5 (0,5B):
— На вход принимает текст + (опционально) Prosody-токены + Content-Style токены референса.
— Поддерживает Explicit Prosody Learning (EPL) (просодия как явный ввод) и Implicit Prosody Learning (IPL) (просодия генерируется in-context).
— Во время претрейна стратегии EPL/IPL чередуются равновероятно для всех данных — это унифицирует обучение речи и пения.
2. Акустическое моделирование (Flow-Matching):
— Преобразует Content-Style-токены в мел-спектрограмму, обуславливаясь на референс тембра.
— Финальный waveform — через Vocos-вокодер, дообученный на речь и пение.
Вклад в пострейн (GRPO)
Этот этап нужен для повышения разборчивости речи и просодической схожести с контролирующей последовательностью, а также для обобщения на инструментальные источники мелодии.
Используется сумма двух наград:
— Intelligibility Reward: обучается на контрастив хороших-плохих пар (текст, Content-Style токены). Стратегии EPL/IPL как и на претрейне чередуются равновероятно.
— Prosody Similarity Reward: косинусная близость между хромаграммой ground-truth и реконструкцией (через декодер Content-Style Tokenizer) из сгенерированных Content-Style-токенов.
Унифицированное моделирование даёт взаимные преимущества: обилие речевых данных улучшает качество пения, пение — выразительность и просодический контроль речи. Vevo2 достигает SOTA в SVS, SVC, humming-to-singing, instrument-to-singing и близких к лучшим результатов в TTS/VC.
Дмитрий Попов❣ Специально для Speech Info
Разбираем статью о Vevo2 — унифицированной модели для генерации контролируемой речи и пения. Цель авторов — создать гибкий механизм независимого управления текстом, просодией (мелодией), стилем (акцентом, эмоциями, вибрато) и тембром для обеих модальностей. В этом посте разберём вклад, который работа вносит в индустрию.
Вклад в данные для пения
Во-первых, авторы решают проблему дефицита аннотированных данных для пения. Предлагаются два аудиотокенизатора (не требующих ручной аннотации для музыкальных данных):
— Prosody Tokenizer (6.25 Гц) — VQ-VAE, обучаемый на реконструкции хромаграммы; кодирует просодию речи, мелодию пения и даже инструментальных звуков.
— Content-Style Tokenizer (12.5 Гц) — VQ-VAE, реконструирующий хромаграмму и скрытые состояния Whisper; кодирует лингвистический контент, просодию и стиль для речи и пения, устойчив к различному тембру, что авторы демонстрируют результатами в Voice Conversion.
Выбор хромаграммы с низкой частотой обусловлен простотой расчёта, устойчивостью к шуму и различным источникам, а также octave-free-представлением (снижает разрыв диапазона F0 между речью и пением).
Архитектура Vevo2 включает два этапа:
1. Авторегрессивное моделирование Content-Style-токенов (AR-трансформер, инициализированный Qwen 2.5 (0,5B):
— На вход принимает текст + (опционально) Prosody-токены + Content-Style токены референса.
— Поддерживает Explicit Prosody Learning (EPL) (просодия как явный ввод) и Implicit Prosody Learning (IPL) (просодия генерируется in-context).
— Во время претрейна стратегии EPL/IPL чередуются равновероятно для всех данных — это унифицирует обучение речи и пения.
2. Акустическое моделирование (Flow-Matching):
— Преобразует Content-Style-токены в мел-спектрограмму, обуславливаясь на референс тембра.
— Финальный waveform — через Vocos-вокодер, дообученный на речь и пение.
Вклад в пострейн (GRPO)
Этот этап нужен для повышения разборчивости речи и просодической схожести с контролирующей последовательностью, а также для обобщения на инструментальные источники мелодии.
Используется сумма двух наград:
— Intelligibility Reward: обучается на контрастив хороших-плохих пар (текст, Content-Style токены). Стратегии EPL/IPL как и на претрейне чередуются равновероятно.
— Prosody Similarity Reward: косинусная близость между хромаграммой ground-truth и реконструкцией (через декодер Content-Style Tokenizer) из сгенерированных Content-Style-токенов.
Унифицированное моделирование даёт взаимные преимущества: обилие речевых данных улучшает качество пения, пение — выразительность и просодический контроль речи. Vevo2 достигает SOTA в SVS, SVC, humming-to-singing, instrument-to-singing и близких к лучшим результатов в TTS/VC.
Дмитрий Попов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍7🔥5🤔1
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [1/2]
Сегодня начинаем разбирать статью, представляющую OmniVinci — мультимодальную LLM от Nvidia, сравнимую по качеству с SOTA-моделями на бенчмарках всех модальностей. Главным вкладом своей работы авторы считают не столько численные результаты на бенчмарках, сколько тот факт, что в техрепорте они объясняют все дизайн-решения, связанные с архитектурой модели и сбором данных для тренировки. Одно из таких экспериментально подтвержденных решений — использование в качестве аудиоэнкодера энкодера из Audio Flamingo 3 (альтернативой выступал аудиоэнкодер Qwen2.5). Но особое внимание авторы уделяют трём идеям: OmniAlignNet, Temporal Embedding Grouping и Constrained Rotary Time Embedding — о них и пойдёт речь в посте.
OmniAlignNet
В процессе обучения модели каждое видео разбивается на аудиопоток и поток изображений; при этом семантически эти потоки связаны, так как звук может дополнять картинку (и наоборот). Чтобы аудиоэмбеддинги и эмбеддинги картинок были в одном латентном пространстве, модели и нужен модуль OmniAlignNet.
Общий пайплайн работы модуля выглядит следующим образом:
1) для аудиального и визуального потоков получаем последовательность эмбеддингов;
2) используем эти последовательности как key-value-эмбеддинги для cross attention; смешиваем их с query-эмбеддингом (свой для каждого потока) и получаем для каждого видео два мультимодальных эмбеддинга (audio-omni и visual-omni);
3) мультимодальные эмбеддинги прогоняем через три self-attention-слоя и L2-норму;
4) для батча мультимодальных эмбеддингов максимизируем кросс-модальное расстояние (скалярное прооизведение) для эмбеддингов, соответствующих разным сэмплам, и минимизируем в обратном случае (для эмбеддингов, соответствующих одинаковым сэмплам) — contrastive loss, похожий на то, что было в CLIP (симметричная кросс-энтропия из vision в audio и наоборот).
OmniAlignNet хорошо справляется с моделированием верхнеуровневых семантических связей между аудиальными и визуальными эмбеддингами. При этом для того, чтобы моделировать более низкоуровневые связи, авторы предлагают два вида преобразования эмбеддингов, речь о которых пойдет дальше.
TEG: Temporal Embedding Grouping
Идея TEG в том, что правильное упорядочивание эмбеддингов разных модельностей помогает языковой модели лучше улавливать локальные смысловые зависимости. Гиперпараметр этого метода — размер временного окна T_g, которое контролирует гранулярность группировки эмбеддингов: эмбеддинги делятся на чанки размером T_g; модальности внутри чанков чередуются.
Авторы утверждают, что такая гранулярная конкатенация эмбеддингов улучшает качество модели по сравнению с подходом, где эмбеддинги конкатенируются крупными блоками (блок vision → блок audio → блок vision…).
Constrained Rotary Time Embedding (CRTE)
CRTE — это модификация Rotary Time Embeddings (RoTE, не путать с RoPE), трёхстадийный процесс, состоящий из генерации базовых частот, модификации этих частот и rotary-части, т.е. поворота эмбеддингов.
На этапе генерации базовых частот в CRTE предлагается добавить гиперпараметр T_max — этот множитель добавляется в знаменатель при вычислении базовых частот. Чем меньше T_max, тем больше учитываются близкие друг другу эмбеддинги (и наоборот): w_i = 2π/(T_max·θ^(i/C)).
На этапе модификации базовых частот CRTE продолжает идею RoTE: для определения углов поворота эмбеддингов используются настоящие расстояния в секундах, в отличие от дискретных позиций у RoPE: Ω_{i,j} = ω_i · t_j, где t_j — реальная временная метка.
Авторы проводят ablation study и доказывают, что все предложенные модификации действительно улучшают качество модели на мультимодальных бенчмарках (см. третий скриншот).
В продолжении разбора мы подробнее расскажем, какие ещё эксперименты были проведены авторами статьи, а также о разнице между implicit learning и explicit learning у мультимодальных моделей.
Екатерина Козлова❣ Специально для Speech Info
Сегодня начинаем разбирать статью, представляющую OmniVinci — мультимодальную LLM от Nvidia, сравнимую по качеству с SOTA-моделями на бенчмарках всех модальностей. Главным вкладом своей работы авторы считают не столько численные результаты на бенчмарках, сколько тот факт, что в техрепорте они объясняют все дизайн-решения, связанные с архитектурой модели и сбором данных для тренировки. Одно из таких экспериментально подтвержденных решений — использование в качестве аудиоэнкодера энкодера из Audio Flamingo 3 (альтернативой выступал аудиоэнкодер Qwen2.5). Но особое внимание авторы уделяют трём идеям: OmniAlignNet, Temporal Embedding Grouping и Constrained Rotary Time Embedding — о них и пойдёт речь в посте.
OmniAlignNet
В процессе обучения модели каждое видео разбивается на аудиопоток и поток изображений; при этом семантически эти потоки связаны, так как звук может дополнять картинку (и наоборот). Чтобы аудиоэмбеддинги и эмбеддинги картинок были в одном латентном пространстве, модели и нужен модуль OmniAlignNet.
Общий пайплайн работы модуля выглядит следующим образом:
1) для аудиального и визуального потоков получаем последовательность эмбеддингов;
2) используем эти последовательности как key-value-эмбеддинги для cross attention; смешиваем их с query-эмбеддингом (свой для каждого потока) и получаем для каждого видео два мультимодальных эмбеддинга (audio-omni и visual-omni);
3) мультимодальные эмбеддинги прогоняем через три self-attention-слоя и L2-норму;
4) для батча мультимодальных эмбеддингов максимизируем кросс-модальное расстояние (скалярное прооизведение) для эмбеддингов, соответствующих разным сэмплам, и минимизируем в обратном случае (для эмбеддингов, соответствующих одинаковым сэмплам) — contrastive loss, похожий на то, что было в CLIP (симметричная кросс-энтропия из vision в audio и наоборот).
OmniAlignNet хорошо справляется с моделированием верхнеуровневых семантических связей между аудиальными и визуальными эмбеддингами. При этом для того, чтобы моделировать более низкоуровневые связи, авторы предлагают два вида преобразования эмбеддингов, речь о которых пойдет дальше.
TEG: Temporal Embedding Grouping
Идея TEG в том, что правильное упорядочивание эмбеддингов разных модельностей помогает языковой модели лучше улавливать локальные смысловые зависимости. Гиперпараметр этого метода — размер временного окна T_g, которое контролирует гранулярность группировки эмбеддингов: эмбеддинги делятся на чанки размером T_g; модальности внутри чанков чередуются.
Авторы утверждают, что такая гранулярная конкатенация эмбеддингов улучшает качество модели по сравнению с подходом, где эмбеддинги конкатенируются крупными блоками (блок vision → блок audio → блок vision…).
Constrained Rotary Time Embedding (CRTE)
CRTE — это модификация Rotary Time Embeddings (RoTE, не путать с RoPE), трёхстадийный процесс, состоящий из генерации базовых частот, модификации этих частот и rotary-части, т.е. поворота эмбеддингов.
На этапе генерации базовых частот в CRTE предлагается добавить гиперпараметр T_max — этот множитель добавляется в знаменатель при вычислении базовых частот. Чем меньше T_max, тем больше учитываются близкие друг другу эмбеддинги (и наоборот): w_i = 2π/(T_max·θ^(i/C)).
На этапе модификации базовых частот CRTE продолжает идею RoTE: для определения углов поворота эмбеддингов используются настоящие расстояния в секундах, в отличие от дискретных позиций у RoPE: Ω_{i,j} = ω_i · t_j, где t_j — реальная временная метка.
Авторы проводят ablation study и доказывают, что все предложенные модификации действительно улучшают качество модели на мультимодальных бенчмарках (см. третий скриншот).
В продолжении разбора мы подробнее расскажем, какие ещё эксперименты были проведены авторами статьи, а также о разнице между implicit learning и explicit learning у мультимодальных моделей.
Екатерина Козлова
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥7👏7👍2
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM [2/2]
Во второй части обзора статьи мы подробно поговорим о тренировке модели и разберём разницу между implicit и explicit learning.
Обучение модели
Обучение модели можно разделить на два больших этапа — modality-specific и omni-modal части соответственно, LLM-backbone при этом берётся предобученная (авторы используют Qwen2.5-7B-Instruct).
Обучение vision-модулей состоит из следующих стадий:
- Stage 1: Vision Projector Alignment — учится только vision-проектор, решается задача генерации простых описаний.
- Stage 2: Vision Encoder Alignment — учатся vision-энкодер и vision-проектор.
- Stage 3: Vision Pre-training — core-стадия, vision-энкодер заморожен, цель — finetune vision-проектора и LLM. Используются мультимодальные данные, модель учится интерпретировать и генерировать подписи к картинкам.
- Stage 4: Image Instruction Tuning — finetune модели на задачи vision instruction following: ответы на общие и knowledge-based-вопросы, генерация сложных подписей, logical и vision reasoning, интерпретация документов, обработка диаграмм, etc. Учатся все модули.
- Stage 5: Video Instruction Tuning — финальная стадия, все части модели учатся на задачу понимания видео (распознавание активности (activity recognition); трекинг объекта во времени (по фреймам), time-sensitive QA). Цель — получить у модели способность к temporal reasoning.
После vision-этапа авторы получают «vision preliminary checkpoint» — достаточно хорошо обученные на vision-задачи энкодер, проектор и LLM.
Обучение аудиомодулей делится на две стадии:
- Stage 1: Audio Projector & Encoder Alignment. Параметры LLM и vision-части заморожены, учимся на задачи audio-based QA, captioning, ASR. Цель — обучить проектор аудиопредставлениям, согласованным с семантическим пространством языковой модели.
- Stage 2: Audio Instruction Tuning: параметры LLM не заморожены, LLM учится вместе с аудиоэнкодером и аудиопроектором. Учимся на все те же задачи + на задачу перевода речи; идея стадии в том, что разнообразные аудиальные задачи при обученном проекторе помогут аудиоэнкодеру выучить и низкоуровневые акустические признаки, и высокоуровневые семантические представления.
Omni-Modal Joint Training
Во время мультимодального этапа обучения vision- и аудиоэнкодеры заморожены, учатся все остальные модули (OmniAlignNet, проекторы и LLM). В статье описываются два подхода: implicit и explicit learning. Implicit learning использует существующие датасеты Video QA, где модель неявно учится интегрировать обе модальности, не получая однозначной информации о том, какая часть ответа взята из видеоряда, а какая — из звука. Explicit learning использует синтетические данные, в которых указывается взаимосвязь между модальностями. Главная разработка авторов — data engine, генерирующий отдельные описания для видео и аудио, а затем использующий LLM с ризонингом (Deepseek R1) для создания объединенных подписей, указывающих на то, как визуальная и аудиальная информация дополняют друг друга. Проблема, которую решает этот подход — устранение «modality-specific hallucination» (fig 1). Ключевой вывод мультимодальной стадии: описание видео, основанное на одной модальности, часто неточно; интеграция обеих модальностей критична, и explicit learning эффективно решает эту задачу (fig 2).
Финальная стадия обучения включает RL с использованием GRPO. Важный результат: GRPO на audio-visual-данных сходится быстрее и качественнее, чем на чисто визуальных, что подтверждает ценность мультимодального подхода (fig 3).
Заключение
В статье OmniVinci представлен комплексный подход к созданию мультимодальных языковых моделей, включающий архитектурные инновации и продуманную стратегию обучения с разделением на modality-specific- и omni-modal-этапы. Ключевой вклад — систематическое исследование подходов к мультимодальному обучению. Авторы демонстрируют, что explicit learning с синтетическими данными эффективнее решает проблему modality-specific hallucination и улучшает общее качество модели.
Екатерина Козлова❣ Специально для Speech Info
Во второй части обзора статьи мы подробно поговорим о тренировке модели и разберём разницу между implicit и explicit learning.
Обучение модели
Обучение модели можно разделить на два больших этапа — modality-specific и omni-modal части соответственно, LLM-backbone при этом берётся предобученная (авторы используют Qwen2.5-7B-Instruct).
Обучение vision-модулей состоит из следующих стадий:
- Stage 1: Vision Projector Alignment — учится только vision-проектор, решается задача генерации простых описаний.
- Stage 2: Vision Encoder Alignment — учатся vision-энкодер и vision-проектор.
- Stage 3: Vision Pre-training — core-стадия, vision-энкодер заморожен, цель — finetune vision-проектора и LLM. Используются мультимодальные данные, модель учится интерпретировать и генерировать подписи к картинкам.
- Stage 4: Image Instruction Tuning — finetune модели на задачи vision instruction following: ответы на общие и knowledge-based-вопросы, генерация сложных подписей, logical и vision reasoning, интерпретация документов, обработка диаграмм, etc. Учатся все модули.
- Stage 5: Video Instruction Tuning — финальная стадия, все части модели учатся на задачу понимания видео (распознавание активности (activity recognition); трекинг объекта во времени (по фреймам), time-sensitive QA). Цель — получить у модели способность к temporal reasoning.
После vision-этапа авторы получают «vision preliminary checkpoint» — достаточно хорошо обученные на vision-задачи энкодер, проектор и LLM.
Обучение аудиомодулей делится на две стадии:
- Stage 1: Audio Projector & Encoder Alignment. Параметры LLM и vision-части заморожены, учимся на задачи audio-based QA, captioning, ASR. Цель — обучить проектор аудиопредставлениям, согласованным с семантическим пространством языковой модели.
- Stage 2: Audio Instruction Tuning: параметры LLM не заморожены, LLM учится вместе с аудиоэнкодером и аудиопроектором. Учимся на все те же задачи + на задачу перевода речи; идея стадии в том, что разнообразные аудиальные задачи при обученном проекторе помогут аудиоэнкодеру выучить и низкоуровневые акустические признаки, и высокоуровневые семантические представления.
Omni-Modal Joint Training
Во время мультимодального этапа обучения vision- и аудиоэнкодеры заморожены, учатся все остальные модули (OmniAlignNet, проекторы и LLM). В статье описываются два подхода: implicit и explicit learning. Implicit learning использует существующие датасеты Video QA, где модель неявно учится интегрировать обе модальности, не получая однозначной информации о том, какая часть ответа взята из видеоряда, а какая — из звука. Explicit learning использует синтетические данные, в которых указывается взаимосвязь между модальностями. Главная разработка авторов — data engine, генерирующий отдельные описания для видео и аудио, а затем использующий LLM с ризонингом (Deepseek R1) для создания объединенных подписей, указывающих на то, как визуальная и аудиальная информация дополняют друг друга. Проблема, которую решает этот подход — устранение «modality-specific hallucination» (fig 1). Ключевой вывод мультимодальной стадии: описание видео, основанное на одной модальности, часто неточно; интеграция обеих модальностей критична, и explicit learning эффективно решает эту задачу (fig 2).
Финальная стадия обучения включает RL с использованием GRPO. Важный результат: GRPO на audio-visual-данных сходится быстрее и качественнее, чем на чисто визуальных, что подтверждает ценность мультимодального подхода (fig 3).
Заключение
В статье OmniVinci представлен комплексный подход к созданию мультимодальных языковых моделей, включающий архитектурные инновации и продуманную стратегию обучения с разделением на modality-specific- и omni-modal-этапы. Ключевой вклад — систематическое исследование подходов к мультимодальному обучению. Авторы демонстрируют, что explicit learning с синтетическими данными эффективнее решает проблему modality-specific hallucination и улучшает общее качество модели.
Екатерина Козлова
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍4🔥4