Den4ik Research

https://youtu.be/NrO20Jb-hy0?si=GtwCAwN77gf8y1zw

Подарите мне постер пж 😮

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19🔥8🤡44

3.34K views16:01

Den4ik Research

Поеду в Томск с @vf_science

❤26🎉8🔥4👏33❤‍🔥2👍2

2.89K views05:32

Den4ik Research

Forwarded from Voice stuff

🚀 Разгоняем open-source-TTS

Сегодня я инвестирую в создание открытого корпуса русской речи!

Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели.

Кто делает датасет?
Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к концу лета.

Что это даёт лично мне?
Я хочу брать свежие модели с Hugging Face и решать прикладные задачи без глубокого ресёрча и бесконечной поддержки собственных пайплайнов. Чем больше открытых данных, тем быстрее это станет реальностью. Тем больше китайцев, которые обучат свои новые XYITTS на русском языке и тем проще мне решать реально важные задачи.

Как помочь уже сейчас?
1. Подпишитесь на канал Дениса @den4ikresearch.
2. Вы можете ему задонатить.
3. Репостните эту новость, чтобы о проекте узнало больше команд.
4. Напишите в комментариях, какие форматы и метаданные вам особенно нужны в корпусе.
5. Публикуйте свои данные и системы!

CloudTips

CloudTips – чаевые и донаты картой моментально

Сервис для приема безналичных чаевых и донатов CloudTips

❤16

2.76K views15:43

Den4ik Research

Спасибо Илье и донатерам за поддержку. Теперь некоторые технические детали:

* В датасете будет 2-5к часов аудио (скорее всего больше)
* Формат: mp3, 16bit depth, 44100, 320kbps
* Речь разговорная, но некоторая примесь читающей (книги) тоже будет.
* Разметка eMOS для каждого сэмпла
* Длина сэмплов 1-3 предложения
* Разметка таймстемпов слов (получена через wav2vec2)
* Разметка ударений (обычные слова по словарю, омографы - по аудио)

Я надеюсь, что мне удастся выполнить задуманное. Штош, начнем снова поднимать опенсурс с колен.

Voice stuff

🚀 Разгоняем open-source-TTS

Сегодня я инвестирую в создание открытого корпуса русской речи!

Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов.…

1🔥39❤9👏5🤩1

5.84K viewsedited 15:44

Den4ik Research

Forwarded from VF | Science

❤️ Секция про ML в музыке на DataFest 2025!

Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.

Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации."

▪️

Алексей Попов: "Генерация пения с помощью диффузионных трансформеров."
▪️Иван Разворотнев: "Foundation Audio Models For Music."
▪️Николай Глазырин: "Трейлеры в Яндекс Музыке с точки зрения ML инженера."

▪️

Захар Варфоломеев (я): "Автоматическая транскрипция музыки в ноты фортепиано. Часть 2. "

На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!

🔤

🔤На карточки про себя места не хватило, интересную мысль с моего доклада расскажу в следующем посте. Идеи применимы не только к моей задаче транскрипции музыки, а в целом к TTS/ASR моделям и не только 😬

#music #audio #perfomances

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤12🔥2

5.1K views15:58

Den4ik Research

AIRI Poster.pdf

2.7 MB

Наш проект на Лето с AIRI 👾

Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект.

Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии):

1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше)
2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :)
3. Планируем сэмплировть новые коды в менее плотных местах распределения + имеет смысл проводить революцию среди насэмплированных кодов

@den4ikresearch

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15🔥10❤‍🔥6

6.6K viewsedited 10:20

Den4ik Research

Audio

Stay tuned!

11🔥194❤3

4.43K views15:43

Den4ik Research

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Техрепорт датасета доступен тут: https://github.com/Den4ikAI/ESpeech/blob/main/ESpeech_techreport.pdf

Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://xn--r1a.website/den4ikresearch
https://xn--r1a.website/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx

191🔥144❤‍🔥31👏20❤127🤡5👍2👎1💩1🌚1

50.8K views16:55

Den4ik Research

Forwarded from VF | Science

👀 Про аудио кодеки в Deep Learning School

Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :)

На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в современных исследованиях, разобрали конкретные примеры актуальных аудиокодеков и подумали, как можно объединить существующие подходы для обучения собственного кодека, потенциально превосходящего текущие решения. В завершение поговорили о практических рекомендациях по обучению кодеков и дополнительной литературе по теме.

Лекцию сделал без глубокого погружения в конкретные работы, зато мы обсудили гораздо больше других мыслей и сохранили интуицию по самым важным идеям и проблемам VQ-VAE моделей. Хотелось сделать лецию с упором на актуальные идеи и дать ровно столько, чтобы вы могли решить, куда стоит углубиться самостоятельно, имея фундамент заложенный после просмотра. Пишите возникающие вопросы в чат курса DLS или мне @varfolomeefff

Предлагаю посмотреть и поделиться мнением под постом. Давно я длинные лекции не читал.

На днях выделю особенно интересные тезисы из лекции в канал и обсужу их. Интуиция на леции правда животрепещущая и есть, о чем поспорить/подумать.

Часть 1: https://youtu.be/4mVfb-mhv9k?si=k9Q2wgtsA1h2DcP0

Часть 2: https://youtu.be/kOS6qHc6K2g?si=Po-jHSLwpeO5LmkZ

#audio #perfomances

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Лекция. Аудио кодеки. Часть 1

Занятие ведёт Захар Варфоломеев

Ссылка на материалы занятия:

---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре…

1🔥15❤7🥰5👍2

3.26K views13:44

Den4ik Research

Forwarded from VF | Science

Колаб для семинара, в котором мы обучим поверх кодов Mimi кодека классификатор голосов на мужской и женский 😄

Используем 8 кодбуков, обучаем 8 трансформер-энкодеров, делаем темпоральный пулинг по токенам, а затем атеншн пулинг между энкодерами. Потом обычный классификатор. Из прикольного - визуализация атеншна на разные уровни RVQ.

Научились работать с RVQ и в качестве упражнения можете посчитать разные статистики для кодовых книг, например perpexity (покажет насколько равномерно используются коды) или утилизацию кодов на разных уровнях/на первом. Или попробовать другую простенькую задачу и посмотреть как интерпретируются уровни RVQ, вероятно на разных уровнях содержится разная семантика/смысл.

https://colab.research.google.com/drive/1L6sTCrpdxybkSOOrc4G2E4AuRnQLWZQj#scrollTo=cHGzcgj8oRVi

Google

Copy of Копия блокнота

Colab notebook

6🔥13❤5

3.7K views16:33

About

Blog

Apps

Platform