Den4ik Research
1.7K subscribers
60 photos
3 videos
3 files
41 links
HuggingFace: https://huggingface.co/Den4ikAI
GitHub: https://github.com/Den4ikAI
Донат: https://pay.cloudtips.ru/p/b9d86686
Личка: https://xn--r1a.website/bceloss

Канал одного Audio-ресерчера
Download Telegram
Вот так бывает.... Сидишь с другом ночами, пишете код, а потом оказывается, что в чекпоинте нет дискриминатора
🥴17🤡4
Дайте нам 8 H100 на трейн своего кодека))
🥴12👍3🤡3😁2💯1
8🤡3🔥2🐳1
Audio
Запускаю наш с Захаром рисерч по кодекам для ттс. Также первые звуки модели:
😁107🤡4🤣4🔥1🥴1
Forwarded from VF | Science
Думаю уже можно поднять занавес перед своим ресерчем. Мне уже не терпится)

Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь, потому что хочется поехать на "Лето с AIRI", а сегодня последний день для подачи заявки. Буду заполнять proposal research и записывать видосик.

Объясню на скорую руку. Кароч, я делаю метод для обучения моделей, основанных на VQ-VAE, который адаптирует размер кодовой книги для задач генерации и ретривала. Часто модели, которые решают эти задачи на основе VQ-VAE используют кодовую книгу, подобранную для задачи реконструкции, ее не обучают для целевой задачи. Поэтому кодовая книга может быть не совсем подходящей, то есть ее распределение либо слишком простое, либо слишком сложное для целевой задачи, не говоря о том, что оно может просто плохо перекрывать датасет. Я предлагаю метод для динамического обновления размера кодовой книги в процессе обучения, ориентируясь на датасет и целевую задачу. Кодовая книга должна идеально адаптироваться под задачу, модель и данные, полностью раскрывая потенциал модели))

При всем при этом:
*️⃣ кодовая книга будет оставаться замороженной в процессе всего обучения
*️⃣ нам не нужно заново инициализировать кодовую книгу, достаточно использовать предобученную или инициализировать ее 1 раз
*️⃣ латентное пространство модели остается стабильным и не меняется критично в процессе адаптации кодовой книги
*️⃣ упрощается подбор архитектуры и гиперпараметров модели
*️⃣ (скоро проверим на практике) улучшает качество модели в случаях, когда с фиксированной кодовой книгой лосс вышел на плато

Экспов еще будет весьма много. Ожидайте подробностей в скором времени...

#research #carieer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍119❤‍🔥5🤡3
https://youtu.be/NrO20Jb-hy0?si=GtwCAwN77gf8y1zw



Подарите мне постер пж 😮
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19🔥8🤡44
Поеду в Томск с @vf_science
26🎉8🔥4👏33❤‍🔥2👍2
Forwarded from Voice stuff
🚀 Разгоняем open-source-TTS

Сегодня я инвестирую в создание открытого корпуса русской речи!

Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели.

Кто делает датасет?
Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к концу лета.

Что это даёт лично мне?
Я хочу брать свежие модели с Hugging Face и решать прикладные задачи без глубокого ресёрча и бесконечной поддержки собственных пайплайнов. Чем больше открытых данных, тем быстрее это станет реальностью. Тем больше китайцев, которые обучат свои новые XYITTS на русском языке и тем проще мне решать реально важные задачи.

Как помочь уже сейчас?
1. Подпишитесь на канал Дениса @den4ikresearch.
2. Вы можете ему задонатить.
3. Репостните эту новость, чтобы о проекте узнало больше команд.
4. Напишите в комментариях, какие форматы и метаданные вам особенно нужны в корпусе.
5. Публикуйте свои данные и системы!
16
Спасибо Илье и донатерам за поддержку. Теперь некоторые технические детали:


* В датасете будет 2-5к часов аудио (скорее всего больше)
* Формат: mp3, 16bit depth, 44100, 320kbps
* Речь разговорная, но некоторая примесь читающей (книги) тоже будет.
* Разметка eMOS для каждого сэмпла
* Длина сэмплов 1-3 предложения
* Разметка таймстемпов слов (получена через wav2vec2)
* Разметка ударений (обычные слова по словарю, омографы - по аудио)

Я надеюсь, что мне удастся выполнить задуманное. Штош, начнем снова поднимать опенсурс с колен.
1🔥399👏5🤩1
Forwarded from VF | Science
❤️ Секция про ML в музыке на DataFest 2025!

Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.

Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации."
▪️Алексей Попов: "Генерация пения с помощью диффузионных трансформеров."
▪️Иван Разворотнев: "Foundation Audio Models For Music."
▪️Николай Глазырин: "Трейлеры в Яндекс Музыке с точки зрения ML инженера."
▪️Захар Варфоломеев (я): "Автоматическая транскрипция музыки в ноты фортепиано. Часть 2. "

На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!

🔤🔤На карточки про себя места не хватило, интересную мысль с моего доклада расскажу в следующем посте. Идеи применимы не только к моей задаче транскрипции музыки, а в целом к TTS/ASR моделям и не только 😬

#music #audio #perfomances
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥2
AIRI Poster.pdf
2.7 MB
Наш проект на Лето с AIRI 👾

Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект.

Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии):

1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше)
2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :)
3. Планируем сэмплировть новые коды в менее плотных местах распределения + имеет смысл проводить революцию среди насэмплированных кодов


@den4ikresearch
Please open Telegram to view this post
VIEW IN TELEGRAM
15🔥10❤‍🔥6