Forwarded from VF | Science
Думаю уже можно поднять занавес перед своим ресерчем. Мне уже не терпится)
Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь, потому что хочется поехать на "Лето с AIRI", а сегодня последний день для подачи заявки. Буду заполнять proposal research и записывать видосик.
Объясню на скорую руку. Кароч, я делаю метод для обучения моделей, основанных на VQ-VAE, который адаптирует размер кодовой книги для задач генерации и ретривала. Часто модели, которые решают эти задачи на основе VQ-VAE используют кодовую книгу, подобранную для задачи реконструкции, ее не обучают для целевой задачи. Поэтому кодовая книга может быть не совсем подходящей, то есть ее распределение либо слишком простое, либо слишком сложное для целевой задачи, не говоря о том, что оно может просто плохо перекрывать датасет. Я предлагаю метод для динамического обновления размера кодовой книги в процессе обучения, ориентируясь на датасет и целевую задачу. Кодовая книга должна идеально адаптироваться под задачу, модель и данные, полностью раскрывая потенциал модели))
При всем при этом:
*️⃣ кодовая книга будет оставаться замороженной в процессе всего обучения
*️⃣ нам не нужно заново инициализировать кодовую книгу, достаточно использовать предобученную или инициализировать ее 1 раз
*️⃣ латентное пространство модели остается стабильным и не меняется критично в процессе адаптации кодовой книги
*️⃣ упрощается подбор архитектуры и гиперпараметров модели
*️⃣ (скоро проверим на практике) улучшает качество модели в случаях, когда с фиксированной кодовой книгой лосс вышел на плато
Экспов еще будет весьма много. Ожидайте подробностей в скором времени...
#research #carieer
Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь, потому что хочется поехать на "Лето с AIRI", а сегодня последний день для подачи заявки. Буду заполнять proposal research и записывать видосик.
Объясню на скорую руку. Кароч, я делаю метод для обучения моделей, основанных на VQ-VAE, который адаптирует размер кодовой книги для задач генерации и ретривала. Часто модели, которые решают эти задачи на основе VQ-VAE используют кодовую книгу, подобранную для задачи реконструкции, ее не обучают для целевой задачи. Поэтому кодовая книга может быть не совсем подходящей, то есть ее распределение либо слишком простое, либо слишком сложное для целевой задачи, не говоря о том, что оно может просто плохо перекрывать датасет. Я предлагаю метод для динамического обновления размера кодовой книги в процессе обучения, ориентируясь на датасет и целевую задачу. Кодовая книга должна идеально адаптироваться под задачу, модель и данные, полностью раскрывая потенциал модели))
При всем при этом:
Экспов еще будет весьма много. Ожидайте подробностей в скором времени...
#research #carieer
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Институт AIRI
До закрытия приёма заявок на школу по искусственному интеллекту «Лето с AIRI» в ТГУ — всего 4 дня!
Все лекции и семинары прошлого года доступны в VK Видео — загляните, чтобы почувствовать атмосферу Школы и вдохновиться на участие.
Подавайте заявки по ссылке…
Все лекции и семинары прошлого года доступны в VK Видео — загляните, чтобы почувствовать атмосферу Школы и вдохновиться на участие.
Подавайте заявки по ссылке…
👍11 9❤🔥5🤡3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥8🤡4 4
Forwarded from Voice stuff
🚀 Разгоняем open-source-TTS
Сегодня я инвестирую в создание открытого корпуса русской речи!
Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели.
Кто делает датасет?
Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к концу лета.
Что это даёт лично мне?
Я хочу брать свежие модели с Hugging Face и решать прикладные задачи без глубокого ресёрча и бесконечной поддержки собственных пайплайнов. Чем больше открытых данных, тем быстрее это станет реальностью. Тем больше китайцев, которые обучат свои новые XYITTS на русском языке и тем проще мне решать реально важные задачи.
Как помочь уже сейчас?
1. Подпишитесь на канал Дениса @den4ikresearch.
2. Вы можете ему задонатить.
3. Репостните эту новость, чтобы о проекте узнало больше команд.
4. Напишите в комментариях, какие форматы и метаданные вам особенно нужны в корпусе.
5. Публикуйте свои данные и системы!
Сегодня я инвестирую в создание открытого корпуса русской речи!
Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов. Без данных сложно быстро тестировать идеи и выпускать новые модели.
Кто делает датасет?
Знакомый вам Денис @bceloss, уже собирает нужные данные. Грант позволит ему работать над проектом фул-тайм и выложить результат в открытый доступ уже к концу лета.
Что это даёт лично мне?
Я хочу брать свежие модели с Hugging Face и решать прикладные задачи без глубокого ресёрча и бесконечной поддержки собственных пайплайнов. Чем больше открытых данных, тем быстрее это станет реальностью. Тем больше китайцев, которые обучат свои новые XYITTS на русском языке и тем проще мне решать реально важные задачи.
Как помочь уже сейчас?
1. Подпишитесь на канал Дениса @den4ikresearch.
2. Вы можете ему задонатить.
3. Репостните эту новость, чтобы о проекте узнало больше команд.
4. Напишите в комментариях, какие форматы и метаданные вам особенно нужны в корпусе.
5. Публикуйте свои данные и системы!
CloudTips
CloudTips – чаевые и донаты картой моментально
Сервис для приема безналичных чаевых и донатов CloudTips
❤16
Спасибо Илье и донатерам за поддержку. Теперь некоторые технические детали:
* В датасете будет 2-5к часов аудио (скорее всего больше)
* Формат: mp3, 16bit depth, 44100, 320kbps
* Речь разговорная, но некоторая примесь читающей (книги) тоже будет.
* Разметка eMOS для каждого сэмпла
* Длина сэмплов 1-3 предложения
* Разметка таймстемпов слов (получена через wav2vec2)
* Разметка ударений (обычные слова по словарю, омографы - по аудио)
Я надеюсь, что мне удастся выполнить задуманное. Штош, начнем снова поднимать опенсурс с колен.
* В датасете будет 2-5к часов аудио (скорее всего больше)
* Формат: mp3, 16bit depth, 44100, 320kbps
* Речь разговорная, но некоторая примесь читающей (книги) тоже будет.
* Разметка eMOS для каждого сэмпла
* Длина сэмплов 1-3 предложения
* Разметка таймстемпов слов (получена через wav2vec2)
* Разметка ударений (обычные слова по словарю, омографы - по аудио)
Я надеюсь, что мне удастся выполнить задуманное. Штош, начнем снова поднимать опенсурс с колен.
Telegram
Voice stuff
🚀 Разгоняем open-source-TTS
Сегодня я инвестирую в создание открытого корпуса русской речи!
Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов.…
Сегодня я инвестирую в создание открытого корпуса русской речи!
Почему это важно?
Русские TTS-модели отстают от мирового уровня примерно на два года. Главная причина - это нехватка крупных, качественных и общедоступных датасетов.…
1🔥39❤9👏5🤩1
Forwarded from VF | Science
Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.
Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!
#music #audio #perfomances
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12🔥2
AIRI Poster.pdf
2.7 MB
Наш проект на Лето с AIRI 👾
Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект.
Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии):
1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше)
2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :)
3. Планируем сэмплировть новые коды в менее плотных местах распределения + имеет смысл проводить революцию среди насэмплированных кодов
@den4ikresearch
Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект.
Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии):
1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше)
2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :)
3. Планируем сэмплировть новые коды в менее плотных местах распределения + имеет смысл проводить революцию среди насэмплированных кодов
@den4ikresearch
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15🔥10❤🔥6