Python RU

⚡️ Хочешь обучить свой TTS с нуля и добавлять туда фичи “как тебе надо”, а не как у всех?

Команда LEMAS (IDEA) открыла датасет, на котором они обучали LEMAS и это, похоже, крупнейший open-source мультиязычный speech-датасет вообще.

Что внутри:
- 150K+ часов аудио
- 10 языков
- word-level timestamps (разметка до уровня слов)
- качество и масштаб уровня “обычно такое держат под замком”

По сути - они выложили то, что большинство компаний никогда бы не отдали публично.

И да, из этого “сокровища” уже родились 2 мощные модели:

LEMAS-TTS
- Zero-shot мультиязычный синтез речи (озвучка без дообучения на конкретного спикера)

LEMAS-Edit
- редактирование речи как текста: меняешь слова — меняется аудио

Если ты работаешь со Speech AI, TTS, ASR, voice agents — это must-have релиз.

Project: https://lemas-project.github.io/LEMAS-Project/
Dataset & model released: https://huggingface.co/LEMAS-Project

❤6🔥2

1.76K views11:03

Python RU

🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning

Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.

Самое интересное: VoxCPM фактически убирает токенизацию из TTS.

Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию

Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов

🧬 Клонирование голоса - буквально по нескольким секундам аудио
Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг

Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming

⚡ Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.

https://github.com/OpenBMB/VoxCPM

❤4🔥2👍1

1.76K views07:28

Python RU

Forwarded from Machinelearning