Анализ данных (Data analysis)

🗣 Kokoro-TTS

Мощнейшая TTS-модель всего лишь на 82M параметров.

Она превосходит более крупные модели и генерирует минуты речи за секунды.

Самое главное - это открытый исходный код!

Попробуйте и убедитесь сами: 👇

🤗 Hf: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

#tts #ml #opensource

👍13🔥7❤5

5.82K views14:02

1:21

This media is not supported in your browser

VIEW IN TELEGRAM

ZyphraAI только что выпустили - лицензированную Apache 2.0, многоязычную модель Zonos для преобразования текста в речь с МГНОВЕННЫМ клонированием голоса! 🔥

> TTS с нулевой скоростью задержки и клонированием голоса: введите текст и 10–30-секундный образец речи для создания высококачественной генерации текста в речь

> Качество звука и контроль эмоций: точная настройка скорости речи, высоты тона, частоты, качества звука и эмоций (например, счастья, гнева, грусти, страха)

> Позволяет реализовать такие фишки, как шепот, которые трудно реализовать с помощью одного лишь клонирования голоса.

> Многоязычная поддержка: поддерживает английский, японский, китайский, французский и немецкий языки.

> Высокая производительность: работает примерно в 2 раза быстрее реального времени на RTX 4090

> Доступно на Hugging Face Hub 🤗

apt install espeak-ng

https://huggingface.co/Zyphra/Zonos-v0.1-hybrid

#ai #ml #tts #opensource #ZyphraAI

🔥22👍8❤6

6.51K views05:52

Анализ данных (Data analysis)

2:52

This media is not supported in your browser

VIEW IN TELEGRAM

💡 Модель Ming-UniAudio — это универсальный фреймворк, сочетающий понимание речи, генерацию и редактирование.

- Модель Ming-UniAudio — это универсальный фреймворк, сочетающий *понимание речи*, *генерацию* и *редактирование*.
- В её основе лежит единый непрерывный токенизатор речи, интегрирующий семантические и акустические признаки.
- Поддерживается инструкционное редактирование: можно менять звук, содержание или тональность без указания временных фрагментов.
- В бенчмарках показывает конкурентные результаты и для распознавания, и для генерации речи.
- Лицензия: Apache-2.0.

💻 GitHub: https://github.com/inclusionAI/Ming-UniAudio
🤗 Tokenizer: https://huggingface.co/inclusionAI/MingTok-Audio
🤗 Model:
base: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B
edit: https://huggingface.co/inclusionAI/Ming-UniAudio-16B-A3B-Edit
🤗 Benchmark: https://huggingface.co/datasets/inclusionAI/Ming-Freeform-Audio-Edit-Benchmark
🌍 blog: https://xqacmer.github.io/Ming-Unitok-Audio.github.io/
#AI #Speech #SpeechLLM #LLM #GenerativeAI #Audio #ASR #TTS #SpeechEditing

❤9🔥3👍2

5.09K views11:25

Анализ данных (Data analysis)

🔊 Google представила обновления моделей Gemini 2.5 Flash и Pro для Text-to-Speech (TTS)

Что нового:
- Более гибкая передача эмоций и тональности
- Контекстно-зависимая настройка темпа речи
- Улучшенная работа с несколькими говорящими

Теперь разработчики получают куда больше контроля над тем, как именно модель озвучивает тексты - от эмоционального стиля до динамики повествования.

https://blog.google/technology/developers/gemini-2-5-text-to-speech/

@ai_machinelearning_big_data

#tts #Gemini #google

👍15❤9🔥3

4.67K views05:51

Анализ данных (Data analysis)

🚀 VoxCPM 1.5 - новый уровень реалистичной генерации речи! 🎧✨

Модель получила заметные улучшения, которые делают синтез голоса более естественным и технологически гибким.

Ключевые изменения:

🔊 Hi-Fi звук 44.1 kHz — качество приближено к студийному, вместо прежних 16 kHz
⚡ В 2 раза эффективнее — 1 секунда аудио теперь кодируется в 6.25 токена вместо 12.5
🛠 Расширенные возможности настройки — новые скрипты для LoRA и полного fine-tuning позволяют адаптировать модель под голосовые проекты
📈 Стабильность на длинных аудио — меньше артефактов и провалов при генерации

Ссылки для изучения и тестов:
HuggingFace: huggingface.co/openbmb/VoxCPM1.5
GitHub: github.com/OpenBMB/VoxCPM

#VoxCPM #TTS #AI #OpenSource

❤8👍3🔥1

4.84K views10:01

Анализ данных (Data analysis)

🎧 Fish Audio S2 Pro - мощная open-source модель для синтеза речи.

Это 4B + 400M параметровая TTS-модель с необычной архитектурой Dual-AR, обученная на 10+ миллионах часов аудио и поддерживающая 80+ языков.

Что делает её интересной.

🏗 Dual-AR архитектура

Модель разделена на две части:

• 4B Slow AR отвечает за семантику и структуру речи
• 400M Fast AR генерирует 9 residual codebooks для акустики

Такой подход позволяет сохранить высокое качество звука без сильной нагрузки на инференс.

🎭 Свободное управление эмоциями и интонацией

Можно прямо в тексте задавать стиль речи:

[whisper]
[laughing]
[professional broadcast tone]

Поддерживается 15 000+ тегов, которые работают на уровне отдельных слов.

🌐 80+ языков

Основные языки высокого качества:

• английский
• китайский
• японский

⚡ Оптимизация для LLM-инфраструктуры

Модель нативно работает со стеком SGLang, поэтому поддерживает:

• continuous batching
• paged KV cache
• RadixAttention prefix caching

📊 Производительность

• RTF: 0.195 на Nvidia H200
• ~100 мс до первого аудио
• более 3000 акустических токенов/сек

Также разработчики выложили:

• веса модели
• код для fine-tuning
• движок для streaming inference

Модель: https://modelscope.ai/models/fishaudio/s2-pro

GitHub: https://github.com/fishaudio/fish-speech

#ai #tts #opensourсe

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml

👍8❤5🔥5

6.56K views16:03

Анализ данных (Data analysis)

Forwarded from Machinelearning

⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи

Главная фишка - Audio Tags.

Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.

Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)

На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).

Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

@ai_machinelearning_big_data

#google `#tts

❤17🔥7👍4

4.18K views16:41

About

Blog

Apps

Platform