⚡️Сбер представил новую систему синтеза речи для ГигаЧата — в одной модели используются сразу несколько разных уникальных голосов под разные задачи
Обновление позволяет генерировать речь в различных манерах — от естественного Freespeech для общения до подкастного формата, интонаций операторов и традиционного дикторского стиля. Звучание стало более органичным и приближенным к человеческому.
Что умеет новый синтез:
- для разных кейсов применения синтеза сделаны отдельные голоса
воспроизводит паузы, смысловые акценты и эмоциональную окраску
- построен на собственной разработке: GigaChat 3b как основа, специализированный токенизатор и адаптер к LLM
- умеет озвучивать тексты бесконечной длины с учетом контекста, а также клонировать голоса
- внутренние замеры демонстрируют прогресс в качестве и натуральности звука
Зачем это нужно:
- помогает создавать более органичные голосовые интерфейсы
- оптимален для разговорных ассистентов, озвучки подкастов или аудиокниг, а также в автоматизированных колл-центрах
Основные преимущества:
- есть возможность выбора голоса, которые подходят под разные задачи
- управление стилистикой и эмоциями на естественном языке
- самый живой синтез речи, ни у Алисы, ни у OpenAI ничего похожего нет
Новый синтез уже доступен в Voice Mode Гигачата.
@ai_machinelearning_big_data
#ai #ml #speech #llm
Обновление позволяет генерировать речь в различных манерах — от естественного Freespeech для общения до подкастного формата, интонаций операторов и традиционного дикторского стиля. Звучание стало более органичным и приближенным к человеческому.
Что умеет новый синтез:
- для разных кейсов применения синтеза сделаны отдельные голоса
воспроизводит паузы, смысловые акценты и эмоциональную окраску
- построен на собственной разработке: GigaChat 3b как основа, специализированный токенизатор и адаптер к LLM
- умеет озвучивать тексты бесконечной длины с учетом контекста, а также клонировать голоса
- внутренние замеры демонстрируют прогресс в качестве и натуральности звука
Зачем это нужно:
- помогает создавать более органичные голосовые интерфейсы
- оптимален для разговорных ассистентов, озвучки подкастов или аудиокниг, а также в автоматизированных колл-центрах
Основные преимущества:
- есть возможность выбора голоса, которые подходят под разные задачи
- управление стилистикой и эмоциями на естественном языке
- самый живой синтез речи, ни у Алисы, ни у OpenAI ничего похожего нет
Новый синтез уже доступен в Voice Mode Гигачата.
@ai_machinelearning_big_data
#ai #ml #speech #llm
Хабр
Наш новый LLM-based синтез речи
Всем привет! Я Гриша Стерлинг, лид команды TTS в Сбере. Мы сделали новый синтез речи, он на голову выше старого, особенно по естественности и человечности. Мы так и называем его – «новый синтез», или...
❤37👍17😁12🔥6🦄4❤🔥1🥱1