Метаверсище и ИИще

А теперь обратно, из текста в голос.

Я уже писал про Октаву от Hume.ai

А вчера они выкатили в народ "Понимающую озвучку".

В общем их LLM предварительно анализирует текст и вытаскивает оттуда всякие сентименты: эмоции, контекст, окрас беседы. И использует эту информацию при озвучке текста.
Также можно создавать свои голоса (промптами) и поддавать жару\эмоций тоже промптами.

В общем эмоциональный интеллект в озвучке.

Ну и конечно по неким метрикам они побивают Eleven Labs, а как иначе.

Вот это вот публичное побивание друг друга превращается уже в реп-баттлы.

Пора попросить Клода и Суно сделать пестню на эту тему.

Читаем, пробуем тут:
https://www.hume.ai/

Но вот тут они переборщили с маркетингом и цифрами имхо: Trained on 1000x more language than traditional TTS, Octave understands your script like a human actor, delivering realistic emotions, sarcasm, pace, word emphasis, and more.

@cgevent

👍19❤9🔥3😁1

8.39K viewsSergey Tsyptsyn ️️, 08:39

Метаверсище и ИИще

Forwarded from Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/

👍40🔥10❤2😱2👎1😁1

6.82K viewsSergey Tsyptsyn ️️, 10:45

Метаверсище и ИИще