Метаверсище и ИИще

#ябвзял

Тут прошли утечки про RTX 5090.

Самое главное - 32 Гига видео-памяти.
Не скажу, что много, для наших ИИ-нужд хорошо бы смотрелось 48 Гиг.

32GB of GDDR7 memory on a 512-bit bus, with 21,760 CUDA cores.

Блок питания вам понадобится еще мощнее, плюс 150W к потреблению, относительно 4090.

Сроки? На CES 2025 в январе будут новости про это.

p.S. 5080 с 16гиг VRAM точно не имеет никакого смысла.

🔥26👍14❤1

7.4K viewsSergey Tsyptsyn ️️, 10:41

Метаверсище и ИИще

Automatic1111 только для озвучки.

Тут в коментах прошли вопросы про TTS.

Смотрите, вот для моделей генерации картинок есть Web интерфейсы типа Forge, Automatic или Fooocus
Для запуска разных LLM есть LM Studio, Ollama или, простихоспади, Убабуга.
Оказывается есть аналогичный интерфейс для звука: для запуска опен-сорсных озвучивателей текста, клонирования голоса и даже генерации музыки.
Проект не новый, но недавно хорошо обновился. Причем там есть поддержка целого выводка моделей:
Bark (protoSuno), MusicGen + AudioGen, Tortoise, RVC, Vocos, Demucs, SeamlessM4T, MAGNeT, Stable Audio, Maha TTS, MMS, и других..

https://github.com/rsxdalv/tts-generation-webui
https://rsxdalv.github.io/tts-generation-webui/

Ну и если вы гик, то загляните в Silly Tavern, пропустить ллм-другую с tts наперевес.
https://github.com/SillyTavern/SillyTavern

@cgevent

GitHub

GitHub - rsxdalv/TTS-WebUI: A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice…

A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice, XTTSv2, DIA, Kokoro, OpenVoice, ParlerTTS, Stable Audio, MMS, StyleTTS2, MAGNet, AudioGen, ...

🔥24👍7❤3

7.52K viewsSergey Tsyptsyn ️️, 11:01

Метаверсище и ИИще

Хабр

Moshi: GPT4-O voice mode дома (обзор)

Intro Прежде чем приступать к самому обзору, хотелось бы обозначить отличительные черты подхода, относительно большинства диалоговых систем: Текущие системы работают в каскадной манере: сначала...

Помните Мойшу?

Это как бы конкурент OpenAI Advanced Voice Mode, который приподвзрывал интернетик в июле.
Я писал про него подробно вот тут:
https://xn--r1a.website/cgevent/8724

Помню, что мнения разделились, одним зашло, другим (и мне) - нет.
Но то, что французы смогли быстро выкатить ответочку OpenAI с относительно низкой задержкой ответа, которую можно перебивать - было круто.

Сейчас еще круче - они выложили все это в опен сорс.
https://github.com/kyutai-labs/moshi

Можете развести локально!

И вот держите очень подробную статью про устройство Мойши изнутри.
https://habr.com/ru/articles/845744/

Напоминаю, что онлайн демо тут:
https://moshi.chat/

@cgevent

🔥25👍10❤1👎1

7.15K viewsSergey Tsyptsyn ️️, 11:51