Нейронавт | Нейросети в творчестве
11.1K subscribers
4.76K photos
4.11K videos
41 files
5.13K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Энциклопедия LTX.

Для тех, кто локально генерит видосы.

Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу

В общем ЛТХ Клондайк

https://github.com/wildminder/awesome-ltx2

@cgevent
👍11🔥3
Inworld TTS-1.5

Коммерческая рилтаймовая говорилка, лидер TTS на Artificial Analisys arena

— работает быстрее предшествующих версий и многих аналогов — задержка до первого звука меньше 250 мс для версии Max и меньше 130 мс для Mini

— поддерживает 15 языков, включая русский - на плейграунде есть 4 русских голоса

— примерно в 25 раз дешевле аналогов

— доступна для развёртывания в облаке и на собственной инфраструктуре клиента

Есть две версии модели:

— Max — для большинства приложений, обеспечивает баланс качества и задержки

— Mini — для приложений, где критически важна минимальная задержка

Плейграунд

#tts #text2speech #realtime #russian
8👍2
Qwen3-TTS в опенсорсе

Продолжаем день машинного голоса на Нейронавте

Qwen полностью выложил в опенсорс семейство голосовых моделей Qwen3-TTS: Voice Design, Clone и генератор

- 5 моделей - 0.6B и 1.7B
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества

Гитхаб
Демо
HF
API

#tts #text2speech #voicecloning #voicedesign #text2voice
🔥10👍41
Maya-1 TTS

День машинного голоса на Нейронавте.

Эмоциональная рилтаймовая говорилка на 3B параметров с созданием голоса по промпту.

Эмоции задаются прямо в тексте тэгами эмоций:
<laugh>
<laugh_harder>
<sigh>


Поддерживает более 20 встроенных тегов эмоций

24КГц
Заводится на 16GB+ VRAM

HF
Демо
Плейграунд - у меня показывает 404

#tts #text2speech #realtime #voicedesign
👍11😭3
🤩🤩🤩

#humor
Please open Telegram to view this post
VIEW IN TELEGRAM
😁32🔥5👍2🤝1
FastMCP 3.0

фреймворк для создания MCP-серверов

позволяет разворачивать MCP-серверы менее чем за минуту

В основе — три примитива: компоненты (определяют логику), провайдеры (поставляют компоненты) и трансформы (изменяют поведение провайдеров)

Docs

#mcp
👍8
Nunchaku-Qwen-Image-EDIT-2511

Опубликованы кванты #qie2511 под #Nunchaku
Полностью совместимые с плагином nunchaku-comfyui
🔥8👍4🤔1
Linum v2

Два брата, Сахил и Ману, за два года с нуля разработали модель для генерации видео из текста. Модель имеет 2 миллиарда параметров и создаёт видео длиной 2–5 секунд в разрешении 360p или 720p

— Использует T5 для кодирования текста.

— Применяет Wan 2.1 VAE для сжатия.

— Имеет backbone на основе DiT с обучением через flow matching.

— Может генерировать видео в мультяшном и анимационном стилях, с сценами еды и природы, простым движением персонажей

— Пока не справляется со сложной физикой, быстрым движением (например, гимнастикой или танцами) и согласованным текстом

Разработчики планируют улучшить модель: доработать физику и деформации, ускорить работу через дистилляцию, добавить аудиовозможности и масштабировать модель.

Гитхаб
HF

Спасибо @p0lygon

#text2video
6🔥5👍1🤔1😱1
PyTorch 2.10

Нейронки зашуршат шустрее

— поддержка Python 3.14

— Combo-Kernels объединяет мелкие задачи, что убирает простои GPU и ускоряет обучение

— Новый режим отладки помогает быстро находить ошибки в коде, экономя время

— Спецрежим для данных разной длины ускоряет обработку и снижает нагрузку на ресурсы

— Результаты вычислений теперь всегда одинаковые, что важно для научных и финансовых моделей

#news
🔥13👍6😁1
houdini-comfyui-bridge

Опенсорсный плагин для использования ComfyUI прямо в Houdini

— загружает узлы ComfyUI в COPs

— импортирует и экспортирует данные из ComfyUI — генерирует изображения, меши, аудио и прочее

— даёт возможность создавать кастомные пайплайны, которые объединяют CG с диффузионным и генеративным ИИ через TOPs submitte

#houdini #comfyui #3d
👍11🤓2😁1😭1
This media is not supported in your browser
VIEW IN TELEGRAM
MLX-Audio

библиотека для обработки аудио, которая работает на фреймворке MLX от Apple и лучше всего показывает себя на Apple Silicon

— превращать текст в речь (TTS)

— переводить речь в текст (STT)

— преобразовывать одну речь в другую (STS)

— поддерживает только что вышедший Qwen3-TTS

— Поддерживает кучу языков, может подстраивать голос и даже клонировать его. Есть веб-интерфейс с визуализацией звука в 3D и API, совместимый с OpenAI

#tools #tts #stt #sts #speech
👍13
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis

превращает обычное видео в 4D-объект. Модель берёт одно видео и, если нужно, 3D-модель, и делает из них динамичный 4D-объект

— разбивает задачу на две части: сначала создаёт статичную 3D-форму, потом восстанавливает движение

— использует специальную «базовую» 3D-сетку, чтобы лучше понимать движения

— предсказывает, как будут двигаться точки в каждом кадре, чтобы объект выглядел реалистично и не «разваливался»

Гитхаб

#videoto3d #videoto4d #3d #4d
👍5🤔1
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion

Похожая, но полкруче модель от Meta (запрещено в РФ) создает анимированную 3D-модель по видео. Также может анимировать по текстовому промпту, или сделать модель из изображения и анимировать ее

Гитхаб
HF
Демо

#videoto3d #videoto4d #3d #4d
🔥8👍1