Нейронавт | Нейросети в творчестве

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Энциклопедия LTX.

Для тех, кто локально генерит видосы.

Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу

В общем ЛТХ Клондайк

https://github.com/wildminder/awesome-ltx2

@cgevent

GitHub

GitHub - wildminder/awesome-ltx2: All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI

All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI - wildminder/awesome-ltx2

👍11🔥3

1.04K views12:17

Нейронавт | Нейросети в творчестве

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

Inworld TTS-1.5

Коммерческая рилтаймовая говорилка, лидер TTS на Artificial Analisys arena

— работает быстрее предшествующих версий и многих аналогов — задержка до первого звука меньше 250 мс для версии Max и меньше 130 мс для Mini

— поддерживает 15 языков, включая русский - на плейграунде есть 4 русских голоса

— примерно в 25 раз дешевле аналогов

— доступна для развёртывания в облаке и на собственной инфраструктуре клиента

Есть две версии модели:

— Max — для большинства приложений, обеспечивает баланс качества и задержки

— Mini — для приложений, где критически важна минимальная задержка

Плейграунд

#tts #text2speech #realtime #russian

❤8👍2

1.87K views13:17

Нейронавт | Нейросети в творчестве

Qwen3-TTS в опенсорсе

Продолжаем день машинного голоса на Нейронавте

Qwen полностью выложил в опенсорс семейство голосовых моделей Qwen3-TTS: Voice Design, Clone и генератор

- 5 моделей - 0.6B и 1.7B
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества

Гитхаб
Демо
HF
API

#tts #text2speech #voicecloning #voicedesign #text2voice

🔥10👍4❤1

2.4K views14:17

Нейронавт | Нейросети в творчестве

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

Maya-1 TTS

День машинного голоса на Нейронавте.

Эмоциональная рилтаймовая говорилка на 3B параметров с созданием голоса по промпту.

Эмоции задаются прямо в тексте тэгами эмоций:

<laugh>
<laugh_harder>
<sigh>

Поддерживает более 20 встроенных тегов эмоций

24КГц
Заводится на 16GB+ VRAM

HF
Демо
Плейграунд - у меня показывает 404

#tts #text2speech #realtime #voicedesign

👍11😭3

2.26K views15:37

Нейронавт | Нейросети в творчестве

🤩

#humor

Please open Telegram to view this post

VIEW IN TELEGRAM

😁32🔥5👍2🤝1

2.11K views17:22

Нейронавт | Нейросети в творчестве

FastMCP 3.0

фреймворк для создания MCP-серверов

позволяет разворачивать MCP-серверы менее чем за минуту

В основе — три примитива: компоненты (определяют логику), провайдеры (поставляют компоненты) и трансформы (изменяют поведение провайдеров)

Docs

#mcp

👍8

1.88K viewsedited 07:11

Нейронавт | Нейросети в творчестве

Nunchaku-Qwen-Image-EDIT-2511

Опубликованы кванты #qie2511 под #Nunchaku
Полностью совместимые с плагином nunchaku-comfyui

🔥8👍4🤔1

2.29K views08:11

Нейронавт | Нейросети в творчестве

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

Linum v2

Два брата, Сахил и Ману, за два года с нуля разработали модель для генерации видео из текста. Модель имеет 2 миллиарда параметров и создаёт видео длиной 2–5 секунд в разрешении 360p или 720p

— Использует T5 для кодирования текста.

— Применяет Wan 2.1 VAE для сжатия.

— Имеет backbone на основе DiT с обучением через flow matching.

— Может генерировать видео в мультяшном и анимационном стилях, с сценами еды и природы, простым движением персонажей

— Пока не справляется со сложной физикой, быстрым движением (например, гимнастикой или танцами) и согласованным текстом

Разработчики планируют улучшить модель: доработать физику и деформации, ускорить работу через дистилляцию, добавить аудиовозможности и масштабировать модель.

Гитхаб
HF

Спасибо @p0lygon

#text2video

❤6🔥5👍1🤔1😱1

2.08K views09:11

Нейронавт | Нейросети в творчестве

PyTorch 2.10

Нейронки зашуршат шустрее

— поддержка Python 3.14

— Combo-Kernels объединяет мелкие задачи, что убирает простои GPU и ускоряет обучение

— Новый режим отладки помогает быстро находить ошибки в коде, экономя время

— Спецрежим для данных разной длины ускоряет обработку и снижает нагрузку на ресурсы

— Результаты вычислений теперь всегда одинаковые, что важно для научных и финансовых моделей

#news

GitHub

Release PyTorch 2.10.0 Release · pytorch/pytorch

PyTorch 2.10.0 Release Notes

Highlights
Backwards Incompatible Changes
Deprecations
New Features
Improvements
Bug fixes
Performance
Documentation
Developers
Security

Highlights

Pyt...

🔥13👍6😁1

1.72K views09:42

Нейронавт | Нейросети в творчестве

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

houdini-comfyui-bridge

Опенсорсный плагин для использования ComfyUI прямо в Houdini

— загружает узлы ComfyUI в COPs

— импортирует и экспортирует данные из ComfyUI — генерирует изображения, меши, аудио и прочее

— даёт возможность создавать кастомные пайплайны, которые объединяют CG с диффузионным и генеративным ИИ через TOPs submitte

#houdini #comfyui #3d

👍11🤓2😁1😭1

8.35K views10:13

Нейронавт | Нейросети в творчестве

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

MLX-Audio

библиотека для обработки аудио, которая работает на фреймворке MLX от Apple и лучше всего показывает себя на Apple Silicon

— превращать текст в речь (TTS)

— переводить речь в текст (STT)

— преобразовывать одну речь в другую (STS)

— поддерживает только что вышедший Qwen3-TTS

— Поддерживает кучу языков, может подстраивать голос и даже клонировать его. Есть веб-интерфейс с визуализацией звука в 3D и API, совместимый с OpenAI

#tools #tts #stt #sts #speech

👍13

2K views11:14

Нейронавт | Нейросети в творчестве