Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Энциклопедия LTX.
Для тех, кто локально генерит видосы.
Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу
В общем ЛТХ Клондайк
https://github.com/wildminder/awesome-ltx2
@cgevent
Для тех, кто локально генерит видосы.
Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу
В общем ЛТХ Клондайк
https://github.com/wildminder/awesome-ltx2
@cgevent
GitHub
GitHub - wildminder/awesome-ltx2: All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI
All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI - wildminder/awesome-ltx2
👍11🔥3
Inworld TTS-1.5
Коммерческая рилтаймовая говорилка, лидер TTS на Artificial Analisys arena
— работает быстрее предшествующих версий и многих аналогов — задержка до первого звука меньше 250 мс для версии Max и меньше 130 мс для Mini
— поддерживает 15 языков, включая русский - на плейграунде есть 4 русских голоса
— примерно в 25 раз дешевле аналогов
— доступна для развёртывания в облаке и на собственной инфраструктуре клиента
Есть две версии модели:
— Max — для большинства приложений, обеспечивает баланс качества и задержки
— Mini — для приложений, где критически важна минимальная задержка
Плейграунд
#tts #text2speech #realtime #russian
Коммерческая рилтаймовая говорилка, лидер TTS на Artificial Analisys arena
— работает быстрее предшествующих версий и многих аналогов — задержка до первого звука меньше 250 мс для версии Max и меньше 130 мс для Mini
— поддерживает 15 языков, включая русский - на плейграунде есть 4 русских голоса
— примерно в 25 раз дешевле аналогов
— доступна для развёртывания в облаке и на собственной инфраструктуре клиента
Есть две версии модели:
— Max — для большинства приложений, обеспечивает баланс качества и задержки
— Mini — для приложений, где критически важна минимальная задержка
Плейграунд
#tts #text2speech #realtime #russian
❤8👍2
Qwen3-TTS в опенсорсе
Продолжаем день машинного голоса на Нейронавте
Qwen полностью выложил в опенсорс семейство голосовых моделей Qwen3-TTS: Voice Design, Clone и генератор
- 5 моделей - 0.6B и 1.7B
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
Гитхаб
Демо
HF
API
#tts #text2speech #voicecloning #voicedesign #text2voice
Продолжаем день машинного голоса на Нейронавте
Qwen полностью выложил в опенсорс семейство голосовых моделей Qwen3-TTS: Voice Design, Clone и генератор
- 5 моделей - 0.6B и 1.7B
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
Гитхаб
Демо
HF
API
#tts #text2speech #voicecloning #voicedesign #text2voice
🔥10👍4❤1
Maya-1 TTS
День машинного голоса на Нейронавте.
Эмоциональная рилтаймовая говорилка на 3B параметров с созданием голоса по промпту.
Эмоции задаются прямо в тексте тэгами эмоций:
Поддерживает более 20 встроенных тегов эмоций
24КГц
Заводится на 16GB+ VRAM
HF
Демо
Плейграунд - у меня показывает 404
#tts #text2speech #realtime #voicedesign
День машинного голоса на Нейронавте.
Эмоциональная рилтаймовая говорилка на 3B параметров с созданием голоса по промпту.
Эмоции задаются прямо в тексте тэгами эмоций:
<laugh>
<laugh_harder>
<sigh>
Поддерживает более 20 встроенных тегов эмоций
24КГц
Заводится на 16GB+ VRAM
HF
Демо
Плейграунд - у меня показывает 404
#tts #text2speech #realtime #voicedesign
👍11😭3
FastMCP 3.0
фреймворк для создания MCP-серверов
позволяет разворачивать MCP-серверы менее чем за минуту
В основе — три примитива: компоненты (определяют логику), провайдеры (поставляют компоненты) и трансформы (изменяют поведение провайдеров)
Docs
#mcp
фреймворк для создания MCP-серверов
позволяет разворачивать MCP-серверы менее чем за минуту
В основе — три примитива: компоненты (определяют логику), провайдеры (поставляют компоненты) и трансформы (изменяют поведение провайдеров)
Docs
#mcp
👍8
Nunchaku-Qwen-Image-EDIT-2511
Опубликованы кванты #qie2511 под #Nunchaku
Полностью совместимые с плагином nunchaku-comfyui
Опубликованы кванты #qie2511 под #Nunchaku
Полностью совместимые с плагином nunchaku-comfyui
🔥8👍4🤔1
Linum v2
Два брата, Сахил и Ману, за два года с нуля разработали модель для генерации видео из текста. Модель имеет 2 миллиарда параметров и создаёт видео длиной 2–5 секунд в разрешении 360p или 720p
— Использует T5 для кодирования текста.
— Применяет Wan 2.1 VAE для сжатия.
— Имеет backbone на основе DiT с обучением через flow matching.
— Может генерировать видео в мультяшном и анимационном стилях, с сценами еды и природы, простым движением персонажей
— Пока не справляется со сложной физикой, быстрым движением (например, гимнастикой или танцами) и согласованным текстом
Разработчики планируют улучшить модель: доработать физику и деформации, ускорить работу через дистилляцию, добавить аудиовозможности и масштабировать модель.
Гитхаб
HF
Спасибо @p0lygon
#text2video
Два брата, Сахил и Ману, за два года с нуля разработали модель для генерации видео из текста. Модель имеет 2 миллиарда параметров и создаёт видео длиной 2–5 секунд в разрешении 360p или 720p
— Использует T5 для кодирования текста.
— Применяет Wan 2.1 VAE для сжатия.
— Имеет backbone на основе DiT с обучением через flow matching.
— Может генерировать видео в мультяшном и анимационном стилях, с сценами еды и природы, простым движением персонажей
— Пока не справляется со сложной физикой, быстрым движением (например, гимнастикой или танцами) и согласованным текстом
Разработчики планируют улучшить модель: доработать физику и деформации, ускорить работу через дистилляцию, добавить аудиовозможности и масштабировать модель.
Гитхаб
HF
Спасибо @p0lygon
#text2video
❤6🔥5👍1🤔1😱1
PyTorch 2.10
Нейронки зашуршат шустрее
— поддержка Python 3.14
— Combo-Kernels объединяет мелкие задачи, что убирает простои GPU и ускоряет обучение
— Новый режим отладки помогает быстро находить ошибки в коде, экономя время
— Спецрежим для данных разной длины ускоряет обработку и снижает нагрузку на ресурсы
— Результаты вычислений теперь всегда одинаковые, что важно для научных и финансовых моделей
#news
Нейронки зашуршат шустрее
— поддержка Python 3.14
— Combo-Kernels объединяет мелкие задачи, что убирает простои GPU и ускоряет обучение
— Новый режим отладки помогает быстро находить ошибки в коде, экономя время
— Спецрежим для данных разной длины ускоряет обработку и снижает нагрузку на ресурсы
— Результаты вычислений теперь всегда одинаковые, что важно для научных и финансовых моделей
#news
GitHub
Release PyTorch 2.10.0 Release · pytorch/pytorch
PyTorch 2.10.0 Release Notes
Highlights
Backwards Incompatible Changes
Deprecations
New Features
Improvements
Bug fixes
Performance
Documentation
Developers
Security
Highlights
Pyt...
Highlights
Backwards Incompatible Changes
Deprecations
New Features
Improvements
Bug fixes
Performance
Documentation
Developers
Security
Highlights
Pyt...
🔥13👍6😁1
houdini-comfyui-bridge
Опенсорсный плагин для использования ComfyUI прямо в Houdini
— загружает узлы ComfyUI в COPs
— импортирует и экспортирует данные из ComfyUI — генерирует изображения, меши, аудио и прочее
— даёт возможность создавать кастомные пайплайны, которые объединяют CG с диффузионным и генеративным ИИ через TOPs submitte
#houdini #comfyui #3d
Опенсорсный плагин для использования ComfyUI прямо в Houdini
— загружает узлы ComfyUI в COPs
— импортирует и экспортирует данные из ComfyUI — генерирует изображения, меши, аудио и прочее
— даёт возможность создавать кастомные пайплайны, которые объединяют CG с диффузионным и генеративным ИИ через TOPs submitte
#houdini #comfyui #3d
👍11🤓2😁1😭1
This media is not supported in your browser
VIEW IN TELEGRAM
MLX-Audio
библиотека для обработки аудио, которая работает на фреймворке MLX от Apple и лучше всего показывает себя на Apple Silicon
— превращать текст в речь (TTS)
— переводить речь в текст (STT)
— преобразовывать одну речь в другую (STS)
— поддерживает только что вышедший Qwen3-TTS
— Поддерживает кучу языков, может подстраивать голос и даже клонировать его. Есть веб-интерфейс с визуализацией звука в 3D и API, совместимый с OpenAI
#tools #tts #stt #sts #speech
библиотека для обработки аудио, которая работает на фреймворке MLX от Apple и лучше всего показывает себя на Apple Silicon
— превращать текст в речь (TTS)
— переводить речь в текст (STT)
— преобразовывать одну речь в другую (STS)
— поддерживает только что вышедший Qwen3-TTS
— Поддерживает кучу языков, может подстраивать голос и даже клонировать его. Есть веб-интерфейс с визуализацией звука в 3D и API, совместимый с OpenAI
#tools #tts #stt #sts #speech
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Motion 3-to-4: 3D Motion Reconstruction for 4D Synthesis
превращает обычное видео в 4D-объект. Модель берёт одно видео и, если нужно, 3D-модель, и делает из них динамичный 4D-объект
— разбивает задачу на две части: сначала создаёт статичную 3D-форму, потом восстанавливает движение
— использует специальную «базовую» 3D-сетку, чтобы лучше понимать движения
— предсказывает, как будут двигаться точки в каждом кадре, чтобы объект выглядел реалистично и не «разваливался»
Гитхаб
#videoto3d #videoto4d #3d #4d
превращает обычное видео в 4D-объект. Модель берёт одно видео и, если нужно, 3D-модель, и делает из них динамичный 4D-объект
— разбивает задачу на две части: сначала создаёт статичную 3D-форму, потом восстанавливает движение
— использует специальную «базовую» 3D-сетку, чтобы лучше понимать движения
— предсказывает, как будут двигаться точки в каждом кадре, чтобы объект выглядел реалистично и не «разваливался»
Гитхаб
#videoto3d #videoto4d #3d #4d
👍5🤔1
ActionMesh: Animated 3D Mesh Generation with Temporal 3D Diffusion
Похожая, но полкруче модель от Meta (запрещено в РФ) создает анимированную 3D-модель по видео. Также может анимировать по текстовому промпту, или сделать модель из изображения и анимировать ее
Гитхаб
HF
Демо
#videoto3d #videoto4d #3d #4d
Похожая, но полкруче модель от Meta (запрещено в РФ) создает анимированную 3D-модель по видео. Также может анимировать по текстовому промпту, или сделать модель из изображения и анимировать ее
Гитхаб
HF
Демо
#videoto3d #videoto4d #3d #4d
🔥8👍1