LTXStudio заколабились с Elevenlabs и сделали Audio-to-Video - оживление картинки по звуку
#audio2video
#audio2video
🔥12👍4🥴2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Motive (MOTIon attribution for Video gEneration)
В NVIDIA придумали инструмент который помогает понять, какие обучающие клипы улучшают или ухудшают динамику движения в сгенерированных видео
Прикрутили к Wan 2.1
Код ждем
#optimization
В NVIDIA придумали инструмент который помогает понять, какие обучающие клипы улучшают или ухудшают динамику движения в сгенерированных видео
Прикрутили к Wan 2.1
Код ждем
#optimization
❤6👍2
CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation
Оживлятор сразу нескольких персонажей на изображении по образцу движения
Ну это совершенно какая-то нишевая штука когда нужно чтоб все одинаково двигались
Код ждем
#characteranimation #image2video #pose2video
Оживлятор сразу нескольких персонажей на изображении по образцу движения
Ну это совершенно какая-то нишевая штука когда нужно чтоб все одинаково двигались
Код ждем
#characteranimation #image2video #pose2video
👍8🤔1
Совет на 2026 год — освойте вайб-маркетинг. ИИ уже создаёт стратегии, лендинги, креативы и тексты быстрее и качественнее любой команды
И те, кто освоит ИИ-маркетинг сейчас, будут зарабатывать в разы больше тех, кто всё ещё делает всё вручную
Разобраться в этом с нуля поможет канал SurgayGPT. Там простым языком объясняют, как работать с ИИ, какие связки реально дают результат, как запустить своё ИИ-агентство и где брать клиентов
Подписывайтесь и забирайте в закрепе бесплатный старт-пак в вайб-маркетинге: @Surgay_GPT
И те, кто освоит ИИ-маркетинг сейчас, будут зарабатывать в разы больше тех, кто всё ещё делает всё вручную
Разобраться в этом с нуля поможет канал SurgayGPT. Там простым языком объясняют, как работать с ИИ, какие связки реально дают результат, как запустить своё ИИ-агентство и где брать клиентов
Подписывайтесь и забирайте в закрепе бесплатный старт-пак в вайб-маркетинге: @Surgay_GPT
👎9🍌2❤1👍1😁1
VibeVoice-ASR
Распознавалка речи от Microsoft
— обрабатывает аудио длиной до 60 минут за один раз, не нарезая на кусочки, поэтому лучше понимает общий смысл и не теряет контекст
— распознаёт, кто что сказал и когда, ставит временные метки
— учитывает специальные слова, которые ей даёт пользователь, например имена или технические термины, чтобы точнее работать с узкоспециализированным контентом
Гитхаб
HF
Демо1
Демо2
Спасибо @m_franz
#asr #stt #speech2text
Распознавалка речи от Microsoft
— обрабатывает аудио длиной до 60 минут за один раз, не нарезая на кусочки, поэтому лучше понимает общий смысл и не теряет контекст
— распознаёт, кто что сказал и когда, ставит временные метки
— учитывает специальные слова, которые ей даёт пользователь, например имена или технические термины, чтобы точнее работать с узкоспециализированным контентом
Гитхаб
HF
Демо1
Демо2
Спасибо @m_franz
#asr #stt #speech2text
👍16🔥7❤5
В Ollama v0.14.3 (среда для работы с LLM) добавили генерацию изображений
Доступны Z-Image Turbo и Flux.2 Klein
Команды:
Заявлена поддержка macOS. Windows и Linux обещают позже.
Спасибо @Endorpheen
#Flux2 #ZImage #macos #tools
Доступны Z-Image Turbo и Flux.2 Klein
Команды:
ollama run x/z-image-turboollama run x/flux2-kleinЗаявлена поддержка macOS. Windows и Linux обещают позже.
Спасибо @Endorpheen
#Flux2 #ZImage #macos #tools
👍7🔥5❤1
👍14🤔2
FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning
Мультимодальная диалоговая модель для естественного голосового взаимодействия с пользователем - рилтаймовая говорилка с клонированием голоса
Ризонер на базе Qwen2.5-Omni-3B
Бэкбоун на Llama3
Частота дискретизации 24КГц
Задержка <150 мс
Только английский
Жаль что авторы не озаботились демонстрацией возможностей модели
Гитхаб
HF
MS
Офсайт
Спасибо @EvgenyiPerm
#dialog #alm #voicecloning
Мультимодальная диалоговая модель для естественного голосового взаимодействия с пользователем - рилтаймовая говорилка с клонированием голоса
Ризонер на базе Qwen2.5-Omni-3B
Бэкбоун на Llama3
Частота дискретизации 24КГц
Задержка <150 мс
Только английский
Жаль что авторы не озаботились демонстрацией возможностей модели
Гитхаб
HF
MS
Офсайт
Спасибо @EvgenyiPerm
#dialog #alm #voicecloning
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer
Перенос чего угодно с видео на видео на базе Wan 2.1
- перенос камеры
- перенос движения
- перенос эффекта
- перенос персонажа/лица
- перенос стиля
- и всего этого в любых комбинациях
Гитхаб код ждем
#videoediting #cameracontrol #motiontransfer #referencing
Перенос чего угодно с видео на видео на базе Wan 2.1
- перенос камеры
- перенос движения
- перенос эффекта
- перенос персонажа/лица
- перенос стиля
- и всего этого в любых комбинациях
Гитхаб код ждем
#videoediting #cameracontrol #motiontransfer #referencing
🔥21👍2
Segment anything ... Fast
команда PyTorch переписала модель SAM от Meta и ускорила её в 8 раз без потери точности, используя оптимизации PyTorch
Гитхаб
#optimization #segmentation #video2mask #image2mask
команда PyTorch переписала модель SAM от Meta и ускорила её в 8 раз без потери точности, используя оптимизации PyTorch
Гитхаб
#optimization #segmentation #video2mask #image2mask
❤16🔥12👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Энциклопедия LTX.
Для тех, кто локально генерит видосы.
Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу
В общем ЛТХ Клондайк
https://github.com/wildminder/awesome-ltx2
@cgevent
Для тех, кто локально генерит видосы.
Собрано всё самое годное:
Промпт гайды
Веса
Чекпойнты
Дистиляты
Кванты
Апскейлеры
Ггуфы
Текстовые енкодеры
VAEs
Embedding Connectors
Лоры(много)
Разные воркфлоу
В общем ЛТХ Клондайк
https://github.com/wildminder/awesome-ltx2
@cgevent
GitHub
GitHub - wildminder/awesome-ltx2: All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI
All available LTX-2 models, encoders, workflows, LoRAs for ComfyUI - wildminder/awesome-ltx2
👍11🔥3
Inworld TTS-1.5
Коммерческая рилтаймовая говорилка, лидер TTS на Artificial Analisys arena
— работает быстрее предшествующих версий и многих аналогов — задержка до первого звука меньше 250 мс для версии Max и меньше 130 мс для Mini
— поддерживает 15 языков, включая русский - на плейграунде есть 4 русских голоса
— примерно в 25 раз дешевле аналогов
— доступна для развёртывания в облаке и на собственной инфраструктуре клиента
Есть две версии модели:
— Max — для большинства приложений, обеспечивает баланс качества и задержки
— Mini — для приложений, где критически важна минимальная задержка
Плейграунд
#tts #text2speech #realtime #russian
Коммерческая рилтаймовая говорилка, лидер TTS на Artificial Analisys arena
— работает быстрее предшествующих версий и многих аналогов — задержка до первого звука меньше 250 мс для версии Max и меньше 130 мс для Mini
— поддерживает 15 языков, включая русский - на плейграунде есть 4 русских голоса
— примерно в 25 раз дешевле аналогов
— доступна для развёртывания в облаке и на собственной инфраструктуре клиента
Есть две версии модели:
— Max — для большинства приложений, обеспечивает баланс качества и задержки
— Mini — для приложений, где критически важна минимальная задержка
Плейграунд
#tts #text2speech #realtime #russian
❤8👍2
Qwen3-TTS в опенсорсе
Продолжаем день машинного голоса на Нейронавте
Qwen полностью выложил в опенсорс семейство голосовых моделей Qwen3-TTS: Voice Design, Clone и генератор
- 5 моделей - 0.6B и 1.7B
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
Гитхаб
Демо
HF
API
#tts #text2speech #voicecloning #voicedesign #text2voice
Продолжаем день машинного голоса на Нейронавте
Qwen полностью выложил в опенсорс семейство голосовых моделей Qwen3-TTS: Voice Design, Clone и генератор
- 5 моделей - 0.6B и 1.7B
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
Гитхаб
Демо
HF
API
#tts #text2speech #voicecloning #voicedesign #text2voice
🔥10👍4❤1