This media is not supported in your browser
VIEW IN TELEGRAM
Продолжим видеомарафон желаний.
Lumina Video. 960\24\96
Вы будете смеяться, но у нас новый ОПЕН_СОРСНЫЙ видео-генератор. И не совсем уж студенческий проект.
Я пару дней назад отложил пост про новую версию генератора картинок Lumina 2.0 (обновленный Lumina Next, новая 2B-модель, энкодер gemma 2b).
Как тут китайцы выпускают Lumina Video - с полным кодом, лицензия Апачи, и даже тех. репорт семь часов назад выложили.
Из интересного, у них также есть Lumina V2A - генерация звука по видео. Хорек на видео шпилит со звуком - это полностью генератив.
Они там исповедуют\шаманят с патчификацией, пытаясь ускорить инференс и не потерять в качестве.
На черипиках качество мылит, надо бы развести локально.
Родное разрешение (точнее, разрешение разгона) 960х960, хороший fps аж 24, и 96 кадров, то есть 4 секунды.
Интеграции с Diffusers пока нет, требований к железу не нашел, так что только хардкор и командная строка.
Пока то, что я вижу на видосах меня не впечатляет. Но это, пардон, опен сорс.
Го тестировать!
Код: https://github.com/Alpha-VLLM/Lumina-Video
Тех репорт.
Веса: https://huggingface.co/Alpha-VLLM/Lumina-Video-f24R960
@cgevent
Lumina Video. 960\24\96
Вы будете смеяться, но у нас новый ОПЕН_СОРСНЫЙ видео-генератор. И не совсем уж студенческий проект.
Я пару дней назад отложил пост про новую версию генератора картинок Lumina 2.0 (обновленный Lumina Next, новая 2B-модель, энкодер gemma 2b).
Как тут китайцы выпускают Lumina Video - с полным кодом, лицензия Апачи, и даже тех. репорт семь часов назад выложили.
Из интересного, у них также есть Lumina V2A - генерация звука по видео. Хорек на видео шпилит со звуком - это полностью генератив.
Они там исповедуют\шаманят с патчификацией, пытаясь ускорить инференс и не потерять в качестве.
На черипиках качество мылит, надо бы развести локально.
Родное разрешение (точнее, разрешение разгона) 960х960, хороший fps аж 24, и 96 кадров, то есть 4 секунды.
Интеграции с Diffusers пока нет, требований к железу не нашел, так что только хардкор и командная строка.
Пока то, что я вижу на видосах меня не впечатляет. Но это, пардон, опен сорс.
Го тестировать!
Код: https://github.com/Alpha-VLLM/Lumina-Video
Тех репорт.
Веса: https://huggingface.co/Alpha-VLLM/Lumina-Video-f24R960
@cgevent
❤12👍8😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и если вам интересно, то вот та самая Lumina Image 2.0.
И надо сказать, что с пониманием промпта у нее все отлично. Прошла все мои бутылочные тесты. Более того, у нее есть еще и системный промпт типа "You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.".
Я так понимаю, там в кишках сидит Gemma 2 и кучерявит промпты.
Можете попробовать сами тут:
http://47.100.29.251:10010/
Или на спейсах, указанных тут:
https://github.com/Alpha-VLLM/Lumina-Image-2.0
Из интересного, у этой же команды есть проект Lumina2X - текст в ЛЮБУЮ модальность. Поэтому у них видео со звуком.
И это опен сорс, апачи2
@cgevent
И надо сказать, что с пониманием промпта у нее все отлично. Прошла все мои бутылочные тесты. Более того, у нее есть еще и системный промпт типа "You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.".
Я так понимаю, там в кишках сидит Gemma 2 и кучерявит промпты.
Можете попробовать сами тут:
http://47.100.29.251:10010/
Или на спейсах, указанных тут:
https://github.com/Alpha-VLLM/Lumina-Image-2.0
Из интересного, у этой же команды есть проект Lumina2X - текст в ЛЮБУЮ модальность. Поэтому у них видео со звуком.
И это опен сорс, апачи2
@cgevent
👍19❤12🔥6
Опенсорсные генераторы. Deep Research
В общем, если вам нужно поресерчить структуру белка или финансовую аналитику, то Deep Research - это наверное круто. Но если вы анализируете тему, которой без году неделя (а точнее, без месяца полгода), то вы получите ну очень общие сведения.
Что я сделал, сначала вкинул в Deepseek вот такое:
Сделай анализ существующих генераторов видео с открытым исходным кодом. Выдели сильные и слабые стороны каждого. Начни с самых новых и многообещающих моделей. Помни, что интересны только open source модели.
Получил ну совсем треш, где на вершине Stable Video Diffusion (видать индекс цитируемости роляет).
Потом призвал на помошь Диму Mr D. у которого есть олигархический Pro аккаунт на OpenAI и попросил его вонзить тот же промпт в Deep Research.
Получил (с графиком однако) вот такое:
Заключение: Новые генераторы видео с открытым исходным кодом стремительно развиваются, делая технологию доступнее. HunyuanVideo показывает, что open-source модели уже могут соперничать с лучшими закрытыми системами по качеству
, хотя требуют огромных ресурсов. OpenSora и CogVideoX были важными шагами, но им на смену приходят более продвинутые проекты вроде PyramidFlow (упор на разрешение и эффективность) и Mochi 1 (упор на реализм движения). Отдельно стоит выделить LTXV, которая ориентирована на скорость и доступность даже на домашних ПК
Каждый из рассмотренных генераторов имеет свои сильные и слабые стороны – выбор зависит от задач и наличия вычислительных ресурсов. С ростом сообщества и улучшением методов мы можем ожидать появления ещё более удобных и эффективных инструментов, способных превращать текстовые задумки в полноценное видео всего за несколько секунд.
В принципе неплохо.
В следующем посте подробный ресерч(он огромный) и диванные мысли.
@cgevent
В общем, если вам нужно поресерчить структуру белка или финансовую аналитику, то Deep Research - это наверное круто. Но если вы анализируете тему, которой без году неделя (а точнее, без месяца полгода), то вы получите ну очень общие сведения.
Что я сделал, сначала вкинул в Deepseek вот такое:
Сделай анализ существующих генераторов видео с открытым исходным кодом. Выдели сильные и слабые стороны каждого. Начни с самых новых и многообещающих моделей. Помни, что интересны только open source модели.
Получил ну совсем треш, где на вершине Stable Video Diffusion (видать индекс цитируемости роляет).
Потом призвал на помошь Диму Mr D. у которого есть олигархический Pro аккаунт на OpenAI и попросил его вонзить тот же промпт в Deep Research.
Получил (с графиком однако) вот такое:
Заключение: Новые генераторы видео с открытым исходным кодом стремительно развиваются, делая технологию доступнее. HunyuanVideo показывает, что open-source модели уже могут соперничать с лучшими закрытыми системами по качеству
, хотя требуют огромных ресурсов. OpenSora и CogVideoX были важными шагами, но им на смену приходят более продвинутые проекты вроде PyramidFlow (упор на разрешение и эффективность) и Mochi 1 (упор на реализм движения). Отдельно стоит выделить LTXV, которая ориентирована на скорость и доступность даже на домашних ПК
Каждый из рассмотренных генераторов имеет свои сильные и слабые стороны – выбор зависит от задач и наличия вычислительных ресурсов. С ростом сообщества и улучшением методов мы можем ожидать появления ещё более удобных и эффективных инструментов, способных превращать текстовые задумки в полноценное видео всего за несколько секунд.
В принципе неплохо.
В следующем посте подробный ресерч(он огромный) и диванные мысли.
@cgevent
51👍28🔥9❤6
Сначала диванные мысли, а потом то, что отрыгнул Deep Research
Как я уже написал выше, Deep Research - это про исследование, раздумывание, в общем это про науку.
Я когда спрашивал в канале, для чего вы будете использовать o1, то ответов было примерно ноль.
Анализ видеогенераторов - это не наука, это творчество. Это чтение чата коментариев этого канала и на худой конец - реддита. Это сообщения в личке и чтение issues на гитхабе. Это то, что не просачивается в Deep Research. Допускаю, что пока, до времени. Ну или я должен сказать: сожри все мои переписки, чаты, поиски на реддите и чуть чуть (в меру) твиттора.
Ну или я могу его прям потыкать лицом в Хуньянь или LTX, но это уже будет мой ресерч, а не его.
В общем это я к чему. Все этим мои мамкины ресерчи - это не наука (аналитика вообще часто не наука, а компиляция поисков) - это любопытство, которым я делюсь с вами. И для задач анализа видеогенераторов оно подходит идеально. А Дип Ресерч не подходит, он для другого, для науки. Вот когда обзаведется инфантильным любопытством нейродеда, тогда и поговорим.
А пока читайте серьезные мысли от ИИ, а я свои кожаные навалю позже.
___________________________________________________
Ниже приведён сокращённый обзор открытых генераторов видео, ориентированных на простоту использования:
OpenSora
Описание: Генерирует видео по тексту (до 16 сек, 720p) с несколькими режимами работы.
Плюсы: Универсальность, открытый код, готовые демо (Gradio, Hugging Face Diffusers).
Минусы: Высокие требования к VRAM, качество уступает крупным моделям.
CogVideoX 5B
Описание: Модель на 5 млрд параметров для создания 6-секундных видео (720×480, 8 FPS).
Плюсы: Улучшенное качество по сравнению с предыдущей версией, открытый код.
Минусы: Ограниченная длительность, невысокое разрешение, сложная установка для новичков.
PyramidFlow
Описание: Пирамидальная архитектура для видео до 10 сек (до 768p, 24 FPS), поддерживает image-to-video.
Плюсы: Высокое качество и эффективность, гибкие настройки (MIT-лицензия).
Минусы: Сложная установка, требует опыта в ML, высокие требования к оборудованию.
HunyuanVideo
Описание: Модель с 13 млрд параметров для высококачественной генерации видео и изображений.
Плюсы: Фотореализм, стабильность кадров, готовые демо и API.
Минусы: Очень ресурсоёмкая, сложная локальная настройка, требует профессионального оборудования.
LTXV
Описание: Лёгкая и быстрая модель (~2 млрд параметров), генерирует видео почти в реальном времени.
Плюсы: Эффективное использование памяти, быстрый вывод, подходит для домашних ПК.
Минусы: Немного уступает по качеству самым большим моделям, ограничения лицензии OpenRAIL.
Mochi 1
Описание: Модель от Genmo (~10 млрд параметров) для 5-секундных клипов (480p, 30 FPS) с фотореалистичным движением.
Плюсы: Точное соответствие тексту, оптимизация памяти, доступ через веб-интерфейс.
Минусы: Ограниченное разрешение базовой версии, требует мощного оборудования для локального запуска.
Выбор модели зависит от приоритетов: для простоты и быстроты – LTXV, для максимального качества – HunyuanVideo, а для баланса возможностей и требований к ресурсам – OpenSora или PyramidFlow.
@cgevent
Как я уже написал выше, Deep Research - это про исследование, раздумывание, в общем это про науку.
Я когда спрашивал в канале, для чего вы будете использовать o1, то ответов было примерно ноль.
Анализ видеогенераторов - это не наука, это творчество. Это чтение чата коментариев этого канала и на худой конец - реддита. Это сообщения в личке и чтение issues на гитхабе. Это то, что не просачивается в Deep Research. Допускаю, что пока, до времени. Ну или я должен сказать: сожри все мои переписки, чаты, поиски на реддите и чуть чуть (в меру) твиттора.
Ну или я могу его прям потыкать лицом в Хуньянь или LTX, но это уже будет мой ресерч, а не его.
В общем это я к чему. Все этим мои мамкины ресерчи - это не наука (аналитика вообще часто не наука, а компиляция поисков) - это любопытство, которым я делюсь с вами. И для задач анализа видеогенераторов оно подходит идеально. А Дип Ресерч не подходит, он для другого, для науки. Вот когда обзаведется инфантильным любопытством нейродеда, тогда и поговорим.
А пока читайте серьезные мысли от ИИ, а я свои кожаные навалю позже.
___________________________________________________
Ниже приведён сокращённый обзор открытых генераторов видео, ориентированных на простоту использования:
OpenSora
Описание: Генерирует видео по тексту (до 16 сек, 720p) с несколькими режимами работы.
Плюсы: Универсальность, открытый код, готовые демо (Gradio, Hugging Face Diffusers).
Минусы: Высокие требования к VRAM, качество уступает крупным моделям.
CogVideoX 5B
Описание: Модель на 5 млрд параметров для создания 6-секундных видео (720×480, 8 FPS).
Плюсы: Улучшенное качество по сравнению с предыдущей версией, открытый код.
Минусы: Ограниченная длительность, невысокое разрешение, сложная установка для новичков.
PyramidFlow
Описание: Пирамидальная архитектура для видео до 10 сек (до 768p, 24 FPS), поддерживает image-to-video.
Плюсы: Высокое качество и эффективность, гибкие настройки (MIT-лицензия).
Минусы: Сложная установка, требует опыта в ML, высокие требования к оборудованию.
HunyuanVideo
Описание: Модель с 13 млрд параметров для высококачественной генерации видео и изображений.
Плюсы: Фотореализм, стабильность кадров, готовые демо и API.
Минусы: Очень ресурсоёмкая, сложная локальная настройка, требует профессионального оборудования.
LTXV
Описание: Лёгкая и быстрая модель (~2 млрд параметров), генерирует видео почти в реальном времени.
Плюсы: Эффективное использование памяти, быстрый вывод, подходит для домашних ПК.
Минусы: Немного уступает по качеству самым большим моделям, ограничения лицензии OpenRAIL.
Mochi 1
Описание: Модель от Genmo (~10 млрд параметров) для 5-секундных клипов (480p, 30 FPS) с фотореалистичным движением.
Плюсы: Точное соответствие тексту, оптимизация памяти, доступ через веб-интерфейс.
Минусы: Ограниченное разрешение базовой версии, требует мощного оборудования для локального запуска.
Выбор модели зависит от приоритетов: для простоты и быстроты – LTXV, для максимального качества – HunyuanVideo, а для баланса возможностей и требований к ресурсам – OpenSora или PyramidFlow.
@cgevent
👍17❤9🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
Видеогенераторы опенсорсныя. Конец видеомарафона желаний.
Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.
Первое место. Хуньянь.
Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.
Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.
Второе место. LTXV.
Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.
Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.
На этом все.
Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.
Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.
@cgevent
Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.
Первое место. Хуньянь.
Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.
Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.
Второе место. LTXV.
Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.
Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.
На этом все.
Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.
Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.
@cgevent
11👍39❤6😱1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Закрываем тему видео.
Ну и как вам вчерашний марафон видеожеланий?
Думаю, что через месяц надо будет повторять, ибо все изменится.
А сейчас вишенка на торте. Протестировал ночью вот эту вот всю Lumina Video.
Я уж не знаю, как они черрипикали, что писали в негативный промпт и на каком коде тестировали, но то, что у них лежит на Гитхабе выдает вот такое. Часть их этого - промпты из MovieGen Bench (девушка в токио и пр) и две танцующие девушки - так он видит nsfw.
Может, когда привезут i2v будет получше, как в случае с EasyAnimate, но пока вот так.
Ах да, 4 секунды генерятся 29 минут на A100 (причем ошибки про ffmpeg writer появляются в самом конце, будете устанавливать, запускайте сначала 1 секунду генерации, чтобы увидеть и пофиксить ошибки).
На двух секундах от жрет 53 гига видеопамяти памяти (в конце, когда собирает видос), вначале ест 17.
Думаю, сэкономил вам время и нервы, навалите-ка звездочек или донатов , вчера утомился немного.
@cgevent
Ну и как вам вчерашний марафон видеожеланий?
Думаю, что через месяц надо будет повторять, ибо все изменится.
А сейчас вишенка на торте. Протестировал ночью вот эту вот всю Lumina Video.
Я уж не знаю, как они черрипикали, что писали в негативный промпт и на каком коде тестировали, но то, что у них лежит на Гитхабе выдает вот такое. Часть их этого - промпты из MovieGen Bench (девушка в токио и пр) и две танцующие девушки - так он видит nsfw.
Может, когда привезут i2v будет получше, как в случае с EasyAnimate, но пока вот так.
Ах да, 4 секунды генерятся 29 минут на A100 (причем ошибки про ffmpeg writer появляются в самом конце, будете устанавливать, запускайте сначала 1 секунду генерации, чтобы увидеть и пофиксить ошибки).
На двух секундах от жрет 53 гига видеопамяти памяти (в конце, когда собирает видос), вначале ест 17.
Думаю, сэкономил вам время и нервы, навалите-ка звездочек или донатов , вчера утомился немного.
@cgevent
16😁55🔥26👍21❤6👎3
Группа инвесторов во главе с Илоном Маском предложила около 97,4 миллиарда долларов за покупку некоммерческой организации behind OpenAI, которую Маск помог основать десять лет назад.
Альман отреагировал мгновенно.
@cgevent
Альман отреагировал мгновенно.
@cgevent
😁32👍27👎12🔥3❤1
Forwarded from Нейронавт | Нейросети в творчестве
This media is not supported in your browser
VIEW IN TELEGRAM
Zonos
Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами
- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API
Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами
#voicecloning #tts #text2speech
Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами
- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API
Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами
#voicecloning #tts #text2speech
3🔥46👍9❤2
Недавно писал про новый апскейлер видео от Топаза. Он был в закрытой бете.
Дали воду в хату доступ для всех.
Го тестировать.
Дают немного кредитов.
https://app.topazlabs.com/experiments/starlight
@cgevent
Дали воду в хату доступ для всех.
Го тестировать.
Дают немного кредитов.
https://app.topazlabs.com/experiments/starlight
@cgevent
👍20❤5
Media is too big
VIEW IN TELEGRAM
Если честно, то даже я приподохренел.
Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...
Пришлось смотреть 3 раза.
Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.
Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes
Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI
Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.
От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.
Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.
P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.
@cgevent
Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...
Пришлось смотреть 3 раза.
Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.
Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes
Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI
Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.
От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.
Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.
P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.
@cgevent
🔥165😱38👍25❤24👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяться, но у нас опять новый видеогенератор!
Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.
Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!
Итак, что интересного.
Image2Video из коробки, но это не главное, главное С-Скорость!
Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.
Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.
Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.
Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.
Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).
VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).
Stan Travis, готов? Ждем веса.
Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.
https://github.com/DA-Group-PKU
@cgevent
Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.
Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!
Итак, что интересного.
Image2Video из коробки, но это не главное, главное С-Скорость!
Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.
Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.
Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.
Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.
Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).
VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False
А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>
(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).
Stan Travis, готов? Ждем веса.
Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.
https://github.com/DA-Group-PKU
@cgevent
🔥41👍9❤7😁2
Вопрос про телеграм. Я голову сломал, но не нашел ответа.
Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.
Вставьте буфер в текстовый редактор, получите link (http://www.link.url)
Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".
Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.
Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"
Вопрос: как Телега это делает? что она запоминает по дороге и где?
Надеюсь внятно написал
@cgevent
Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.
Вставьте буфер в текстовый редактор, получите link (http://www.link.url)
Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".
Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.
Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"
Вопрос: как Телега это делает? что она запоминает по дороге и где?
Надеюсь внятно написал
@cgevent
😁43👍11❤5😱4
Forwarded from Neural Shit
Почти все видеогенераторы не умеют нормально генерировать людей вверх ногами. Если сгенерировать такое видео, а после перевернуть его на 180 градусов, то получается забавный эффект — люди моргают нижним веком + часто испытывают проблемы со ртом.
Сейчас знатно залип на генерации таких криповых уродцев
Сейчас знатно залип на генерации таких криповых уродцев
😁80😱12👍6❤2👎1