Метаверсище и ИИще
48.1K subscribers
6.06K photos
4.53K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжим видеомарафон желаний.

Lumina Video. 960\24\96

Вы будете смеяться, но у нас новый ОПЕН_СОРСНЫЙ видео-генератор. И не совсем уж студенческий проект.
Я пару дней назад отложил пост про новую версию генератора картинок Lumina 2.0 (обновленный Lumina Next, новая 2B-модель, энкодер gemma 2b).
Как тут китайцы выпускают Lumina Video - с полным кодом, лицензия Апачи, и даже тех. репорт семь часов назад выложили.
Из интересного, у них также есть Lumina V2A - генерация звука по видео. Хорек на видео шпилит со звуком - это полностью генератив.
Они там исповедуют\шаманят с патчификацией, пытаясь ускорить инференс и не потерять в качестве.
На черипиках качество мылит, надо бы развести локально.
Родное разрешение (точнее, разрешение разгона) 960х960, хороший fps аж 24, и 96 кадров, то есть 4 секунды.
Интеграции с Diffusers пока нет, требований к железу не нашел, так что только хардкор и командная строка.

Пока то, что я вижу на видосах меня не впечатляет. Но это, пардон, опен сорс.

Го тестировать!

Код: https://github.com/Alpha-VLLM/Lumina-Video
Тех репорт.
Веса: https://huggingface.co/Alpha-VLLM/Lumina-Video-f24R960

@cgevent
12👍8😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и если вам интересно, то вот та самая Lumina Image 2.0.

И надо сказать, что с пониманием промпта у нее все отлично. Прошла все мои бутылочные тесты. Более того, у нее есть еще и системный промпт типа "You are an assistant designed to generate superior images with the superior degree of image-text alignment based on textual prompts or user prompts.".
Я так понимаю, там в кишках сидит Gemma 2 и кучерявит промпты.
Можете попробовать сами тут:
http://47.100.29.251:10010/
Или на спейсах, указанных тут:
https://github.com/Alpha-VLLM/Lumina-Image-2.0

Из интересного, у этой же команды есть проект Lumina2X - текст в ЛЮБУЮ модальность. Поэтому у них видео со звуком.

И это опен сорс, апачи2

@cgevent
👍1912🔥6
Опенсорсные генераторы. Deep Research

В общем, если вам нужно поресерчить структуру белка или финансовую аналитику, то Deep Research - это наверное круто. Но если вы анализируете тему, которой без году неделя (а точнее, без месяца полгода), то вы получите ну очень общие сведения.

Что я сделал, сначала вкинул в Deepseek вот такое:
Сделай анализ существующих генераторов видео с открытым исходным кодом. Выдели сильные и слабые стороны каждого. Начни с самых новых и многообещающих моделей. Помни, что интересны только open source модели.

Получил ну совсем треш, где на вершине Stable Video Diffusion (видать индекс цитируемости роляет).

Потом призвал на помошь Диму Mr D. у которого есть олигархический Pro аккаунт на OpenAI и попросил его вонзить тот же промпт в Deep Research.

Получил (с графиком однако) вот такое:

Заключение: Новые генераторы видео с открытым исходным кодом стремительно развиваются, делая технологию доступнее. HunyuanVideo показывает, что open-source модели уже могут соперничать с лучшими закрытыми системами по качеству​
, хотя требуют огромных ресурсов. OpenSora и CogVideoX были важными шагами, но им на смену приходят более продвинутые проекты вроде PyramidFlow (упор на разрешение и эффективность) и Mochi 1 (упор на реализм движения). Отдельно стоит выделить LTXV, которая ориентирована на скорость и доступность даже на домашних ПК​
Каждый из рассмотренных генераторов имеет свои сильные и слабые стороны – выбор зависит от задач и наличия вычислительных ресурсов. С ростом сообщества и улучшением методов мы можем ожидать появления ещё более удобных и эффективных инструментов, способных превращать текстовые задумки в полноценное видео всего за несколько секунд.

В принципе неплохо.

В следующем посте подробный ресерч(он огромный) и диванные мысли.

@cgevent
51👍28🔥96
Сначала диванные мысли, а потом то, что отрыгнул Deep Research

Как я уже написал выше, Deep Research - это про исследование, раздумывание, в общем это про науку.

Я когда спрашивал в канале, для чего вы будете использовать o1, то ответов было примерно ноль.

Анализ видеогенераторов - это не наука, это творчество. Это чтение чата коментариев этого канала и на худой конец - реддита. Это сообщения в личке и чтение issues на гитхабе. Это то, что не просачивается в Deep Research. Допускаю, что пока, до времени. Ну или я должен сказать: сожри все мои переписки, чаты, поиски на реддите и чуть чуть (в меру) твиттора.

Ну или я могу его прям потыкать лицом в Хуньянь или LTX, но это уже будет мой ресерч, а не его.

В общем это я к чему. Все этим мои мамкины ресерчи - это не наука (аналитика вообще часто не наука, а компиляция поисков) - это любопытство, которым я делюсь с вами. И для задач анализа видеогенераторов оно подходит идеально. А Дип Ресерч не подходит, он для другого, для науки. Вот когда обзаведется инфантильным любопытством нейродеда, тогда и поговорим.

А пока читайте серьезные мысли от ИИ, а я свои кожаные навалю позже.
___________________________________________________

Ниже приведён сокращённый обзор открытых генераторов видео, ориентированных на простоту использования:

OpenSora

Описание: Генерирует видео по тексту (до 16 сек, 720p) с несколькими режимами работы.
Плюсы: Универсальность, открытый код, готовые демо (Gradio, Hugging Face Diffusers).
Минусы: Высокие требования к VRAM, качество уступает крупным моделям.
CogVideoX 5B

Описание: Модель на 5 млрд параметров для создания 6-секундных видео (720×480, 8 FPS).
Плюсы: Улучшенное качество по сравнению с предыдущей версией, открытый код.
Минусы: Ограниченная длительность, невысокое разрешение, сложная установка для новичков.
PyramidFlow

Описание: Пирамидальная архитектура для видео до 10 сек (до 768p, 24 FPS), поддерживает image-to-video.
Плюсы: Высокое качество и эффективность, гибкие настройки (MIT-лицензия).
Минусы: Сложная установка, требует опыта в ML, высокие требования к оборудованию.
HunyuanVideo

Описание: Модель с 13 млрд параметров для высококачественной генерации видео и изображений.
Плюсы: Фотореализм, стабильность кадров, готовые демо и API.
Минусы: Очень ресурсоёмкая, сложная локальная настройка, требует профессионального оборудования.
LTXV

Описание: Лёгкая и быстрая модель (~2 млрд параметров), генерирует видео почти в реальном времени.
Плюсы: Эффективное использование памяти, быстрый вывод, подходит для домашних ПК.
Минусы: Немного уступает по качеству самым большим моделям, ограничения лицензии OpenRAIL.
Mochi 1

Описание: Модель от Genmo (~10 млрд параметров) для 5-секундных клипов (480p, 30 FPS) с фотореалистичным движением.
Плюсы: Точное соответствие тексту, оптимизация памяти, доступ через веб-интерфейс.
Минусы: Ограниченное разрешение базовой версии, требует мощного оборудования для локального запуска.
Выбор модели зависит от приоритетов: для простоты и быстроты – LTXV, для максимального качества – HunyuanVideo, а для баланса возможностей и требований к ресурсам – OpenSora или PyramidFlow.

@cgevent
👍179🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
Видеогенераторы опенсорсныя. Конец видеомарафона желаний.

Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.

Первое место. Хуньянь.

Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.

Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.

Второе место. LTXV.

Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.

Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.

На этом все.

Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.

Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.

@cgevent
11👍396😱1
Закрываем тему видео.

Ну и как вам вчерашний марафон видеожеланий?


Думаю, что через месяц надо будет повторять, ибо все изменится.

А сейчас вишенка на торте. Протестировал ночью вот эту вот всю Lumina Video.
Я уж не знаю, как они черрипикали, что писали в негативный промпт и на каком коде тестировали, но то, что у них лежит на Гитхабе выдает вот такое. Часть их этого - промпты из MovieGen Bench (девушка в токио и пр) и две танцующие девушки - так он видит nsfw.

Может, когда привезут i2v будет получше, как в случае с EasyAnimate, но пока вот так.

Ах да, 4 секунды генерятся 29 минут на A100 (причем ошибки про ffmpeg writer появляются в самом конце, будете устанавливать, запускайте сначала 1 секунду генерации, чтобы увидеть и пофиксить ошибки).

На двух секундах от жрет 53 гига видеопамяти памяти (в конце, когда собирает видос), вначале ест 17.

Думаю, сэкономил вам время и нервы, навалите-ка звездочек или донатов , вчера утомился немного.

@cgevent
16😁55🔥26👍216👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Тренировка ЛЛама-4.

А как вы думали их тренируют? На словах?

@cgevent
😁130🔥19👍4👎21
Группа инвесторов во главе с Илоном Маском предложила около 97,4 миллиарда долларов за покупку некоммерческой организации behind OpenAI, которую Маск помог основать десять лет назад.
Альман отреагировал мгновенно.

@cgevent
😁32👍27👎12🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
Zonos

Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами

- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API


Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами

#voicecloning #tts #text2speech
3🔥46👍92
Недавно писал про новый апскейлер видео от Топаза. Он был в закрытой бете.

Дали воду в хату доступ для всех.
Го тестировать.

Дают немного кредитов.

https://app.topazlabs.com/experiments/starlight

@cgevent
👍205
Media is too big
VIEW IN TELEGRAM
Если честно, то даже я приподохренел.

Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...





















Пришлось смотреть 3 раза.

Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.

Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes

Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI

Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.

От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.

Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.

P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.

@cgevent
🔥165😱38👍2524👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяться, но у нас опять новый видеогенератор!

Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.

Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!

Итак, что интересного.

Image2Video из коробки, но это не главное, главное С-Скорость!

Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.

Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.

Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.

Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.

Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).

VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False

А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>

(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).

Stan Travis, готов? Ждем веса.

Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.

https://github.com/DA-Group-PKU

@cgevent
🔥41👍97😁2
Вопрос про телеграм. Я голову сломал, но не нашел ответа.

Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.

Вставьте буфер в текстовый редактор, получите link (http://www.link.url)

Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".

Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.

Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"

Вопрос: как Телега это делает? что она запоминает по дороге и где?

Надеюсь внятно написал

@cgevent
😁43👍115😱4
Forwarded from Neural Shit
Почти все видеогенераторы не умеют нормально генерировать людей вверх ногами. Если сгенерировать такое видео, а после перевернуть его на 180 градусов, то получается забавный эффект — люди моргают нижним веком + часто испытывают проблемы со ртом.

Сейчас знатно залип на генерации таких криповых уродцев
😁80😱12👍62👎1