Psy Eyes

Adobe: ...ты ли это?

Представили метод Self Forcing, позволяющий генерить видео реалтайм в режиме стриминга на одной 4090.

Технология имитирует процесс инференса во время тренировки видеомодели, выполняя авторегрессионную развертку с KV-кэшированием. Это позволяет добиться высокого соответствия выходных результатов оригинальным видосам.

Сделали модель на основе Wan 2.1, которая после разогрева в 0,8 сек генерирует 480p 10 fps в реалтайме на 4090. На H100 выдаёт 16 fps. В целом по требованиям нужно минимум 24 ГБ VRAM и 64 ГБ RAM (первый раз как-то явно RAM прописывается).

В отличии от большинства анонсов Адоба, где тебе только пускают бумажную пыль в глаза, здесь есть код. Но тестировалось только на Linux. Ну штош Ubuntu, настало твоё время.

Сайт
Гитхаб
Хаггинг

1.94K views18:51

Psy Eyes

1:16

This media is not supported in your browser

VIEW IN TELEGRAM

Topaz: запустили креативный апскейлер Astra для повышения разрешения видео до 4к, интерполяции кадров до 120 fps (или х8 слоумо), и генерации новых деталей.

При этом может работать в Precise режиме, чтобы максимально придерживаться оригинала. Есть выбор фокуса на качестве или на скорости. Последний вариант в 4 раза быстрее и в 3 раза дешевле модели Starlight.

До этого они представили линейку моделей Bloom для креативного апскейла картинок.

Пока доступно в приватном режиме. Доступ запрашивается у них в комментах в твитторе.

Анонс
Сайт

2.34K views11:16

Работа члена нашего сообщества @evgenypyrev

Дальше слова автору:

Привет! Коммент к кейсу

Чтобы сделать этот ролик и понять, что подойдёт под нашу задачу, нам понадобилось протестировать все самые современные модели генерации видео.

На самом деле первая версия, которую мы сделали, была достаточно простой и плоской — мы выбрали чисто иллюстративный стиль. Но в процессе генерации мы обнаружили, что нейросети придают плоской иллюстрации необычный объём.

Зацепившись за этот подход, мы решили сделать стиль, похожий на анимационный фильм «Spider-Man».

Производственный стек: Runway, Sora, Flow, Kling, Krea, Midjourney, Higgsfield, Luma, DaVinci Resolve, Adobe After Effects.

Также мы поставили себе задачу сделать ролик насыщенным брендингом. Поэтому все актёры в кроссовках Adidas с узнаваемыми тремя полосками, а логотипы появляются в течение всего ролика.

Кроме того, мы постарались выдержать единый сеттинг по цвету и стилю, что было непросто, так как генерация пока не сильно управляема. Мы в основном использовали image-to-video, поэтому перед генерацией приходилось дорабатывать имиджи вручную.

Ещё протестировали технологию наложения на видео определённого стилистического фильтра — в некоторых кадрах это получилось сделать.

Мы считаем, что при создании AI-видео прежде всего нужно добиваться цельности. Это помогает создать ощущение, что это не просто нарезка кадров, а цельная история, в которую веришь.

Нам часто задают вопросы, как мы это сделали, и многие даже переспрашивают: «Точно вы делали это видео?».
На самом деле это приятно :) и мотивирует создавать ещё больше новых роликов.

Щи Продакшен
Режиссёр, AI-продюсер — Евгений Пырьев @brandiver
AI-продюсер, моушен-дизайнер — Александр Мартынов

2.08K views15:17

Psy Eyes

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

Только мы разговаривали про 4D видео из сплатов, где можно свободно менять угол обзора, но нужен риг из множества камер.

А сегодня Nvidia опубликовала код видео модели GEN3C, в котором можно брать на вход одну картинку, двигать камерой внутри сцены словно в 3D пространстве, и получать видео с нужным пролётом камеры. Альтернативно можно подавать несколько картинок или видео.

Под капотом используется 3D кэш в виде облака точек, полученного из карты глубины изображения или вытащенных кадров. Для генерации новых видов GEN3C задействует траекторию движения камеры от юзера и 2D рендеры 3D кэша. GEN3C можно подрубать к разным видео генераторам, например, видосы выше сгенерированы в Cosmos и есть примеры на SVD.

Про потребление VRAM не сказано, однако чуваку в твиттере 48 ГБ VRAM не хватает. Есть скрипт для запуска на одном GPU и на Multi-GPU. Зато интерфейс с рульками удобными. И да, только Linux... хэй Ubuntu... кыс-кыс!

Сайт
Гитхаб

2.41K views16:33

Psy Eyes

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Fal: говорят, что они первыми наваяли у себя вертикальные видео в Veo3.

Проблема в том, что похоже это аутпейнт. Причём и на сайте у них, и в превью на компе — полученное видео отображается как вертикальное, а стоит его воспроизвести или загрузить в телегу, ты видишь только горизонтальное (см. второе видео). Что занятно, первое видео скачано из твиттера FAL и оно действительно вертикальное.

А ещё сами гугл выкатили Veo3 Fast, доступную во Flow и приложении Gemini. Цена в 5 раз дешевле (20 кредитов против 100 за видео), скорость в 2 раза быстрее, качество и длительность те же: 720p и 8 сек. Третье видео Fast, четвёртое Quality.

Fast больше подходит для превью перед генерацией в качестве. Но народ в целом жалуется в твитторе на Veo3 из-за высокой стоимости, и запоротых генераций, за которые всё равно идёт списание.

1.78K views18:34

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Там Midjourney наводят финальные штрихи перед релизом своего видеогенератора. Просят пользователей проголосовать за понравившиеся видео, не презентующие финальное качество.

У кого подписка, подропайте в комменты чё там хоть.

https://www.midjourney.com/rank-video

1.86K viewsedited 08:39

Новая работа члена нашего сообщества @lRba518FI34b3Nt0 для его проекта vvonderson.

Дальше слово автору:

Всё началось с пары генераций в Midjourney без промптов, только sref изображения. Одну из них я отправил salty_assorti, а он сделал видео в только что вышедшем Veo 2.

Получился парень, будто кайфующий под музыку. Эта сцена вдохновила нас на видео, тесно связанное с ритмом и объединённое общим визуальным стилем. Было решено делать упор не на реализм, а на цепляющий визуал и динамику.

Сразу выбрали трек, отобрали самые интересные изображения и начали экспериментировать. Почти все генерации img2video делались без промптов: 70% сцен это Luma Ray 2, остальное Higgsfield, Hailuo и Veo 2.

Luma отлично подходит для экспериментов и регулярно выдает интересные сцены без промпта. Похожая ситуация с Hailuo, который тоже креативно "додумывает" визуал. А вот Veo 2 и Higgsfield требуют точных указаний, "на вайбе" не работают.

Любимая часть — интро. Оно полностью сделано в Luma, которая позволяет бесшовно продлевать сцены. Я задал вращение камеры по часовой стрелке и Luma сгенерировала плавное, непрерывное движение без пауз.

Монтаж делался в CapCut, отличное решение для небольших проектов. В нём много переходов и эффектов, которые обязательны для динамичного видео под музыку.

Отдельно выделю саунд дизайн. Изначально он не планировался, но в финальной версии стало ясно, что чего-то не хватает. Я добавил шумы и переходы, особенно это заметно в интро. Саунд дизайн делал в FL Studio, без помощи ИИ, мой опыт муз продюсера помог в этом.

Больше всего времени ушло на монтаж и саунд дизайн, так как мне как музыканту хотелось максимального совпадения ритма трека и визуала.

Предыдущая его работа "Maledict" тут.

1.84K views15:40

Psy Eyes

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

Runway: выкатили для всех пользователей чат, через который можно генерить картинки, редактировать их текстом, и делать из них видео.

Генерация/изменение одного изображения 5 кредитов.

Анонс
Сайт

2.23K viewsedited 17:38

Psy Eyes

прежде, чем мы на некоторое время погрузимся в латентное видеопространство Midjourney

1.86K views18:31

Psy Eyes