Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Forwarded from OmceOne prod.
Media is too big
VIEW IN TELEGRAM
Guf - Только не сегодня

Амбасадором этого видео ролика выступила #LumaLabs, #Kling на подсосе в виде липсинка и #Krea как основной источник материала🤙

#клипешник
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Moonvalley: создатели этого видеогенератора подали признаки жизни и вышли с новой моделью — Marey.

Последняя новость от них была аж в 2023 году. Потом в 2024 они сообщили, что бесплатных генераций больше не будет, а через несколько месяцев закрыли и платные подписки, потому что им не хватает ресурсов.

Но выяснилось, что они сделали шаг назад, чтобы вернуться с моделью побольше. В Marey обещают работу в HD и разных форматах кадра, высокую детализацию, динамичную картинку и чёткое следования промту.

Качество пока судя по видео немного лучше Gen-2: артефакты, плохая динамика конечностей и объектов на фоне. Но может прокатить на анимации и стилизации. Заявляется, что натренировано всё на лицензированных данных. И это может являться как раз причиной отставания: ребятам не хватает данных. Похожая история с музыкальным проектом JEN, который натренирован только на лицензированной музыке, и качество значительно хуже конкурентов. Здесь китайская братва (Kling, Wan, и ко), которая берёт всё из интернета и никого не спрашивает — решает.

Но если Moonvalley сделают вменяемый ценник, и дадут много инструментов для контроля, — а у них на сайте написано layer-level editing, — то смогут привлечь, а то и удержать внимание.

Запись вейтлист у них на сайте.

Сайт
7
Sparse VideoGen (SVG): метод ускорения генерации видео в два раза без видимой потери качества.

По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.

Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.

Сайт
Гитхаб
Open Sora: потратили $200k на прожарку GPU и испекли V2 своего опенсорсного видеогенератора.

Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.

Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.

Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.

Сайт
Гитхаб
Хаггинг
Релиз Runway Gen-3 был в середине прошлого года, так-то. Пора бы уже.
Google: добавили в Gemini 2 Flash Experimental работу с картинками промтом. Можно, например, редактировать изображение текстом, или генерить истории со стабильными персонажами на иллюстрациях. Народ в твиттере красит мангу, релайтит фото, вписывает себя в другие локации, и т.д.

Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).

Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.

Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг
1
This media is not supported in your browser
VIEW IN TELEGRAM
Гоняем Wan на динамику.

Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.

Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!

Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Пока мы танцуем вокруг Вана.

На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:

Skip layer(s) on unconditional video denoising

video = conditional - unconditional

Worse unconditional means better video


Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:

  python i2v_inference.py \
--prompt "Woman running through a field" \
--input-image "pexels_test.jpg" \
--resolution "720x1280" \
--flow-shift 3.0 \
--frames 81 \
--guidance-scale 5.0 \
--steps 30 \
--attention "sage2" \
--compile \
--teacache 0.25 \
--transformer-file="ckpts/wan2.1_image2video_720p_14B_quanto_int8.safetensors" \
--slg-layers="9" \
--teacache-start 0.1 \
--profile 2 \
--seed 980123558 \
--output-file="output_slg_9.mp4"


Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)
This media is not supported in your browser
VIEW IN TELEGRAM
PlayCanvas: обновили SuperSplat, инструмент для просмотра и редактирования сплатов.

Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами

Эксплорер
Редактор
Анонс
KV-Edit: редактирование изображений с сохранением фона, через маску и промт.

Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.

Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.

Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.

Альтернативно можно глянуть Flux Tools, или MagicQuill, например.

Сайт
Демо
Comfy
Гитхаб
Красные есть в здании?

Stability: тихо выпустили версии Stable Diffusion, начиная с SDXL до SD 3.5-Large, адаптированные под видюхи AMD.

Гонять надо через предоставляемый ими интерфейс Amuse.

Хаггинг
Дайджест:

📹 ВИДЕО + АРТ 🎨

CivitAI: запустили новую программу вознаграждения авторов с отчислениями из ежемесячного пула наград.

Wan: видеогенератор обзавёлся официальным промт гайдом и оптимизированной GP (GPU Poor) версией для запуска на видюхах от 5 ГБ до 24 ГБ. Альтернативно на сайте 50 кредитов на 5 генов. Kijai подрубил сдвигающееся контекстное окно, что позволяет увеличить длительность генерируемого видео. Сообщество начало печь лоры на де-блюр, пика эффекты, итд. Comfy // Kijai // Pinokio

Хуньянь: выпустили img-2-vid модель (i2v) для генерации видео. Причём уже даже успели обновить тренировочный код i2v и саму модель, ибо в начальном релизе была проблема со стабильностью персоналий (перекачайте, если что). Поддерживается вывод до 720p длиной в 129 кадров (5 сек), на это понадобится 60 ГБ VRAM. Есть low vram версия. Код для тренировки лор тоже выложен. Comfy // Kijai // Pinokio.

Lightricks: релизнули видеогенератор LTXV 0.9.5. Выше разрешение и лучше качество в динамичных сценах, контроль по нескольким кейфреймам, vid-2-vid редактирование, расширение видео, интерполяция между кадров, коммерческая лицензия. Comfy. Онлайн демо.

Comfy: добавили поддержку Wan (в том числе fp16 и fp8_scaled весов, показывающих качество лучше bf16), LTXV 0.9.5, img-2-vid Хуньяня (включая "исправленную" V2). Анонс // Гитхаб

HuggingFace: представили способ декодировать VAE на удалённой машине, чтобы разгрузить ресурсы своего железа. При этом сохраняется приватность: модель, воркфлоу, выходные генерации, располагаются локально, а на удалённом компе идёт только декод. Уже успели оптимизировать всё для ускорения ещё в 10 раз (Flux, SD). Kijai ноды // Сравнение VAE.

Pika: добавили эффекты для превращения в ребёнка, героя, принцессу, или музейный экспонат. Pikaswaps и Pikadditions теперь генерят в 1080p.

Zluda: CUDA для видюх AMD теперь работает с PyTorch Flash Attention 2, а также cuDNN.

DSD: персонализация и релайтинг изображений для получения стабильных персонажей и брендинга с использованием Flux под капотом. Метод схожий с DreamBooth, но работает в zero shot и без трени.

SkyReels: добавили липсинк к своему генератору видео. Есть демо.

Fast3R: быстрая реконструкция 3D из видео/1000+ фото. Вполне возможно пойдёт под капот в PostShot и иже с ними.

Pe3R: создание 3D сцены на основе 2-3 фото для поиска текстом объектов на ней.

...сначала DUSt3R, потом Fast3R, теперь Pe3R... соб3Rи их всех!

FLARE: получение новых видов сцены или её 3D геометрии из несшитых рандомных фоток.

TrajectoryCrafter: управление камерой для смены ракурса в видео.

THDUM: выпустили генератор картинок CogView4 с хорошим следованием промту, но говорят есть проблемы с анатомией.

Tencent: релизнули VideoPainter для инпейтинга объектов в видео. Похоже на ProPainter, но с большим количеством возможностей. Ещё стоит на эту тему глянуть FlowEdit.

CTRL-D: тоже редактирование видео, но уже промтом.

Wonder Dynamics: поделились тем, как их технология AI motion capture использовалась в съёмках нового сезона Superman & Lois.

RadiantFoam: рейтрейсинг для сплатов.

Ideogram: выпустили Ideogram 2a и версию Turbo, для более быстрой и дешевой генерации картинок. Также улучшились тексты на них.

BlenderMCP: генерация 3D контента в Blender через команды Claude.

Light-a-Video: для релайтера видео появилось Comfy и демо.

Tight Inversion: редактирование картинок промтом.
2