Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Forwarded from %NeuroTemp%
Media is too big
VIEW IN TELEGRAM
The Laser Skoof

Скуф — мальчик в теле взрослого мужчины, утопающий в воспоминаниях о том, как мама покупала ему одежду на рынке, а вечерами он играл в денди.

Он пытается сбежать из игры, но реальность неизбежно тянет его обратно.


P.S. Бекстейдж в комментах
2
Пока я пеку дайджест, вот вам работа ещё одного подписчика @Omceone. А если ваша бабушка не читает газету "Жизнь", то у него на канале OmceOne prod. есть контент на музон Aphex Twin.
Forwarded from OmceOne prod.
Media is too big
VIEW IN TELEGRAM
Guf - Только не сегодня

Амбасадором этого видео ролика выступила #LumaLabs, #Kling на подсосе в виде липсинка и #Krea как основной источник материала🤙

#клипешник
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Moonvalley: создатели этого видеогенератора подали признаки жизни и вышли с новой моделью — Marey.

Последняя новость от них была аж в 2023 году. Потом в 2024 они сообщили, что бесплатных генераций больше не будет, а через несколько месяцев закрыли и платные подписки, потому что им не хватает ресурсов.

Но выяснилось, что они сделали шаг назад, чтобы вернуться с моделью побольше. В Marey обещают работу в HD и разных форматах кадра, высокую детализацию, динамичную картинку и чёткое следования промту.

Качество пока судя по видео немного лучше Gen-2: артефакты, плохая динамика конечностей и объектов на фоне. Но может прокатить на анимации и стилизации. Заявляется, что натренировано всё на лицензированных данных. И это может являться как раз причиной отставания: ребятам не хватает данных. Похожая история с музыкальным проектом JEN, который натренирован только на лицензированной музыке, и качество значительно хуже конкурентов. Здесь китайская братва (Kling, Wan, и ко), которая берёт всё из интернета и никого не спрашивает — решает.

Но если Moonvalley сделают вменяемый ценник, и дадут много инструментов для контроля, — а у них на сайте написано layer-level editing, — то смогут привлечь, а то и удержать внимание.

Запись вейтлист у них на сайте.

Сайт
7
Sparse VideoGen (SVG): метод ускорения генерации видео в два раза без видимой потери качества.

По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.

Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.

Сайт
Гитхаб
Open Sora: потратили $200k на прожарку GPU и испекли V2 своего опенсорсного видеогенератора.

Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.

Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.

Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.

Сайт
Гитхаб
Хаггинг
Релиз Runway Gen-3 был в середине прошлого года, так-то. Пора бы уже.
Google: добавили в Gemini 2 Flash Experimental работу с картинками промтом. Можно, например, редактировать изображение текстом, или генерить истории со стабильными персонажами на иллюстрациях. Народ в твиттере красит мангу, релайтит фото, вписывает себя в другие локации, и т.д.

Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).

Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.

Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг
1
This media is not supported in your browser
VIEW IN TELEGRAM
Гоняем Wan на динамику.

Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.

Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!

Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
Пока мы танцуем вокруг Вана.

На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:

Skip layer(s) on unconditional video denoising

video = conditional - unconditional

Worse unconditional means better video


Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:

  python i2v_inference.py \
--prompt "Woman running through a field" \
--input-image "pexels_test.jpg" \
--resolution "720x1280" \
--flow-shift 3.0 \
--frames 81 \
--guidance-scale 5.0 \
--steps 30 \
--attention "sage2" \
--compile \
--teacache 0.25 \
--transformer-file="ckpts/wan2.1_image2video_720p_14B_quanto_int8.safetensors" \
--slg-layers="9" \
--teacache-start 0.1 \
--profile 2 \
--seed 980123558 \
--output-file="output_slg_9.mp4"


Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)
This media is not supported in your browser
VIEW IN TELEGRAM
PlayCanvas: обновили SuperSplat, инструмент для просмотра и редактирования сплатов.

Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами

Эксплорер
Редактор
Анонс
KV-Edit: редактирование изображений с сохранением фона, через маску и промт.

Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.

Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.

Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.

Альтернативно можно глянуть Flux Tools, или MagicQuill, например.

Сайт
Демо
Comfy
Гитхаб
Красные есть в здании?

Stability: тихо выпустили версии Stable Diffusion, начиная с SDXL до SD 3.5-Large, адаптированные под видюхи AMD.

Гонять надо через предоставляемый ими интерфейс Amuse.

Хаггинг