Psy Eyes

The Laser Skoof

Скуф — мальчик в теле взрослого мужчины, утопающий в воспоминаниях о том, как мама покупала ему одежду на рынке, а вечерами он играл в денди.

Он пытается сбежать из игры, но реальность неизбежно тянет его обратно.

P.S. Бекстейдж в комментах

1.47K views14:52

Psy Eyes

Пока я пеку дайджест, вот вам работа ещё одного подписчика @Omceone. А если ваша бабушка не читает газету "Жизнь", то у него на канале OmceOne prod. есть контент на музон Aphex Twin.

OmceOne prod.

AI music & video, ах да, картиночки ещё

1.6K views16:29

Psy Eyes

Forwarded from OmceOne prod.

2:18

Media is too big

VIEW IN TELEGRAM

Guf - Только не сегодня

Амбасадором этого видео ролика выступила #LumaLabs, #Kling на подсосе в виде липсинка и #Krea как основной источник материала🤙

#клипешник

Please open Telegram to view this post

VIEW IN TELEGRAM

1.52K views16:29

Moonvalley: создатели этого видеогенератора подали признаки жизни и вышли с новой моделью — Marey.

Последняя новость от них была аж в 2023 году. Потом в 2024 они сообщили, что бесплатных генераций больше не будет, а через несколько месяцев закрыли и платные подписки, потому что им не хватает ресурсов.

Но выяснилось, что они сделали шаг назад, чтобы вернуться с моделью побольше. В Marey обещают работу в HD и разных форматах кадра, высокую детализацию, динамичную картинку и чёткое следования промту.

Качество пока судя по видео немного лучше Gen-2: артефакты, плохая динамика конечностей и объектов на фоне. Но может прокатить на анимации и стилизации. Заявляется, что натренировано всё на лицензированных данных. И это может являться как раз причиной отставания: ребятам не хватает данных. Похожая история с музыкальным проектом JEN, который натренирован только на лицензированной музыке, и качество значительно хуже конкурентов. Здесь китайская братва (Kling, Wan, и ко), которая берёт всё из интернета и никого не спрашивает — решает.

Но если Moonvalley сделают вменяемый ценник, и дадут много инструментов для контроля, — а у них на сайте написано layer-level editing, — то смогут привлечь, а то и удержать внимание.

Запись вейтлист у них на сайте.

Сайт

1.59K views08:38

Psy Eyes

0:18

This media is not supported in your browser

Sparse VideoGen (SVG): метод ускорения генерации видео в два раза без видимой потери качества.

По замерам разрабов 5 секундный 720p видос из Хуньяня на H100 вместо 29 мин печётся 14 мин (хотя мне казалось оно по умолчанию столько и генерится). Только text-2-vid на данный момент для Хуни.

Сейчас работает с Хуньянем и CogVideo. Планируется поддержка Wan, и Cosmos.

Сайт
Гитхаб

1.82K views10:47

Psy Eyes

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

Open Sora: потратили $200k на прожарку GPU и испекли V2 своего опенсорсного видеогенератора.

Улучшилось качество картинки, следование промту, и динамичность. Последнее можно менять промтом.

Размер модели 11B, поддерживает разрешение от 256х до 768х. Оба варианта инпута, T2V и I2V, обрабатываются одной моделью (сохраним немного места на компе). По их тестам результаты между Хуньянем и StepFun, но у нас сейчас есть и Wan и SkyReels, так что гонка Open Sora на этом не закончена, могут начинать греть ещё $200к.

Тем более, что на H100 видос разрешением 256x256 генерится 60 сек и потребляет 52 ГБ VRAM, а 768x768 ваяется 1656 сек потребляя 60 ГБ VRAM. С поддержкой сообщества обрастёт оптимизациями, расширенным контролем, и лорами.

Сайт
Гитхаб
Хаггинг

1.78K views11:38

Psy Eyes

Релиз Runway Gen-3 был в середине прошлого года, так-то. Пора бы уже.

1.55K views12:01

Psy Eyes

Google: добавили в Gemini 2 Flash Experimental работу с картинками промтом. Можно, например, редактировать изображение текстом, или генерить истории со стабильными персонажами на иллюстрациях. Народ в твиттере красит мангу, релайтит фото, вписывает себя в другие локации, и т.д.

Также они выпустили визуальную языковую модель (VLM) Gemma 3, которая в данный момент позиционируется как сильнейшая из тех, что может влезть на один GPU (не считая рассуждающих моделей).

Размеры от 1B (для телефонов) до 27B (нужно 24+ ГБ VRAM). У 4B-27B моделей контекст 128к (можно кормить вагон сканов, графиков, итд), у 1B он 32к и ей нельзя кормить картинки. Русский поддерживает.

Демо (Gemini)
Анонс
Демо (Gemma 3)
Анонс
Хаггинг

1.8K views13:19

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Гоняем Wan на динамику.

Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.

Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!

Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд

8.86K viewsedited 10:50

Psy Eyes

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Пока мы танцуем вокруг Вана.

На реддите обсуждют метод улучшения качества генерируемых видосов, используя skip layer guidance. Слово топикстартеру:

Skip layer(s) on unconditional video denoising

video = conditional - unconditional

Worse unconditional means better video

Сегодня данный коммит уже смержен с Wan2GP (GPU Poor). Kijai в свою Comfy-Wan сборку тоже добавил (спс @p0lygon). Погонять предлагается скриптом:

  python i2v_inference.py \
    --prompt "Woman running through a field" \
    --input-image "pexels_test.jpg" \
    --resolution "720x1280" \
    --flow-shift 3.0 \
    --frames 81 \
    --guidance-scale 5.0 \
    --steps 30 \
    --attention "sage2" \
    --compile \
    --teacache 0.25 \
    --transformer-file="ckpts/wan2.1_image2video_720p_14B_quanto_int8.safetensors" \
    --slg-layers="9" \
    --teacache-start 0.1 \
    --profile 2 \
    --seed 980123558 \
    --output-file="output_slg_9.mp4"

Реддит
Гитхаб Wan2GP
Comfy-Wan (Kijai)

1.75K views11:50

Psy Eyes

0:34

This media is not supported in your browser

VIEW IN TELEGRAM

PlayCanvas: обновили SuperSplat, инструмент для просмотра и редактирования сплатов.

Что нового:
* Можно рендерить пролёты камеры
* Прогрессбар для контроля воспроизведения интерактивного видео: в любой момент можно остановиться и покрутить камеру, или начать свободно ей летать. А также просто быстро проматывать вперед/назад, или сбросить всё нажав Reset.
* Комменты под сплатами

Эксплорер
Редактор
Анонс

1.73K viewsedited 13:39

Psy Eyes

KV-Edit: редактирование изображений с сохранением фона, через маску и промт.

Работает без доп трени. Решает задачи добавления объектов, их изменения, удаления, или перемещения.

Фон сохраняется за счёт кэша, в котором хранятся токены бэкграунда и вместо их перегенерации добавляются к фронту во время денойза.

Под капотом Flux, рекомендуется 3090/4090. Есть Comfy, а также онлайн демо.

Альтернативно можно глянуть Flux Tools, или MagicQuill, например.

Сайт
Демо
Comfy
Гитхаб

1.83K views14:50

Psy Eyes

Красные есть в здании?

Stability: тихо выпустили версии Stable Diffusion, начиная с SDXL до SD 3.5-Large, адаптированные под видюхи AMD.

Гонять надо через предоставляемый ими интерфейс Amuse.

Хаггинг

10K views16:04

About

Blog

Apps

Platform