Psy Eyes
6.8K subscribers
1.43K photos
1.56K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Там YouTube запустил фичу Recap, которая суммаризует что ты смотрел за год, в каких количествах, и в какой прокрастинаторский котёл тебя сажать. Похоже на Wrapped у Spotify.

В начале рекапа пишется, что AI может ошибаться, а дальше идёт перечисление тематик просмотренных видосов, и уже сама аналитика. Довольно занятно увидеть стату по просмотренным каналам, и тут особо вопросов нет, кроме того факта, что в AI секции он подсветил какие-то малознакомые из них. Где Себастьян, Оливио, Nerdy Rodent, и другие?

И тоже самое сходу незнакомое про музыкальные каналы на самом YouTube. Хотя по YouTube Music всё 100% правильно, я его отдельной десктоп апой слушаю.

Больше вопросов по срезу тематик и выданной ачивке. Но тут YouTube ориентируется на описание видео или может даже его содержание, и чтобы выдать более правильный значок нужно знать почему/какими глазами я смотрю этот контент, что мной движет. Потому что, если мне дать описание ачивок и возможность выбора самому, я весьма вероятно выбрал бы другую. Кстати сия функция пригодилась бы ютубу в качестве RLHF.

Чтобы увидеть рекап нужен ip на США. В других локациях запустят на следующей неделе.

Посмотреть свой рекап
Анонс
Сегодня вышла игра Routine. На её разработку ушло 13 лет, и я следил за ней с момента анонса в 2012 году.

Делали её 3 человека, в основном на собственные средства. За это время она пережила паркур движков UE 3 —> UE 4 —> UE 5, остановку в производстве из-за сложности в финансировании, а между коммуникационными письмами разработчиков на сайте были многолетние перерывы, в то время как в самих письмах читались только боль о проблемах с разработкой и неопределённость с датой выхода.

Но несмотря на это всё, игра добралась до релиза, сохранила атмосферу, стиль, геймплей, и саун-дизайн. Последний сильно выделил её тогда, ибо в те годы был бум инди игр с подачей сюжета через записки, в том числе и потому что денег на озвучку не было, а тут звук прям погружал. Чек момент на 2:57. То-то над саун-дизайном работал Мик Гордон, автор музыки к Doom 2016.

А сейчас у нас есть ттс'ки для генерации эмоционального голоса, текстуры ваяются по промту, а 3D генераторы с каждым днём ваяют всё более детальные меши и улучшают сегментацию. Не говоря уже про получение фотореалистичных объектов через сплаты и генерацию 3D миров а-ля Marble Labs или Odyssey.

Посмотрим какие истории расскажет новое поколение разработчиков с нынешними инструментами и как они их ускорят.

Steam
Трейлер 2012
Трейлер 2022
1
Дэвид Финчер снимает фильм по сценарию Квентина Тарантино, и это не промт для нейронки.

Кстати Тарантино на днях выпустил в Fortnite (!) эпизод Yuki’s Revenge из Убить Билла, который не вошёл в финальную дилогию. Авось и до нейронок доберётся.
Админам. Заметил любопытное: с каким-то из последних обновлений телеги в настройках ботов появилось новое разрешение — банить пользователей.

У многих ботов можно все разрешения выключить и они всё так же будут делать репосты, использоваться для передачи аналитики, и авторизации. У меня так и сделано, и когда я случайно наткнулся на новое разрешение у всех ботов в админке, я удивился.

Где-то это может пригодиться. Но в то же время, если какой-то злоумышленник завладеет доступом к этому боту, он может удалить всех пользователей канала. Вот вы использовали бота для верификации / авторизации / репостов на каком-нибудь ресурсе, забыли про него, а теперь он без вашего ведома решает кто вас может фолловить, а кто нет.

Про данную фичу нигде в обновлениях телеги инфы не нашел.
Sync: выпустили модель React-1 для липсинка видео с контролем эмоциональности.

Фичи:
* Разные режимы редактирования: только рот, выражение лица, движение головы.
* React-1 экспрессивнее предыдущих моделей и позволяет области рта четче следовать озвучке.
* Менять эмоции можно круговым меню из 6 пресетов, или описывая нужное словами. Если не задать промт, то модель будет следовать эмоциональному контексту видео.
* Движения головы могут подстраиваться под тон и скорость диалога.

На вход можно подавать видео длиной до 15 секунд. В кадре должен быть 1 человек, которого хорошо видно. При этом по примерам видно, что слишком крупных планов стоит избегать ибо, чем большая часть головы задействуется, тем сильнее падает качество.

Пример с Лео конечно угарный. Я не знаю под чем они были, когда решили это включить в видео.

React-1 доступна только на платном тарифе. Есть API с оплатой за каждый запрос. На бесплатном тарифе в наличии lipsync-2 с халявными кредитами на $5.

Сайт
Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Krea: добавили инструмент Nano Banana Elements.

Закидываем несколько картинок с референсом стиля, объекта или персонажа, и задаём тег. Своего рода как на Twelve Labs.

Далее в промте пишем, что нужно сгенерить, попутно тегая нужный стиль/персонажа/итд. Теги можно комбинировать, например, получая объект в определённом стиле.

Сайт
Твит
Runway: провели презентацию, на которой представили несколько анонсов.

1) Видеогенератор Gen-4.5 теперь доступен на всех платных тарифах. Также в модель через некоторое время добавят: генерацию звука и озвучки, редактирование аудио в существующем видео с сохранением липсинка (как в LTX Retake или React-1), а также возможность с помощью Aleph вносить правки в длинные видео состоящие из разных фрагментов с сохранением стабильности персонажей, освещения, итд.

2) Далее анонсировали GWM-1 (Generative World Model). Это модель на основе Gen-4.5 для 3D симуляции мира на основе картинки или текста. Генерация идёт в реальном времени с разрешением 720p и фремрейтом 24fps. Мир вокруг динамичен, живёт независимо от наблюдателя, и является стабильным — можно вернуться поп пройдённой тропе и увидеть то, что было ранее.

В эту сторону активно копают Genie от гугла, Odyssey, Marble Labs, Tencent с его Ху World, и не только.

Учитывая разговоры про роботизацию и агентов, меня не оставляет ощущение, что ты платишь Runway за путешествие по некоему виртуальному миру, а дальше они продают эти данные стартапам ваяющим роботов, или ты сам работаешь на них напрямую, выбирая из шаблона роль "агента" и выполняя задания для какого-то робота. А кэшбек кредитами будет?

Тут же следом можно упомянуть, что анонсировали GWM Robotics, где ты можешь посмотреть как будет выглядеть некое физически-корректное исполнение правила роботом, сгенерить промтом потенциальное движение робота или изменить существующее видео, чтобы посмотреть движение.

Ещё показали GWM аватаров, которые тоже работают в реалтайме с липсинком, 720p, но фреймрейт повыше. Общаться можно как с людьми, так и животными или фантастическими существами. Можно и создавать своих аватаров загрузив картинку, выбрав голос, и дав описание характера. Один из показанных кейсов: обучение другому языку.

В релизе пока только Gen-4.5 для всех платных подписок.

Презентация
Анонс
Нода для динамического подстраивания положения кейфреймов в Wan VACE при изменении длительности видео. Пригодится, если вы представляете где у вас какой кадр должен быть в видосе и хотите поиграться с хронометражом.

Закидываем в воркфлоу кеймреймы сверху вниз (или меняем под себя), на первом фрейме задаём разрешение видео, в ноде Wan VACE Keyframe Builder ползунком задаём где какой кадр должен быть, и нажимаем сгенерить. Появятся маска и превью расположения кадров в видосе, после чего пойдёт сама генерация.

Ворк прожоливый. На 4090 + 128 ГБ RAM, чтобы сгенерить 1024x1024x 16 fps видео хроном 49 кадров и весами Wan 2.1 fp16 нужно использовать block swap, иначе вылетит с ошибкой. С ускоряющей 4-шаговой лайтнинг лорой 49 фреймов генерит за 2:26 мин (36,7 сек/ит), а без неё в 20 шагов 13:21 (40,08 сек/ит). Чтобы вместить в меньше VRAM и RAM используйте fp8 веса базовых моделей, текстового энкодера, блоксвапом, и поиграйтесь с разрешением и хронометражом.

С лайтнинг лорой видео может фликерить. Есть смысл ей черновой вариант нащупать, а базовой моделью с большим количеством шагов и аоднятым CFG уже генерить начисто. Динамическая расстановка кейфремов может шалить, перетыкайте вручную если что.

По итогу получаем видео без пауз на склейках. Ворк схож с другим прожорливым для бесшовных длинных видео, который я тестил ранее, но этот проще и есть контроль положения кадра и ускорялки. Хотя из того качество пока удалось вытянуть повыше.

Гитхаб
Воркфлоу
Пример использования сплатов для создания динамичных визуальных эффектов.

Тренируем в PostShot, Brush, Polycam, KIRI, или другом софте статичную сцену из кадров взрыва. Полученный сплат закидываем в SuperSplat и клинапим. Оттуда швыряем в Octane 2026, где анимируем и рендерим это нужным образом.

Твит
Для котанов на маках. Если вы хотели погонять Z-image Turbo, но вам не по душе комфи-лапша и нужен более привычный UI, то Draw Things добавили её поддержку.

Используется 6-битный квантизированный вариант, который при генерации занимает 4 ГБ RAM. Отдельной лайтнинг лоры не требуется. Генерация 1024x1024 в 8 шагов на Mac Studio M2 Ultra занимает ~23 сек.

Причём на Hugging Face есть фича Use this model, задействуя которую можно запускать модели прямо с хаггинга, включая Z-image.

Другой вариант для генерации с UI это Invoke. Там же, если что и на лапшу можно переключиться.

Сайт
Анонс