Psy Eyes
4.9K subscribers
1.04K photos
954 videos
5 files
1.16K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin
Download Telegram
Продолжая тему кодинга. Где-то с месяц назад Replit показали своего AI-агента Replit Agent, который умеет не только писать код, но и настроит тебе окружение, поставит зависимости, оформит базу данных, и даже задеплоить может.

С тех пор в инфополе он особо не возникал, и до сих пор доступен только в ограниченном режиме владельцам подписки. Периодически натыкаюсь, как народ его использует в коопе с Claude: просят описать действия для Replit, чтобы тот организовал Gradio демо для какой-нить модельки на хаггинге.

Тем не менее, интересен сам факт его появления. Опенсорсный Artifacts у нас уже есть. Посмотрим как быстро функционал Replit Agent завезут.

Сайт
Alibaba: выпустили бета-версию инпейтинг контролнета для Flux.

1) Более детальные результаты
2) Работа в разрешении 1024х1024 без апскейлинга
3) Лучше следование промту

Потребляет 27 ГБ VRAM.

Хаггинг
Новости из будущего: снова Alibaba, только на этот раз они с Turbo версией Flux, которая должна выйти 16 октября, но уже лежит на хаггинге.

Turbo является дистиллированной версией Dev, и заточена генерить в 8 шагов. На картинке сравнение результатов базовой Dev в 28 шагов и Turbo в 8.

Может работать как просто для генерации картинок, так и в связке с контролнетами или лорами.

Ворфлоу для комфи на странице модели.

Хаггинг
Окей, начали появляться рабочие проекты на гитхабе по генеративным играм — ловите Diamond.

Там есть список игр, на которых модель натренирована. Двухмерный аналог Pacman с лёту запустился с привычным управлением. А вот как играть в генеративный CS:GO неочевидно. Тем не менее, регистрируем шажок в нейроигровом направлении. Будем следить за развитием событий.

Вполне возможно лавочку быстро прикроют (ибо Габен велик) как было с недавним GameGen0, у которого беспалевно на странице проекта были картинки с подписями о Cyberpunk 2077, Witcher 3, итд. Но в этот раз у нас хотя бы есть код, который, как минимум, можно скачать себе в качестве будущего музейного экспоната. Всё лучше, чем гугл, который только пускает пыль в глаза инвесторам и ничего не релизит (GameNGen и Genie, например).

Спс подписчику @JohnDoe171 за подгон.

Сайт
Гитхаб
Установка через Pinokio
This media is not supported in your browser
VIEW IN TELEGRAM
Найден способ повысить в fps в нейро контре. Нужно повернуться вправо, посмотреть вверх, и присесть. Заодно и звук появится.
This media is not supported in your browser
VIEW IN TELEGRAM
Adobe: на мероприятии Max сделали несколько анонсов.

Генеративная модель Firefly теперь вшита в Premiere и может использоваться для расширения видео, создания B-роллов на основе картинок, или добавления эффектов.

Судя по черрипикам контекст видео для продолжения ухватывает хорошо, а вот по качеству пока MiniMax, Kling, Movie Gen, и Runway лучше.

В бете нового премьера уже должно работать, но понадобится подписка Creative Cloud. Шустрые подписчики уже рапортуют, что зарубежный IP не нужен. Вейтлист в генератор видео на сайте тут.

Фича Generative Fill вышла из беты и начинает широко внедряться в продукты компании. А генеративная стёрка обновилась и стала лучше удалять объекты с контента.

Пост
Видео с мероприятия
This media is not supported in your browser
VIEW IN TELEGRAM
Также Adobe выкатили бета-версию Substance 3D Viewer. С помощью этой фичи можно вкидывать 3D объекты прямо в фотошопе, крутить их там как угодно, и быстро собирать дизайны продуктов. 3D контент будет восприниматься как смарт-объекты.

В Illustrator при этом добавился показанный в мае Project Neo, которым можно в изометрии собрать из 3D объектов сцену в нужном ракурсе, и потом экспортировать в редактируемом векторном формате или растре. Плюс появилась фича Objects on Path, позволяющая сгруппировать и перемещать объекты по направляющей.

InDesign теперь тоже располагает генеративным расширением изображения и text-2-image. А в Lightroom завезли Generative Remove для более аккуратного выделения и удаления объектов.

Пост
This media is not supported in your browser
VIEW IN TELEGRAM
Замес из Runway Gen-3 и AR.

Стильный писксельарт и минимум динамики, скрывающие огрехи нестабильности, делают своё дело.

Надписи правда пожеванные, и машина едет задом наперёд по встречке. Но кому станут камнем преткновения такие низменные, словно пыль, детали, когда обращаешься к высокому.

Твит
E2F5: фреймворк для генерации речи по тексту (TTS) с клонированием голоса без трени.

Работать можно с двумя моделями на выбор. E2 это zero-shot TTS на основе flow-matching, которая, не смотря на то что в ней не используется дополнительных компонентов вроде преобразования графем в фонемы или сложных техник, показывает неплохие результаты по клону голоса. F5 является развитием идей E2, и использует метод Sway Sampling для более быстрых и разнообразных результатов.

На вход берётся 15 сек аудио. Если что оно автоматом обрубается, как и делается транскрибация речи в текст, но можно его и прописать вручную.

Обе работают шустро, и неплохо выхватывают тембр, но качество на выходе пожатое, и очень реченька спешит — нужны рульки направлять её в нужное русло по скорости, интонации, итд.

Вот как раз в онлайн демке и есть управление по скорости, и кажись качество выше. UPD: эти улучшения уже пошли под капот, обновите приложение через Pinokio или с гитхаьа.

Чекпоинты работают только с инглишом и китайским.

Нужно 5-7 ГБ VRAM.

Демо
Установка через Pinokio
Авторы Kling выкатили API для своей виртуальной примерочной Virtual Try On на основе генератора картинок Kolors.

Одежда садится хорошо, даже есть тени. Там, где скажем майка должна кончится в кадре, AI сама подберёт нижнюю одежду. Детали попадающееся в рабочую область тоже могут быть поменяны (см пистолет), имейте это ввиду. Качество пока шакальное, но для рефа как персонаж может выглядеть сгодится.

Цены на API продаются пачками и начинаются от $4.19 за 100 запросов (units это же запросы, да?) и уходят в космос. Максимум 9 одновременных сессий для генерации.

Либо можно скопировать к себе демку на хаггинге нажав в правом верхнем углу clone repo и гонять приватно в акке. Но скорее всего понадобится подписка хаггинга, ибо на фришном цпу вряд ли взлетит.

В опенсорсе модели нет и вряд ли будет. Ближайшие аналоги это IDM-VTON и иже с ним.

Демо
Страница с API
This media is not supported in your browser
VIEW IN TELEGRAM
Потестил InstantSplat.

Я постоянно высматриваю модельки, которые могли бы очень быстро из твоих фото собрать тебе сплаты. Postshot делает хорошо, но в 4 захода в общей сложности минут на 8-15 на небольшом датасете. И это всё-таки отдельная апа со своим UI.

Хайп-пыли без кода и демо вагон, а за тем, что можно было бы реально пощупать ведётся пристальный пиксельхантинг с собаками.

А тут Nvidia недавно выкатила InstantSplat, где есть возможность из нескольких фоток быстро получить 3D сцену. И это можно сделать частью пайплайна.

Также интересна и реализация сообщества (pablovela), ибо тут тебе и виюпорт, где ты можешь крутить сцену как хочешь, и процесс трени показан, и когда наводишь на фото или место в сцене тебе показаны откуда они, и можно сразу облако точек в .ply скачать.

Да, пока качество не очень, но для 3D копии объекта меньше, чем за 1 минуту (!) на 5 фотках (!) результат отличный. Дальше оно будет оптимироваться и становиться только лучше.

Можно даже локально развернуть. Правда пока с вариантом от pablovela наткнулся на невозможность запустить на винде. Я по такому случаю даже юбунту в виртуальной машине накатил, буду теперь тестить. Заодно и NerfStudio с остальными Linux-first потрохами будем заводить.

Сайт
Демо (pablovela)
Гитхаб
Демо (Nvidia)
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Апдейт для E2F5 в пинокио уже подъехал. Модель подрубили к официальному репо в гитхабе и обновили до всех последних фишек.

Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.

Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2F5 заново.

Установка через Pinokio
Про E2F5
Pika: продолжают через мемы раскрывать возможности своего генератора видео v 1.5, который умеет в физику, чёткость движений, и высокое качество картинки.

В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)

Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.

Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.

Твит
Сайт