Psy Eyes

Продолжая тему кодинга. Где-то с месяц назад Replit показали своего AI-агента Replit Agent, который умеет не только писать код, но и настроит тебе окружение, поставит зависимости, оформит базу данных, и даже задеплоить может.

С тех пор в инфополе он особо не возникал, и до сих пор доступен только в ограниченном режиме владельцам подписки. Периодически натыкаюсь, как народ его использует в коопе с Claude: просят описать действия для Replit, чтобы тот организовал Gradio демо для какой-нить модельки на хаггинге.

Тем не менее, интересен сам факт его появления. Опенсорсный Artifacts у нас уже есть. Посмотрим как быстро функционал Replit Agent завезут.

Сайт

2.0K views13:50

Psy Eyes

Alibaba: выпустили бета-версию инпейтинг контролнета для Flux.

1) Более детальные результаты
2) Работа в разрешении 1024х1024 без апскейлинга
3) Лучше следование промту

Потребляет 27 ГБ VRAM.

Хаггинг

2.0K views16:08

Psy Eyes

Новости из будущего: снова Alibaba, только на этот раз они с Turbo версией Flux, которая должна выйти 16 октября, но уже лежит на хаггинге.

Turbo является дистиллированной версией Dev, и заточена генерить в 8 шагов. На картинке сравнение результатов базовой Dev в 28 шагов и Turbo в 8.

Может работать как просто для генерации картинок, так и в связке с контролнетами или лорами.

Ворфлоу для комфи на странице модели.

Хаггинг

10.0K views13:51

Psy Eyes

0:15

This media is not supported in your browser

Окей, начали появляться рабочие проекты на гитхабе по генеративным играм — ловите Diamond.

Там есть список игр, на которых модель натренирована. Двухмерный аналог Pacman с лёту запустился с привычным управлением. А вот как играть в генеративный CS:GO неочевидно. Тем не менее, регистрируем шажок в нейроигровом направлении. Будем следить за развитием событий.

Вполне возможно лавочку быстро прикроют (ибо Габен велик) как было с недавним GameGen0, у которого беспалевно на странице проекта были картинки с подписями о Cyberpunk 2077, Witcher 3, итд. Но в этот раз у нас хотя бы есть код, который, как минимум, можно скачать себе в качестве будущего музейного экспоната. Всё лучше, чем гугл, который только пускает пыль в глаза инвесторам и ничего не релизит (GameNGen и Genie, например).

Спс подписчику @JohnDoe171 за подгон.

Сайт
Гитхаб
Установка через Pinokio

18.5K views17:31

Psy Eyes

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

Найден способ повысить в fps в нейро контре. Нужно повернуться вправо, посмотреть вверх, и присесть. Заодно и звук появится.

1.8K views16:14

Psy Eyes

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

Adobe: на мероприятии Max сделали несколько анонсов.

Генеративная модель Firefly теперь вшита в Premiere и может использоваться для расширения видео, создания B-роллов на основе картинок, или добавления эффектов.

Судя по черрипикам контекст видео для продолжения ухватывает хорошо, а вот по качеству пока MiniMax, Kling, Movie Gen, и Runway лучше.

В бете нового премьера уже должно работать, но понадобится подписка Creative Cloud. Шустрые подписчики уже рапортуют, что зарубежный IP не нужен. Вейтлист в генератор видео на сайте тут.

Фича Generative Fill вышла из беты и начинает широко внедряться в продукты компании. А генеративная стёрка обновилась и стала лучше удалять объекты с контента.

Пост
Видео с мероприятия

3.0K viewsedited 14:07

Psy Eyes

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

Также Adobe выкатили бета-версию Substance 3D Viewer. С помощью этой фичи можно вкидывать 3D объекты прямо в фотошопе, крутить их там как угодно, и быстро собирать дизайны продуктов. 3D контент будет восприниматься как смарт-объекты.

В Illustrator при этом добавился показанный в мае Project Neo, которым можно в изометрии собрать из 3D объектов сцену в нужном ракурсе, и потом экспортировать в редактируемом векторном формате или растре. Плюс появилась фича Objects on Path, позволяющая сгруппировать и перемещать объекты по направляющей.

InDesign теперь тоже располагает генеративным расширением изображения и text-2-image. А в Lightroom завезли Generative Remove для более аккуратного выделения и удаления объектов.

Пост

1.7K viewsedited 14:57

Psy Eyes

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Замес из Runway Gen-3 и AR.

Стильный писксельарт и минимум динамики, скрывающие огрехи нестабильности, делают своё дело.

Надписи правда пожеванные, и машина едет задом наперёд по встречке. Но кому станут камнем преткновения такие низменные, словно пыль, детали, когда обращаешься к высокому.

Твит

1.6K views19:34

Psy Eyes

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

E2F5: фреймворк для генерации речи по тексту (TTS) с клонированием голоса без трени.

Работать можно с двумя моделями на выбор. E2 это zero-shot TTS на основе flow-matching, которая, не смотря на то что в ней не используется дополнительных компонентов вроде преобразования графем в фонемы или сложных техник, показывает неплохие результаты по клону голоса. F5 является развитием идей E2, и использует метод Sway Sampling для более быстрых и разнообразных результатов.

На вход берётся 15 сек аудио. Если что оно автоматом обрубается, как и делается транскрибация речи в текст, но можно его и прописать вручную.

Обе работают шустро, и неплохо выхватывают тембр, но качество на выходе пожатое, и очень реченька спешит — нужны рульки направлять её в нужное русло по скорости, интонации, итд.

Вот как раз в онлайн демке и есть управление по скорости, и кажись качество выше. UPD: эти улучшения уже пошли под капот, обновите приложение через Pinokio или с гитхаьа.

Чекпоинты работают только с инглишом и китайским.

Нужно 5-7 ГБ VRAM.

Демо
Установка через Pinokio

8.2K views11:33

Psy Eyes

Авторы Kling выкатили API для своей виртуальной примерочной Virtual Try On на основе генератора картинок Kolors.

Одежда садится хорошо, даже есть тени. Там, где скажем майка должна кончится в кадре, AI сама подберёт нижнюю одежду. Детали попадающееся в рабочую область тоже могут быть поменяны (см пистолет), имейте это ввиду. Качество пока шакальное, но для рефа как персонаж может выглядеть сгодится.

Цены на API продаются пачками и начинаются от $4.19 за 100 запросов (units это же запросы, да?) и уходят в космос. Максимум 9 одновременных сессий для генерации.

Либо можно скопировать к себе демку на хаггинге нажав в правом верхнем углу clone repo и гонять приватно в акке. Но скорее всего понадобится подписка хаггинга, ибо на фришном цпу вряд ли взлетит.

В опенсорсе модели нет и вряд ли будет. Ближайшие аналоги это IDM-VTON и иже с ним.

Демо
Страница с API

1.7K views12:37

Psy Eyes

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

Потестил InstantSplat.

Я постоянно высматриваю модельки, которые могли бы очень быстро из твоих фото собрать тебе сплаты. Postshot делает хорошо, но в 4 захода в общей сложности минут на 8-15 на небольшом датасете. И это всё-таки отдельная апа со своим UI.

Хайп-пыли без кода и демо вагон, а за тем, что можно было бы реально пощупать ведётся пристальный пиксельхантинг с собаками.

А тут Nvidia недавно выкатила InstantSplat, где есть возможность из нескольких фоток быстро получить 3D сцену. И это можно сделать частью пайплайна.

Также интересна и реализация сообщества (pablovela), ибо тут тебе и виюпорт, где ты можешь крутить сцену как хочешь, и процесс трени показан, и когда наводишь на фото или место в сцене тебе показаны откуда они, и можно сразу облако точек в .ply скачать.

Да, пока качество не очень, но для 3D копии объекта меньше, чем за 1 минуту (!) на 5 фотках (!) результат отличный. Дальше оно будет оптимироваться и становиться только лучше.

Можно даже локально развернуть. Правда пока с вариантом от pablovela наткнулся на невозможность запустить на винде. Я по такому случаю даже юбунту в виртуальной машине накатил, буду теперь тестить. Заодно и NerfStudio с остальными Linux-first потрохами будем заводить.

Сайт
Демо (pablovela)
Гитхаб
Демо (Nvidia)
Гитхаб

1.7K views15:23

Psy Eyes

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Апдейт для E2F5 в пинокио уже подъехал. Модель подрубили к официальному репо в гитхабе и обновили до всех последних фишек.

Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.

Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2F5 заново.

Установка через Pinokio
Про E2F5

1.6K viewsedited 08:48

Psy Eyes

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

Pika: продолжают через мемы раскрывать возможности своего генератора видео v 1.5, который умеет в физику, чёткость движений, и высокое качество картинки.

В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)

Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.

Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.

Твит
Сайт

1.7K views10:00

About

Blog

Apps

Platform