Psy Eyes
5.08K subscribers
1.05K photos
999 videos
5 files
1.18K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Adobe: на мероприятии Max сделали несколько анонсов.

Генеративная модель Firefly теперь вшита в Premiere и может использоваться для расширения видео, создания B-роллов на основе картинок, или добавления эффектов.

Судя по черрипикам контекст видео для продолжения ухватывает хорошо, а вот по качеству пока MiniMax, Kling, Movie Gen, и Runway лучше.

В бете нового премьера уже должно работать, но понадобится подписка Creative Cloud. Шустрые подписчики уже рапортуют, что зарубежный IP не нужен. Вейтлист в генератор видео на сайте тут.

Фича Generative Fill вышла из беты и начинает широко внедряться в продукты компании. А генеративная стёрка обновилась и стала лучше удалять объекты с контента.

Пост
Видео с мероприятия
This media is not supported in your browser
VIEW IN TELEGRAM
Также Adobe выкатили бета-версию Substance 3D Viewer. С помощью этой фичи можно вкидывать 3D объекты прямо в фотошопе, крутить их там как угодно, и быстро собирать дизайны продуктов. 3D контент будет восприниматься как смарт-объекты.

В Illustrator при этом добавился показанный в мае Project Neo, которым можно в изометрии собрать из 3D объектов сцену в нужном ракурсе, и потом экспортировать в редактируемом векторном формате или растре. Плюс появилась фича Objects on Path, позволяющая сгруппировать и перемещать объекты по направляющей.

InDesign теперь тоже располагает генеративным расширением изображения и text-2-image. А в Lightroom завезли Generative Remove для более аккуратного выделения и удаления объектов.

Пост
This media is not supported in your browser
VIEW IN TELEGRAM
Замес из Runway Gen-3 и AR.

Стильный писксельарт и минимум динамики, скрывающие огрехи нестабильности, делают своё дело.

Надписи правда пожеванные, и машина едет задом наперёд по встречке. Но кому станут камнем преткновения такие низменные, словно пыль, детали, когда обращаешься к высокому.

Твит
E2F5: фреймворк для генерации речи по тексту (TTS) с клонированием голоса без трени.

Работать можно с двумя моделями на выбор. E2 это zero-shot TTS на основе flow-matching, которая, не смотря на то что в ней не используется дополнительных компонентов вроде преобразования графем в фонемы или сложных техник, показывает неплохие результаты по клону голоса. F5 является развитием идей E2, и использует метод Sway Sampling для более быстрых и разнообразных результатов.

На вход берётся 15 сек аудио. Если что оно автоматом обрубается, как и делается транскрибация речи в текст, но можно его и прописать вручную.

Обе работают шустро, и неплохо выхватывают тембр, но качество на выходе пожатое, и очень реченька спешит — нужны рульки направлять её в нужное русло по скорости, интонации, итд.

Вот как раз в онлайн демке и есть управление по скорости, и кажись качество выше. UPD: эти улучшения уже пошли под капот, обновите приложение через Pinokio или с гитхаьа.

Чекпоинты работают только с инглишом и китайским.

Нужно 5-7 ГБ VRAM.

Демо
Установка через Pinokio
Авторы Kling выкатили API для своей виртуальной примерочной Virtual Try On на основе генератора картинок Kolors.

Одежда садится хорошо, даже есть тени. Там, где скажем майка должна кончится в кадре, AI сама подберёт нижнюю одежду. Детали попадающееся в рабочую область тоже могут быть поменяны (см пистолет), имейте это ввиду. Качество пока шакальное, но для рефа как персонаж может выглядеть сгодится.

Цены на API продаются пачками и начинаются от $4.19 за 100 запросов (units это же запросы, да?) и уходят в космос. Максимум 9 одновременных сессий для генерации.

Либо можно скопировать к себе демку на хаггинге нажав в правом верхнем углу clone repo и гонять приватно в акке. Но скорее всего понадобится подписка хаггинга, ибо на фришном цпу вряд ли взлетит.

В опенсорсе модели нет и вряд ли будет. Ближайшие аналоги это IDM-VTON и иже с ним.

Демо
Страница с API
This media is not supported in your browser
VIEW IN TELEGRAM
Потестил InstantSplat.

Я постоянно высматриваю модельки, которые могли бы очень быстро из твоих фото собрать тебе сплаты. Postshot делает хорошо, но в 4 захода в общей сложности минут на 8-15 на небольшом датасете. И это всё-таки отдельная апа со своим UI.

Хайп-пыли без кода и демо вагон, а за тем, что можно было бы реально пощупать ведётся пристальный пиксельхантинг с собаками.

А тут Nvidia недавно выкатила InstantSplat, где есть возможность из нескольких фоток быстро получить 3D сцену. И это можно сделать частью пайплайна.

Также интересна и реализация сообщества (pablovela), ибо тут тебе и виюпорт, где ты можешь крутить сцену как хочешь, и процесс трени показан, и когда наводишь на фото или место в сцене тебе показаны откуда они, и можно сразу облако точек в .ply скачать.

Да, пока качество не очень, но для 3D копии объекта меньше, чем за 1 минуту (!) на 5 фотках (!) результат отличный. Дальше оно будет оптимироваться и становиться только лучше.

Можно даже локально развернуть. Правда пока с вариантом от pablovela наткнулся на невозможность запустить на винде. Я по такому случаю даже юбунту в виртуальной машине накатил, буду теперь тестить. Заодно и NerfStudio с остальными Linux-first потрохами будем заводить.

Сайт
Демо (pablovela)
Гитхаб
Демо (Nvidia)
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Апдейт для E2F5 в пинокио уже подъехал. Модель подрубили к официальному репо в гитхабе и обновили до всех последних фишек.

Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.

Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2F5 заново.

Установка через Pinokio
Про E2F5
Pika: продолжают через мемы раскрывать возможности своего генератора видео v 1.5, который умеет в физику, чёткость движений, и высокое качество картинки.

В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)

Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.

Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.

Твит
Сайт
Huggingface заколлабились с Ollama и теперь можно любую языковую модель (LLM), у которой на хабе есть GGUF от квантизации, запустить прямо в командной строке вбив строчку формата:

ollama run hf.co/{username}/{repository}


Можно попробовать на чём-то из этого:
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF


На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить ollama run hf.co/ и вставить скопированное. Если нужна конкретная квантизация, например Q4_0, то она дописывается в конце рез двоеточие. LLM скачается и с ней можно будет общаться.

Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде: C:\Users\PsyEyes\AppData\Local\Programs\Ollama. И в переменных среды найдите строчку Path » изменить » создайте новую строку и впишите в неё адрес.

Сегодня в заголовках Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Anthropic и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:

ollama run hf.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF:IQ1_M


Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.

Анонс
Список LLM на хаггинге
Вышел PyTorch 2.5.

Что нового:

* Новый CuDNN "Fused Flash Attention" бэкенд. Если гоняете H100 в облаке или предоставляете сервисы, скажем через ботов, на них, прибавка в скорости может быть до 75%.

* Поддержка видюх Intel. Написано, что речь про те, что в датацентрах и у пользователей. Интересно имеются ввиду дискретные Arc или втройки в проц типа UHD Graphics 770 тоже считаются? Если да, то можно ли заставить их использовать вагон RAM как на маках?

* Другие оптимизации и улучшения

Анонс
Гитхаб
Nvidia: ускорили Flux на видюхах с поддержкой TensorRT. Прирост производительности составляет 20%. А ранее Alibaba выпустили Turbo версию Flux.

Чтобы достичь ускорения, надо модель, скажем Flux Dev, пропустить через ComfyUI TensorRT. На выходе можно получить или динамический оптимизированный движок, который будет работать с разными разрешениями, или статический работающий в одном разрешении, зато потребляющий меньше памяти.

На данный момент, чтобы провести оптимизацию нужно 48 ГБ VRAM и видюха с поддержкой BF16 типа А5000. После этого, оптимизированную Dev можно будет гонять на 4090. Но скорее всего ничего другого параллельно работать не сможет и экраны нужно будет отключить. Не забудь поставить свечку для аутентичности.

Тем не менее, будем следить за развитием событий. Я тут опробовал TensorRT в новом FaceFusion и оумай! оно просто летать начало, даже по сравнению с CUDA.

Анонс
Гитхаб Comfy TensorRT
Обсуждение на гитхабе
Кстати про FaceFusion. Там FusionLabs выпустили свою модель для работы с лицами — ArcFace Converter. С её помощью можно конвертировать лицевые эмбеддинги между разными ArcFace архитектурами в ONNX формате.

В то время как inswapper полагается на эмбеддинги оригинального ArcFace, модели вроде HiFiFace, GHOST, и SimSwap используют свои архитектуры, 200 МБ каждая. Новые конверторы весят по 20 МБ и повторно используют лицевые эмбеддинги, которые были сгенерированны для распознавания лица, и ускоряют процесс.

Если у вас стоит FaceFusion 3.0.0, то оно уже под капотом и используется. Ежели какая-то другая сборка, можете скачать новые модели отсюда и положить их .assets/models, где установлен FaceFusion.

Гитхаб
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и сладкие остатки с AdobeMax.

Вы конечно помните все эти ситуации, когда к вам приходит (вставить нужное) и говорит:
а можно теперь для инсты квадратное?
и для сторисов можно стоячее?
а еще в шапку фб плоское?
ну и на сайт стандартное?
а, там еще размерчики новые пришли..

ты же уже сделал основную картинку, там поправить немного, да?

А у тебя глаз дергается...

Одна кнопка, Карл!

@cgevent