Psy Eyes

E2F5: фреймворк для генерации речи по тексту (TTS) с клонированием голоса без трени.

Работать можно с двумя моделями на выбор. E2 это zero-shot TTS на основе flow-matching, которая, не смотря на то что в ней не используется дополнительных компонентов вроде преобразования графем в фонемы или сложных техник, показывает неплохие результаты по клону голоса. F5 является развитием идей E2, и использует метод Sway Sampling для более быстрых и разнообразных результатов.

На вход берётся 15 сек аудио. Если что оно автоматом обрубается, как и делается транскрибация речи в текст, но можно его и прописать вручную.

Обе работают шустро, и неплохо выхватывают тембр, но качество на выходе пожатое, и очень реченька спешит — нужны рульки направлять её в нужное русло по скорости, интонации, итд.

Вот как раз в онлайн демке и есть управление по скорости, и кажись качество выше. UPD: эти улучшения уже пошли под капот, обновите приложение через Pinokio или с гитхаьа.

Чекпоинты работают только с инглишом и китайским.

Нужно 5-7 ГБ VRAM.

Демо
Установка через Pinokio

8.3K views11:33

Psy Eyes

Авторы Kling выкатили API для своей виртуальной примерочной Virtual Try On на основе генератора картинок Kolors.

Одежда садится хорошо, даже есть тени. Там, где скажем майка должна кончится в кадре, AI сама подберёт нижнюю одежду. Детали попадающееся в рабочую область тоже могут быть поменяны (см пистолет), имейте это ввиду. Качество пока шакальное, но для рефа как персонаж может выглядеть сгодится.

Цены на API продаются пачками и начинаются от $4.19 за 100 запросов (units это же запросы, да?) и уходят в космос. Максимум 9 одновременных сессий для генерации.

Либо можно скопировать к себе демку на хаггинге нажав в правом верхнем углу clone repo и гонять приватно в акке. Но скорее всего понадобится подписка хаггинга, ибо на фришном цпу вряд ли взлетит.

В опенсорсе модели нет и вряд ли будет. Ближайшие аналоги это IDM-VTON и иже с ним.

Демо
Страница с API

1.8K views12:37

Psy Eyes

1:14

This media is not supported in your browser

VIEW IN TELEGRAM

Потестил InstantSplat.

Я постоянно высматриваю модельки, которые могли бы очень быстро из твоих фото собрать тебе сплаты. Postshot делает хорошо, но в 4 захода в общей сложности минут на 8-15 на небольшом датасете. И это всё-таки отдельная апа со своим UI.

Хайп-пыли без кода и демо вагон, а за тем, что можно было бы реально пощупать ведётся пристальный пиксельхантинг с собаками.

А тут Nvidia недавно выкатила InstantSplat, где есть возможность из нескольких фоток быстро получить 3D сцену. И это можно сделать частью пайплайна.

Также интересна и реализация сообщества (pablovela), ибо тут тебе и виюпорт, где ты можешь крутить сцену как хочешь, и процесс трени показан, и когда наводишь на фото или место в сцене тебе показаны откуда они, и можно сразу облако точек в .ply скачать.

Да, пока качество не очень, но для 3D копии объекта меньше, чем за 1 минуту (!) на 5 фотках (!) результат отличный. Дальше оно будет оптимироваться и становиться только лучше.

Можно даже локально развернуть. Правда пока с вариантом от pablovela наткнулся на невозможность запустить на винде. Я по такому случаю даже юбунту в виртуальной машине накатил, буду теперь тестить. Заодно и NerfStudio с остальными Linux-first потрохами будем заводить.

Сайт
Демо (pablovela)
Гитхаб
Демо (Nvidia)
Гитхаб

1.7K views15:23

Psy Eyes

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Апдейт для E2F5 в пинокио уже подъехал. Модель подрубили к официальному репо в гитхабе и обновили до всех последних фишек.

Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.

Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2F5 заново.

Установка через Pinokio
Про E2F5

1.6K viewsedited 08:48

Psy Eyes

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

1:01

This media is not supported in your browser

VIEW IN TELEGRAM

Pika: продолжают через мемы раскрывать возможности своего генератора видео v 1.5, который умеет в физику, чёткость движений, и высокое качество картинки.

В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)

Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.

Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.

Твит
Сайт

1.8K views10:00

Psy Eyes

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

Huggingface заколлабились с Ollama и теперь можно любую языковую модель (LLM), у которой на хабе есть GGUF от квантизации, запустить прямо в командной строке вбив строчку формата:

ollama run hf.co/{username}/{repository}

Можно попробовать на чём-то из этого:

ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF

На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить ollama run hf.co/ и вставить скопированное. Если нужна конкретная квантизация, например Q4_0, то она дописывается в конце рез двоеточие. LLM скачается и с ней можно будет общаться.

Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде: C:\Users\PsyEyes\AppData\Local\Programs\Ollama. И в переменных среды найдите строчку Path » изменить » создайте новую строку и впишите в неё адрес.

Сегодня в заголовках Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Anthropic и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:

ollama run hf.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF:IQ1_M

Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.

Анонс
Список LLM на хаггинге

9.8K views11:19

Psy Eyes

Вышел PyTorch 2.5.

Что нового:

* Новый CuDNN "Fused Flash Attention" бэкенд. Если гоняете H100 в облаке или предоставляете сервисы, скажем через ботов, на них, прибавка в скорости может быть до 75%.

* Поддержка видюх Intel. Написано, что речь про те, что в датацентрах и у пользователей. Интересно имеются ввиду дискретные Arc или втройки в проц типа UHD Graphics 770 тоже считаются? Если да, то можно ли заставить их использовать вагон RAM как на маках?

* Другие оптимизации и улучшения

Анонс
Гитхаб

1.6K viewsedited 11:06

Psy Eyes

Nvidia: ускорили Flux на видюхах с поддержкой TensorRT. Прирост производительности составляет 20%. А ранее Alibaba выпустили Turbo версию Flux.

Чтобы достичь ускорения, надо модель, скажем Flux Dev, пропустить через ComfyUI TensorRT. На выходе можно получить или динамический оптимизированный движок, который будет работать с разными разрешениями, или статический работающий в одном разрешении, зато потребляющий меньше памяти.

На данный момент, чтобы провести оптимизацию нужно 48 ГБ VRAM и видюха с поддержкой BF16 типа А5000. После этого, оптимизированную Dev можно будет гонять на 4090. Но скорее всего ничего другого параллельно работать не сможет и экраны нужно будет отключить. Не забудь поставить свечку для аутентичности.

Тем не менее, будем следить за развитием событий. Я тут опробовал TensorRT в новом FaceFusion и оумай! оно просто летать начало, даже по сравнению с CUDA.

Анонс
Гитхаб Comfy TensorRT
Обсуждение на гитхабе

1.8K views12:20

Psy Eyes

Кстати про FaceFusion. Там FusionLabs выпустили свою модель для работы с лицами — ArcFace Converter. С её помощью можно конвертировать лицевые эмбеддинги между разными ArcFace архитектурами в ONNX формате.

В то время как inswapper полагается на эмбеддинги оригинального ArcFace, модели вроде HiFiFace, GHOST, и SimSwap используют свои архитектуры, 200 МБ каждая. Новые конверторы весят по 20 МБ и повторно используют лицевые эмбеддинги, которые были сгенерированны для распознавания лица, и ускоряют процесс.

Если у вас стоит FaceFusion 3.0.0, то оно уже под капотом и используется. Ежели какая-то другая сборка, можете скачать новые модели отсюда и положить их .assets/models, где установлен FaceFusion.

Гитхаб

1.5K views13:54

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

Ну и сладкие остатки с AdobeMax.

Вы конечно помните все эти ситуации, когда к вам приходит (вставить нужное) и говорит:
а можно теперь для инсты квадратное?
и для сторисов можно стоячее?
а еще в шапку фб плоское?
ну и на сайт стандартное?
а, там еще размерчики новые пришли..

ты же уже сделал основную картинку, там поправить немного, да?

А у тебя глаз дергается...

Одна кнопка, Карл!

@cgevent

1.1K views14:55

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

LMStudio: в версии V 0.3.4 появился MLX-движок, для эффективной работы на маках с языковыми моделями (LLM) и визуальными моделями (VLM) в формате MLX.

В приложении можно найти и сразу скачать LLM/VLM в нужном формате. И использовать в удобном UI или командной строке.

MLX-движок сделан командой LMstudio и выложен в опенсорс по лицензией MIT.

Также теперь можно запускать одновременно несколько LLM.

Анонс
Скачать приложение
MLX-движок

1.6K viewsedited 16:10

Psy Eyes

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

PlayCanvas: обновили браузерный игровой движок с поддержкой WebGPU до V 2.1.0.

Что нового:
* HDR
* TAA
* SSAO
* Исправлен рендеринг сплатов в VR
* Улучшена обработка .ply
* и не только

Кстати у них же есть веб-редактор сплатов SuperSplat, а также список проектов с примерами использования движка. Там и игры, и технодемки, и виртуальные инсталляции, итд.

Судя по видео, мы не так далеко от какого-нибудь браузерного NFS Most Wanted на WebGPU, или чего пографонистей. Если не на PlayCanvas, то вполне возможно на Unity, которые поддерживают WebGPU. Можете эти примеры погонять в хроме или другом браузере с поддержкой WebGPU:
* GPU Skinning
* VFX Graph
* URP BoatAttack

Гитхаб
Видео Unity + WebGPU

1.7K views18:52

Psy Eyes

От приписок in-game footage к —> in-browser footage

1.5K views18:54

About

Blog

Apps

Platform