E2F5: фреймворк для генерации речи по тексту (TTS) с клонированием голоса без трени.
Работать можно с двумя моделями на выбор. E2 это zero-shot TTS на основе flow-matching, которая, не смотря на то что в ней не используется дополнительных компонентов вроде преобразования графем в фонемы или сложных техник, показывает неплохие результаты по клону голоса. F5 является развитием идей E2, и использует метод Sway Sampling для более быстрых и разнообразных результатов.
На вход берётся 15 сек аудио. Если что оно автоматом обрубается, как и делается транскрибация речи в текст, но можно его и прописать вручную.
Обе работают шустро, и неплохо выхватывают тембр, но качество на выходе пожатое, и очень реченька спешит — нужны рульки направлять её в нужное русло по скорости, интонации, итд.
Вот как раз в онлайн демке и есть управление по скорости, и кажись качество выше. UPD: эти улучшения уже пошли под капот, обновите приложение через Pinokio или с гитхаьа.
Чекпоинты работают только с инглишом и китайским.
Нужно 5-7 ГБ VRAM.
Демо
Установка через Pinokio
Работать можно с двумя моделями на выбор. E2 это zero-shot TTS на основе flow-matching, которая, не смотря на то что в ней не используется дополнительных компонентов вроде преобразования графем в фонемы или сложных техник, показывает неплохие результаты по клону голоса. F5 является развитием идей E2, и использует метод Sway Sampling для более быстрых и разнообразных результатов.
На вход берётся 15 сек аудио. Если что оно автоматом обрубается, как и делается транскрибация речи в текст, но можно его и прописать вручную.
Обе работают шустро, и неплохо выхватывают тембр, но качество на выходе пожатое, и очень реченька спешит — нужны рульки направлять её в нужное русло по скорости, интонации, итд.
Вот как раз в онлайн демке и есть управление по скорости, и кажись качество выше. UPD: эти улучшения уже пошли под капот, обновите приложение через Pinokio или с гитхаьа.
Чекпоинты работают только с инглишом и китайским.
Нужно 5-7 ГБ VRAM.
Демо
Установка через Pinokio
Авторы Kling выкатили API для своей виртуальной примерочной Virtual Try On на основе генератора картинок Kolors.
Одежда садится хорошо, даже есть тени. Там, где скажем майка должна кончится в кадре, AI сама подберёт нижнюю одежду. Детали попадающееся в рабочую область тоже могут быть поменяны (см пистолет), имейте это ввиду. Качество пока шакальное, но для рефа как персонаж может выглядеть сгодится.
Цены на API продаются пачками и начинаются от $4.19 за 100 запросов (units это же запросы, да?) и уходят в космос. Максимум 9 одновременных сессий для генерации.
Либо можно скопировать к себе демку на хаггинге нажав в правом верхнем углу clone repo и гонять приватно в акке. Но скорее всего понадобится подписка хаггинга, ибо на фришном цпу вряд ли взлетит.
В опенсорсе модели нет и вряд ли будет. Ближайшие аналоги это IDM-VTON и иже с ним.
Демо
Страница с API
Одежда садится хорошо, даже есть тени. Там, где скажем майка должна кончится в кадре, AI сама подберёт нижнюю одежду. Детали попадающееся в рабочую область тоже могут быть поменяны (см пистолет), имейте это ввиду. Качество пока шакальное, но для рефа как персонаж может выглядеть сгодится.
Цены на API продаются пачками и начинаются от $4.19 за 100 запросов (units это же запросы, да?) и уходят в космос. Максимум 9 одновременных сессий для генерации.
Либо можно скопировать к себе демку на хаггинге нажав в правом верхнем углу clone repo и гонять приватно в акке. Но скорее всего понадобится подписка хаггинга, ибо на фришном цпу вряд ли взлетит.
В опенсорсе модели нет и вряд ли будет. Ближайшие аналоги это IDM-VTON и иже с ним.
Демо
Страница с API
This media is not supported in your browser
VIEW IN TELEGRAM
Потестил InstantSplat.
Я постоянно высматриваю модельки, которые могли бы очень быстро из твоих фото собрать тебе сплаты. Postshot делает хорошо, но в 4 захода в общей сложности минут на 8-15 на небольшом датасете. И это всё-таки отдельная апа со своим UI.
Хайп-пыли без кода и демо вагон, а за тем, что можно было бы реально пощупать ведётся пристальный пиксельхантинг с собаками.
А тут Nvidia недавно выкатила InstantSplat, где есть возможность из нескольких фоток быстро получить 3D сцену. И это можно сделать частью пайплайна.
Также интересна и реализация сообщества (pablovela), ибо тут тебе и виюпорт, где ты можешь крутить сцену как хочешь, и процесс трени показан, и когда наводишь на фото или место в сцене тебе показаны откуда они, и можно сразу облако точек в .ply скачать.
Да, пока качество не очень, но для 3D копии объекта меньше, чем за 1 минуту (!) на 5 фотках (!) результат отличный. Дальше оно будет оптимироваться и становиться только лучше.
Можно даже локально развернуть. Правда пока с вариантом от pablovela наткнулся на невозможность запустить на винде. Я по такому случаю даже юбунту в виртуальной машине накатил, буду теперь тестить. Заодно и NerfStudio с остальными Linux-first потрохами будем заводить.
Сайт
Демо (pablovela)
Гитхаб
Демо (Nvidia)
Гитхаб
Я постоянно высматриваю модельки, которые могли бы очень быстро из твоих фото собрать тебе сплаты. Postshot делает хорошо, но в 4 захода в общей сложности минут на 8-15 на небольшом датасете. И это всё-таки отдельная апа со своим UI.
Хайп-пыли без кода и демо вагон, а за тем, что можно было бы реально пощупать ведётся пристальный пиксельхантинг с собаками.
А тут Nvidia недавно выкатила InstantSplat, где есть возможность из нескольких фоток быстро получить 3D сцену. И это можно сделать частью пайплайна.
Также интересна и реализация сообщества (pablovela), ибо тут тебе и виюпорт, где ты можешь крутить сцену как хочешь, и процесс трени показан, и когда наводишь на фото или место в сцене тебе показаны откуда они, и можно сразу облако точек в .ply скачать.
Да, пока качество не очень, но для 3D копии объекта меньше, чем за 1 минуту (!) на 5 фотках (!) результат отличный. Дальше оно будет оптимироваться и становиться только лучше.
Можно даже локально развернуть. Правда пока с вариантом от pablovela наткнулся на невозможность запустить на винде. Я по такому случаю даже юбунту в виртуальной машине накатил, буду теперь тестить. Заодно и NerfStudio с остальными Linux-first потрохами будем заводить.
Сайт
Демо (pablovela)
Гитхаб
Демо (Nvidia)
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Апдейт для E2F5 в пинокио уже подъехал. Модель подрубили к официальному репо в гитхабе и обновили до всех последних фишек.
Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.
Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2F5 заново.
Установка через Pinokio
Про E2F5
Теперь можно локально делать подкасты, генерить в разных эмоциях, и регулировать скорости речи/паузу.
Если update в боковой панели не обновит модель, то снесите её, закройте пинокио, и поставьте E2F5 заново.
Установка через Pinokio
Про E2F5
Pika: продолжают через мемы раскрывать возможности своего генератора видео v 1.5, который умеет в физику, чёткость движений, и высокое качество картинки.
В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)
Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.
Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.
Твит
Сайт
В этот раз добавили эффекты:
* Crumble (разрушить)
* Deflate (спустить)
* Dissolve (дезинтегрировать ака ты чего наделал)
* Ta-Da (фокусы за 200)
Заодно прицепил прошлый трейлер V 1.5, чтобы все эффекты в наличии были в одном посте.
Pika правильно делают. Мемы это массадопшн для AI. Надо только бесплатный тариф как-то проработать, а то 3 дня на одну генерацию это так себе.
Твит
Сайт
Huggingface заколлабились с Ollama и теперь можно любую языковую модель (LLM), у которой на хабе есть GGUF от квантизации, запустить прямо в командной строке вбив строчку формата:
Можно попробовать на чём-то из этого:
На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить
Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде:
Сегодня в заголовках Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Anthropic и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:
Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.
Анонс
Список LLM на хаггинге
ollama run hf.co/{username}/{repository}
Можно попробовать на чём-то из этого:
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF
ollama run hf.co/mlabonne/Meta-Llama-3.1-8B-Instruct-abliterated-GGUF
ollama run hf.co/arcee-ai/SuperNova-Medius-GGUF
ollama run hf.co/bartowski/Humanish-LLama3-8B-Instruct-GGUF
На память команды знать не обязательно. Ловчей будет зайти в хабе на страницу интересующей модели, перейти в Quantizations, выбрать создателя кванта (ориентируйтесь по скачиваниям), нажать "скопировать" рядом с названием модели, а дальше в командной строке вбить
ollama run hf.co/
и вставить скопированное. Если нужна конкретная квантизация, например Q4_0, то она дописывается в конце рез двоеточие. LLM скачается и с ней можно будет общаться.Также может понадобиться Ollama добавить в PATH, чтобы оно могло запускаться из любого места в командной строке. Для этого найдите куда приложение установлено (например нажав на иконке и открыв "расположение файла"). Это что-то вроде:
C:\Users\PsyEyes\AppData\Local\Programs\Ollama
. И в переменных среды найдите строчку Path » изменить » создайте новую строку и впишите в неё адрес.Сегодня в заголовках Nvidia с их тюном ламы, красиво светящимся на бенчах против последних моделей Anthropic и OpenAI. Просто GGUF весит 48 гб. Чтобы подрубить пожатый 1-битный и, возможно, нерепрезентативный квант, весящий 16 гигов и занимающий 20 ГБ VRAM, надо вбить:
ollama run hf.co/bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-GGUF:IQ1_M
Хотя мне конечно через командную строку общаться не близко. Нужен UI, чтоб можно было и чаты разные вести, и файлики свои подгружать, итд. Будет ништяк, если это подрубят в OpenWebUI с Artifacts, а то там сейчас список поддерживаемых моделей ограничен.
Анонс
Список LLM на хаггинге
Вышел PyTorch 2.5.
Что нового:
* Новый CuDNN "Fused Flash Attention" бэкенд. Если гоняете H100 в облаке или предоставляете сервисы, скажем через ботов, на них, прибавка в скорости может быть до 75%.
* Поддержка видюх Intel. Написано, что речь про те, что в датацентрах и у пользователей. Интересно имеются ввиду дискретные Arc или втройки в проц типа UHD Graphics 770 тоже считаются? Если да, то можно ли заставить их использовать вагон RAM как на маках?
* Другие оптимизации и улучшения
Анонс
Гитхаб
Что нового:
* Новый CuDNN "Fused Flash Attention" бэкенд. Если гоняете H100 в облаке или предоставляете сервисы, скажем через ботов, на них, прибавка в скорости может быть до 75%.
* Поддержка видюх Intel. Написано, что речь про те, что в датацентрах и у пользователей. Интересно имеются ввиду дискретные Arc или втройки в проц типа UHD Graphics 770 тоже считаются? Если да, то можно ли заставить их использовать вагон RAM как на маках?
* Другие оптимизации и улучшения
Анонс
Гитхаб
Nvidia: ускорили Flux на видюхах с поддержкой TensorRT. Прирост производительности составляет 20%. А ранее Alibaba выпустили Turbo версию Flux.
Чтобы достичь ускорения, надо модель, скажем Flux Dev, пропустить через ComfyUI TensorRT. На выходе можно получить или динамический оптимизированный движок, который будет работать с разными разрешениями, или статический работающий в одном разрешении, зато потребляющий меньше памяти.
На данный момент, чтобы провести оптимизацию нужно 48 ГБ VRAM и видюха с поддержкой BF16 типа А5000. После этого, оптимизированную Dev можно будет гонять на 4090. Но скорее всего ничего другого параллельно работать не сможет и экраны нужно будет отключить. Не забудь поставить свечку для аутентичности.
Тем не менее, будем следить за развитием событий. Я тут опробовал TensorRT в новом FaceFusion и оумай! оно просто летать начало, даже по сравнению с CUDA.
Анонс
Гитхаб Comfy TensorRT
Обсуждение на гитхабе
Чтобы достичь ускорения, надо модель, скажем Flux Dev, пропустить через ComfyUI TensorRT. На выходе можно получить или динамический оптимизированный движок, который будет работать с разными разрешениями, или статический работающий в одном разрешении, зато потребляющий меньше памяти.
На данный момент, чтобы провести оптимизацию нужно 48 ГБ VRAM и видюха с поддержкой BF16 типа А5000. После этого, оптимизированную Dev можно будет гонять на 4090. Но скорее всего ничего другого параллельно работать не сможет и экраны нужно будет отключить. Не забудь поставить свечку для аутентичности.
Тем не менее, будем следить за развитием событий. Я тут опробовал TensorRT в новом FaceFusion и оумай! оно просто летать начало, даже по сравнению с CUDA.
Анонс
Гитхаб Comfy TensorRT
Обсуждение на гитхабе
Кстати про FaceFusion. Там FusionLabs выпустили свою модель для работы с лицами — ArcFace Converter. С её помощью можно конвертировать лицевые эмбеддинги между разными ArcFace архитектурами в ONNX формате.
В то время как inswapper полагается на эмбеддинги оригинального ArcFace, модели вроде HiFiFace, GHOST, и SimSwap используют свои архитектуры, 200 МБ каждая. Новые конверторы весят по 20 МБ и повторно используют лицевые эмбеддинги, которые были сгенерированны для распознавания лица, и ускоряют процесс.
Если у вас стоит FaceFusion 3.0.0, то оно уже под капотом и используется. Ежели какая-то другая сборка, можете скачать новые модели отсюда и положить их .assets/models, где установлен FaceFusion.
Гитхаб
В то время как inswapper полагается на эмбеддинги оригинального ArcFace, модели вроде HiFiFace, GHOST, и SimSwap используют свои архитектуры, 200 МБ каждая. Новые конверторы весят по 20 МБ и повторно используют лицевые эмбеддинги, которые были сгенерированны для распознавания лица, и ускоряют процесс.
Если у вас стоит FaceFusion 3.0.0, то оно уже под капотом и используется. Ежели какая-то другая сборка, можете скачать новые модели отсюда и положить их .assets/models, где установлен FaceFusion.
Гитхаб
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и сладкие остатки с AdobeMax.
Вы конечно помните все эти ситуации, когда к вам приходит (вставить нужное) и говорит:
а можно теперь для инсты квадратное?
и для сторисов можно стоячее?
а еще в шапку фб плоское?
ну и на сайт стандартное?
а, там еще размерчики новые пришли..
ты же уже сделал основную картинку, там поправить немного, да?
А у тебя глаз дергается...
Одна кнопка, Карл!
@cgevent
Вы конечно помните все эти ситуации, когда к вам приходит (вставить нужное) и говорит:
а можно теперь для инсты квадратное?
и для сторисов можно стоячее?
а еще в шапку фб плоское?
ну и на сайт стандартное?
а, там еще размерчики новые пришли..
ты же уже сделал основную картинку, там поправить немного, да?
А у тебя глаз дергается...
Одна кнопка, Карл!
@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
LMStudio: в версии V 0.3.4 появился MLX-движок, для эффективной работы на маках с языковыми моделями (LLM) и визуальными моделями (VLM) в формате MLX.
В приложении можно найти и сразу скачать LLM/VLM в нужном формате. И использовать в удобном UI или командной строке.
MLX-движок сделан командой LMstudio и выложен в опенсорс по лицензией MIT.
Также теперь можно запускать одновременно несколько LLM.
Анонс
Скачать приложение
MLX-движок
В приложении можно найти и сразу скачать LLM/VLM в нужном формате. И использовать в удобном UI или командной строке.
MLX-движок сделан командой LMstudio и выложен в опенсорс по лицензией MIT.
Также теперь можно запускать одновременно несколько LLM.
Анонс
Скачать приложение
MLX-движок
This media is not supported in your browser
VIEW IN TELEGRAM
PlayCanvas: обновили браузерный игровой движок с поддержкой WebGPU до V 2.1.0.
Что нового:
* HDR
* TAA
* SSAO
* Исправлен рендеринг сплатов в VR
* Улучшена обработка .ply
* и не только
Кстати у них же есть веб-редактор сплатов SuperSplat, а также список проектов с примерами использования движка. Там и игры, и технодемки, и виртуальные инсталляции, итд.
Судя по видео, мы не так далеко от какого-нибудь браузерного NFS Most Wanted на WebGPU, или чего пографонистей. Если не на PlayCanvas, то вполне возможно на Unity, которые поддерживают WebGPU. Можете эти примеры погонять в хроме или другом браузере с поддержкой WebGPU:
* GPU Skinning
* VFX Graph
* URP BoatAttack
Гитхаб
Видео Unity + WebGPU
Что нового:
* HDR
* TAA
* SSAO
* Исправлен рендеринг сплатов в VR
* Улучшена обработка .ply
* и не только
Кстати у них же есть веб-редактор сплатов SuperSplat, а также список проектов с примерами использования движка. Там и игры, и технодемки, и виртуальные инсталляции, итд.
Судя по видео, мы не так далеко от какого-нибудь браузерного NFS Most Wanted на WebGPU, или чего пографонистей. Если не на PlayCanvas, то вполне возможно на Unity, которые поддерживают WebGPU. Можете эти примеры погонять в хроме или другом браузере с поддержкой WebGPU:
* GPU Skinning
* VFX Graph
* URP BoatAttack
Гитхаб
Видео Unity + WebGPU