Forwarded from Ai Filmmaker (Dmitriy Alekseev)
Media is too big
VIEW IN TELEGRAM
Memories of winter holidays (Ai animation)
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Music: Hip-hop classica
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Music: Hip-hop classica
С Новым Годом, котаны! Пусть в 2024-м нейронки помогут вам освободиться от рутины, реализовать креативные интересные проекты, и притянуть к себе лавину лавешек, которую вы оседлаете. Веселья каждую секунду пространства!
Psy Eyes
This media is not supported in the widget
VIEW IN TELEGRAM
Дайджест:
📹 ВИДЕО + АРТ 🎨
Nvidia: обновили TensorRT, ускоритель генераций на основе SD, до версии V 0.2. Появилась поддержка генерации видео через SVD, лор на SDXL, можно комбинировать лоры, и прочее по мелочи.
Luma: 3D генератор Genie вышел в релиз V 1.0 на сайте и в iOS приложении. Улучшилось качество мешей и материалов.
Triplane Gaussian: быстрый генератор гауссианов по одной картинке.
Pika: ввели подписки. На бесплатном тарифе 30 кредитов, которых хватит на 9 секунд генерации видео. Кредиты восстанавливаются ежедневно. Платки варьируются от 8$ до $58 в месяц. На самом деле я удивлён, что они ввели это только сейчас.
Hand Refiner: моделька заточенная под исправление кривых рук на генерациях.
Alibaba: меняем фон, одежду и вписываем объекты в нужный контекст с Replace Anything.
У PixArt появилась LCM модель, демки для Alpha генератора, и готовится Betta генератор.
Moore Threads: выкатили свою продвинутую версию AnimateAnyone для получения анимации человека по одному фото. Также запустили платформу для AI-контента Maliang.
Anim-400K: датасет для автоматизированного дубляжа с японского на английский и наоборот.
Демка апскейлера зашакаленных изображений PASD Magnify.
Получаем 3D модели животных по фото.
Open-Vocabulary SAM: сегментируем объекты на картинках по клику.
audio2photoreal: скармливаем запись диалога и поучаем 2 анимированных аватара.
Меняем текст на изображении с учётом контекста.
CoTracker запрещёнки теперь может отслеживать в 10 раз больше точек на видео.
MotionGPT: генерим текстом движения персонажа или получаем описание движений.
🎸 ЗВУК 🎸
Royal: выкатили Sonic для генерации ремиксов на треки известных артистов, их минтингом ончейн, и возможностью монетизации через дистрибуцию и прочее. Сейчас можно сделать рем на 3LAU. Есть похожий проект — Korus.
Запрещёнка выпустила генератор музыки MAGNeT, который вроде как выдаёт аудио с меньшими артефактами и быстрее, но не могу сказать, что звучит сильно лучше MusicGen. Ещё зарелизили SeamlessExpressive, модель для высококачественного голосового перевода с сохранением интонации автора.
OpenVoice: открытая модель для клонирования голоса с контролем над интонациями и другими эмоциональными деталями.
Tencent: генерим музыку с помощью M2UGEN на основе текста, видео или картинок, чатимся по ней, и редактируем промтом. Качество пока не очень, но посмотрим куда пойдёт. Свободная лицензия MIT.
DreamTalk: липсинк голоса с указанным фото.
Nvidia: переводим голос в текст с помощью Parakeet.
🤖 ЧАТЫ 🤖
Видеогайд как зафайнтюнить Mixtral 8x7B под себя. Ранее от них же вышел гайд как зафайнтюнить Mistral.
С помощью Gradio Lite можно можно строить бессерверные AI-приложения, которые будут работать приватно прямо в браузере. Есть Playground чтобы потестить код в реальном времени.
На выставке CES 2024 AMD представили видюху RX 7600 XT и процессоры серии Ryzen 8000 со встроенным нейронным NPU-ускорителем для работы с нейросетями без использования видеокарты. Intel тоже внедряет NPU в свои чипы. Nvidia ответили видюхами 40-й серии Super: RTX 4080 Super, RTX 4070 Ti Super, RTX 4070 Super + ранее анонсировали 4090 D как решение для обхода санкций. Из софта показали Audio2face для липсинка, NPC с которыми можно общаться голосом в играх, Convai для быстрого создания аватаров, RTX Chat для работы с LLM, и iStock как аналог Firefly. Мобильные процессоры от Google и Qualcomm берут вектор на локальный инференс AI на телефоне. Ноутбуки Microsoft обзаведутся кнопкой для запуска AI-ассистента Copilot. Также показали NPU-ускорители в формфакторах NVMe и PCI-E карт от Panmnesia, Neuchips, DeepX, и других производителей.
NeuralMagic: Ламу 2 запустили на CPU и зафайнтюнили на датасете связанным с математикой.
OpenAI: запустили GPT Store. В каталоге уже 3+ млн пользовательских GPT. Есть фильтрация и каждую неделю будут кураторские подборки. Магазин доступен подписчикам Plus, Enterprise, а также нового тарифа Team. Позже подъедет монетизация GPT, но только в определённых странах.
OpenChat: производительная 7B LLM теперь доступна через меню Hugging Chat.
📹 ВИДЕО + АРТ 🎨
Nvidia: обновили TensorRT, ускоритель генераций на основе SD, до версии V 0.2. Появилась поддержка генерации видео через SVD, лор на SDXL, можно комбинировать лоры, и прочее по мелочи.
Luma: 3D генератор Genie вышел в релиз V 1.0 на сайте и в iOS приложении. Улучшилось качество мешей и материалов.
Triplane Gaussian: быстрый генератор гауссианов по одной картинке.
Pika: ввели подписки. На бесплатном тарифе 30 кредитов, которых хватит на 9 секунд генерации видео. Кредиты восстанавливаются ежедневно. Платки варьируются от 8$ до $58 в месяц. На самом деле я удивлён, что они ввели это только сейчас.
Hand Refiner: моделька заточенная под исправление кривых рук на генерациях.
Alibaba: меняем фон, одежду и вписываем объекты в нужный контекст с Replace Anything.
У PixArt появилась LCM модель, демки для Alpha генератора, и готовится Betta генератор.
Moore Threads: выкатили свою продвинутую версию AnimateAnyone для получения анимации человека по одному фото. Также запустили платформу для AI-контента Maliang.
Anim-400K: датасет для автоматизированного дубляжа с японского на английский и наоборот.
Демка апскейлера зашакаленных изображений PASD Magnify.
Получаем 3D модели животных по фото.
Open-Vocabulary SAM: сегментируем объекты на картинках по клику.
audio2photoreal: скармливаем запись диалога и поучаем 2 анимированных аватара.
Меняем текст на изображении с учётом контекста.
CoTracker запрещёнки теперь может отслеживать в 10 раз больше точек на видео.
MotionGPT: генерим текстом движения персонажа или получаем описание движений.
🎸 ЗВУК 🎸
Royal: выкатили Sonic для генерации ремиксов на треки известных артистов, их минтингом ончейн, и возможностью монетизации через дистрибуцию и прочее. Сейчас можно сделать рем на 3LAU. Есть похожий проект — Korus.
Запрещёнка выпустила генератор музыки MAGNeT, который вроде как выдаёт аудио с меньшими артефактами и быстрее, но не могу сказать, что звучит сильно лучше MusicGen. Ещё зарелизили SeamlessExpressive, модель для высококачественного голосового перевода с сохранением интонации автора.
OpenVoice: открытая модель для клонирования голоса с контролем над интонациями и другими эмоциональными деталями.
Tencent: генерим музыку с помощью M2UGEN на основе текста, видео или картинок, чатимся по ней, и редактируем промтом. Качество пока не очень, но посмотрим куда пойдёт. Свободная лицензия MIT.
DreamTalk: липсинк голоса с указанным фото.
Nvidia: переводим голос в текст с помощью Parakeet.
🤖 ЧАТЫ 🤖
Видеогайд как зафайнтюнить Mixtral 8x7B под себя. Ранее от них же вышел гайд как зафайнтюнить Mistral.
С помощью Gradio Lite можно можно строить бессерверные AI-приложения, которые будут работать приватно прямо в браузере. Есть Playground чтобы потестить код в реальном времени.
На выставке CES 2024 AMD представили видюху RX 7600 XT и процессоры серии Ryzen 8000 со встроенным нейронным NPU-ускорителем для работы с нейросетями без использования видеокарты. Intel тоже внедряет NPU в свои чипы. Nvidia ответили видюхами 40-й серии Super: RTX 4080 Super, RTX 4070 Ti Super, RTX 4070 Super + ранее анонсировали 4090 D как решение для обхода санкций. Из софта показали Audio2face для липсинка, NPC с которыми можно общаться голосом в играх, Convai для быстрого создания аватаров, RTX Chat для работы с LLM, и iStock как аналог Firefly. Мобильные процессоры от Google и Qualcomm берут вектор на локальный инференс AI на телефоне. Ноутбуки Microsoft обзаведутся кнопкой для запуска AI-ассистента Copilot. Также показали NPU-ускорители в формфакторах NVMe и PCI-E карт от Panmnesia, Neuchips, DeepX, и других производителей.
NeuralMagic: Ламу 2 запустили на CPU и зафайнтюнили на датасете связанным с математикой.
OpenAI: запустили GPT Store. В каталоге уже 3+ млн пользовательских GPT. Есть фильтрация и каждую неделю будут кураторские подборки. Магазин доступен подписчикам Plus, Enterprise, а также нового тарифа Team. Позже подъедет монетизация GPT, но только в определённых странах.
OpenChat: производительная 7B LLM теперь доступна через меню Hugging Chat.
Mergekit: инструментарий для смешивания LLM'ок.
Кормим языковые модели TOFU, для забыванияприватных/проприетарных нужных вещей, которые были в тренировочном датасете.
Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.
Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.
DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.
Alibaba: демка Qwen-72B на HF.
LittleStory: генерим сказки для детей с иллюстрациями.
Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.
LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.
Clipper: конвертер и кроулер из HTML в Markdown.
Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.
Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Кормим языковые модели TOFU, для забывания
Nvidia: смешали TensorRT с RAG и Llamaindex, чтобы улучшить ответы языковых моделей на ламе.
Google: с помощью фреймворка Patchscope можно простым языком узнать у LLM её внутреннюю структуру, и другие детали.
DeepSeek: выпустили MoE (Mixture of Experts) модель с 16B параметрами. Скоро каждый чат-бот будет MoE как Mixtral. Вот ещё MoE на двух или четырёх маленьких Phi от Microsoft.
Alibaba: демка Qwen-72B на HF.
LittleStory: генерим сказки для детей с иллюстрациями.
Расширяем контекстное окно LLM с 4к до 400к с помощью Activation Beacon. Плюс ещё одна бумага Infinite-LLM на эту тему.
LiteLama: можно погонять ламу 2 на телефоне, 460М параметров. Также появилась TinyLlama, маленькая, но способная с 1.1B параметров.
Clipper: конвертер и кроулер из HTML в Markdown.
Tencent: дотренировала ламу 2-7B на коде и матане и получили LLaMA-Pro 8B.
Alibaba: выпустили Qwen-VL-Plus для чата по картинкам. В этой версии лучше работа разными форматами кадра и мелким текстом.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Спидран по новостям за выхи
DragNUWA вышла в тираж и её уже совместили со Stable Video Diffusion (SVD).
Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.
Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.
Если демо не работает попробуйте скачать с гитхаба и запустить локально.
Сайт
Гитхаб
Демо
ComfyUI
Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.
Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.
Если демо не работает попробуйте скачать с гитхаба и запустить локально.
Сайт
Гитхаб
Демо
ComfyUI
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
💖 Понравилось: подборка визуальных гайдов для понимания основ больших языковых моделей (LLM). Вы разберетесь, как устроена архитектура нейросетей, даже если не особо понимаете в кодинге.
Сложные концепции и фундаментальные принципы представили в виде иллюстраций, схем и графиков! Оригинал подборки по платной подписке, поэтому выгрузил вам список визуализаций. Сохраняйте:
• Трансформеры по иллюстрациям;
• GPT-2 по иллюстрациям;
• Подробная визуализация LLM;
• Интерактивная статья про генеративный ИИ от Financial Times;
• Инструмент от OpenAI, чтобы разобраться в токенах;
• Объяснение работы токенайзеров;
• Визуализация разделения текста;
• Модели машинного обучения — они запоминают или обобщают (продвинутый уровень).
@notboring_tech
Сложные концепции и фундаментальные принципы представили в виде иллюстраций, схем и графиков! Оригинал подборки по платной подписке, поэтому выгрузил вам список визуализаций. Сохраняйте:
• Трансформеры по иллюстрациям;
• GPT-2 по иллюстрациям;
• Подробная визуализация LLM;
• Интерактивная статья про генеративный ИИ от Financial Times;
• Инструмент от OpenAI, чтобы разобраться в токенах;
• Объяснение работы токенайзеров;
• Визуализация разделения текста;
• Модели машинного обучения — они запоминают или обобщают (продвинутый уровень).
@notboring_tech
DragNUWA отлично себя показывает. Контроль картинки решает.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.
Phygital+: добавили холст для удобной работы с генерациями.
Neurogen: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1
MotionCtrl: пришили контроль камеры к генерации видео через SVD.
DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.
Banodoco проводят розыгрыш двух 4090.
Появился код и демо FreeNoise, улучшающего результаты видео генераций.
VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.
TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.
gsplat.js: теперь можно конвертировать гауссианы из .splat в формат .ply
Alibaba: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.
GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.
Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.
🎸 ЗВУК 🎸
Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.
🤖 ЧАТЫ 🤖
Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.
Binoculars: проверяем сгенерирован ли текст нейронкой.
Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.
Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.
WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.
Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.
EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.
SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.
LangChain: выпустили своих AI-агентов v 0.1
Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.
На Hugging Face есть трекер использования вашего датасета кем-либо.
Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.
Автоматизируем оценку своих LLM через гугл колаб.
Moondream: новый чат по картинкам (VLM).
01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.
InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).
Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.
Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:
* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.
Phygital+: добавили холст для удобной работы с генерациями.
Neurogen: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1
MotionCtrl: пришили контроль камеры к генерации видео через SVD.
DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.
Banodoco проводят розыгрыш двух 4090.
Появился код и демо FreeNoise, улучшающего результаты видео генераций.
VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.
TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.
gsplat.js: теперь можно конвертировать гауссианы из .splat в формат .ply
Alibaba: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.
GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.
Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.
🎸 ЗВУК 🎸
Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.
🤖 ЧАТЫ 🤖
Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.
Binoculars: проверяем сгенерирован ли текст нейронкой.
Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.
Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.
WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.
Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.
EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.
SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.
LangChain: выпустили своих AI-агентов v 0.1
Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.
На Hugging Face есть трекер использования вашего датасета кем-либо.
Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.
Автоматизируем оценку своих LLM через гугл колаб.
Moondream: новый чат по картинкам (VLM).
01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.
InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).
Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.
Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:
* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)
Please open Telegram to view this post
VIEW IN TELEGRAM
В сети есть уже несколько zero-shot моделей, в которых можно вкинуть своё фото, вбить промт или выбрать стиль, и получить картинку в нужном контексте. В отличие от прошлогодних нейронок, основанных на методе Dreambooth, такие модели не требуют обучения на ваших данных и могут генерить с вами фотосет с парадного входа.
InstantID
По одному фото выдаёт хорошие результаты, можно прицепить рефернс для понимания целевой позы, есть controlnet через pose/canny/depth/ и их можно комбинировать, как и смешивать стили. В отличие от других моделей, в один кадр можно вписать более одного человека или совместить их в одну личину в требуемой пропорции.
Демо (англ) // Демо (рус) // Сайт // Гитхаб
PhotoMaker
Здесь можно обойтись одним фото, но чем больше — тем лучше. В промте обязательно надо указать слово
Демо (реализм) // Демо (стилизация) // Сайт // Гитхаб
IP-Adapter-FaceID Plus
Это версия IP Adapter зафайнтюненная генерить человеческие лица в реалистичном или стилизованном ключе. В онлайн варианте есть немного контроля. Если нужен controlnet, то это уже локально надо модель ставить.
Демо // Гитхаб
SDXL-Auto-FaceSwap
Хороший однокнопочный вариант на основе SDXL, но сейчас на паузе. Вероятно, чтобы его снова запустить понадобятся платные опции железа Hugging Face.
Демо
InstantID
По одному фото выдаёт хорошие результаты, можно прицепить рефернс для понимания целевой позы, есть controlnet через pose/canny/depth/ и их можно комбинировать, как и смешивать стили. В отличие от других моделей, в один кадр можно вписать более одного человека или совместить их в одну личину в требуемой пропорции.
Демо (англ) // Демо (рус) // Сайт // Гитхаб
PhotoMaker
Здесь можно обойтись одним фото, но чем больше — тем лучше. В промте обязательно надо указать слово
img (например, woman img или man img) иначе выдаст ошибку. Есть вариант для фотореалистичных генераций, а есть для стилизации.Демо (реализм) // Демо (стилизация) // Сайт // Гитхаб
IP-Adapter-FaceID Plus
Это версия IP Adapter зафайнтюненная генерить человеческие лица в реалистичном или стилизованном ключе. В онлайн варианте есть немного контроля. Если нужен controlnet, то это уже локально надо модель ставить.
Демо // Гитхаб
SDXL-Auto-FaceSwap
Хороший однокнопочный вариант на основе SDXL, но сейчас на паузе. Вероятно, чтобы его снова запустить понадобятся платные опции железа Hugging Face.
Демо