Psy Eyes

В сети есть уже несколько zero-shot моделей, в которых можно вкинуть своё фото, вбить промт или выбрать стиль, и получить картинку в нужном контексте. В отличие от прошлогодних нейронок, основанных на методе Dreambooth, такие модели не требуют обучения на ваших данных и могут генерить с вами фотосет с парадного входа.

InstantID
По одному фото выдаёт хорошие результаты, можно прицепить рефернс для понимания целевой позы, есть controlnet через pose/canny/depth/ и их можно комбинировать, как и смешивать стили. В отличие от других моделей, в один кадр можно вписать более одного человека или совместить их в одну личину в требуемой пропорции.

Демо (англ) // Демо (рус) // Сайт // Гитхаб

PhotoMaker
Здесь можно обойтись одним фото, но чем больше — тем лучше. В промте обязательно надо указать слово img (например, woman img или man img) иначе выдаст ошибку. Есть вариант для фотореалистичных генераций, а есть для стилизации.

Демо (реализм) // Демо (стилизация) // Сайт // Гитхаб

IP-Adapter-FaceID Plus
Это версия IP Adapter зафайнтюненная генерить человеческие лица в реалистичном или стилизованном ключе. В онлайн варианте есть немного контроля. Если нужен controlnet, то это уже локально надо модель ставить.

Демо // Гитхаб

SDXL-Auto-FaceSwap
Хороший однокнопочный вариант на основе SDXL, но сейчас на паузе. Вероятно, чтобы его снова запустить понадобятся платные опции железа Hugging Face.

Демо

5.05K viewsAndrey Bezryadin, 15:38

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.

DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.

Garfield: сегментация и группирование объектов на нерфах.

🎸 ЗВУК 🎸

Parakeet-TDT: совместный преводчик речи в текст от Nvidia и Suno.

OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.

AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.

🤖 ЧАТЫ 🤖

Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.

MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.

Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.

YOLO World: распознаём объекты на фото и получаем ONNX модель.

LongAling: фреймворк для алаймента LLM на длинном контексте.

Лидерборд нейронок с фильтрами по корпоративным задачам.

И... лидерборд по галлюцинациям.

Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit версия в формате MLX для Apple.

VLM Moondream1 добавлен в библиотеку diffusers.

Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.72K viewsAndrey Bezryadin, edited 18:09

Psy Eyes

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

Опенсорсный дубляж видео на разные языки, включая русский. Причём с русского на другие тоже работает.

Под капотом xtts, можно для липсинка поставить галочку wav2lip, но это повлияет на качество видео. Длина ограничена 1 минутой и одним голосом для всех в кадре, но это можно обойти дублировав к себе этот спейс и отредактировав app.py файл. Или поставив локально. Модель может выдавать результаты лучше, просто в демо настройки стоят с приоритетом на скорость.

Анимированное лицо из DreamTalk

13.9K viewsAndrey Bezryadin, 11:15

Psy Eyes

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

SVD + Temporal ControlNet

* Качаем модель отсюда
* Устанавливаем командой run pip install -r requirements.txt
* Запускаем командой run_inference.py

Сложные движения в кадре лучше не давать, ибо норм понимает то что в центре слегка то, что на фоне. С движениями которые посильны базовому SVD без контролнета должна справиться.

Хаггинг

2.46K viewsAndrey Bezryadin, 12:32

Psy Eyes

Hugging Face запустили опенсорсную версию GPT-store — Assistants.

Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.

Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.

12.5K viewsAndrey Bezryadin, edited 11:24

Psy Eyes

Чтобы два раза не вставать вот ещё Coze как альтернатива GPT-store.

Тут тоже можно создавать своих AI-ассистентов, простыми кликами, но кастомизация очень глубокая и есть работа в приватном режиме. Фичи:

* Публикация ассистента в Telegram, Discord, Reddit, итд прямо из веб апы;
* Под капотом 3 модели на выбор: GPT-4V (8к), Turbo (128к), и ChatGPT (16к). При этом работает без API ключа, VPN и подписки (вероятно не на долго);
* Есть плагины, можно скармливать доки, подрубать веб поиск, генерацию видео/фото/кода;
* Шаблоны из комбинаций плагинов для автоматизации рабчих процессов;
* Долгосрочная память, планировщик задач;
* Режим множества агентов внутри одного бота для обработки сложной логики.

1.89K viewsAndrey Bezryadin, 12:52

Psy Eyes

Forwarded from Neurogen

Stable-diffusion-webui-forge: Automatic1111 на спидах

Над stable-diffusion-webui-forge трудится разработчик Fooocus и ControlNet. Внешне, это все тот же привычный всем Automatic1111, но под капотом ряд серьёзных оптимизаций, нацеленных на бюджетный и средний сегмент видеокарт.

Разработчики пишут:

Если вы используете распространенную видеокарту с 8 ГБ VRAM, можно ожидать прирост скорости генерации на 30–45% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 700 МБ до 1,3 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 2–3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4–6 раз.

Если вы используете менее мощную видеокарту с 6 ГБ VRAM, можно ожидать прирост скорости генерации на 60–75% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 800 МБ до 1,5 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4 раза.

Если вы используете мощную видеокарту типа 4090 с 24 ГБ VRAM, можно ожидать прирост скорости генерации на 3–6% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 1 ГБ до 1,4 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 1,6 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 2 раза.

Если вы используете ControlNet для SDXL, максимальное количество ControlNet (которое не приведет к OOM) увеличится примерно в 2 раза, скорость работы с SDXL + ControlNet увеличится примерно на 30–45%.

Что касаемо минимальных требований к GPU заявлено следующее: 4 Gb видеопамяти для SD XL и 2 Gb видеопамяти для моделей SD 1.5
В отличие от SD.Next, разработчики обещают не вносить никаких изменений в интерфейс, а работать только над тем, что под капотом.

По аналогии с Fooocus, есть автоматический портативный установщик, скачать его можно с GitHub.
Качаете, распаковываете архив и запускаете через run.bat

GitHub

GitHub - lllyasviel/stable-diffusion-webui-forge

Contribute to lllyasviel/stable-diffusion-webui-forge development by creating an account on GitHub.

1.55K viewsAndrey Bezryadin, 13:37

Psy Eyes

Glif: платформа на которой можно собирать свои AI-приложения, делая ремикс уже существующих, или комбинируя несколько нейронок с нуля как лего. Чтобы изменить чьё-то приложение зайдите в его меню и нажмите Remix, или ткните на иконку со спиралью. Дальше играйтесь с блоками и промтами.

Работает с текстом/картинками/видео, может подхватывать внешние ссылки и генерации из других глифов (так здесь называются опубликованные AI-приложения), есть поддержка Comfy и API.

Похоже на Gradio, но тут не трогаешь код — кастомизация на уровне промтов.

2.08K viewsAndrey Bezryadin, 14:28

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Wonder Studio добавили отслеживание камеры и облако точек.

С помощью этих инструментов можно синхронизовать игру актера и окружающую его обстановку с движением камеры в 3D-пространстве. Настройки поля зрения и фокусного расстояния тоже подбираются.

При скачивании экспортированной 3D-сцены ваш CG-персонаж будет двигаться в 3D-пространстве, а не только в 2D плоскости.

Также добавили отдельный FBX-файл для камеры, чтобы упростить интеграцию в рабочие процессы.

2.12K viewsAndrey Bezryadin, edited 16:00

Psy Eyes

Простой инструмент для удаления фона в 1 клик.

Код тоже есть.
Модель на хаггинге

2.23K viewsAndrey Bezryadin, edited 18:19

Psy Eyes

1.56K viewsAndrey Bezryadin, 19:00

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

AnyText: замена текста на изображении с учётом стиля. Работает не идеально, но для черновиков или мемов может сгодиться.

GALA: преобразование фото человека в 3D с разбивкой одежды на слои, которые можно комбинировать.

Конкурс генерации интерьерного дизайна с призовым пулом в $15k.

DynamiCrafter: неплохой аниматор изображений, но требовательный к железу. Сравнение с SVD и Pika тут.

Meshy: выпустили версию V2 своего генератора 3D. Улучшилась детализация моделей, и стало больше стилей, включая low poly и voxel.

EscherNet: генерим 3D по одной картинке в нужных позициях камеры.

Phygital+: вернули ноду Blend и добавили подключение референса для Midjourney из любой ноды.

Neural.love: выпустили генератор логотипов.

Apple: редактируем изображение текстовыми указаниями через MGIE.

InteractiveVideo: анимация картинки и редактирование видео промтом.

Генерим анимации через AnimateLCM и меняем стиль видео через Diffutoon. Также на эти темы стоит посмотреть PIA и ещё StreamDiffusion.

Depth Anything добавили в библиотеку transformers.js, а генератор видео I2vGenXL в библиотеку diffusers.

Odyssey: нодовый интерфейс для локальной генерации изображений и текста на Mac. (спс @JohnDoe171)

Апскейлим фото через SUPIR и улучшаем видео через FMA-Net. Из других вариков на тему ещё можно попробовать PASD или Span или DiffBIR или StableSR.

OwlSAM: сегментатор картинок.

🎸 ЗВУК 🎸

CreateOS: открыли публичный доступ к Triniti, инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.

MetaVoice-1B: небольшая моделька для клонирования голоса, натренированная на 100к часов аудио. XTTS и HierSpeech++ пока всё ещё звучат лучше.

Генератор звуковых эффектов для картинки. Три модели на выбор: MAGNet, AudioLDM-2, и AudioGen.

И генератор музыки из картинки.

🤖 ЧАТЫ 🤖

Gradio: обновился до V 4.17. Много мелких улучшений. Ещё можно модальные окна теперь выдавать.

AutoLLM: фреймворк для файнтюна языковых моделей (LLM) с поддержкой внешнего источника знаний (RAG).

Yandex: представили метод квантизации AQLM, позволяющий сжимать модели вплоть до 2 бит, и как следствие запускать Llama 2 70b на RTX 3090 или маленькие модели на мобилках.

Nuanced: выкатили детектор сгенерированных картинок.

Vikhr (Вихрь): серия русифицированных LLM. Разрабы адаптируют разные открытые модели на русский язык.

CogCoM: визуальная языковая модель (VLM), которая может изменять изображение (приближение, кадрирование, итд) для лучшего общения по нему.

MobileVLM: вышла версия V2 этой VLM, заточенной под работу на мобилках. Под капотом новая архитектура и повысившаяся производительность.

BlackMamba: языковая модель на новой архитектуре, сочетающей модели пространства состояний (SSM) и коллаб экспертов (MoE) как Mixtral. В качестве блока SSM в ней используется Mamba, а в качестве базы для блока MoE — переключающий трансформатор.

Qwen 1.5: чат с большой моделью в 72B.

Google: предлагают запускать нейронки, не используя GPU — только CPU и RAM с помощью localllm.... на их облачных рабочих станциях.

Nomic Embed: новая энкодер модель для получения эмбеддингов.

EVA: новая CLIP модель с 18B параметрами.

SynthCLIP: тренировка CLIP моделей на синтетических данных.

1.74K viewsAndrey Bezryadin, 19:00

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

Экспертный совет для картинок. Stable Diffusion Mixture of Experts

Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.

А теперь представьте такое же, только для картинок!

Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts

Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!

https://huggingface.co/blog/segmoe#what-is-segmoe

Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.

Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.

Код? Апажалста:
https://github.com/segmind/segmoe

Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE

Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE

1.36K viewsAndrey Bezryadin, 12:00

Psy Eyes

Forwarded from 42 секунды

TechCrunch: Google отказывается от Bard, заменяет Assistant на Gemini и запускает платную модель Gemini Ultra за $20

– Спустя год после запуска Google отказался от бренда Bard
– Новым название семейства базовых моделей будет Gemini
– Также Google выпустил самую мощную модель Gemini Ultra
– Gemini Ultra будет платной, она станет частью Google One
– Новый уровень подписки Google One будет стоить $20/мес.
– Он включает 2 ТБ хранилища и другие сервисы Google One
– Gemini будет доступна в Google Docs, Slides, Sheets и Meet
– При этом Google также закроет собственный бренд Duet AI
– Компания также запускает приложение Gemini для Android
– Теперь можно будет заменить Google Assistant на Gemini
– Скоро Google запустит API для новой модели Gemini Ultra
– Gemini Advanced на английском запустят для 150+ регионов

@ftsec

1.56K viewsAndrey Bezryadin, 13:03

About

Blog

Apps

Platform