Psy Eyes

DragNUWA вышла в тираж и её уже совместили со Stable Video Diffusion (SVD).

Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.

Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.

Если демо не работает попробуйте скачать с гитхаба и запустить локально.

Сайт
Гитхаб
Демо
ComfyUI

2.23K viewsAndrey Bezryadin, 13:39

Psy Eyes

Forwarded from Not Boring Tech

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

💖 Понравилось: подборка визуальных гайдов для понимания основ больших языковых моделей (LLM). Вы разберетесь, как устроена архитектура нейросетей, даже если не особо понимаете в кодинге.

Сложные концепции и фундаментальные принципы представили в виде иллюстраций, схем и графиков! Оригинал подборки по платной подписке, поэтому выгрузил вам список визуализаций. Сохраняйте:

• Трансформеры по иллюстрациям;

• GPT-2 по иллюстрациям;

• Подробная визуализация LLM;

• Интерактивная статья про генеративный ИИ от Financial Times;

• Инструмент от OpenAI, чтобы разобраться в токенах;

• Объяснение работы токенайзеров;

• Визуализация разделения текста;

• Модели машинного обучения — они запоминают или обобщают (продвинутый уровень).

@notboring_tech

2.05K viewsAndrey Bezryadin, 14:42

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

DragNUWA отлично себя показывает. Контроль картинки решает.

2.68K viewsAndrey Bezryadin, 17:49

Psy Eyes

1.75K viewsAndrey Bezryadin, 17:21

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.

Phygital+: добавили холст для удобной работы с генерациями.

Neurogen: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1

MotionCtrl: пришили контроль камеры к генерации видео через SVD.

DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.

Banodoco проводят розыгрыш двух 4090.

Появился код и демо FreeNoise, улучшающего результаты видео генераций.

VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.

TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.

gsplat.js: теперь можно конвертировать гауссианы из .splat в формат .ply

Alibaba: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.

GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.

Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.

🎸 ЗВУК 🎸

Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.

🤖 ЧАТЫ 🤖

Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.

Binoculars: проверяем сгенерирован ли текст нейронкой.

Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.

Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.

WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.

Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.

EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.

SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.

LangChain: выпустили своих AI-агентов v 0.1

Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.

На Hugging Face есть трекер использования вашего датасета кем-либо.

Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.

Автоматизируем оценку своих LLM через гугл колаб.

Moondream: новый чат по картинкам (VLM).

01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.

InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).

Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.

Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:

* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

2.42K viewsAndrey Bezryadin, edited 17:21

Psy Eyes

В сети есть уже несколько zero-shot моделей, в которых можно вкинуть своё фото, вбить промт или выбрать стиль, и получить картинку в нужном контексте. В отличие от прошлогодних нейронок, основанных на методе Dreambooth, такие модели не требуют обучения на ваших данных и могут генерить с вами фотосет с парадного входа.

InstantID
По одному фото выдаёт хорошие результаты, можно прицепить рефернс для понимания целевой позы, есть controlnet через pose/canny/depth/ и их можно комбинировать, как и смешивать стили. В отличие от других моделей, в один кадр можно вписать более одного человека или совместить их в одну личину в требуемой пропорции.

Демо (англ) // Демо (рус) // Сайт // Гитхаб

PhotoMaker
Здесь можно обойтись одним фото, но чем больше — тем лучше. В промте обязательно надо указать слово img (например, woman img или man img) иначе выдаст ошибку. Есть вариант для фотореалистичных генераций, а есть для стилизации.

Демо (реализм) // Демо (стилизация) // Сайт // Гитхаб

IP-Adapter-FaceID Plus
Это версия IP Adapter зафайнтюненная генерить человеческие лица в реалистичном или стилизованном ключе. В онлайн варианте есть немного контроля. Если нужен controlnet, то это уже локально надо модель ставить.

Демо // Гитхаб

SDXL-Auto-FaceSwap
Хороший однокнопочный вариант на основе SDXL, но сейчас на паузе. Вероятно, чтобы его снова запустить понадобятся платные опции железа Hugging Face.

Демо

5.05K viewsAndrey Bezryadin, 15:38

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.

DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.

Garfield: сегментация и группирование объектов на нерфах.

🎸 ЗВУК 🎸

Parakeet-TDT: совместный преводчик речи в текст от Nvidia и Suno.

OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.

AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.

🤖 ЧАТЫ 🤖

Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.

MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.

Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.

YOLO World: распознаём объекты на фото и получаем ONNX модель.

LongAling: фреймворк для алаймента LLM на длинном контексте.

Лидерборд нейронок с фильтрами по корпоративным задачам.

И... лидерборд по галлюцинациям.

Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit версия в формате MLX для Apple.

VLM Moondream1 добавлен в библиотеку diffusers.

Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.72K viewsAndrey Bezryadin, edited 18:09

Psy Eyes

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

Опенсорсный дубляж видео на разные языки, включая русский. Причём с русского на другие тоже работает.

Под капотом xtts, можно для липсинка поставить галочку wav2lip, но это повлияет на качество видео. Длина ограничена 1 минутой и одним голосом для всех в кадре, но это можно обойти дублировав к себе этот спейс и отредактировав app.py файл. Или поставив локально. Модель может выдавать результаты лучше, просто в демо настройки стоят с приоритетом на скорость.

Анимированное лицо из DreamTalk

13.9K viewsAndrey Bezryadin, 11:15

Psy Eyes

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

SVD + Temporal ControlNet

* Качаем модель отсюда
* Устанавливаем командой run pip install -r requirements.txt
* Запускаем командой run_inference.py

Сложные движения в кадре лучше не давать, ибо норм понимает то что в центре слегка то, что на фоне. С движениями которые посильны базовому SVD без контролнета должна справиться.

Хаггинг

2.46K viewsAndrey Bezryadin, 12:32

Psy Eyes

Hugging Face запустили опенсорсную версию GPT-store — Assistants.

Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.

Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.

12.5K viewsAndrey Bezryadin, edited 11:24

Psy Eyes

Чтобы два раза не вставать вот ещё Coze как альтернатива GPT-store.

Тут тоже можно создавать своих AI-ассистентов, простыми кликами, но кастомизация очень глубокая и есть работа в приватном режиме. Фичи:

* Публикация ассистента в Telegram, Discord, Reddit, итд прямо из веб апы;
* Под капотом 3 модели на выбор: GPT-4V (8к), Turbo (128к), и ChatGPT (16к). При этом работает без API ключа, VPN и подписки (вероятно не на долго);
* Есть плагины, можно скармливать доки, подрубать веб поиск, генерацию видео/фото/кода;
* Шаблоны из комбинаций плагинов для автоматизации рабчих процессов;
* Долгосрочная память, планировщик задач;
* Режим множества агентов внутри одного бота для обработки сложной логики.

1.89K viewsAndrey Bezryadin, 12:52

Psy Eyes

Forwarded from Neurogen

Stable-diffusion-webui-forge: Automatic1111 на спидах

Над stable-diffusion-webui-forge трудится разработчик Fooocus и ControlNet. Внешне, это все тот же привычный всем Automatic1111, но под капотом ряд серьёзных оптимизаций, нацеленных на бюджетный и средний сегмент видеокарт.

Разработчики пишут:

Если вы используете распространенную видеокарту с 8 ГБ VRAM, можно ожидать прирост скорости генерации на 30–45% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 700 МБ до 1,3 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 2–3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4–6 раз.

Если вы используете менее мощную видеокарту с 6 ГБ VRAM, можно ожидать прирост скорости генерации на 60–75% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 800 МБ до 1,5 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4 раза.

Если вы используете мощную видеокарту типа 4090 с 24 ГБ VRAM, можно ожидать прирост скорости генерации на 3–6% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 1 ГБ до 1,4 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 1,6 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 2 раза.

Если вы используете ControlNet для SDXL, максимальное количество ControlNet (которое не приведет к OOM) увеличится примерно в 2 раза, скорость работы с SDXL + ControlNet увеличится примерно на 30–45%.

Что касаемо минимальных требований к GPU заявлено следующее: 4 Gb видеопамяти для SD XL и 2 Gb видеопамяти для моделей SD 1.5
В отличие от SD.Next, разработчики обещают не вносить никаких изменений в интерфейс, а работать только над тем, что под капотом.

По аналогии с Fooocus, есть автоматический портативный установщик, скачать его можно с GitHub.
Качаете, распаковываете архив и запускаете через run.bat

GitHub

GitHub - lllyasviel/stable-diffusion-webui-forge

Contribute to lllyasviel/stable-diffusion-webui-forge development by creating an account on GitHub.

1.55K viewsAndrey Bezryadin, 13:37

Psy Eyes

Glif: платформа на которой можно собирать свои AI-приложения, делая ремикс уже существующих, или комбинируя несколько нейронок с нуля как лего. Чтобы изменить чьё-то приложение зайдите в его меню и нажмите Remix, или ткните на иконку со спиралью. Дальше играйтесь с блоками и промтами.

Работает с текстом/картинками/видео, может подхватывать внешние ссылки и генерации из других глифов (так здесь называются опубликованные AI-приложения), есть поддержка Comfy и API.

Похоже на Gradio, но тут не трогаешь код — кастомизация на уровне промтов.

2.08K viewsAndrey Bezryadin, 14:28

About

Blog

Apps

Platform