Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
DragNUWA вышла в тираж и её уже совместили со Stable Video Diffusion (SVD).

Можно генерить видео на основе картинок с описанием и стрелочками для контроля движения в кадре.

Оригинальная NUWA была анонсирована Microsoft в прошлом году и её код так и не был опубликован.

Если демо не работает попробуйте скачать с гитхаба и запустить локально.

Сайт
Гитхаб
Демо
ComfyUI
Forwarded from Not Boring Tech
This media is not supported in your browser
VIEW IN TELEGRAM
💖 Понравилось: подборка визуальных гайдов для понимания основ больших языковых моделей (LLM). Вы разберетесь, как устроена архитектура нейросетей, даже если не особо понимаете в кодинге.

Сложные концепции и фундаментальные принципы представили в виде иллюстраций, схем и графиков! Оригинал подборки по платной подписке, поэтому выгрузил вам список визуализаций. Сохраняйте:

Трансформеры по иллюстрациям;

GPT-2 по иллюстрациям;

• Подробная визуализация LLM;

• Интерактивная статья про генеративный ИИ от Financial Times;

Инструмент от OpenAI, чтобы разобраться в токенах;

Объяснение работы токенайзеров;

Визуализация разделения текста;

Модели машинного обучения — они запоминают или обобщают (продвинутый уровень).

@notboring_tech
DragNUWA отлично себя показывает. Контроль картинки решает.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Google Colab перекрыл возможность работы с веб-интерфейсами для генераций на бесплатном тарифе. На платном без изменений.

Phygital+: добавили холст для удобной работы с генерациями.

Neurogen
: используем Photomaker для генераций по лицу, ваяем дипфейки в FaceFusion v2.2.1

MotionCtrl
: пришили контроль камеры к генерации видео через SVD.

DreamTalk — вкидываем картинку (желательно, чтобы лицо было чётко видно), целевую озвучку или выбираем из списка, и получаем анимированное фото с липсинком.

Banodoco проводят розыгрыш двух 4090.

Появился код и демо FreeNoise, улучшающего результаты видео генераций.

VideoCrafter: в версии V2 этого генератора видео улучшили качество картинки, а также обработку движений и композиции. Но Pika всё-равно впереди.

TriplaneGaussian: появился код 3D генератора на гауссианах. Демо всё также тут.

gsplat.js
: теперь можно конвертировать гауссианы из .splat в формат .ply

Alibaba
: выпустили единый инструментарий SCEPTER Studio в котором можно тренить, файнтюнить, генерить, и редактировать модели и контент.

GaussianAvatar: даём на вход видео и получаем аватара из гауссианов.

Google: новый генератор видео Lumiere, который в привычном стиле гугла может никогда и не выйти в свет.

🎸 ЗВУК 🎸

Splash: выпустили свою старшую модель AI XL для генерации музыки из промта, а также текстов песен. Доступна по подписке, но стандартную модель можно погонять бесплатно.

🤖 ЧАТЫ 🤖

Гайд по файнтюну LLM на видюхе до 24 ГБ VRAM. Чтоб два раза не вставать вот ещё один, но уже с использованием Runpod.

Binoculars: проверяем сгенерирован ли текст нейронкой.

Hugging Face: для Hugging Chat обновился веб-поиск, став стабильнее.

Gradio: выпустили галерею кастомных компонентов, через которые можно собирать AI-приложения для просмотра карт, чтения PDF, и тд.

WebSight: датасет из HTML/CSS и скриншотов, с лицензией CC-BY-4.0. Подойдёт для трени/файнтюна моделей генерируюющих код сайта по скриншоту. Есть демо.

Stability AI: выпустили совсем маленькую языковую модель Stable LM2 Zephyr с всего 1.6B параметров, плюс тоже мелкую для генерации кода Stable Code 3B. Возможно скоро выдадут свою MoE как Mixtral.

EAGLE: ускоритель LLM обновился до V 1.1. Появилась поддержка gpt-fast (~x2 к скорости) и Mixtral 8-7B.

SeeAct: новый AI-агент, который обладает зрением GPT-4V и может выполнять задания по сети.

LangChain: выпустили своих AI-агентов v 0.1

Microsoft: запустили Copilot Pro. Под капотом тот же GPT-4, можно делать свои GPT, есть интеграция с Microsoft 365 и приложение для iOS/Android.

На Hugging Face есть трекер использования вашего датасета кем-либо.

Jan.ai: интерфейс для работы с локальными языковыми моделями (можно в 1 клик скачать с HF прямо в апе). Скоро появится мобильная версия и фреймворк для AI-ассистентов.

Автоматизируем оценку своих LLM через гугл колаб.

Moondream: новый чат по картинкам (VLM).

01.ai: тоже выпустили VLM разных размеров: Yi-VL-34B и меньше на 6B. Старшая модель встала в лидерборде сразу за GPT-4V.

InternLM: вышел V2 код LLM'ок размером от 7B до 20B, у младшей модели 200к контекст (можно книжки пихать).

Fireworks.ai: выпустили чат по картинкам FireLLaVa c коммерческой лицензией. У оригинальной адобовской лавы возможно было только некоммерческое использование.

Популярные исследования с Arxiv выжатые и озвученные нейронкой в формате видео подкастов и выжимок. Примеры:

* MEDUSA — ускоряем инференс LLM за счёт распараллеливания (бумага / выжимка)
* Zero Bubble Parallelism — новый эффективный метод распределённой трени (гитхаб / бумага / выжимка)

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
В сети есть уже несколько zero-shot моделей, в которых можно вкинуть своё фото, вбить промт или выбрать стиль, и получить картинку в нужном контексте. В отличие от прошлогодних нейронок, основанных на методе Dreambooth, такие модели не требуют обучения на ваших данных и могут генерить с вами фотосет с парадного входа.

InstantID
По одному фото выдаёт хорошие результаты, можно прицепить рефернс для понимания целевой позы, есть controlnet через pose/canny/depth/ и их можно комбинировать, как и смешивать стили. В отличие от других моделей, в один кадр можно вписать более одного человека или совместить их в одну личину в требуемой пропорции.

Демо
(англ) // Демо (рус) // Сайт // Гитхаб

PhotoMaker
Здесь можно обойтись одним фото, но чем больше — тем лучше. В промте обязательно надо указать слово img (например, woman img или man img) иначе выдаст ошибку. Есть вариант для фотореалистичных генераций, а есть для стилизации.

Демо (реализм) // Демо (стилизация) // Сайт // Гитхаб

IP-Adapter-FaceID Plus
Это версия IP Adapter зафайнтюненная генерить человеческие лица в реалистичном или стилизованном ключе. В онлайн варианте есть немного контроля. Если нужен controlnet, то это уже локально надо модель ставить.

Демо // Гитхаб

SDXL-Auto-FaceSwap
Хороший однокнопочный вариант на основе SDXL, но сейчас на паузе. Вероятно, чтобы его снова запустить понадобятся платные опции железа Hugging Face.

Демо
Дайджест:

📹 ВИДЕО + АРТ 🎨

InstantID: этот инструмент для вписывания людей по одному фото в нужный контекст можно использовать в веб-интерфейсе A1111 для совмещения лиц двух персоналий через controlnet юниты.

DepthAnything: быстро получаем получаем карту глубины картинки/видео, можно использовать для ControlNet. Ещё стоит обратить внимание на Marigold.

Garfield: сегментация и группирование объектов на нерфах.

🎸 ЗВУК 🎸

Parakeet-TDT: совместный преводчик речи в текст от Nvidia и Suno.

OWSM: тоже транскрибатор речи в текст, но работает с 151 языком и есть перевод между любыми языками.

AudioSeal: ставим водяные знаки на аудио или проверяем его на их наличие.

🤖 ЧАТЫ 🤖

Llava: чат по визуалу (VLM) обновился до V1.6. Модель лучше распознаёт текст на картинках и понимает мир.

MoE-Llava: та же лава, что выше, только в формате Mixture of Experts (MoE) как Mixtral 8x7B.

Mobile-Agent: мобильный AI-агент с пониманием визуала для выполнение заданий в вебе.

YOLO World: распознаём объекты на фото и получаем ONNX модель.

LongAling: фреймворк для алаймента LLM на длинном контексте.

Лидерборд нейронок с фильтрами по корпоративным задачам.

И... лидерборд по галлюцинациям.

Запрещёнка выпустила генератор кода CodeLama 70B. Вот ещё 4-bit версия в формате MLX для Apple.

VLM Moondream1 добавлен в библиотеку diffusers.

Исследования:
* T3 от AMD — улучшение коммуникации моделей в распределённой среде (бумага).
* Self-Rewarding Language Models — модель сама себя вознаграждает во время обучения, что приводит к повышению производительности и возможности постоянного совершенствования (бумага / подкаст / выжимка).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Опенсорсный дубляж видео на разные языки, включая русский. Причём с русского на другие тоже работает.

Под капотом xtts, можно для липсинка поставить галочку wav2lip, но это повлияет на качество видео. Длина ограничена 1 минутой и одним голосом для всех в кадре, но это можно обойти дублировав к себе этот спейс и отредактировав app.py файл. Или поставив локально. Модель может выдавать результаты лучше, просто в демо настройки стоят с приоритетом на скорость.

Анимированное лицо из DreamTalk
SVD + Temporal ControlNet

* Качаем модель отсюда
* Устанавливаем командой run pip install -r requirements.txt
* Запускаем командой run_inference.py

Сложные движения в кадре лучше не давать, ибо норм понимает то что в центре слегка то, что на фоне. С движениями которые посильны базовому SVD без контролнета должна справиться.

Хаггинг
Hugging Face запустили опенсорсную версию GPT-store — Assistants.

Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.

Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.
Чтобы два раза не вставать вот ещё Coze как альтернатива GPT-store.

Тут тоже можно создавать своих AI-ассистентов, простыми кликами, но кастомизация очень глубокая и есть работа в приватном режиме. Фичи:

* Публикация ассистента в Telegram, Discord, Reddit, итд прямо из веб апы;
* Под капотом 3 модели на выбор: GPT-4V (8к), Turbo (128к), и ChatGPT (16к). При этом работает без API ключа, VPN и подписки (вероятно не на долго);
* Есть плагины, можно скармливать доки, подрубать веб поиск, генерацию видео/фото/кода;
* Шаблоны из комбинаций плагинов для автоматизации рабчих процессов;
* Долгосрочная память, планировщик задач;
* Режим множества агентов внутри одного бота для обработки сложной логики.
Forwarded from Neurogen
Stable-diffusion-webui-forge: Automatic1111 на спидах

Над stable-diffusion-webui-forge трудится разработчик Fooocus и ControlNet. Внешне, это все тот же привычный всем Automatic1111, но под капотом ряд серьёзных оптимизаций, нацеленных на бюджетный и средний сегмент видеокарт.

Разработчики пишут:

Если вы используете распространенную видеокарту с 8 ГБ VRAM, можно ожидать прирост скорости генерации на 30–45% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 700 МБ до 1,3 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 2–3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4–6 раз.

Если вы используете менее мощную видеокарту с 6 ГБ VRAM, можно ожидать прирост скорости генерации на 60–75% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 800 МБ до 1,5 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4 раза.

Если вы используете мощную видеокарту типа 4090 с 24 ГБ VRAM, можно ожидать прирост скорости генерации на 3–6% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 1 ГБ до 1,4 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 1,6 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 2 раза.

Если вы используете ControlNet для SDXL, максимальное количество ControlNet (которое не приведет к OOM) увеличится примерно в 2 раза, скорость работы с SDXL + ControlNet увеличится примерно на 30–45%.


Что касаемо минимальных требований к GPU заявлено следующее: 4 Gb видеопамяти для SD XL и 2 Gb видеопамяти для моделей SD 1.5
В отличие от SD.Next, разработчики обещают не вносить никаких изменений в интерфейс, а работать только над тем, что под капотом.

По аналогии с Fooocus, есть автоматический портативный установщик, скачать его можно с GitHub.
Качаете, распаковываете архив и запускаете через run.bat
Glif: платформа на которой можно собирать свои AI-приложения, делая ремикс уже существующих, или комбинируя несколько нейронок с нуля как лего. Чтобы изменить чьё-то приложение зайдите в его меню и нажмите Remix, или ткните на иконку со спиралью. Дальше играйтесь с блоками и промтами.

Работает с текстом/картинками/видео, может подхватывать внешние ссылки и генерации из других глифов (так здесь называются опубликованные AI-приложения), есть поддержка Comfy и API.

Похоже на Gradio, но тут не трогаешь код — кастомизация на уровне промтов.