Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Hugging Face запустили опенсорсную версию GPT-store — Assistants.

Можно быстро собрать своего AI-ассистента на основе открытых языковых моделей из 6 на выбор: две Mixtral, CodeLama-70B, Mistral-7B, OpenChat, Лама 2). Просто жмём Create New Assistant, задаём аватарку + название + описание + модель, и указываем системный промт для настройки модели генерить ответы на определённый лад.

Созданные ассистенты будут доступны всем публично и народ их уже не мало наваял. Если нужно приватно, то код UI лежит на гитхабе. Модели тогда надо качать и пришивать отдельно, зато скорее всего выбор будет не ограничен 6 вариантами. Вызывать через API пока нельзя. Также ещё не подрубили веб-поиск и RAG, но за эту фичу народ голосует среди прочего здесь.
Чтобы два раза не вставать вот ещё Coze как альтернатива GPT-store.

Тут тоже можно создавать своих AI-ассистентов, простыми кликами, но кастомизация очень глубокая и есть работа в приватном режиме. Фичи:

* Публикация ассистента в Telegram, Discord, Reddit, итд прямо из веб апы;
* Под капотом 3 модели на выбор: GPT-4V (8к), Turbo (128к), и ChatGPT (16к). При этом работает без API ключа, VPN и подписки (вероятно не на долго);
* Есть плагины, можно скармливать доки, подрубать веб поиск, генерацию видео/фото/кода;
* Шаблоны из комбинаций плагинов для автоматизации рабчих процессов;
* Долгосрочная память, планировщик задач;
* Режим множества агентов внутри одного бота для обработки сложной логики.
Forwarded from Neurogen
Stable-diffusion-webui-forge: Automatic1111 на спидах

Над stable-diffusion-webui-forge трудится разработчик Fooocus и ControlNet. Внешне, это все тот же привычный всем Automatic1111, но под капотом ряд серьёзных оптимизаций, нацеленных на бюджетный и средний сегмент видеокарт.

Разработчики пишут:

Если вы используете распространенную видеокарту с 8 ГБ VRAM, можно ожидать прирост скорости генерации на 30–45% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 700 МБ до 1,3 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 2–3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4–6 раз.

Если вы используете менее мощную видеокарту с 6 ГБ VRAM, можно ожидать прирост скорости генерации на 60–75% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 800 МБ до 1,5 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 3 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 4 раза.

Если вы используете мощную видеокарту типа 4090 с 24 ГБ VRAM, можно ожидать прирост скорости генерации на 3–6% (итераций в секунду), пиковое использование GPU-памяти (в диспетчере задач) снизится примерно на 1 ГБ до 1,4 ГБ, максимальное разрешение диффузии (которое не приведет к OOM) увеличится примерно в 1,6 раза, а максимальный размер партии диффузии (который не приведет к OOM) увеличится примерно в 2 раза.

Если вы используете ControlNet для SDXL, максимальное количество ControlNet (которое не приведет к OOM) увеличится примерно в 2 раза, скорость работы с SDXL + ControlNet увеличится примерно на 30–45%.


Что касаемо минимальных требований к GPU заявлено следующее: 4 Gb видеопамяти для SD XL и 2 Gb видеопамяти для моделей SD 1.5
В отличие от SD.Next, разработчики обещают не вносить никаких изменений в интерфейс, а работать только над тем, что под капотом.

По аналогии с Fooocus, есть автоматический портативный установщик, скачать его можно с GitHub.
Качаете, распаковываете архив и запускаете через run.bat
Glif: платформа на которой можно собирать свои AI-приложения, делая ремикс уже существующих, или комбинируя несколько нейронок с нуля как лего. Чтобы изменить чьё-то приложение зайдите в его меню и нажмите Remix, или ткните на иконку со спиралью. Дальше играйтесь с блоками и промтами.

Работает с текстом/картинками/видео, может подхватывать внешние ссылки и генерации из других глифов (так здесь называются опубликованные AI-приложения), есть поддержка Comfy и API.

Похоже на Gradio, но тут не трогаешь код — кастомизация на уровне промтов.
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Studio добавили отслеживание камеры и облако точек.

С помощью этих инструментов можно синхронизовать игру актера и окружающую его обстановку с движением камеры в 3D-пространстве. Настройки поля зрения и фокусного расстояния тоже подбираются.

При скачивании экспортированной 3D-сцены ваш CG-персонаж будет двигаться в 3D-пространстве, а не только в 2D плоскости.

Также добавили отдельный FBX-файл для камеры, чтобы упростить интеграцию в рабочие процессы.
Простой инструмент для удаления фона в 1 клик.

Код тоже есть.
Модель на хаггинге
Дайджест:

📹 ВИДЕО + АРТ 🎨

AnyText: замена текста на изображении с учётом стиля. Работает не идеально, но для черновиков или мемов может сгодиться.

GALA: преобразование фото человека в 3D с разбивкой одежды на слои, которые можно комбинировать.

Конкурс генерации интерьерного дизайна с призовым пулом в $15k.

DynamiCrafter
: неплохой аниматор изображений, но требовательный к железу. Сравнение с SVD и Pika тут.

Meshy: выпустили версию V2 своего генератора 3D. Улучшилась детализация моделей, и стало больше стилей, включая low poly и voxel.

EscherNet: генерим 3D по одной картинке в нужных позициях камеры.

Phygital+
: вернули ноду Blend и добавили подключение референса для Midjourney из любой ноды.

Neural.love: выпустили генератор логотипов.

Apple: редактируем изображение текстовыми указаниями через MGIE.

InteractiveVideo: анимация картинки и редактирование видео промтом.

Генерим анимации через AnimateLCM и меняем стиль видео через Diffutoon. Также на эти темы стоит посмотреть PIA и ещё StreamDiffusion.

Depth Anything добавили в библиотеку transformers.js, а генератор видео I2vGenXL в библиотеку diffusers.

Odyssey: нодовый интерфейс для локальной генерации изображений и текста на Mac. (спс @JohnDoe171)

Апскейлим фото через SUPIR и улучшаем видео через FMA-Net. Из других вариков на тему ещё можно попробовать PASD или Span или DiffBIR или StableSR.

OwlSAM: сегментатор картинок.

🎸 ЗВУК 🎸

CreateOS: открыли публичный доступ к Triniti, инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.

MetaVoice-1B: небольшая моделька для клонирования голоса, натренированная на 100к часов аудио. XTTS и HierSpeech++ пока всё ещё звучат лучше.

Генератор звуковых эффектов для картинки. Три модели на выбор: MAGNet, AudioLDM-2, и AudioGen.

И генератор музыки из картинки.

🤖 ЧАТЫ 🤖

Gradio: обновился до V 4.17. Много мелких улучшений. Ещё можно модальные окна теперь выдавать.

AutoLLM: фреймворк для файнтюна языковых моделей (LLM) с поддержкой внешнего источника знаний (RAG).

Yandex: представили метод квантизации AQLM, позволяющий сжимать модели вплоть до 2 бит, и как следствие запускать Llama 2 70b на RTX 3090 или маленькие модели на мобилках.

Nuanced: выкатили детектор сгенерированных картинок.

Vikhr
(Вихрь): серия русифицированных LLM. Разрабы адаптируют разные открытые модели на русский язык.

CogCoM: визуальная языковая модель (VLM), которая может изменять изображение (приближение, кадрирование, итд) для лучшего общения по нему.

MobileVLM: вышла версия V2 этой VLM, заточенной под работу на мобилках. Под капотом новая архитектура и повысившаяся производительность.

BlackMamba: языковая модель на новой архитектуре, сочетающей модели пространства состояний (SSM) и коллаб экспертов (MoE) как Mixtral. В качестве блока SSM в ней используется Mamba, а в качестве базы для блока MoE — переключающий трансформатор.

Qwen 1.5: чат с большой моделью в 72B.

Google
: предлагают запускать нейронки, не используя GPU — только CPU и RAM с помощью localllm.... на их облачных рабочих станциях.

Nomic Embed: новая энкодер модель для получения эмбеддингов.

EVA: новая CLIP модель с 18B параметрами.

SynthCLIP: тренировка CLIP моделей на синтетических данных.
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Экспертный совет для картинок. Stable Diffusion Mixture of Experts

Помните недавно вышел Микстраль 8x7B, построенный на концепции Mixture of Experts. Там внутри как бы несколько LLM(экспертов) и раутер, которые решает, кому лучше отдать решение задачи-запроса, пришедшего от пользователя. Обычно промпт отдается двум экспертам, которых выбрал раутер, и они уже хлещутся друг с другом о том, как лучше ответить на входящий промпт.

А теперь представьте такое же, только для картинок!

Ну и встречайте: SegMoE: Segmind Mixture Of Diffusion Experts

Если кратко.
Модели SegMoE имеют ту же архитектуру, что и Stable Diffusion. Как и в Mixtral 8x7b, модель SegMoE представляет собой несколько моделей в одной. Это происходит за счет замены некоторых слоев Feed-Forward на разреженный слой MoE. Слой MoE содержит сеть маршрутизаторов для выбора экспертов, которые обрабатывают токены наиболее эффективно. Вы можете использовать пакет segmoe для создания собственных моделей MoE!

https://huggingface.co/blog/segmoe#what-is-segmoe

Господа Гупта, Вишну и Прабхала сотворили настоящую камасутру для генерации картинок - смотрите прмеры на сайте. И давайте погадаем, сколько видеопамяти понадобится для такой оргии диффузионных агентов.

Ну круто же. Даете промпт, а там под ковром начинается возня, кто и как сделает именно вашу картинку. Можете устраивать баттлы из чекпойнтов. Можно подгружать туда свои чекпойнты.

Код? Апажалста:
https://github.com/segmind/segmoe

Не верите, что это работает? Глядите сюда:
https://www.youtube.com/watch?v=6Q4BJOcvwGE

Не терпится попробовать без питонинга? Уже есть имплементейшен для ComfyUI:
https://github.com/ZHO-ZHO-ZHO/ComfyUI-SegMoE
Forwarded from 42 секунды
TechCrunch: Google отказывается от Bard, заменяет Assistant на Gemini и запускает платную модель Gemini Ultra за $20

– Спустя год после запуска Google отказался от бренда Bard
– Новым название семейства базовых моделей будет Gemini
– Также Google выпустил самую мощную модель Gemini Ultra
– Gemini Ultra будет платной, она станет частью Google One
– Новый уровень подписки Google One будет стоить $20/мес.
– Он включает 2 ТБ хранилища и другие сервисы Google One
– Gemini будет доступна в Google Docs, Slides, Sheets и Meet
– При этом Google также закроет собственный бренд Duet AI
– Компания также запускает приложение Gemini для Android
– Теперь можно будет заменить Google Assistant на Gemini
– Скоро Google запустит API для новой модели Gemini Ultra
– Gemini Advanced на английском запустят для 150+ регионов

@ftsec
Короткометражка backflip, в которой цифровой двойник героя учится за него делать бэкфлип. Выглядит забавно, пусть и несколько затянуто.

Никита (автор) хотел научиться делать бэкфлип, но в процессе тренировки сломал палец на ноге, что даже запечатлено в making of. Затем он наткнулся на видео, как нейронки с нуля учатся ходить и решил, что пусть хотя бы его аватар будет уметь делать бэкфлип.

В качестве основы для воспроизведения движения он с командой использовал DeepMimic. Липсинк делали через Wav2Lip, голос тоже чем-то клонировали. Снято это было давно и с тех пор появилось много более совершенных инструментов.

В начале тренировки аватар также как и человек делает движения неуклюже и неуверенно, но сквозь ошибки, чем больше он пробует, тем лучше у него получается. Счастливое лицо аватара в конце бесценно.

Как говорится многое решается практикой — терпение и труд все перетрут. Так что не бойтесь пробовать, ошибаться и застревать в текстурах: всё пойдёт в опыт на Level UP.

Чем способнее будут цифровые двойники, тем больше разной работы на них будет перекладываться. В первой очередь рутинной: чтение входящей почты и уведомлений, выжимка сохранёнок и длинных видосов, итд.

Какие на ваш взгляд другие применения нам предстоит увидеть и какие вы видите здесь долгосрочные последствия?

Например, преодоление эмоционально барьера: AI анализирует профиль собеседника, тон общения и подсказывает варианты ответов. Можно этим пользоваться изредка, и мотать на ус принцип анализа, чтобы потом применять эти знания где-угодно даже оффлайн. А можно лениво бросать свои кости на стол, надеясь что в рулетке ответов всегда будет выпадать джекпот и так из-за него никогда и не встать.

Или если выкручивать автоматизацию на максимум: дать полностью вести свой профиль/аватар (настройка визуала + переписки + путешествие в мете) ради создания "улучшенной" версии себя. Можно смотреть, что он делает, что работает/не работает, и пробовать на практике, экономя время и наращивая толщину кожи... А можно вообще не следить и подходить к телефону только когда тебя позовут. Кто из вас двоих в этом случае живёт, а кто отбывает жизнь?

Даже, если вернуться к моменту с выжимкой информации/получению знаний: можно попросить научить себя новому или пытаться разобраться во всём самому, обращаясь к нейронке только по необходимости, и стараясь всю информацию установить локально в ваш мозг, делая её доступной оффлайн в любой момент. А можно ходить с головой в облаках, ожидая что сервис будет всегда онлайн, и шнур никто не выдернет.

Грубо говоря, если сейчас форматнуть диск С и вы никуда не глядя сможете быстрее, чем в прошлый раз установить софт и сгенерить контент (а может и промты набить ручками) — это шаг вперёд. Если знания/навыки с вами не остались — у вас их никогда и не было. Продлевайте подписку.

Технология это ложка: ей можно есть кашку, а можно тыльной стороной и глаз выколоть. Как ей пользоваться — зависит только от нас.

PS: Vimeo всё так же арт-галерея, а ютуб помойка.
Hug your loved ones
Forwarded from Neurogen
NVIDIA представляет "Chat with RTX" — инновационное приложение, которое позволяет создавать персонализированные чат-боты непосредственно на вашем ПК с помощью видеокарт NVIDIA GeForce RTX 30 серии и выше.

Основная особенность "Chat with RTX" заключается в возможности использовать локальную обработку данных, что обеспечивает повышенную конфиденциальность и скорость ответов. Пользователи могут легко настроить чат-бота, используя свои собственные данные и файлы, хранящиеся на компьютере.

При помощи технологии retrieval-augmented generation (RAG), программного обеспечения NVIDIA TensorRT-LLM и ускорения RTX, "Chat with RTX" обеспечивает быстрые и контекстно релевантные ответы. Пользователи могут задавать вопросы, например, о рекомендациях ресторанов или получении инструкций, и чат-бот будет сканировать локальные файлы для предоставления ответа с учетом контекста.

Приложение поддерживает различные форматы файлов, включая .txt, .pdf, .doc/.docx и .xml, а также интегрирует информацию из видео на YouTube.

Для работы с приложением требуется видеокарта RTX 3000 или 4000 серии с минимум 8 Гб видеопамяти, а также 16 гигабайт оперативной памяти, а также Windows 11.

Скачать Chat with RTX можно с официального сайта Nvidia
Stability выпустили модель Cascade (она же Würstchen v3), которая быстро генерит в высоком разрешении и из коробки умеет в текст на изображении. Есть поддержка контролнета и лор.

Построена на архитектуре Würstchen. В латентном пространстве сжимает в 42 раза изображения размером 1024x1024 до 24x24, а на выходе разжимает без потери качества.

Гайд по установке в пару кликов через Pinokio.

Демо (хаггинг)
Демо (коллаб)
Анонс с деталями
Модель
Гитхаб
Ещё от Stability: они на прошлой неделе по-тихому выпустили SVD v 1.1 для анимации изображений. Я ждал какого-то официального анонса, но видимо дальше ждать нет смысла.

Обновлённая версия зафайнтюнена генерить на скорости 25 к/с в разрешении 1024х576. Повысилась детализация видео, его консистентность и плавность движения камеры. На выходе получаются результаты в несколько секунд. Можно сделать упор на быстрый монтаж как в Шторме (твиттер автора), а можно на медитатив, как с Ёжиком в тумане.

Тут плотное сравнение v1 с обновлённой версией.

Можно гонять в ComfyUI, а можно в Forge, или ENFUGUE.

Модель на хаггинге
Подробнее про SVD
OpenAI показали видео генератор Sora.

Качество картинки не сравнимо лучше, чем у Pika, Runway, и SVD. Про остальные варианты даже говорить нет смысла.

Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.

Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.

Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.

Когда релиз неизвестно.

Больше примеров на странице анонса и в твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.