Psy Eyes
6.79K subscribers
1.45K photos
1.57K videos
6 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Если вам не с кем пообщаться, самое время потрепаться со своими PDF'ками.

Скармливаете ChatPDF док с читаемым текстом и задаёте вопросы. В отличии от простого Ctrl+F нейронка может найти ответ не по прямому совпадению слов, а также обосновать свою позицию. Да и сложные вещи с формулами может рассказать простым языком. В сайдбаре переписки с доками хранятся отдельными чатами. При желании диалогом можно поделиться с коллегами.

В бесконечном потоке бумаг с анонсом новых технологий помогает сохранить много времени.

На бесплатном тарифе можно общаться с 3 PDF в день (макс 120 стр и 10 мб на каждую) и задавать им не больше 50 вопросов в день.
Stability AI выпустили API для апскейлинга (повышения разрешения) без потери четкости изображения.

Под капотом две опенсорсные модели:
* Cверхбыстрый Real-ESRGAN, который может удвоить типичное разрешение 512x512 за полсекунды.
* А также Stable Diffusion 4x Upscaler, которому требуется 20 — 40 секунд для увеличения изображения, но он обеспечивает более детальные результаты с богатой текстурой.

Главным преимуществом 4x Upscaler является усовершенствованный процесс диффузии, который увеличивает воспринимаемый уровень детализации при повышении масштаба входного изображения.

Пользователи официальных плагинов для Photoshop и Blender уже могут пользоваться фичей через API. По идее должно работать и с расширением для A1111, а также Dreamstudio.

P.S. Вы можете потестить фичу следующим образом:
1) Ставим расширение для фотошопа по ссылке в выше
2) Делаем акк в Dreamstudio и получаем халявные кредиты
3) Из настроек аккаунта копируем API ключ в расширение в фотошопе. Тестим!
Скармливаем нейронке текст неограниченного размера для суммаризации и ответов на вопросы через — Self-Controlled Memory (SCM).

Пока графического интерфейса никто к этому не прикрепил, но можно потестить по инструкции с гитхаба.

Работает с любыми моделями: OpenAI-преподобными, Llama-подобными (Alpaca, Vicuna,...) и прочими. По умолчанию настроено на модель text-davinci-003, но можно поставить другую командой --model_name.

До этого были представлены способы как расширить контекстную память языковых моделей вроде GPT-4 (у которой лимит в 32к токенов) до 260к токенов, а также 1 млн токенов.

БумагаГитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Пол это лава

Автор юзал GEN1 от Runway
Дайджест новостей:

📹 ВИДЕО + АРТ 🎨

Runway: в GEN-1 теперь можно генерить видео до 15 сек, вышло приложение на iOS, а также в web-версии появилось превью генераций, чтобы вы могли выбрать в какую сторону режиссировать.

Phygital+ вышли в открытую альфу, дано 150 бесплатных генераций в месяц. ControlNet и Dreambooth на премиуме.

Исследователи оптимизировали SD 1.4 для запуска на мобилках. На генерацию арта 512х512 на Samsung S23 Ultra ушло 12 секунд. Можно почесать за ушком своей радостной GTX 1050.

SD + ControlNet теперь в Blender. Дополнительные гайды.

Плюс SD в After Effects, а также в Maya.

Total-Recon: генерация новых углов съёмки камеры (вид из глаз, со спины, сверху) и прицепливание 3D-объектов к персонажам.

HOSNeRF: создание видео, в котором объект может перемещаться в кадре, а зритель менять точку просмотра на 360° вокруг него. Это уже второе free-view video (FVV) за две недели и тоже заюзан NeRF.

F2-NeRF: быстрый рендер нерфов со свободным перемещением камеры и высоким качеством деталей.

AMT: новый метод интерполирования видео (повышения к/с) с очень плавными результатами.

Anything-3D: выделение объектов с помощью Segment Anything и преобразование их в 3D, NeRF, или изменения угла камеры.

Segment Anything 3D: схоже с предыдущим вариантом, но если там объекты выделялись из фото, то тут из NeRF сразу в 3D. Заодно Inpaint Anything, в котором можно инпейтить объекты внутри NeRF.

🎸 ЗВУК 🎸

AudioGPT: обширная аудио-модель для генерации и распознавания музыки, звуковых эффектов и речи.

Video-2-SoundFX: генерация звуковых эффектов к видеоряду.

Bark: генерация текстом музыки и звуковых эффектов, а также клонирование голоса. Работает на разных языках.

Whisper JAX: оптимизировали Whisperдля работы в 70 раз быстрее.

Waveformer: выделение инструментов в звуковом ряде или исключение шумов.

🤖 ЧАТЫ 🤖

Hugging Face: выпустили своего чат-бота HuggingChat. Под капотом OpenAssistant 30B на основе ламы.

ChatGPT 3.5 начали давать доступ к интернету. Фича пока не развернута на все аккаунты.
DeepFloyd при поддержке Stability AI выпустили новую text-2-image модель — DeepFloyd IF.

По качеству генераций сравнимо с Midjourney или Imagen от Google, но в отличие от них здесь открыт код и хорошо распознаётся текст на картинке.

Есть несколько режимов:
* Генерация по промту
* Стайлтрансфер
* Апскейл (можно юзать IF, а можно Stable 4x)
* Инпейтинг

Причем стайлтрансфер и инпейтинг работают в zero-shot, то есть по одной картинке без трени.

Онлайн демо пока не доступно. Чтобы запустить локально нужна видюха с минимум 16ГБ оперативки. 24ГБ если надумаешь юзать для апскейла. На гитхабе проекта пишут, что есть способы снизить потребление памяти, но все мы понимаем, что не до 1 ГБ. Хотя учитывая вчерашние новости про генерации на мобилках...

Гитхаб
Media is too big
VIEW IN TELEGRAM
Пока самая стилистически выверенная работа, сделанная в Deforum, из тех что я видел.

Автор
ControlNet без промта — UnpromtedControl

Этим инструментом можно восстанавливать и удалять объекты просто выделяя их мышкой.

При восстановлении картинки: если изначально не все трещины/проблемные места определятся, можно вручную набросать и уточнить маску для достижения лучших результатов.

При удалении объектов из кадра: чтобы достичь хороших результатов выделите в маске не только элемент, который хотите удалить, но и его тень.

Если не охота заморачиваться установкой локально, есть демо на колабе. Заходим в верхнем меню в Runtime — Run all, и когда все установки завершатся у вас будет две ссылки: одна для локального запуска, другая для публичного на Gradio. Обе активны в течение 72 часов, потом если что можно перезапустить.

Попробовал вариант с Gradio и работает довольно хорошо.

ГитхабДемоРеддит
DeepFloyd IF вышел в тираж.

Пробуйте и делитесь генерациями в комментах.

Веб-версия
Дайджест за выходные:

📹 ВИДЕО + АРТ 🎨

Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только.

Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP.

SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux).

MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале.

🎸 ЗВУК 🎸

Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую.

Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально.

🤖 ЧАТЫ 🤖

StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами.

MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах.

FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе.

Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090.

VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API

LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.
Automatic1111 обновился и теперь в нём появилась поддержка фич, которые оптимизируют работу на картах с малым объёмом памяти. Говорят прирост производительности 30-60% и чем выше разрешение, тем выше прирост. Что за фичи:

* Torch 2.0 — обновлённая версия PyTorch значительно менее требовательна к памяти.

* ToMe (Token Merging) — объединяем некоторые лишние токены в один, чтобы быстрее их обрабатывать.

* Negative Guidance minimum sigma — уменьшаем CFG до 1 на поздних этапах генерации, чтобы увеличить скорость, не теряя в качестве.

* SDP — перекрестное внимание, аналог xFormers для PyTorch 2, который тоже был для щадящего режима к низкому количеству видеопамяти.

Нашел видос с разъяснениями что включить и где
Forwarded from NeroArt (inck86)
Не А1111 единой генерируемы..

Рекомендую присмотреться к аналогу А1111 - automatic от vladmandic.

Из обнаруженных на данный момент бонусов (уверен, их будет больше):
- Оптимизировано под Torch 2.0 (говорят, даже XFormers теперь не нужны)
- Контролировать Xformers через настройки
- Актуальная поддержка и обновления оболочки
- Возможность контролировать настройки CUDA

Куча мелких приятностей: вынесенный CLIP Skip, предустановленные основные расширения, возможность выбирать предустановленный пак интерфейсов, использовать пути для моделей от А1111 и т.д.

Помимо этого, тесты показали прирост скорости генерации как минимум на 5%.
Из необъективного - генерации в этой оболочке показались более качественными при прочих равных условиях :)

Гайд по установке от камраде Olivio тут https://youtu.be/mtMZGdCjUwQ

Надеюсь, проект будет развиваться - в бешеном вихре развития SD и доп.инструментария - любой застой в апгрейде основного ПО очень чувствуется.
Media is too big
VIEW IN TELEGRAM
Чуваки сделали клип на трек Seeb — Submarine.

В пайплане чего только нет: SD, MJ, ChatGPT, Blender...

Не получалось сгенерить одного и того же персонажа — пригнали на площадку актёра из агентства. Уперлись в проблему консистентности стиля — начали тренировать свою модель на тысячах кадров с целевым стилем. Видюха взмолилась и завыла — купили RTX 4090...когда есть бюджет плюс в тз не сказано генерить тянок, так можно.

Как по мне behind the scenes интереснее самого клипа, но быть может вам зайдёт.

Клип
Реддит
Дайджест новостей, пока ты спал:

📹 ВИДЕО + АРТ 🎨

Perfusion: генерация изображений по тексту с точным следованием промту.

NFL: NeRF рендеринг совместили с LiDAR съёмкой для создания реалистичных сканов из новых точек обзора.

GLaD: синтезирование датасетов в латентном (векторном) пространстве, которые визуально чётче и не так шумны, как пиксельные.

TMR: генерация 3D движения (motion) по текстовому запросу с использованием контрастного обучения.

🤖 ЧАТЫ 🤖

LLaVa Lightning: обучаем свою легковесную мульти-модальную версию GPT-4 за 3 часа и $40.

VPGTrans: переносим уже существующие чат-боты с изображениями между разными моделями, занижая затраты на обучение новых моделей.