Psy Eyes

AudioCraft Plus — это базовый AudioCraft, в который входит MusicGen для генерации музыки и AudioGen для звуков, плюс множество удобных плюшек для более точной настройки звука на выходе. Например, можно настраивать BPM, тональность, гамму и скармливать аудио реф для интерпретации.

Устанавливается через Pinokio

1.03K viewsAndrey Bezryadin, edited 16:32

Psy Eyes

Stability AI выкатили Stable Chat для общения с их языковыми моделями.

Под капотом выпущенная в июле Beluga. Отвечает быстро, но не сказать чтобы хорошо.

На русском ответит складно, если изначально задать вопрос на русском, если попросить сделать выжимку с английского текста, перевод скинет на топорном.

К интернету не подключена, но ссылки скинуть может. Правда в примере выше она скинула ссылку на Дэвида Духовны, а не Дэвида Финчера.

Отдельно бесит, что если ты отвлекся от чата на пару минут, тебя отключают и надо перезагрузить страницу с потерей всей истории переписки.

Судя по подтянутым библиотекам в коде, что я просил сгенерить данные обрезаны тоже 21-22 годом. Сам же код она просто отказалась генерить, хотя я ничего сложного её не попросил сделать. Возможно если подключат вместо белуги StableCode для этих целей будет ловчей.

В общем пока сгодится написать рыбу имейла или продумать концепцию подводной вечеринки, как у них в примерах.

По фану можете чекнуть как народ уже джейлбрейкает белугу.

Анонс
Початиться

975 viewsAndrey Bezryadin, 17:32

Psy Eyes

1:34

This media is not supported in your browser

VIEW IN TELEGRAM

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Красивости сделанные в Pika Labs. У них недавно появилась фича генерить через личку с ботом, чтобы не толпиться в общих тредах, го тестить!

Первое видео "Mr. Tanaka's Waterways"

Автор нагенерил в ClipDrop изображения в широкоэкранном формате 16:9 и заапскейлил их. Затем кинул в Пику для image-2-video. В промтах было упоминание studio ghibli anime, disney anime, cinematic lighting, highly detailed. Если было недостаточно анимешно, он избавлялся от cinematic lighting, а если слишком анимешно, то добавлял HD или realistic и продолжал возиться, пока не получал искомое. Для звуковых эффектов использовал Audio LDM2, а для музыки - MusicGen (хотя мог бы там же получить звуки через AudioGen).

Второе без названия от TheVisiblemaker

Использовались: Midjourney + Пика + ChatGPT + artlist.io для музыки и эффектов. MJ конечно видно сразу в основе. Ждём видосов по кадрам из SDXL с контролнетом или через Fooocus.

1.07K viewsAndrey Bezryadin, 10:13

Psy Eyes

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Полезный инструмент, чтобы учиться рисовать — Sketch-a-Sketch.

Предыдущих инструменты на эту тему, либо требовали изначально умение хорошо рисовать наброски, либо по черновым работам давали мнимое ощущение хорошего результата.

Sketch-a-Sketch работает иначе: пишешь промт и тебе в Suggested Lines показывается какие линии дальше рисовать, чтобы получить искомое. Рисуешь по линиям и подсказываются следующие. На ряду с этим генерится финальный результат.

Под капотом ControlNet обученный не на готовых скетчах, а на частичных набросках.

Сайт

972 viewsAndrey Bezryadin, 11:32

Prayer

"Меня удивляет то, что не существует религии, посвященной компьютерам, учитывая их силу и влияние." — автор

Сначала автор набросал скетч в 3D с помощью свободно доступных ассетов.

После грубого рендеринга в V-Ray он разделил изображение с помощью масок для использования в ControlNet (компьютер, экран, пол, человек). Для получения более четкой фигуры также использовался ControlNet LineArt (realistic).

Дальше начался процесс рисования фотошопе и добавлеия деталей в MultiDiffusion с постоянным переключением между ними.

Руки были сделаны с помощью комбинации ручного рисования в фотошопе, img2img и MultiDiffusion.

Также использовался ControlNet (tile) вместе с Ultimate SD Upscale для добавления деталей к общей картине. Например, результат по промту для апскейла "computers, wires" была использована маской в фотошопе.

Behance
Реддит

1.05K viewsAndrey Bezryadin, 12:30

Psy Eyes

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

SparseNeRF — метод, который визуализирует новые точки обзора по нескольким снимкам, используя карты глубинны.

В отличие от других методов, которые требуют точных глубинных карт, SparseNeRF использует грубые или неточные карты глубины из реального мира. Эти карты могут быть получены с датчиков на устройстве пользователя или предварительно обученных моделей. Модель затем применяет локальный метод ранжирования глубины и пространственное ограничение непрерывности, чтобы создать новые точки обзора, сохраняя при этом пространственную целостность оцененной глубины.

Сайт

1.12K viewsAndrey Bezryadin, 13:32

Несколько месяцев назад Microsoft представили NUWA для быстрой генерации длинный видео по описанию сцен. Теперь они анонсировали DragNUWA где с помощью текста, картинки и описания траектории можно легко манипулировать движением камеры, фоном и объектами в кадре. Просто рисуешь стрелочками что куда должно двигаться и оно генерится с высоким уровнем консистентности и следования указаниям. Идея явно позаимствована у DragGAN, но оптимизирована для видео.

Пощупать или посмотреть код пока нельзя.

1.04K viewsAndrey Bezryadin, 10:13

LumaAI анонсировали Flythroughs — инструмент для создания пролётов по квартирам с помощью NeRF. Под капотом модель, натренированная прокладывать маршруты и автоматически делать плавные вкусные движения камеры.

Заменяет профессиональную команду со стедикамом, лидаром, дронами, и дорогими камерами — достаточно iPhone.

Прила
Сайт

1.11K viewsAndrey Bezryadin, 11:03

CoDeF (content deformation field) — новый метод смены стиля видео, в котором обработка идёт в два канала: canonical content field собирает статичные кадры всего видео, а temporal deformation field берет отрендеренные кадры из предыдущего канала и вписывает их вместо оригинальных. Это позволяет добиться консистентного результата по всему видео.

Причём CoDeF способен без какого-либо обучения генерить в image-2-image или video-2-video, а также определять и отслеживать объекты на уровне точек, то бишь работать с водой и дымом.

Код открыт.

Единственная проблема — нужно 48 ГБ VRAM. По крайне мене тестилось все на RTX A6000, а там глядишь кто-нить из опенсорса оптимизирует это как следует. С другой стороны на RunPod эту RTX A6000 можно арендовать за $0,79 в час.

Сайт
Код

1.08K viewsAndrey Bezryadin, 12:01

Psy Eyes

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Расширение Generative AI для генерации картинок, видео и аудио в Blender. Работает с моделями Stable Diffusion (1.5, 2, XL), Deep Floyd IF, Zeroscope, Animov, AudioLMD and Bark.

Установка:

* Качаем и устанавливаем git для своей операционки. Git должен быть прописан в PATH (иначе Bark не будет работать).

* Качаем расширение для Blender.

* В Windows щелкаем правой кнопкой мыши на иконке Blender и "Запускаем от имени администратора" (иначе возникнут ошибки прав на запись).

* Устанавливаем расширение: Preferences > Add-ons > Install > select file > enable the add-on.

* В настройках дополнения Generative AI нажимаем кнопку "Install all Dependencies". Тут же можно изменить, какие карты моделей используются в различных режимах (видео, изображение, аудио).

* Когда выйдет сообщение, что установка завершена, интерфейс расширения станет доступен в Sequencedr > Sidebar > Generative AI.

* При первом запуске любой модели придется загрузить много гигабайт, учитываем это.

* Если появится сообщение: "ModuleNotFoundError: Refer to https://github.com/facebookresearch/xformers for more information how to install xformers", то пробуем перезапустить Blender.

Если какие-либо модули Python отсутствуют, пользуемся этим дополнением для их ручной установки.

1.12K viewsAndrey Bezryadin, 12:59

Psy Eyes

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

Анимированные виниловые обложки в Pika Labs и Gen-2. Угадаете что чем анимировано?

Парочку из тех, что на видео, а именно The Prodigy и Nirvana, я анимировал в своей подборке. Beatles и Pink Floyd я тоже пытался тогда анимировать, но выходила статика и тогда в Пике ещё не было команды /motion для задания уровня движения.

Реддит

1.18K viewsAndrey Bezryadin, 14:02

Psy Eyes

Forwarded from Ai Filmmaker (Дмитрий Алексеев)

1:04

Media is too big

VIEW IN TELEGRAM

Directed by:
Dmitry Alekseev

Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov

Ghibli Studio characters rotoscoped with Runwayml.com

Music: “Многоточие - в жизни так бывает”
( Orchestral cover )

987 viewsAndrey Bezryadin, 15:01

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Gaussian Splatting - нереальное качество в реальном времени.

NeRFы нервно закуривают набитые артефактами сигареты.
На сцену врывается новый алгоритм
3D Gaussian Splatting for Real-Time Radiance Field Rendering

Если по умному: Он моделирует сцену как множество трехмерных гауссианов, которые перемещаются и вращаются во времени. Сохраняя фиксированный цвет и размер каждого гауссиана, он позволяет отслеживать определенные точки в разных кадрах.

Это позволяет получить точные новые виды и плотное отслеживание 6DOF.

Он воссоздает сложные движения, такие как жонглирование, с ошибками отслеживания всего в пару см на протяжении 150 кадров! Это похоже на OmniMotion, но для многоракурсного видео.
Он даже определяет вращение объекта без какой-либо внешней информации, поэтому к гауссианам можно присоединять камеры или произвольные 2D/3D-объекты и создавать видеоэффекты от первого лица или с привязкой к объекту!

И это нереально быстро - он обучается всего за 2 часа на одну сцену и делает рендеринг с частотой 850 кадров в секунду.
VR, AR и VFX дрожжат в предвкушении. Ждем видео от Коридоров.

Маленькая неприятная вишенка на торте: данный подход требует синхронизированных HD-камер с калиброванными внутренними/внешними характеристиками. Полученные результаты не могут быть напрямую перенесены на несинхронизированные камеры.

Посмотрите видосы и, самое, главное, сравнения с остальными нерфоподобными системами тут:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/

И оцените мелкие детали.

Трушный метаверс и копия нашего утлого мира все ближе!

850 viewsAndrey Bezryadin, 12:46

Psy Eyes

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

В Midjourney подъехал Inpainting. Нажимаете Vary (region) под заапскейленной картинкой, выделяете область которую нужно изменить, пишете промт, и вуаля! Работает в дискорде с десктопа. Для изменения промта может понадобится нажать /settings и нажать "remix mode".

Функция лучше всего работает на больших областях изображения (от 20% до 50%) и с вещами, которые подходят по контексту: шляпу поверх персонажа MJ проще сгенерить, чем дельфина в лесу. Иногда Vary (Subtle) даёт результаты толковее

11.6K viewsAndrey Bezryadin, edited 19:16

Psy Eyes

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

С мобилы в дискорде говорят тоже работает. По крайне мере на iOS.

962 viewsAndrey Bezryadin, 09:56

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Появился колаб для CoDeF.

Runway: временно приостановили бесплатные генерации из-за наплыва пользователей.

ReVersion: указываем контекст из двух слов, ставим между ними <R> типа cat <R> bag и поучаем кота в мешке.

Artefacts: инструмент для генерации 3D по изображению, подойдёт например для геймдизайна, AR, 3D-принтинга.

DETA: модель для сегментации объектов на картинке. Заодно вот лидерборд моделей на эту тему.

TeCH: метод генерации 3D по одной картинке с фокусом на зонах, вне кадра (вид со спины). Кода пока нет.

SceNeRFlow: метод создания динамичных NeRF-сцен, работающий и с продолжительными фрагментами.

Создание анимированных аватаров по видео, кода пока нет.

Google: поделились оригинальным датасетом Dreambooth.

DeDoDe: система для нахождения схожестей в изображениях.

🎸 ЗВУК 🎸

Bland: открыли API для телефонных звонков заскриптованных Python и Javascript... Звучит человечнее службы безопасности сбера.

🤖 ЧАТЫ 🤖

Новое облако для халявных генераций — SaturnCloud. Дают 150 часов в месяц погонять T4. Регайтесь с gmail и других буржуйских почт. *MGS box mode activated*

SQL Coder: модель заточенная под генерацию SQL с 15B параметров, которая из коробки выдаёт результаты лучше GPT-3.5, а если натренить на своих данных, то и лучше GPT-4.

LLM as Chatbot: в список локальных 70B моделей для чата добавились лама 2, WizardLM, Platypus2, Upstage 2.

DeciCoder-1B: локальная модель для генерации кода в Python, Java, и Javascript, натренированная на датасете Starcoder.

EasyEdit: инструмент для настройки ответов LLM (от 1B до 65B), включая GPT-J, LlaMA-2 и другие.

Решаем сложные математические задачи с помощью интерпретатором кода в GPT-4.

Наличие в документе метаданных улучшает ответы языковых моделей.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.02K viewsAndrey Bezryadin, edited 11:01

Psy Eyes

Control LoRA: низко-ранговый файнтюн ControlNet с фокусом на эффективности и компактности для работы на большем количестве пользовательских GPU. Модели с рангом 256 уменьшены более, чем в 6 раз (с 4,7 ГБ до 738 Мб), а рангом 128 более, чем в 12 раз (до 377 Мб). Работает с ComfyUI и StableSwarmUI.

946 viewsAndrey Bezryadin, 12:01

Snapchat сделали модель для нейронного рендеринга в реальном времени на мобильных устройствах. Она отличается от существующих методов, таких как NeRF, более быстрым временем обработки и меньшим размером, экономя память в 15 - 24 раза. Это достигается благодаря новой архитектуре, которая способна работать эффективно на мобильных устройствах. Например, она может отрендерить изображение размером 1008×756 всего за 18.04 мс на iPhone 13. При этом качество изображения остается на уровне с NeRF и даже превосходит некоторые другие мобильные решения.

Тренировка на 4 V100 с использованием 10 тыс картинок заняла 15 минут, на 1 GPU говорят 2 часов должно хватить.

Код

902 viewsAndrey Bezryadin, 13:03

About

Blog

Apps

Platform