Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Media is too big
VIEW IN TELEGRAM
Не гауссинами едиными, динамические нерфы продолжают развиваться — Dynamic Mesh-Aware Radiance Fields (DMRF).

Метод позволяет вписать полигональный меш в фотореалистичную нерф-сцену с чётким просчётом освещения и физики (последнее за счёт Nvidia Warp). Поддерживаются HDR-данные для достижения консистентного 32-битного цветового пространства.

Можно даже делать интерактив:
* игры, где 3D объекты взаимодействую с нерф-сценами
* внедрение цифровых аватаров и смена одежды на них
* диджитал арт/графити на виртуальных копиях города
* итд

Сайт
Гитхаб
Чуваки из KORUS делают плагин для Ableton, чтобы генерить MIDI по описанию. Вписаться потестить можно тут (получите доступ - делитесь).

Осталось скормить папку со своими неразборчивыми напеваниями с диктофона для получения MIDI, промтом задать стиль звучания, а дальше ручками — навык никто не отменял.

А там и до нейро-компьютерных интерфейсов недалеко.
Вчера весь реддит подорвался генерить спирали (Junji Ito одобряет).

Сегодня народ подсел на гигачадов.
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney тизерит 3D, про которое Ник говорил ещё месяцы назад и не обманул (я упоминал это ранее).

Тем временем опенсорс двигает мету в жизнь гауссианами, а также динамическими нерфами.

Помимо 3D, Midjourney ещё декларируют про V6 и другие ништяки, репортаж с места событий у CGEvent.
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Кажется, нас ждет новый приток приложений на этой же механике – пятнашки но с картинками

Автор
Дайджест:

📹 ВИДЕО + АРТ 🎨

Веб-интерфейс для генерации оптических иллюзий.

Плагин "3D Gaussians" теперь доступен на Unreal Engine Marketplace.

HDTR: модель с фокусом на реконструкции движений лица и губ.

🤖 ЧАТЫ 🤖

IBM: опубликовали метод ModuleFormer, представляющий собой коллаб LLM-экспертов (MoE). Легко справляется с забыванием контекста и расширением знаний, при этом производительнее и использует компьют только тех экспертов, которые релевантны. Вместе с этим опубликовали модели MoLM на 4B и 8B, которые натренены на 300B открытых данных.

Shampoo: метод распределенной тренировки AI на множестве GPU, который на 10% эффективнее других методов за счет распределения памяти и вычислений, связанных с блоками каждого параметра, через структуру данных DTensor в PyTorch и выполнения примитива AllGather для вычисленных направлений поиска на каждой итерации.

Agents: опенсорсный фреймворк AI-агентов для выполнения веб-навигации и использования AI-инструментов с уровнем контроля на уровне задач и SOP.

CulturaX: огромный очищенный датасет из 6,4Т токенов для LLM на 167 языках.

LayoutNUWA: вписываем текст, генерируемый LLM в макеты.

PDFTriangle: метод для обработки PDF доков LLM с сохранением структуры и контекста.

Исследования:
* контрастивное декодирование улучшает рассуждения в больших языковых моделях
* Sorted LLaMA: меняем Supervised Fine-Tuning (SFT) на Sorted Fine-Tuning (SoFT) и получаем большую производительность модели за меньший компьют.
* три бумаги на тему музыки: раз + два + три

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Код Render-a-video опубликован.

Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.

Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.

Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.

Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.

Run All — запустись всё разом.

Демо
Гитхаб
Media is too big
VIEW IN TELEGRAM
Гугл тизерят модельку для интерактивного взаимодействия с объектами в кадре.

Даёшь на вход 1 картинку и модель может сконвертировать её в зацикленное видео (в котором например цветы ветром колышутся) или сделать кадр интерактивным для взаимодействия с ним мышкой.

Можно потестить здесь.

В традициях гугла кода нет.
Media is too big
VIEW IN TELEGRAM
OmnimatteRF — ещё один проект для удаления объектов из видео с учётом фона, а-ля ProPainter.

В основе лежит метод F2B3: объекты на переднем плане преобразуются в 2D-слои, а фон в отдельную 3D-сцену.

Похоже вопрос с убиранием тени тоже решен, осталось подтянуть удаление в отражениях. Хотя это можно инпейтингом закрыть в ряде случаем.

Сайт
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Преобразуем через Luma сцену снятую дроном в нерф и меняем освещение/погодные условия плагине Luma для UE.

Заодно сравнение результатов рендера с дрона за $1 000 и за $40 000 — разницы особой нет
Media is too big
VIEW IN TELEGRAM
Николас Кейдж мощный актёр и музыкант — для клипа Childish Gambino он даже стал чёрным.

Сделано за 10 минут на Mac 1 Max с помощью Facefusion. Можно установить в пару кликов через Pinokio.

PS: ещё бы голос в егошний переделали. XTSS для этого кстати тоже в пинокио есть.

Твит
This media is not supported in your browser
VIEW IN TELEGRAM
AudioSR — модель для улучшения качества музыки, записи речи, и звуковых эффектов с 2 kHz до 48 kHz.

Работает как плагин и можно прицепить к MusicGen, AudioLDM, XTTS, итд.

Доставай свою винрарную папку со старого телефона с 3GP видосами и записями с диктофона, мы нашли чем вытащить звук.

Сайт
Код
This media is not supported in your browser
VIEW IN TELEGRAM
Помимо кода появилось демо модели SyncDreamer для генерации 3D объектов по 1 картинке.

Сначала генерятся кадры с разных углов обзора, а затем они собираются в 3D. В отличие от Zero 123 шаги согласуются между собой, позволяя получить консистентный результат.

Сайт
Демо
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Котэ таки получил доступ в Stable Audio, а то с момента анонса не мог зайти из-за перегруза серверов.

Ну что я могу сказать: для старта это ништ и повод задуматься нынешним стримингам. Задал, что хочешь слушать (чем детальнее, тем лучше) и получаешь это. Никаких левых лиц на главной и в рекомендациях, обновлений плейлистов, долгих поисков,...

Дальше к этому пристегнётся генерация 24/7, контроль звучания слушателями, интеграция с DAWками для проработки артистами на уровне MIDI, итд.

Моя Волна может начать волноваться.

Го генерить музыку!
Были у нас перевыпусти на DVD, Blu-ray, 4K,... как насчёт объёмного 3D для просмотра с любой точки?

Оригинальная сцена из Blade Runner на первом видео в 2D весит 7.3 Мб. Переведённая в 3D, так чтобы можно было менять позицию и фокус камеры в реальном времени, она весит лишь на 11 Мб больше. Автор использовал свои инструменты + GlslViewer + lygia.xyz + torch.

Пока бросается в глаза недостаток данных и выглядит как мешанина. Нужно либо что-то вроде SyncDreamer для синтетической генерации недостающих кадров с новых углов обзора, либо реальные данные с фото/видео behind the scenes итд. Причём во втором случае это студиям на руку, они могут сделать из этого датасет, к которому доступ по шекелям организовать.

Появляется огромное пространство для креатива в режиссуре и заодно надо думать какой угол дефолтный, с какой точки пользователю захочется посмотреть (причёсывать надо всю сцену целиком), как быть с командой и декорациями за кадром, итд.

Причём момент с углом обзора по умолчанию важен, так как кино это вид искусства требующий пассивного вовлечения - ты наблюдаешь, погружаешься, изучаешь, переживаешь. А тут у нас интерактив и здесь восприятие работает иначе.

В этом плане стоит обратить внимание на опыт игровой индустрии. В каких-то играх камера зафиксирована, а в каких-то ей можно свободно крутить. Но, в целом, геймдев отлично научился управляться с инструментами для подачи нарратива (сценарий, режиссура, свет, звук), часто задвигая киноиндустрию на её же поле. Помню когда вышел INSIDE я каждую секунду скриншотил ибо там работа с камерой высший пилотаж и все фильмы вышедшие в тот год (да и не только) просто пыль в сравнении с ней — у меня до сих пор лежат эти 6 Гб кринов, каждый можно хоть сейчас вешать на стену.

Отдельно тут стоит упомянуть интерактивное кино от Quantic Dream. Один Detroit: Become Human чего стоит.

Вы посмотрите на эту красоту на втором видео. Как буд-то космос всеми звёздами живёт у тебя перед глазами. И это не сцена из фильма, а то, что техно-маг сделал сегодня.

Твит 1
Твит 2
Генератор оптических иллюзий обновился. Добавились новые шаблоны, разрешение стало выше, с большими деталями, и при этом генерится быстрее. Заодно прицепил другие иллюзии, что приглянулись в сети.

Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.

Попробовать
Твит