Psy Eyes

This media is not supported in your browser

Кажется, нас ждет новый приток приложений на этой же механике – пятнашки но с картинками

Автор

1.05K viewsAndrey Bezryadin, 08:09

Дайджест:

📹 ВИДЕО + АРТ 🎨

Веб-интерфейс для генерации оптических иллюзий.

Плагин "3D Gaussians" теперь доступен на Unreal Engine Marketplace.

HDTR: модель с фокусом на реконструкции движений лица и губ.

🤖 ЧАТЫ 🤖

IBM: опубликовали метод ModuleFormer, представляющий собой коллаб LLM-экспертов (MoE). Легко справляется с забыванием контекста и расширением знаний, при этом производительнее и использует компьют только тех экспертов, которые релевантны. Вместе с этим опубликовали модели MoLM на 4B и 8B, которые натренены на 300B открытых данных.

Shampoo: метод распределенной тренировки AI на множестве GPU, который на 10% эффективнее других методов за счет распределения памяти и вычислений, связанных с блоками каждого параметра, через структуру данных DTensor в PyTorch и выполнения примитива AllGather для вычисленных направлений поиска на каждой итерации.

Agents: опенсорсный фреймворк AI-агентов для выполнения веб-навигации и использования AI-инструментов с уровнем контроля на уровне задач и SOP.

CulturaX: огромный очищенный датасет из 6,4Т токенов для LLM на 167 языках.

LayoutNUWA: вписываем текст, генерируемый LLM в макеты.

PDFTriangle: метод для обработки PDF доков LLM с сохранением структуры и контекста.

Исследования:
* контрастивное декодирование улучшает рассуждения в больших языковых моделях
* Sorted LLaMA: меняем Supervised Fine-Tuning (SFT) на Sorted Fine-Tuning (SoFT) и получаем большую производительность модели за меньший компьют.
* три бумаги на тему музыки: раз + два + три

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K viewsAndrey Bezryadin, 11:11

Код Render-a-video опубликован.

Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.

Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.

Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.

Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.

Run All — запустись всё разом.

Демо
Гитхаб

10.4K viewsAndrey Bezryadin, 12:01

Гугл тизерят модельку для интерактивного взаимодействия с объектами в кадре.

Даёшь на вход 1 картинку и модель может сконвертировать её в зацикленное видео (в котором например цветы ветром колышутся) или сделать кадр интерактивным для взаимодействия с ним мышкой.

Можно потестить здесь.

В традициях гугла кода нет.

1.31K viewsAndrey Bezryadin, 12:58

OmnimatteRF — ещё один проект для удаления объектов из видео с учётом фона, а-ля ProPainter.

В основе лежит метод F2B3: объекты на переднем плане преобразуются в 2D-слои, а фон в отдельную 3D-сцену.

Похоже вопрос с убиранием тени тоже решен, осталось подтянуть удаление в отражениях. Хотя это можно инпейтингом закрыть в ряде случаем.

Сайт
Гитхаб

1.37K viewsAndrey Bezryadin, 13:32

Psy Eyes

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Преобразуем через Luma сцену снятую дроном в нерф и меняем освещение/погодные условия плагине Luma для UE.

Заодно сравнение результатов рендера с дрона за $1 000 и за $40 000 — разницы особой нет

1.41K viewsAndrey Bezryadin, 14:02

Николас Кейдж мощный актёр и музыкант — для клипа Childish Gambino он даже стал чёрным.

Сделано за 10 минут на Mac 1 Max с помощью Facefusion. Можно установить в пару кликов через Pinokio.

PS: ещё бы голос в егошний переделали. XTSS для этого кстати тоже в пинокио есть.

Твит

1.43K viewsAndrey Bezryadin, edited 15:03

Psy Eyes

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

AudioSR — модель для улучшения качества музыки, записи речи, и звуковых эффектов с 2 kHz до 48 kHz.

Работает как плагин и можно прицепить к MusicGen, AudioLDM, XTTS, итд.

Доставай свою винрарную папку со старого телефона с 3GP видосами и записями с диктофона, мы нашли чем вытащить звук.

Сайт
Код

1.74K viewsAndrey Bezryadin, 16:03

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Помимо кода появилось демо модели SyncDreamer для генерации 3D объектов по 1 картинке.

Сначала генерятся кадры с разных углов обзора, а затем они собираются в 3D. В отличие от Zero 123 шаги согласуются между собой, позволяя получить консистентный результат.

Сайт
Демо
Гитхаб

1.48K viewsAndrey Bezryadin, 17:04

Psy Eyes

0:39

This media is not supported in your browser

VIEW IN TELEGRAM

Котэ таки получил доступ в Stable Audio, а то с момента анонса не мог зайти из-за перегруза серверов.

Ну что я могу сказать: для старта это ништ и повод задуматься нынешним стримингам. Задал, что хочешь слушать (чем детальнее, тем лучше) и получаешь это. Никаких левых лиц на главной и в рекомендациях, обновлений плейлистов, долгих поисков,...

Дальше к этому пристегнётся генерация 24/7, контроль звучания слушателями, интеграция с DAWками для проработки артистами на уровне MIDI, итд.

Моя Волна может начать волноваться.

Го генерить музыку!

1.47K viewsAndrey Bezryadin, edited 22:56

Psy Eyes

0:32

This media is not supported in your browser

Были у нас перевыпусти на DVD, Blu-ray, 4K,... как насчёт объёмного 3D для просмотра с любой точки?

Оригинальная сцена из Blade Runner на первом видео в 2D весит 7.3 Мб. Переведённая в 3D, так чтобы можно было менять позицию и фокус камеры в реальном времени, она весит лишь на 11 Мб больше. Автор использовал свои инструменты + GlslViewer + lygia.xyz + torch.

Пока бросается в глаза недостаток данных и выглядит как мешанина. Нужно либо что-то вроде SyncDreamer для синтетической генерации недостающих кадров с новых углов обзора, либо реальные данные с фото/видео behind the scenes итд. Причём во втором случае это студиям на руку, они могут сделать из этого датасет, к которому доступ по шекелям организовать.

Появляется огромное пространство для креатива в режиссуре и заодно надо думать какой угол дефолтный, с какой точки пользователю захочется посмотреть (причёсывать надо всю сцену целиком), как быть с командой и декорациями за кадром, итд.

Причём момент с углом обзора по умолчанию важен, так как кино это вид искусства требующий пассивного вовлечения - ты наблюдаешь, погружаешься, изучаешь, переживаешь. А тут у нас интерактив и здесь восприятие работает иначе.

В этом плане стоит обратить внимание на опыт игровой индустрии. В каких-то играх камера зафиксирована, а в каких-то ей можно свободно крутить. Но, в целом, геймдев отлично научился управляться с инструментами для подачи нарратива (сценарий, режиссура, свет, звук), часто задвигая киноиндустрию на её же поле. Помню когда вышел INSIDE я каждую секунду скриншотил ибо там работа с камерой высший пилотаж и все фильмы вышедшие в тот год (да и не только) просто пыль в сравнении с ней — у меня до сих пор лежат эти 6 Гб кринов, каждый можно хоть сейчас вешать на стену.

Отдельно тут стоит упомянуть интерактивное кино от Quantic Dream. Один Detroit: Become Human чего стоит.

Вы посмотрите на эту красоту на втором видео. Как буд-то космос всеми звёздами живёт у тебя перед глазами. И это не сцена из фильма, а то, что техно-маг сделал сегодня.

Твит 1
Твит 2

1.6K viewsAndrey Bezryadin, 10:25

Psy Eyes

Генератор оптических иллюзий обновился. Добавились новые шаблоны, разрешение стало выше, с большими деталями, и при этом генерится быстрее. Заодно прицепил другие иллюзии, что приглянулись в сети.

Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.

Попробовать
Твит

1.85K viewsAndrey Bezryadin, 12:40

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

Киберпанк здесь и имя ему Simulon. Чуваки продолжают радовать, показывая процесс работы прилы.

В этот раз нам показали меширование окружения в реальном времени, размещение объектов на нескольких поверхностях (причём как вертикальных так и горизонтальных) и стабильный AR, позволяющий сохранять и воспроизводить 3D-сцены в реальности.

Видос с котаном это шоукейс работы с глубиной и освещением.

Как просчитывается свет они показывали здесь.

В бету можно зайти тут.

2.4K viewsAndrey Bezryadin, 14:02

About

Blog

Apps

Platform