Media is too big
VIEW IN TELEGRAM
Не гауссинами едиными, динамические нерфы продолжают развиваться — Dynamic Mesh-Aware Radiance Fields (DMRF).
Метод позволяет вписать полигональный меш в фотореалистичную нерф-сцену с чётким просчётом освещения и физики (последнее за счёт Nvidia Warp). Поддерживаются HDR-данные для достижения консистентного 32-битного цветового пространства.
Можно даже делать интерактив:
* игры, где 3D объекты взаимодействую с нерф-сценами
* внедрение цифровых аватаров и смена одежды на них
* диджитал арт/графити на виртуальных копиях города
* итд
Сайт
Гитхаб
Метод позволяет вписать полигональный меш в фотореалистичную нерф-сцену с чётким просчётом освещения и физики (последнее за счёт Nvidia Warp). Поддерживаются HDR-данные для достижения консистентного 32-битного цветового пространства.
Можно даже делать интерактив:
* игры, где 3D объекты взаимодействую с нерф-сценами
* внедрение цифровых аватаров и смена одежды на них
* диджитал арт/графити на виртуальных копиях города
* итд
Сайт
Гитхаб
Чуваки из KORUS делают плагин для Ableton, чтобы генерить MIDI по описанию. Вписаться потестить можно тут (получите доступ - делитесь).
Осталось скормить папку со своими неразборчивыми напеваниями с диктофона для получения MIDI, промтом задать стиль звучания, а дальше ручками — навык никто не отменял.
А там и до нейро-компьютерных интерфейсов недалеко.
Осталось скормить папку со своими неразборчивыми напеваниями с диктофона для получения MIDI, промтом задать стиль звучания, а дальше ручками — навык никто не отменял.
А там и до нейро-компьютерных интерфейсов недалеко.
Вчера весь реддит подорвался генерить спирали (Junji Ito одобряет).
Сегодня народ подсел на гигачадов.
Сегодня народ подсел на гигачадов.
This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney тизерит 3D, про которое Ник говорил ещё месяцы назад и не обманул (я упоминал это ранее).
Тем временем опенсорс двигает мету в жизнь гауссианами, а также динамическими нерфами.
Помимо 3D, Midjourney ещё декларируют про V6 и другие ништяки, репортаж с места событий у CGEvent.
Тем временем опенсорс двигает мету в жизнь гауссианами, а также динамическими нерфами.
Помимо 3D, Midjourney ещё декларируют про V6 и другие ништяки, репортаж с места событий у CGEvent.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Веб-интерфейс для генерации оптических иллюзий.
Плагин "3D Gaussians" теперь доступен на Unreal Engine Marketplace.
HDTR: модель с фокусом на реконструкции движений лица и губ.
🤖 ЧАТЫ 🤖
IBM: опубликовали метод ModuleFormer, представляющий собой коллаб LLM-экспертов (MoE). Легко справляется с забыванием контекста и расширением знаний, при этом производительнее и использует компьют только тех экспертов, которые релевантны. Вместе с этим опубликовали модели MoLM на 4B и 8B, которые натренены на 300B открытых данных.
Shampoo: метод распределенной тренировки AI на множестве GPU, который на 10% эффективнее других методов за счет распределения памяти и вычислений, связанных с блоками каждого параметра, через структуру данных DTensor в PyTorch и выполнения примитива AllGather для вычисленных направлений поиска на каждой итерации.
Agents: опенсорсный фреймворк AI-агентов для выполнения веб-навигации и использования AI-инструментов с уровнем контроля на уровне задач и SOP.
CulturaX: огромный очищенный датасет из 6,4Т токенов для LLM на 167 языках.
LayoutNUWA: вписываем текст, генерируемый LLM в макеты.
PDFTriangle: метод для обработки PDF доков LLM с сохранением структуры и контекста.
Исследования:
* контрастивное декодирование улучшает рассуждения в больших языковых моделях
* Sorted LLaMA: меняем Supervised Fine-Tuning (SFT) на Sorted Fine-Tuning (SoFT) и получаем большую производительность модели за меньший компьют.
* три бумаги на тему музыки: раз + два + три
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Веб-интерфейс для генерации оптических иллюзий.
Плагин "3D Gaussians" теперь доступен на Unreal Engine Marketplace.
HDTR: модель с фокусом на реконструкции движений лица и губ.
🤖 ЧАТЫ 🤖
IBM: опубликовали метод ModuleFormer, представляющий собой коллаб LLM-экспертов (MoE). Легко справляется с забыванием контекста и расширением знаний, при этом производительнее и использует компьют только тех экспертов, которые релевантны. Вместе с этим опубликовали модели MoLM на 4B и 8B, которые натренены на 300B открытых данных.
Shampoo: метод распределенной тренировки AI на множестве GPU, который на 10% эффективнее других методов за счет распределения памяти и вычислений, связанных с блоками каждого параметра, через структуру данных DTensor в PyTorch и выполнения примитива AllGather для вычисленных направлений поиска на каждой итерации.
Agents: опенсорсный фреймворк AI-агентов для выполнения веб-навигации и использования AI-инструментов с уровнем контроля на уровне задач и SOP.
CulturaX: огромный очищенный датасет из 6,4Т токенов для LLM на 167 языках.
LayoutNUWA: вписываем текст, генерируемый LLM в макеты.
PDFTriangle: метод для обработки PDF доков LLM с сохранением структуры и контекста.
Исследования:
* контрастивное декодирование улучшает рассуждения в больших языковых моделях
* Sorted LLaMA: меняем Supervised Fine-Tuning (SFT) на Sorted Fine-Tuning (SoFT) и получаем большую производительность модели за меньший компьют.
* три бумаги на тему музыки: раз + два + три
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Код Render-a-video опубликован.
Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.
Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.
Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.
Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.
Run All — запустись всё разом.
Демо
Гитхаб
Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.
Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.
Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.
Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.
Run All — запустись всё разом.
Демо
Гитхаб
Media is too big
VIEW IN TELEGRAM
Гугл тизерят модельку для интерактивного взаимодействия с объектами в кадре.
Даёшь на вход 1 картинку и модель может сконвертировать её в зацикленное видео (в котором например цветы ветром колышутся) или сделать кадр интерактивным для взаимодействия с ним мышкой.
Можно потестить здесь.
В традициях гугла кода нет.
Даёшь на вход 1 картинку и модель может сконвертировать её в зацикленное видео (в котором например цветы ветром колышутся) или сделать кадр интерактивным для взаимодействия с ним мышкой.
Можно потестить здесь.
В традициях гугла кода нет.
Media is too big
VIEW IN TELEGRAM
OmnimatteRF — ещё один проект для удаления объектов из видео с учётом фона, а-ля ProPainter.
В основе лежит метод F2B3: объекты на переднем плане преобразуются в 2D-слои, а фон в отдельную 3D-сцену.
Похоже вопрос с убиранием тени тоже решен, осталось подтянуть удаление в отражениях. Хотя это можно инпейтингом закрыть в ряде случаем.
Сайт
Гитхаб
В основе лежит метод F2B3: объекты на переднем плане преобразуются в 2D-слои, а фон в отдельную 3D-сцену.
Похоже вопрос с убиранием тени тоже решен, осталось подтянуть удаление в отражениях. Хотя это можно инпейтингом закрыть в ряде случаем.
Сайт
Гитхаб
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Котэ таки получил доступ в Stable Audio, а то с момента анонса не мог зайти из-за перегруза серверов.
Ну что я могу сказать: для старта это ништ и повод задуматься нынешним стримингам. Задал, что хочешь слушать (чем детальнее, тем лучше) и получаешь это. Никаких левых лиц на главной и в рекомендациях, обновлений плейлистов, долгих поисков,...
Дальше к этому пристегнётся генерация 24/7, контроль звучания слушателями, интеграция с DAWками для проработки артистами на уровне MIDI, итд.
Моя Волна может начать волноваться.
Го генерить музыку!
Ну что я могу сказать: для старта это ништ и повод задуматься нынешним стримингам. Задал, что хочешь слушать (чем детальнее, тем лучше) и получаешь это. Никаких левых лиц на главной и в рекомендациях, обновлений плейлистов, долгих поисков,...
Дальше к этому пристегнётся генерация 24/7, контроль звучания слушателями, интеграция с DAWками для проработки артистами на уровне MIDI, итд.
Моя Волна может начать волноваться.
Го генерить музыку!
Были у нас перевыпусти на DVD, Blu-ray, 4K,... как насчёт объёмного 3D для просмотра с любой точки?
Оригинальная сцена из Blade Runner на первом видео в 2D весит 7.3 Мб. Переведённая в 3D, так чтобы можно было менять позицию и фокус камеры в реальном времени, она весит лишь на 11 Мб больше. Автор использовал свои инструменты + GlslViewer + lygia.xyz + torch.
Пока бросается в глаза недостаток данных и выглядит как мешанина. Нужно либо что-то вроде SyncDreamer для синтетической генерации недостающих кадров с новых углов обзора, либо реальные данные с фото/видео behind the scenes итд. Причём во втором случае это студиям на руку, они могут сделать из этого датасет, к которому доступ по шекелям организовать.
Появляется огромное пространство для креатива в режиссуре и заодно надо думать какой угол дефолтный, с какой точки пользователю захочется посмотреть (причёсывать надо всю сцену целиком), как быть с командой и декорациями за кадром, итд.
Причём момент с углом обзора по умолчанию важен, так как кино это вид искусства требующий пассивного вовлечения - ты наблюдаешь, погружаешься, изучаешь, переживаешь. А тут у нас интерактив и здесь восприятие работает иначе.
В этом плане стоит обратить внимание на опыт игровой индустрии. В каких-то играх камера зафиксирована, а в каких-то ей можно свободно крутить. Но, в целом, геймдев отлично научился управляться с инструментами для подачи нарратива (сценарий, режиссура, свет, звук), часто задвигая киноиндустрию на её же поле. Помню когда вышел INSIDE я каждую секунду скриншотил ибо там работа с камерой высший пилотаж и все фильмы вышедшие в тот год (да и не только) просто пыль в сравнении с ней — у меня до сих пор лежат эти 6 Гб кринов, каждый можно хоть сейчас вешать на стену.
Отдельно тут стоит упомянуть интерактивное кино от Quantic Dream. Один Detroit: Become Human чего стоит.
Вы посмотрите на эту красоту на втором видео. Как буд-то космос всеми звёздами живёт у тебя перед глазами. И это не сцена из фильма, а то, что техно-маг сделал сегодня.
Твит 1
Твит 2
Оригинальная сцена из Blade Runner на первом видео в 2D весит 7.3 Мб. Переведённая в 3D, так чтобы можно было менять позицию и фокус камеры в реальном времени, она весит лишь на 11 Мб больше. Автор использовал свои инструменты + GlslViewer + lygia.xyz + torch.
Пока бросается в глаза недостаток данных и выглядит как мешанина. Нужно либо что-то вроде SyncDreamer для синтетической генерации недостающих кадров с новых углов обзора, либо реальные данные с фото/видео behind the scenes итд. Причём во втором случае это студиям на руку, они могут сделать из этого датасет, к которому доступ по шекелям организовать.
Появляется огромное пространство для креатива в режиссуре и заодно надо думать какой угол дефолтный, с какой точки пользователю захочется посмотреть (причёсывать надо всю сцену целиком), как быть с командой и декорациями за кадром, итд.
Причём момент с углом обзора по умолчанию важен, так как кино это вид искусства требующий пассивного вовлечения - ты наблюдаешь, погружаешься, изучаешь, переживаешь. А тут у нас интерактив и здесь восприятие работает иначе.
В этом плане стоит обратить внимание на опыт игровой индустрии. В каких-то играх камера зафиксирована, а в каких-то ей можно свободно крутить. Но, в целом, геймдев отлично научился управляться с инструментами для подачи нарратива (сценарий, режиссура, свет, звук), часто задвигая киноиндустрию на её же поле. Помню когда вышел INSIDE я каждую секунду скриншотил ибо там работа с камерой высший пилотаж и все фильмы вышедшие в тот год (да и не только) просто пыль в сравнении с ней — у меня до сих пор лежат эти 6 Гб кринов, каждый можно хоть сейчас вешать на стену.
Отдельно тут стоит упомянуть интерактивное кино от Quantic Dream. Один Detroit: Become Human чего стоит.
Вы посмотрите на эту красоту на втором видео. Как буд-то космос всеми звёздами живёт у тебя перед глазами. И это не сцена из фильма, а то, что техно-маг сделал сегодня.
Твит 1
Твит 2
Генератор оптических иллюзий обновился. Добавились новые шаблоны, разрешение стало выше, с большими деталями, и при этом генерится быстрее. Заодно прицепил другие иллюзии, что приглянулись в сети.
Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.
Попробовать
Твит
Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.
Попробовать
Твит