Дайджест:
📹 ВИДЕО + АРТ 🎨
Веб-интерфейс для генерации оптических иллюзий.
Плагин "3D Gaussians" теперь доступен на Unreal Engine Marketplace.
HDTR: модель с фокусом на реконструкции движений лица и губ.
🤖 ЧАТЫ 🤖
IBM: опубликовали метод ModuleFormer, представляющий собой коллаб LLM-экспертов (MoE). Легко справляется с забыванием контекста и расширением знаний, при этом производительнее и использует компьют только тех экспертов, которые релевантны. Вместе с этим опубликовали модели MoLM на 4B и 8B, которые натренены на 300B открытых данных.
Shampoo: метод распределенной тренировки AI на множестве GPU, который на 10% эффективнее других методов за счет распределения памяти и вычислений, связанных с блоками каждого параметра, через структуру данных DTensor в PyTorch и выполнения примитива AllGather для вычисленных направлений поиска на каждой итерации.
Agents: опенсорсный фреймворк AI-агентов для выполнения веб-навигации и использования AI-инструментов с уровнем контроля на уровне задач и SOP.
CulturaX: огромный очищенный датасет из 6,4Т токенов для LLM на 167 языках.
LayoutNUWA: вписываем текст, генерируемый LLM в макеты.
PDFTriangle: метод для обработки PDF доков LLM с сохранением структуры и контекста.
Исследования:
* контрастивное декодирование улучшает рассуждения в больших языковых моделях
* Sorted LLaMA: меняем Supervised Fine-Tuning (SFT) на Sorted Fine-Tuning (SoFT) и получаем большую производительность модели за меньший компьют.
* три бумаги на тему музыки: раз + два + три
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Веб-интерфейс для генерации оптических иллюзий.
Плагин "3D Gaussians" теперь доступен на Unreal Engine Marketplace.
HDTR: модель с фокусом на реконструкции движений лица и губ.
🤖 ЧАТЫ 🤖
IBM: опубликовали метод ModuleFormer, представляющий собой коллаб LLM-экспертов (MoE). Легко справляется с забыванием контекста и расширением знаний, при этом производительнее и использует компьют только тех экспертов, которые релевантны. Вместе с этим опубликовали модели MoLM на 4B и 8B, которые натренены на 300B открытых данных.
Shampoo: метод распределенной тренировки AI на множестве GPU, который на 10% эффективнее других методов за счет распределения памяти и вычислений, связанных с блоками каждого параметра, через структуру данных DTensor в PyTorch и выполнения примитива AllGather для вычисленных направлений поиска на каждой итерации.
Agents: опенсорсный фреймворк AI-агентов для выполнения веб-навигации и использования AI-инструментов с уровнем контроля на уровне задач и SOP.
CulturaX: огромный очищенный датасет из 6,4Т токенов для LLM на 167 языках.
LayoutNUWA: вписываем текст, генерируемый LLM в макеты.
PDFTriangle: метод для обработки PDF доков LLM с сохранением структуры и контекста.
Исследования:
* контрастивное декодирование улучшает рассуждения в больших языковых моделях
* Sorted LLaMA: меняем Supervised Fine-Tuning (SFT) на Sorted Fine-Tuning (SoFT) и получаем большую производительность модели за меньший компьют.
* три бумаги на тему музыки: раз + два + три
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Код Render-a-video опубликован.
Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.
Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.
Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.
Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.
Run All — запустись всё разом.
Демо
Гитхаб
Модель сочетает SD + Optical Flow и отличается хорошей консистентностью видео без фликера. И даже работает без трени или файнтюна.
Кнопки в веб-интерфейсе:
Run 1st Key Frame — генерим только 1-й кадр, чтобы настроить промты/модели/параметры.
Run Key Frames — проход по ключевым кадрам на основе настроек первого кадра, что позволяет задать временные параметры для лучшей консистентности перед запуском на всё видео.
Run Propogation — применение настроек ключевых кадров на остальные кадры для полного перевода видео.
Run All — запустись всё разом.
Демо
Гитхаб
Media is too big
VIEW IN TELEGRAM
Гугл тизерят модельку для интерактивного взаимодействия с объектами в кадре.
Даёшь на вход 1 картинку и модель может сконвертировать её в зацикленное видео (в котором например цветы ветром колышутся) или сделать кадр интерактивным для взаимодействия с ним мышкой.
Можно потестить здесь.
В традициях гугла кода нет.
Даёшь на вход 1 картинку и модель может сконвертировать её в зацикленное видео (в котором например цветы ветром колышутся) или сделать кадр интерактивным для взаимодействия с ним мышкой.
Можно потестить здесь.
В традициях гугла кода нет.
Media is too big
VIEW IN TELEGRAM
OmnimatteRF — ещё один проект для удаления объектов из видео с учётом фона, а-ля ProPainter.
В основе лежит метод F2B3: объекты на переднем плане преобразуются в 2D-слои, а фон в отдельную 3D-сцену.
Похоже вопрос с убиранием тени тоже решен, осталось подтянуть удаление в отражениях. Хотя это можно инпейтингом закрыть в ряде случаем.
Сайт
Гитхаб
В основе лежит метод F2B3: объекты на переднем плане преобразуются в 2D-слои, а фон в отдельную 3D-сцену.
Похоже вопрос с убиранием тени тоже решен, осталось подтянуть удаление в отражениях. Хотя это можно инпейтингом закрыть в ряде случаем.
Сайт
Гитхаб
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Котэ таки получил доступ в Stable Audio, а то с момента анонса не мог зайти из-за перегруза серверов.
Ну что я могу сказать: для старта это ништ и повод задуматься нынешним стримингам. Задал, что хочешь слушать (чем детальнее, тем лучше) и получаешь это. Никаких левых лиц на главной и в рекомендациях, обновлений плейлистов, долгих поисков,...
Дальше к этому пристегнётся генерация 24/7, контроль звучания слушателями, интеграция с DAWками для проработки артистами на уровне MIDI, итд.
Моя Волна может начать волноваться.
Го генерить музыку!
Ну что я могу сказать: для старта это ништ и повод задуматься нынешним стримингам. Задал, что хочешь слушать (чем детальнее, тем лучше) и получаешь это. Никаких левых лиц на главной и в рекомендациях, обновлений плейлистов, долгих поисков,...
Дальше к этому пристегнётся генерация 24/7, контроль звучания слушателями, интеграция с DAWками для проработки артистами на уровне MIDI, итд.
Моя Волна может начать волноваться.
Го генерить музыку!
Были у нас перевыпусти на DVD, Blu-ray, 4K,... как насчёт объёмного 3D для просмотра с любой точки?
Оригинальная сцена из Blade Runner на первом видео в 2D весит 7.3 Мб. Переведённая в 3D, так чтобы можно было менять позицию и фокус камеры в реальном времени, она весит лишь на 11 Мб больше. Автор использовал свои инструменты + GlslViewer + lygia.xyz + torch.
Пока бросается в глаза недостаток данных и выглядит как мешанина. Нужно либо что-то вроде SyncDreamer для синтетической генерации недостающих кадров с новых углов обзора, либо реальные данные с фото/видео behind the scenes итд. Причём во втором случае это студиям на руку, они могут сделать из этого датасет, к которому доступ по шекелям организовать.
Появляется огромное пространство для креатива в режиссуре и заодно надо думать какой угол дефолтный, с какой точки пользователю захочется посмотреть (причёсывать надо всю сцену целиком), как быть с командой и декорациями за кадром, итд.
Причём момент с углом обзора по умолчанию важен, так как кино это вид искусства требующий пассивного вовлечения - ты наблюдаешь, погружаешься, изучаешь, переживаешь. А тут у нас интерактив и здесь восприятие работает иначе.
В этом плане стоит обратить внимание на опыт игровой индустрии. В каких-то играх камера зафиксирована, а в каких-то ей можно свободно крутить. Но, в целом, геймдев отлично научился управляться с инструментами для подачи нарратива (сценарий, режиссура, свет, звук), часто задвигая киноиндустрию на её же поле. Помню когда вышел INSIDE я каждую секунду скриншотил ибо там работа с камерой высший пилотаж и все фильмы вышедшие в тот год (да и не только) просто пыль в сравнении с ней — у меня до сих пор лежат эти 6 Гб кринов, каждый можно хоть сейчас вешать на стену.
Отдельно тут стоит упомянуть интерактивное кино от Quantic Dream. Один Detroit: Become Human чего стоит.
Вы посмотрите на эту красоту на втором видео. Как буд-то космос всеми звёздами живёт у тебя перед глазами. И это не сцена из фильма, а то, что техно-маг сделал сегодня.
Твит 1
Твит 2
Оригинальная сцена из Blade Runner на первом видео в 2D весит 7.3 Мб. Переведённая в 3D, так чтобы можно было менять позицию и фокус камеры в реальном времени, она весит лишь на 11 Мб больше. Автор использовал свои инструменты + GlslViewer + lygia.xyz + torch.
Пока бросается в глаза недостаток данных и выглядит как мешанина. Нужно либо что-то вроде SyncDreamer для синтетической генерации недостающих кадров с новых углов обзора, либо реальные данные с фото/видео behind the scenes итд. Причём во втором случае это студиям на руку, они могут сделать из этого датасет, к которому доступ по шекелям организовать.
Появляется огромное пространство для креатива в режиссуре и заодно надо думать какой угол дефолтный, с какой точки пользователю захочется посмотреть (причёсывать надо всю сцену целиком), как быть с командой и декорациями за кадром, итд.
Причём момент с углом обзора по умолчанию важен, так как кино это вид искусства требующий пассивного вовлечения - ты наблюдаешь, погружаешься, изучаешь, переживаешь. А тут у нас интерактив и здесь восприятие работает иначе.
В этом плане стоит обратить внимание на опыт игровой индустрии. В каких-то играх камера зафиксирована, а в каких-то ей можно свободно крутить. Но, в целом, геймдев отлично научился управляться с инструментами для подачи нарратива (сценарий, режиссура, свет, звук), часто задвигая киноиндустрию на её же поле. Помню когда вышел INSIDE я каждую секунду скриншотил ибо там работа с камерой высший пилотаж и все фильмы вышедшие в тот год (да и не только) просто пыль в сравнении с ней — у меня до сих пор лежат эти 6 Гб кринов, каждый можно хоть сейчас вешать на стену.
Отдельно тут стоит упомянуть интерактивное кино от Quantic Dream. Один Detroit: Become Human чего стоит.
Вы посмотрите на эту красоту на втором видео. Как буд-то космос всеми звёздами живёт у тебя перед глазами. И это не сцена из фильма, а то, что техно-маг сделал сегодня.
Твит 1
Твит 2
Генератор оптических иллюзий обновился. Добавились новые шаблоны, разрешение стало выше, с большими деталями, и при этом генерится быстрее. Заодно прицепил другие иллюзии, что приглянулись в сети.
Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.
Попробовать
Твит
Представьте бесконечное полотно RE: FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW RE RE FW FW FW, которое было бы нужно между художником и заказчиком, чтобы такое получить.
Попробовать
Твит
Киберпанк здесь и имя ему Simulon. Чуваки продолжают радовать, показывая процесс работы прилы.
В этот раз нам показали меширование окружения в реальном времени, размещение объектов на нескольких поверхностях (причём как вертикальных так и горизонтальных) и стабильный AR, позволяющий сохранять и воспроизводить 3D-сцены в реальности.
Видос с котаном это шоукейс работы с глубиной и освещением.
Как просчитывается свет они показывали здесь.
В бету можно зайти тут.
В этот раз нам показали меширование окружения в реальном времени, размещение объектов на нескольких поверхностях (причём как вертикальных так и горизонтальных) и стабильный AR, позволяющий сохранять и воспроизводить 3D-сцены в реальности.
Видос с котаном это шоукейс работы с глубиной и освещением.
Как просчитывается свет они показывали здесь.
В бету можно зайти тут.