This media is not supported in your browser
VIEW IN TELEGRAM
Полезный инструмент, чтобы учиться рисовать — Sketch-a-Sketch.
Предыдущих инструменты на эту тему, либо требовали изначально умение хорошо рисовать наброски, либо по черновым работам давали мнимое ощущение хорошего результата.
Sketch-a-Sketch работает иначе: пишешь промт и тебе в Suggested Lines показывается какие линии дальше рисовать, чтобы получить искомое. Рисуешь по линиям и подсказываются следующие. На ряду с этим генерится финальный результат.
Под капотом ControlNet обученный не на готовых скетчах, а на частичных набросках.
Сайт
Предыдущих инструменты на эту тему, либо требовали изначально умение хорошо рисовать наброски, либо по черновым работам давали мнимое ощущение хорошего результата.
Sketch-a-Sketch работает иначе: пишешь промт и тебе в Suggested Lines показывается какие линии дальше рисовать, чтобы получить искомое. Рисуешь по линиям и подсказываются следующие. На ряду с этим генерится финальный результат.
Под капотом ControlNet обученный не на готовых скетчах, а на частичных набросках.
Сайт
Prayer
"Меня удивляет то, что не существует религии, посвященной компьютерам, учитывая их силу и влияние." — автор
Сначала автор набросал скетч в 3D с помощью свободно доступных ассетов.
После грубого рендеринга в V-Ray он разделил изображение с помощью масок для использования в ControlNet (компьютер, экран, пол, человек). Для получения более четкой фигуры также использовался ControlNet LineArt (realistic).
Дальше начался процесс рисования фотошопе и добавлеия деталей в MultiDiffusion с постоянным переключением между ними.
Руки были сделаны с помощью комбинации ручного рисования в фотошопе, img2img и MultiDiffusion.
Также использовался ControlNet (tile) вместе с Ultimate SD Upscale для добавления деталей к общей картине. Например, результат по промту для апскейла "
Behance
Реддит
"Меня удивляет то, что не существует религии, посвященной компьютерам, учитывая их силу и влияние." — автор
Сначала автор набросал скетч в 3D с помощью свободно доступных ассетов.
После грубого рендеринга в V-Ray он разделил изображение с помощью масок для использования в ControlNet (компьютер, экран, пол, человек). Для получения более четкой фигуры также использовался ControlNet LineArt (realistic).
Дальше начался процесс рисования фотошопе и добавлеия деталей в MultiDiffusion с постоянным переключением между ними.
Руки были сделаны с помощью комбинации ручного рисования в фотошопе, img2img и MultiDiffusion.
Также использовался ControlNet (tile) вместе с Ultimate SD Upscale для добавления деталей к общей картине. Например, результат по промту для апскейла "
computers, wires" была использована маской в фотошопе.Behance
Реддит
This media is not supported in your browser
VIEW IN TELEGRAM
SparseNeRF — метод, который визуализирует новые точки обзора по нескольким снимкам, используя карты глубинны.
В отличие от других методов, которые требуют точных глубинных карт, SparseNeRF использует грубые или неточные карты глубины из реального мира. Эти карты могут быть получены с датчиков на устройстве пользователя или предварительно обученных моделей. Модель затем применяет локальный метод ранжирования глубины и пространственное ограничение непрерывности, чтобы создать новые точки обзора, сохраняя при этом пространственную целостность оцененной глубины.
Сайт
В отличие от других методов, которые требуют точных глубинных карт, SparseNeRF использует грубые или неточные карты глубины из реального мира. Эти карты могут быть получены с датчиков на устройстве пользователя или предварительно обученных моделей. Модель затем применяет локальный метод ранжирования глубины и пространственное ограничение непрерывности, чтобы создать новые точки обзора, сохраняя при этом пространственную целостность оцененной глубины.
Сайт
Несколько месяцев назад Microsoft представили NUWA для быстрой генерации длинный видео по описанию сцен. Теперь они анонсировали DragNUWA где с помощью текста, картинки и описания траектории можно легко манипулировать движением камеры, фоном и объектами в кадре. Просто рисуешь стрелочками что куда должно двигаться и оно генерится с высоким уровнем консистентности и следования указаниям. Идея явно позаимствована у DragGAN, но оптимизирована для видео.
Пощупать или посмотреть код пока нельзя.
Пощупать или посмотреть код пока нельзя.
Media is too big
VIEW IN TELEGRAM
LumaAI анонсировали Flythroughs — инструмент для создания пролётов по квартирам с помощью NeRF. Под капотом модель, натренированная прокладывать маршруты и автоматически делать плавные вкусные движения камеры.
Заменяет профессиональную команду со стедикамом, лидаром, дронами, и дорогими камерами — достаточно iPhone.
Прила
Сайт
Заменяет профессиональную команду со стедикамом, лидаром, дронами, и дорогими камерами — достаточно iPhone.
Прила
Сайт
Media is too big
VIEW IN TELEGRAM
CoDeF (content deformation field) — новый метод смены стиля видео, в котором обработка идёт в два канала: canonical content field собирает статичные кадры всего видео, а temporal deformation field берет отрендеренные кадры из предыдущего канала и вписывает их вместо оригинальных. Это позволяет добиться консистентного результата по всему видео.
Причём CoDeF способен без какого-либо обучения генерить в image-2-image или video-2-video, а также определять и отслеживать объекты на уровне точек, то бишь работать с водой и дымом.
Код открыт.
Единственная проблема — нужно 48 ГБ VRAM. По крайне мене тестилось все на RTX A6000, а там глядишь кто-нить из опенсорса оптимизирует это как следует. С другой стороны на RunPod эту RTX A6000 можно арендовать за $0,79 в час.
Сайт
Код
Причём CoDeF способен без какого-либо обучения генерить в image-2-image или video-2-video, а также определять и отслеживать объекты на уровне точек, то бишь работать с водой и дымом.
Код открыт.
Единственная проблема — нужно 48 ГБ VRAM. По крайне мене тестилось все на RTX A6000, а там глядишь кто-нить из опенсорса оптимизирует это как следует. С другой стороны на RunPod эту RTX A6000 можно арендовать за $0,79 в час.
Сайт
Код
This media is not supported in your browser
VIEW IN TELEGRAM
Расширение Generative AI для генерации картинок, видео и аудио в Blender. Работает с моделями Stable Diffusion (1.5, 2, XL), Deep Floyd IF, Zeroscope, Animov, AudioLMD and Bark.
Установка:
* Качаем и устанавливаем git для своей операционки. Git должен быть прописан в PATH (иначе Bark не будет работать).
* Качаем расширение для Blender.
* В Windows щелкаем правой кнопкой мыши на иконке Blender и "Запускаем от имени администратора" (иначе возникнут ошибки прав на запись).
* Устанавливаем расширение: Preferences > Add-ons > Install > select file > enable the add-on.
* В настройках дополнения Generative AI нажимаем кнопку "Install all Dependencies". Тут же можно изменить, какие карты моделей используются в различных режимах (видео, изображение, аудио).
* Когда выйдет сообщение, что установка завершена, интерфейс расширения станет доступен в Sequencedr > Sidebar > Generative AI.
* При первом запуске любой модели придется загрузить много гигабайт, учитываем это.
* Если появится сообщение: "ModuleNotFoundError: Refer to https://github.com/facebookresearch/xformers for more information how to install xformers", то пробуем перезапустить Blender.
Если какие-либо модули Python отсутствуют, пользуемся этим дополнением для их ручной установки.
Установка:
* Качаем и устанавливаем git для своей операционки. Git должен быть прописан в PATH (иначе Bark не будет работать).
* Качаем расширение для Blender.
* В Windows щелкаем правой кнопкой мыши на иконке Blender и "Запускаем от имени администратора" (иначе возникнут ошибки прав на запись).
* Устанавливаем расширение: Preferences > Add-ons > Install > select file > enable the add-on.
* В настройках дополнения Generative AI нажимаем кнопку "Install all Dependencies". Тут же можно изменить, какие карты моделей используются в различных режимах (видео, изображение, аудио).
* Когда выйдет сообщение, что установка завершена, интерфейс расширения станет доступен в Sequencedr > Sidebar > Generative AI.
* При первом запуске любой модели придется загрузить много гигабайт, учитываем это.
* Если появится сообщение: "ModuleNotFoundError: Refer to https://github.com/facebookresearch/xformers for more information how to install xformers", то пробуем перезапустить Blender.
Если какие-либо модули Python отсутствуют, пользуемся этим дополнением для их ручной установки.
This media is not supported in your browser
VIEW IN TELEGRAM
Анимированные виниловые обложки в Pika Labs и Gen-2. Угадаете что чем анимировано?
Парочку из тех, что на видео, а именно The Prodigy и Nirvana, я анимировал в своей подборке. Beatles и Pink Floyd я тоже пытался тогда анимировать, но выходила статика и тогда в Пике ещё не было команды /motion для задания уровня движения.
Реддит
Парочку из тех, что на видео, а именно The Prodigy и Nirvana, я анимировал в своей подборке. Beatles и Pink Floyd я тоже пытался тогда анимировать, но выходила статика и тогда в Пике ещё не было команды /motion для задания уровня движения.
Реддит
Forwarded from Ai Filmmaker (Дмитрий Алексеев)
Media is too big
VIEW IN TELEGRAM
Directed by:
Dmitry Alekseev
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Ghibli Studio characters rotoscoped with Runwayml.com
Music: “Многоточие - в жизни так бывает”
( Orchestral cover )
Dmitry Alekseev
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Ghibli Studio characters rotoscoped with Runwayml.com
Music: “Многоточие - в жизни так бывает”
( Orchestral cover )
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Splatting - нереальное качество в реальном времени.
NeRFы нервно закуривают набитые артефактами сигареты.
На сцену врывается новый алгоритм
3D Gaussian Splatting for Real-Time Radiance Field Rendering
Если по умному: Он моделирует сцену как множество трехмерных гауссианов, которые перемещаются и вращаются во времени. Сохраняя фиксированный цвет и размер каждого гауссиана, он позволяет отслеживать определенные точки в разных кадрах.
Это позволяет получить точные новые виды и плотное отслеживание 6DOF.
Он воссоздает сложные движения, такие как жонглирование, с ошибками отслеживания всего в пару см на протяжении 150 кадров! Это похоже на OmniMotion, но для многоракурсного видео.
Он даже определяет вращение объекта без какой-либо внешней информации, поэтому к гауссианам можно присоединять камеры или произвольные 2D/3D-объекты и создавать видеоэффекты от первого лица или с привязкой к объекту!
И это нереально быстро - он обучается всего за 2 часа на одну сцену и делает рендеринг с частотой 850 кадров в секунду.
VR, AR и VFX дрожжат в предвкушении. Ждем видео от Коридоров.
Маленькая неприятная вишенка на торте: данный подход требует синхронизированных HD-камер с калиброванными внутренними/внешними характеристиками. Полученные результаты не могут быть напрямую перенесены на несинхронизированные камеры.
Посмотрите видосы и, самое, главное, сравнения с остальными нерфоподобными системами тут:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
И оцените мелкие детали.
Трушный метаверс и копия нашего утлого мира все ближе!
NeRFы нервно закуривают набитые артефактами сигареты.
На сцену врывается новый алгоритм
3D Gaussian Splatting for Real-Time Radiance Field Rendering
Если по умному: Он моделирует сцену как множество трехмерных гауссианов, которые перемещаются и вращаются во времени. Сохраняя фиксированный цвет и размер каждого гауссиана, он позволяет отслеживать определенные точки в разных кадрах.
Это позволяет получить точные новые виды и плотное отслеживание 6DOF.
Он воссоздает сложные движения, такие как жонглирование, с ошибками отслеживания всего в пару см на протяжении 150 кадров! Это похоже на OmniMotion, но для многоракурсного видео.
Он даже определяет вращение объекта без какой-либо внешней информации, поэтому к гауссианам можно присоединять камеры или произвольные 2D/3D-объекты и создавать видеоэффекты от первого лица или с привязкой к объекту!
И это нереально быстро - он обучается всего за 2 часа на одну сцену и делает рендеринг с частотой 850 кадров в секунду.
VR, AR и VFX дрожжат в предвкушении. Ждем видео от Коридоров.
Маленькая неприятная вишенка на торте: данный подход требует синхронизированных HD-камер с калиброванными внутренними/внешними характеристиками. Полученные результаты не могут быть напрямую перенесены на несинхронизированные камеры.
Посмотрите видосы и, самое, главное, сравнения с остальными нерфоподобными системами тут:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
И оцените мелкие детали.
Трушный метаверс и копия нашего утлого мира все ближе!
This media is not supported in your browser
VIEW IN TELEGRAM
В Midjourney подъехал Inpainting. Нажимаете Vary (region) под заапскейленной картинкой, выделяете область которую нужно изменить, пишете промт, и вуаля! Работает в дискорде с десктопа. Для изменения промта может понадобится нажать /settings и нажать "remix mode".
Функция лучше всего работает на больших областях изображения (от 20% до 50%) и с вещами, которые подходят по контексту: шляпу поверх персонажа MJ проще сгенерить, чем дельфина в лесу. Иногда Vary (Subtle) даёт результаты толковее
Функция лучше всего работает на больших областях изображения (от 20% до 50%) и с вещами, которые подходят по контексту: шляпу поверх персонажа MJ проще сгенерить, чем дельфина в лесу. Иногда Vary (Subtle) даёт результаты толковее
This media is not supported in your browser
VIEW IN TELEGRAM
С мобилы в дискорде говорят тоже работает. По крайне мере на iOS.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Появился колаб для CoDeF.
Runway: временно приостановили бесплатные генерации из-за наплыва пользователей.
ReVersion: указываем контекст из двух слов, ставим между ними <R> типа cat <R> bag и поучаем кота в мешке.
Artefacts: инструмент для генерации 3D по изображению, подойдёт например для геймдизайна, AR, 3D-принтинга.
DETA: модель для сегментации объектов на картинке. Заодно вот лидерборд моделей на эту тему.
TeCH: метод генерации 3D по одной картинке с фокусом на зонах, вне кадра (вид со спины). Кода пока нет.
SceNeRFlow: метод создания динамичных NeRF-сцен, работающий и с продолжительными фрагментами.
Создание анимированных аватаров по видео, кода пока нет.
Google: поделились оригинальным датасетом Dreambooth.
DeDoDe: система для нахождения схожестей в изображениях.
🎸 ЗВУК 🎸
Bland: открыли API для телефонных звонков заскриптованных Python и Javascript... Звучит человечнее службы безопасности сбера.
🤖 ЧАТЫ 🤖
Новое облако для халявных генераций — SaturnCloud. Дают 150 часов в месяц погонять T4. Регайтесь с gmail и других буржуйских почт. *MGS box mode activated*
SQL Coder: модель заточенная под генерацию SQL с 15B параметров, которая из коробки выдаёт результаты лучше GPT-3.5, а если натренить на своих данных, то и лучше GPT-4.
LLM as Chatbot: в список локальных 70B моделей для чата добавились лама 2, WizardLM, Platypus2, Upstage 2.
DeciCoder-1B: локальная модель для генерации кода в Python, Java, и Javascript, натренированная на датасете Starcoder.
EasyEdit: инструмент для настройки ответов LLM (от 1B до 65B), включая GPT-J, LlaMA-2 и другие.
Решаем сложные математические задачи с помощью интерпретатором кода в GPT-4.
Наличие в документе метаданных улучшает ответы языковых моделей.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Появился колаб для CoDeF.
Runway: временно приостановили бесплатные генерации из-за наплыва пользователей.
ReVersion: указываем контекст из двух слов, ставим между ними <R> типа cat <R> bag и поучаем кота в мешке.
Artefacts: инструмент для генерации 3D по изображению, подойдёт например для геймдизайна, AR, 3D-принтинга.
DETA: модель для сегментации объектов на картинке. Заодно вот лидерборд моделей на эту тему.
TeCH: метод генерации 3D по одной картинке с фокусом на зонах, вне кадра (вид со спины). Кода пока нет.
SceNeRFlow: метод создания динамичных NeRF-сцен, работающий и с продолжительными фрагментами.
Создание анимированных аватаров по видео, кода пока нет.
Google: поделились оригинальным датасетом Dreambooth.
DeDoDe: система для нахождения схожестей в изображениях.
🎸 ЗВУК 🎸
Bland: открыли API для телефонных звонков заскриптованных Python и Javascript... Звучит человечнее службы безопасности сбера.
🤖 ЧАТЫ 🤖
Новое облако для халявных генераций — SaturnCloud. Дают 150 часов в месяц погонять T4. Регайтесь с gmail и других буржуйских почт. *MGS box mode activated*
SQL Coder: модель заточенная под генерацию SQL с 15B параметров, которая из коробки выдаёт результаты лучше GPT-3.5, а если натренить на своих данных, то и лучше GPT-4.
LLM as Chatbot: в список локальных 70B моделей для чата добавились лама 2, WizardLM, Platypus2, Upstage 2.
DeciCoder-1B: локальная модель для генерации кода в Python, Java, и Javascript, натренированная на датасете Starcoder.
EasyEdit: инструмент для настройки ответов LLM (от 1B до 65B), включая GPT-J, LlaMA-2 и другие.
Решаем сложные математические задачи с помощью интерпретатором кода в GPT-4.
Наличие в документе метаданных улучшает ответы языковых моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Control LoRA: низко-ранговый файнтюн ControlNet с фокусом на эффективности и компактности для работы на большем количестве пользовательских GPU. Модели с рангом 256 уменьшены более, чем в 6 раз (с 4,7 ГБ до 738 Мб), а рангом 128 более, чем в 12 раз (до 377 Мб). Работает с ComfyUI и StableSwarmUI.
Media is too big
VIEW IN TELEGRAM
Snapchat сделали модель для нейронного рендеринга в реальном времени на мобильных устройствах. Она отличается от существующих методов, таких как NeRF, более быстрым временем обработки и меньшим размером, экономя память в 15 - 24 раза. Это достигается благодаря новой архитектуре, которая способна работать эффективно на мобильных устройствах. Например, она может отрендерить изображение размером 1008×756 всего за 18.04 мс на iPhone 13. При этом качество изображения остается на уровне с NeRF и даже превосходит некоторые другие мобильные решения.
Тренировка на 4 V100 с использованием 10 тыс картинок заняла 15 минут, на 1 GPU говорят 2 часов должно хватить.
Код
Тренировка на 4 V100 с использованием 10 тыс картинок заняла 15 минут, на 1 GPU говорят 2 часов должно хватить.
Код
This media is not supported in your browser
VIEW IN TELEGRAM
Dual-Stream Diffusion Net (DSDN): новый метод генерации видео, в выходящие кадры обрабатываются двумя не связанными диффузионными каналами — один занят контентом, другой данными о движении (CoDeF тоже работает в 2 канала кстати). Это позволяет картинке быть плавной и хорошо следующей промту, а также генерить персонализованный вариант контента. Кода пока нет.
PS ты знаешь откуда у проекта ноги растут, когда тебе показывают панду.
Бумага
Кода пока нет
PS ты знаешь откуда у проекта ноги растут, когда тебе показывают панду.
Бумага
Кода пока нет
Media is too big
VIEW IN TELEGRAM
Madrona — исследовательский игровой движок, созданный для обучения ИИ в симулированных мирах с высокой пропускной способностью на GPU (до миллионов шагов в секунду). Он работает, выполняя тысячи независимых экземпляров среды одновременно на GPU, используя структуру Entity Component System (ECS). Примеры включают "Hide and Seek" (2 млн шагов/сек), "Overcooked-AI" (40 млн шагов/сек), и другие. Madrona может использоваться исследователями и разработчиками для создания собственных симуляторов обучающей среды с высокой пропускной способностью.
Сайт
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Лион Джоунс, один из авторов "Attention is All You Need" который недавно покинул Google, теперь основал в Токио другой проект — Sakana AI.
Это роевой интеллект (swarm intelligence), который вместо централизованного подхода будет использовать коллективный разум маленьких моделей для решения задач разного уровня, включая генерацию текста, картинок, кода, и тд. Такой метод позволит AI быть гибче, адаптивнее, и дешевле. К слову OpenAI обходится $700к в день содержать ChatGPT, и им всё компьюта не хватает.
"Муравьи могут быстро сформировать из себя мост, который может быть и не самый прочный, но тем не менее показывающий, что они способы резко адаптироваться к окружающей среде и решать задачу сразу. Я думаю, что подобная адаптация - это одна из очень мощных концепций, которые мы наблюдаем в природных алгоритмах", - комментарий разработчиков. Название Sakana было образовано от японского слова "рыба" (さかな), которое связано с косяком рыб, собирающихся вместе и образующих единое целое на основе простых правил.
Ранее вектор развития в сторону роевого интеллекта обозначил Эмад Мостак, CEO Stability AI. Что примечательно к Sakana примкнул Дэвид Ха, ранее глава исследовательского направления Stability AI.
Новость
Это роевой интеллект (swarm intelligence), который вместо централизованного подхода будет использовать коллективный разум маленьких моделей для решения задач разного уровня, включая генерацию текста, картинок, кода, и тд. Такой метод позволит AI быть гибче, адаптивнее, и дешевле. К слову OpenAI обходится $700к в день содержать ChatGPT, и им всё компьюта не хватает.
"Муравьи могут быстро сформировать из себя мост, который может быть и не самый прочный, но тем не менее показывающий, что они способы резко адаптироваться к окружающей среде и решать задачу сразу. Я думаю, что подобная адаптация - это одна из очень мощных концепций, которые мы наблюдаем в природных алгоритмах", - комментарий разработчиков. Название Sakana было образовано от японского слова "рыба" (さかな), которое связано с косяком рыб, собирающихся вместе и образующих единое целое на основе простых правил.
Ранее вектор развития в сторону роевого интеллекта обозначил Эмад Мостак, CEO Stability AI. Что примечательно к Sakana примкнул Дэвид Ха, ранее глава исследовательского направления Stability AI.
Новость
Новый Adobe Express открылся для всех. Работает на основе Firefly и в нём можно генерить слова с указанием промтом стиля для шрифта или картинки по промту. Заодно там можно создавать видео для соцсетей и работать с дизайном PDF, например.
C похожим продуктом в марте вышли Canva.
C похожим продуктом в марте вышли Canva.