This media is not supported in your browser
VIEW IN TELEGRAM
AudioCraft Plus — это базовый AudioCraft, в который входит MusicGen для генерации музыки и AudioGen для звуков, плюс множество удобных плюшек для более точной настройки звука на выходе. Например, можно настраивать BPM, тональность, гамму и скармливать аудио реф для интерпретации.
Устанавливается через Pinokio
Устанавливается через Pinokio
Stability AI выкатили Stable Chat для общения с их языковыми моделями.
Под капотом выпущенная в июле Beluga. Отвечает быстро, но не сказать чтобы хорошо.
На русском ответит складно, если изначально задать вопрос на русском, если попросить сделать выжимку с английского текста, перевод скинет на топорном.
К интернету не подключена, но ссылки скинуть может. Правда в примере выше она скинула ссылку на Дэвида Духовны, а не Дэвида Финчера.
Отдельно бесит, что если ты отвлекся от чата на пару минут, тебя отключают и надо перезагрузить страницу с потерей всей истории переписки.
Судя по подтянутым библиотекам в коде, что я просил сгенерить данные обрезаны тоже 21-22 годом. Сам же код она просто отказалась генерить, хотя я ничего сложного её не попросил сделать. Возможно если подключат вместо белуги StableCode для этих целей будет ловчей.
В общем пока сгодится написать рыбу имейла или продумать концепцию подводной вечеринки, как у них в примерах.
По фану можете чекнуть как народ уже джейлбрейкает белугу.
Анонс
Початиться
Под капотом выпущенная в июле Beluga. Отвечает быстро, но не сказать чтобы хорошо.
На русском ответит складно, если изначально задать вопрос на русском, если попросить сделать выжимку с английского текста, перевод скинет на топорном.
К интернету не подключена, но ссылки скинуть может. Правда в примере выше она скинула ссылку на Дэвида Духовны, а не Дэвида Финчера.
Отдельно бесит, что если ты отвлекся от чата на пару минут, тебя отключают и надо перезагрузить страницу с потерей всей истории переписки.
Судя по подтянутым библиотекам в коде, что я просил сгенерить данные обрезаны тоже 21-22 годом. Сам же код она просто отказалась генерить, хотя я ничего сложного её не попросил сделать. Возможно если подключат вместо белуги StableCode для этих целей будет ловчей.
В общем пока сгодится написать рыбу имейла или продумать концепцию подводной вечеринки, как у них в примерах.
По фану можете чекнуть как народ уже джейлбрейкает белугу.
Анонс
Початиться
Красивости сделанные в Pika Labs. У них недавно появилась фича генерить через личку с ботом, чтобы не толпиться в общих тредах, го тестить!
Первое видео "Mr. Tanaka's Waterways"
Автор нагенерил в ClipDrop изображения в широкоэкранном формате 16:9 и заапскейлил их. Затем кинул в Пику для image-2-video. В промтах было упоминание
Второе без названия от TheVisiblemaker
Использовались: Midjourney + Пика + ChatGPT + artlist.io для музыки и эффектов. MJ конечно видно сразу в основе. Ждём видосов по кадрам из SDXL с контролнетом или через Fooocus.
Первое видео "Mr. Tanaka's Waterways"
Автор нагенерил в ClipDrop изображения в широкоэкранном формате 16:9 и заапскейлил их. Затем кинул в Пику для image-2-video. В промтах было упоминание
studio ghibli anime, disney anime, cinematic lighting, highly detailed. Если было недостаточно анимешно, он избавлялся от cinematic lighting, а если слишком анимешно, то добавлял HD или realistic и продолжал возиться, пока не получал искомое. Для звуковых эффектов использовал Audio LDM2, а для музыки - MusicGen (хотя мог бы там же получить звуки через AudioGen).Второе без названия от TheVisiblemaker
Использовались: Midjourney + Пика + ChatGPT + artlist.io для музыки и эффектов. MJ конечно видно сразу в основе. Ждём видосов по кадрам из SDXL с контролнетом или через Fooocus.
This media is not supported in your browser
VIEW IN TELEGRAM
Полезный инструмент, чтобы учиться рисовать — Sketch-a-Sketch.
Предыдущих инструменты на эту тему, либо требовали изначально умение хорошо рисовать наброски, либо по черновым работам давали мнимое ощущение хорошего результата.
Sketch-a-Sketch работает иначе: пишешь промт и тебе в Suggested Lines показывается какие линии дальше рисовать, чтобы получить искомое. Рисуешь по линиям и подсказываются следующие. На ряду с этим генерится финальный результат.
Под капотом ControlNet обученный не на готовых скетчах, а на частичных набросках.
Сайт
Предыдущих инструменты на эту тему, либо требовали изначально умение хорошо рисовать наброски, либо по черновым работам давали мнимое ощущение хорошего результата.
Sketch-a-Sketch работает иначе: пишешь промт и тебе в Suggested Lines показывается какие линии дальше рисовать, чтобы получить искомое. Рисуешь по линиям и подсказываются следующие. На ряду с этим генерится финальный результат.
Под капотом ControlNet обученный не на готовых скетчах, а на частичных набросках.
Сайт
Prayer
"Меня удивляет то, что не существует религии, посвященной компьютерам, учитывая их силу и влияние." — автор
Сначала автор набросал скетч в 3D с помощью свободно доступных ассетов.
После грубого рендеринга в V-Ray он разделил изображение с помощью масок для использования в ControlNet (компьютер, экран, пол, человек). Для получения более четкой фигуры также использовался ControlNet LineArt (realistic).
Дальше начался процесс рисования фотошопе и добавлеия деталей в MultiDiffusion с постоянным переключением между ними.
Руки были сделаны с помощью комбинации ручного рисования в фотошопе, img2img и MultiDiffusion.
Также использовался ControlNet (tile) вместе с Ultimate SD Upscale для добавления деталей к общей картине. Например, результат по промту для апскейла "
Behance
Реддит
"Меня удивляет то, что не существует религии, посвященной компьютерам, учитывая их силу и влияние." — автор
Сначала автор набросал скетч в 3D с помощью свободно доступных ассетов.
После грубого рендеринга в V-Ray он разделил изображение с помощью масок для использования в ControlNet (компьютер, экран, пол, человек). Для получения более четкой фигуры также использовался ControlNet LineArt (realistic).
Дальше начался процесс рисования фотошопе и добавлеия деталей в MultiDiffusion с постоянным переключением между ними.
Руки были сделаны с помощью комбинации ручного рисования в фотошопе, img2img и MultiDiffusion.
Также использовался ControlNet (tile) вместе с Ultimate SD Upscale для добавления деталей к общей картине. Например, результат по промту для апскейла "
computers, wires" была использована маской в фотошопе.Behance
Реддит
This media is not supported in your browser
VIEW IN TELEGRAM
SparseNeRF — метод, который визуализирует новые точки обзора по нескольким снимкам, используя карты глубинны.
В отличие от других методов, которые требуют точных глубинных карт, SparseNeRF использует грубые или неточные карты глубины из реального мира. Эти карты могут быть получены с датчиков на устройстве пользователя или предварительно обученных моделей. Модель затем применяет локальный метод ранжирования глубины и пространственное ограничение непрерывности, чтобы создать новые точки обзора, сохраняя при этом пространственную целостность оцененной глубины.
Сайт
В отличие от других методов, которые требуют точных глубинных карт, SparseNeRF использует грубые или неточные карты глубины из реального мира. Эти карты могут быть получены с датчиков на устройстве пользователя или предварительно обученных моделей. Модель затем применяет локальный метод ранжирования глубины и пространственное ограничение непрерывности, чтобы создать новые точки обзора, сохраняя при этом пространственную целостность оцененной глубины.
Сайт
Несколько месяцев назад Microsoft представили NUWA для быстрой генерации длинный видео по описанию сцен. Теперь они анонсировали DragNUWA где с помощью текста, картинки и описания траектории можно легко манипулировать движением камеры, фоном и объектами в кадре. Просто рисуешь стрелочками что куда должно двигаться и оно генерится с высоким уровнем консистентности и следования указаниям. Идея явно позаимствована у DragGAN, но оптимизирована для видео.
Пощупать или посмотреть код пока нельзя.
Пощупать или посмотреть код пока нельзя.
Media is too big
VIEW IN TELEGRAM
LumaAI анонсировали Flythroughs — инструмент для создания пролётов по квартирам с помощью NeRF. Под капотом модель, натренированная прокладывать маршруты и автоматически делать плавные вкусные движения камеры.
Заменяет профессиональную команду со стедикамом, лидаром, дронами, и дорогими камерами — достаточно iPhone.
Прила
Сайт
Заменяет профессиональную команду со стедикамом, лидаром, дронами, и дорогими камерами — достаточно iPhone.
Прила
Сайт
Media is too big
VIEW IN TELEGRAM
CoDeF (content deformation field) — новый метод смены стиля видео, в котором обработка идёт в два канала: canonical content field собирает статичные кадры всего видео, а temporal deformation field берет отрендеренные кадры из предыдущего канала и вписывает их вместо оригинальных. Это позволяет добиться консистентного результата по всему видео.
Причём CoDeF способен без какого-либо обучения генерить в image-2-image или video-2-video, а также определять и отслеживать объекты на уровне точек, то бишь работать с водой и дымом.
Код открыт.
Единственная проблема — нужно 48 ГБ VRAM. По крайне мене тестилось все на RTX A6000, а там глядишь кто-нить из опенсорса оптимизирует это как следует. С другой стороны на RunPod эту RTX A6000 можно арендовать за $0,79 в час.
Сайт
Код
Причём CoDeF способен без какого-либо обучения генерить в image-2-image или video-2-video, а также определять и отслеживать объекты на уровне точек, то бишь работать с водой и дымом.
Код открыт.
Единственная проблема — нужно 48 ГБ VRAM. По крайне мене тестилось все на RTX A6000, а там глядишь кто-нить из опенсорса оптимизирует это как следует. С другой стороны на RunPod эту RTX A6000 можно арендовать за $0,79 в час.
Сайт
Код
This media is not supported in your browser
VIEW IN TELEGRAM
Расширение Generative AI для генерации картинок, видео и аудио в Blender. Работает с моделями Stable Diffusion (1.5, 2, XL), Deep Floyd IF, Zeroscope, Animov, AudioLMD and Bark.
Установка:
* Качаем и устанавливаем git для своей операционки. Git должен быть прописан в PATH (иначе Bark не будет работать).
* Качаем расширение для Blender.
* В Windows щелкаем правой кнопкой мыши на иконке Blender и "Запускаем от имени администратора" (иначе возникнут ошибки прав на запись).
* Устанавливаем расширение: Preferences > Add-ons > Install > select file > enable the add-on.
* В настройках дополнения Generative AI нажимаем кнопку "Install all Dependencies". Тут же можно изменить, какие карты моделей используются в различных режимах (видео, изображение, аудио).
* Когда выйдет сообщение, что установка завершена, интерфейс расширения станет доступен в Sequencedr > Sidebar > Generative AI.
* При первом запуске любой модели придется загрузить много гигабайт, учитываем это.
* Если появится сообщение: "ModuleNotFoundError: Refer to https://github.com/facebookresearch/xformers for more information how to install xformers", то пробуем перезапустить Blender.
Если какие-либо модули Python отсутствуют, пользуемся этим дополнением для их ручной установки.
Установка:
* Качаем и устанавливаем git для своей операционки. Git должен быть прописан в PATH (иначе Bark не будет работать).
* Качаем расширение для Blender.
* В Windows щелкаем правой кнопкой мыши на иконке Blender и "Запускаем от имени администратора" (иначе возникнут ошибки прав на запись).
* Устанавливаем расширение: Preferences > Add-ons > Install > select file > enable the add-on.
* В настройках дополнения Generative AI нажимаем кнопку "Install all Dependencies". Тут же можно изменить, какие карты моделей используются в различных режимах (видео, изображение, аудио).
* Когда выйдет сообщение, что установка завершена, интерфейс расширения станет доступен в Sequencedr > Sidebar > Generative AI.
* При первом запуске любой модели придется загрузить много гигабайт, учитываем это.
* Если появится сообщение: "ModuleNotFoundError: Refer to https://github.com/facebookresearch/xformers for more information how to install xformers", то пробуем перезапустить Blender.
Если какие-либо модули Python отсутствуют, пользуемся этим дополнением для их ручной установки.
This media is not supported in your browser
VIEW IN TELEGRAM
Анимированные виниловые обложки в Pika Labs и Gen-2. Угадаете что чем анимировано?
Парочку из тех, что на видео, а именно The Prodigy и Nirvana, я анимировал в своей подборке. Beatles и Pink Floyd я тоже пытался тогда анимировать, но выходила статика и тогда в Пике ещё не было команды /motion для задания уровня движения.
Реддит
Парочку из тех, что на видео, а именно The Prodigy и Nirvana, я анимировал в своей подборке. Beatles и Pink Floyd я тоже пытался тогда анимировать, но выходила статика и тогда в Пике ещё не было команды /motion для задания уровня движения.
Реддит
Forwarded from Ai Filmmaker (Дмитрий Алексеев)
Media is too big
VIEW IN TELEGRAM
Directed by:
Dmitry Alekseev
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Ghibli Studio characters rotoscoped with Runwayml.com
Music: “Многоточие - в жизни так бывает”
( Orchestral cover )
Dmitry Alekseev
Created with Midjourney and After Effects by:
Dmitry Alekseev and Sergey Kozlov
Ghibli Studio characters rotoscoped with Runwayml.com
Music: “Многоточие - в жизни так бывает”
( Orchestral cover )
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Gaussian Splatting - нереальное качество в реальном времени.
NeRFы нервно закуривают набитые артефактами сигареты.
На сцену врывается новый алгоритм
3D Gaussian Splatting for Real-Time Radiance Field Rendering
Если по умному: Он моделирует сцену как множество трехмерных гауссианов, которые перемещаются и вращаются во времени. Сохраняя фиксированный цвет и размер каждого гауссиана, он позволяет отслеживать определенные точки в разных кадрах.
Это позволяет получить точные новые виды и плотное отслеживание 6DOF.
Он воссоздает сложные движения, такие как жонглирование, с ошибками отслеживания всего в пару см на протяжении 150 кадров! Это похоже на OmniMotion, но для многоракурсного видео.
Он даже определяет вращение объекта без какой-либо внешней информации, поэтому к гауссианам можно присоединять камеры или произвольные 2D/3D-объекты и создавать видеоэффекты от первого лица или с привязкой к объекту!
И это нереально быстро - он обучается всего за 2 часа на одну сцену и делает рендеринг с частотой 850 кадров в секунду.
VR, AR и VFX дрожжат в предвкушении. Ждем видео от Коридоров.
Маленькая неприятная вишенка на торте: данный подход требует синхронизированных HD-камер с калиброванными внутренними/внешними характеристиками. Полученные результаты не могут быть напрямую перенесены на несинхронизированные камеры.
Посмотрите видосы и, самое, главное, сравнения с остальными нерфоподобными системами тут:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
И оцените мелкие детали.
Трушный метаверс и копия нашего утлого мира все ближе!
NeRFы нервно закуривают набитые артефактами сигареты.
На сцену врывается новый алгоритм
3D Gaussian Splatting for Real-Time Radiance Field Rendering
Если по умному: Он моделирует сцену как множество трехмерных гауссианов, которые перемещаются и вращаются во времени. Сохраняя фиксированный цвет и размер каждого гауссиана, он позволяет отслеживать определенные точки в разных кадрах.
Это позволяет получить точные новые виды и плотное отслеживание 6DOF.
Он воссоздает сложные движения, такие как жонглирование, с ошибками отслеживания всего в пару см на протяжении 150 кадров! Это похоже на OmniMotion, но для многоракурсного видео.
Он даже определяет вращение объекта без какой-либо внешней информации, поэтому к гауссианам можно присоединять камеры или произвольные 2D/3D-объекты и создавать видеоэффекты от первого лица или с привязкой к объекту!
И это нереально быстро - он обучается всего за 2 часа на одну сцену и делает рендеринг с частотой 850 кадров в секунду.
VR, AR и VFX дрожжат в предвкушении. Ждем видео от Коридоров.
Маленькая неприятная вишенка на торте: данный подход требует синхронизированных HD-камер с калиброванными внутренними/внешними характеристиками. Полученные результаты не могут быть напрямую перенесены на несинхронизированные камеры.
Посмотрите видосы и, самое, главное, сравнения с остальными нерфоподобными системами тут:
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/
И оцените мелкие детали.
Трушный метаверс и копия нашего утлого мира все ближе!
This media is not supported in your browser
VIEW IN TELEGRAM
В Midjourney подъехал Inpainting. Нажимаете Vary (region) под заапскейленной картинкой, выделяете область которую нужно изменить, пишете промт, и вуаля! Работает в дискорде с десктопа. Для изменения промта может понадобится нажать /settings и нажать "remix mode".
Функция лучше всего работает на больших областях изображения (от 20% до 50%) и с вещами, которые подходят по контексту: шляпу поверх персонажа MJ проще сгенерить, чем дельфина в лесу. Иногда Vary (Subtle) даёт результаты толковее
Функция лучше всего работает на больших областях изображения (от 20% до 50%) и с вещами, которые подходят по контексту: шляпу поверх персонажа MJ проще сгенерить, чем дельфина в лесу. Иногда Vary (Subtle) даёт результаты толковее
This media is not supported in your browser
VIEW IN TELEGRAM
С мобилы в дискорде говорят тоже работает. По крайне мере на iOS.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Появился колаб для CoDeF.
Runway: временно приостановили бесплатные генерации из-за наплыва пользователей.
ReVersion: указываем контекст из двух слов, ставим между ними <R> типа cat <R> bag и поучаем кота в мешке.
Artefacts: инструмент для генерации 3D по изображению, подойдёт например для геймдизайна, AR, 3D-принтинга.
DETA: модель для сегментации объектов на картинке. Заодно вот лидерборд моделей на эту тему.
TeCH: метод генерации 3D по одной картинке с фокусом на зонах, вне кадра (вид со спины). Кода пока нет.
SceNeRFlow: метод создания динамичных NeRF-сцен, работающий и с продолжительными фрагментами.
Создание анимированных аватаров по видео, кода пока нет.
Google: поделились оригинальным датасетом Dreambooth.
DeDoDe: система для нахождения схожестей в изображениях.
🎸 ЗВУК 🎸
Bland: открыли API для телефонных звонков заскриптованных Python и Javascript... Звучит человечнее службы безопасности сбера.
🤖 ЧАТЫ 🤖
Новое облако для халявных генераций — SaturnCloud. Дают 150 часов в месяц погонять T4. Регайтесь с gmail и других буржуйских почт. *MGS box mode activated*
SQL Coder: модель заточенная под генерацию SQL с 15B параметров, которая из коробки выдаёт результаты лучше GPT-3.5, а если натренить на своих данных, то и лучше GPT-4.
LLM as Chatbot: в список локальных 70B моделей для чата добавились лама 2, WizardLM, Platypus2, Upstage 2.
DeciCoder-1B: локальная модель для генерации кода в Python, Java, и Javascript, натренированная на датасете Starcoder.
EasyEdit: инструмент для настройки ответов LLM (от 1B до 65B), включая GPT-J, LlaMA-2 и другие.
Решаем сложные математические задачи с помощью интерпретатором кода в GPT-4.
Наличие в документе метаданных улучшает ответы языковых моделей.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Появился колаб для CoDeF.
Runway: временно приостановили бесплатные генерации из-за наплыва пользователей.
ReVersion: указываем контекст из двух слов, ставим между ними <R> типа cat <R> bag и поучаем кота в мешке.
Artefacts: инструмент для генерации 3D по изображению, подойдёт например для геймдизайна, AR, 3D-принтинга.
DETA: модель для сегментации объектов на картинке. Заодно вот лидерборд моделей на эту тему.
TeCH: метод генерации 3D по одной картинке с фокусом на зонах, вне кадра (вид со спины). Кода пока нет.
SceNeRFlow: метод создания динамичных NeRF-сцен, работающий и с продолжительными фрагментами.
Создание анимированных аватаров по видео, кода пока нет.
Google: поделились оригинальным датасетом Dreambooth.
DeDoDe: система для нахождения схожестей в изображениях.
🎸 ЗВУК 🎸
Bland: открыли API для телефонных звонков заскриптованных Python и Javascript... Звучит человечнее службы безопасности сбера.
🤖 ЧАТЫ 🤖
Новое облако для халявных генераций — SaturnCloud. Дают 150 часов в месяц погонять T4. Регайтесь с gmail и других буржуйских почт. *MGS box mode activated*
SQL Coder: модель заточенная под генерацию SQL с 15B параметров, которая из коробки выдаёт результаты лучше GPT-3.5, а если натренить на своих данных, то и лучше GPT-4.
LLM as Chatbot: в список локальных 70B моделей для чата добавились лама 2, WizardLM, Platypus2, Upstage 2.
DeciCoder-1B: локальная модель для генерации кода в Python, Java, и Javascript, натренированная на датасете Starcoder.
EasyEdit: инструмент для настройки ответов LLM (от 1B до 65B), включая GPT-J, LlaMA-2 и другие.
Решаем сложные математические задачи с помощью интерпретатором кода в GPT-4.
Наличие в документе метаданных улучшает ответы языковых моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
Control LoRA: низко-ранговый файнтюн ControlNet с фокусом на эффективности и компактности для работы на большем количестве пользовательских GPU. Модели с рангом 256 уменьшены более, чем в 6 раз (с 4,7 ГБ до 738 Мб), а рангом 128 более, чем в 12 раз (до 377 Мб). Работает с ComfyUI и StableSwarmUI.
Media is too big
VIEW IN TELEGRAM
Snapchat сделали модель для нейронного рендеринга в реальном времени на мобильных устройствах. Она отличается от существующих методов, таких как NeRF, более быстрым временем обработки и меньшим размером, экономя память в 15 - 24 раза. Это достигается благодаря новой архитектуре, которая способна работать эффективно на мобильных устройствах. Например, она может отрендерить изображение размером 1008×756 всего за 18.04 мс на iPhone 13. При этом качество изображения остается на уровне с NeRF и даже превосходит некоторые другие мобильные решения.
Тренировка на 4 V100 с использованием 10 тыс картинок заняла 15 минут, на 1 GPU говорят 2 часов должно хватить.
Код
Тренировка на 4 V100 с использованием 10 тыс картинок заняла 15 минут, на 1 GPU говорят 2 часов должно хватить.
Код