This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Higgsfield: выпустили Turbo версию своего генератора видео. Она в 1.5 раза быстрее базовой модели, на 30% дешевле, и генерации имеют приоритет в очереди.
Качество изображения на высоком уровне, а по реалистичности и динамике где-то даже превосходит конкурентов. Text-2-vid выдаёт 720p в 30fps, но на фантастичных сюжетах далёких от тренировочных датасетов легко словить шумы и артефакты. Для более стабильных результатов стоит использовать картинки, которые можно кормить разных размеров. Следованию промту хорошее (пусть и не без косяков) и есть улучшатель. Судя по черрипикам цензура лайтовая.
Отдельного внимания заслуживают пресеты движения камеры (похожее есть в Luma) и эффекты как в Pika. Их можно комбинировать и вес каждого менять ползунком как в Krea. Многие результаты на сайте и в твиттере выглядят довольно реалистично.
Сейчас они добавили 7 новых пресетов/эффектов:
* FACE PUNCH — удар в лицо, и не обязательно кулаком
* ARC (left/right) — облёт слева/справа
* JIB (up/down) — подъём/опускание камеры
* DOUBLE DOLLY — наезд или отъезд с изменением фокусного расстояния
* STATIC — статичная камера
Пресеты можно запускать без промта, но он не помешает. Я задал ARC RIGHT вокруг кота, а камера стала крутиться влево. Kling с этим справился ловчее, в том числе в плане качества.
Бесплатного аккаунта хватит на два видео и пару картинок. Одно видео генерится минут 10. Подписка от $9.
Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Качество изображения на высоком уровне, а по реалистичности и динамике где-то даже превосходит конкурентов. Text-2-vid выдаёт 720p в 30fps, но на фантастичных сюжетах далёких от тренировочных датасетов легко словить шумы и артефакты. Для более стабильных результатов стоит использовать картинки, которые можно кормить разных размеров. Следованию промту хорошее (пусть и не без косяков) и есть улучшатель. Судя по черрипикам цензура лайтовая.
Отдельного внимания заслуживают пресеты движения камеры (похожее есть в Luma) и эффекты как в Pika. Их можно комбинировать и вес каждого менять ползунком как в Krea. Многие результаты на сайте и в твиттере выглядят довольно реалистично.
Сейчас они добавили 7 новых пресетов/эффектов:
* FACE PUNCH — удар в лицо, и не обязательно кулаком
* ARC (left/right) — облёт слева/справа
* JIB (up/down) — подъём/опускание камеры
* DOUBLE DOLLY — наезд или отъезд с изменением фокусного расстояния
* STATIC — статичная камера
Пресеты можно запускать без промта, но он не помешает. Я задал ARC RIGHT вокруг кота, а камера стала крутиться влево. Kling с этим справился ловчее, в том числе в плане качества.
Бесплатного аккаунта хватит на два видео и пару картинок. Одно видео генерится минут 10. Подписка от $9.
Сайт
Твит
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Двойной 3D удар!
CSM: организовали на сайте редактирование 3D объектов чатом. Можно: вытаскивать объекты из сцены для img-2-3D; сегментировать на отдельные элементы чтобы потом собрать вместе, например, в блендоре; менять/удалять объекты, или менять их позу.
Есть 10 бесплатных кредитов в месяц на тесты.
Хуньянь-3D: на сайте обновился до V2.5. Количество параметров увеличилось в 10 раз до 10B. Вместе с этим улучшилась и детализация 3D объектов, появилась поддержка текстур высокого качества, и авториг (похожее недавно опенсорснули Tripo в UniRig)
В опенсорс в отличие от V2 модель не пошла (по крайне мере пока). Более детальный взгляд на релиз у Сергея в 4 постах.
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
CSM: организовали на сайте редактирование 3D объектов чатом. Можно: вытаскивать объекты из сцены для img-2-3D; сегментировать на отдельные элементы чтобы потом собрать вместе, например, в блендоре; менять/удалять объекты, или менять их позу.
Есть 10 бесплатных кредитов в месяц на тесты.
Хуньянь-3D: на сайте обновился до V2.5. Количество параметров увеличилось в 10 раз до 10B. Вместе с этим улучшилась и детализация 3D объектов, появилась поддержка текстур высокого качества, и авториг (похожее недавно опенсорснули Tripo в UniRig)
В опенсорс в отличие от V2 модель не пошла (по крайне мере пока). Более детальный взгляд на релиз у Сергея в 4 постах.
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Hailuo: добавили персонализацию (Subject reference) для генерации изображений. До этого оно работало только для видео.
Можно загрузить фото целевой персоны, создать несколько кадров, и понравившийся сгенерить в видео.
От одного фото многого ожидать не стоит, если только персоны уже не было в тренировочном датасете Hailuo. Если вы вкинули фото под углом, модель по умолчанию будет тянуть отобразить персонажа под тем же углом. Шаг в сторону и она начнёт терять пропорции, ибо не знает реальных данных персонажа. Ситуация ухудшается с отдалением от камеры.
Если они предложат тренировку на своём датасете по фото или видео, это может измениться.
Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Можно загрузить фото целевой персоны, создать несколько кадров, и понравившийся сгенерить в видео.
От одного фото многого ожидать не стоит, если только персоны уже не было в тренировочном датасете Hailuo. Если вы вкинули фото под углом, модель по умолчанию будет тянуть отобразить персонажа под тем же углом. Шаг в сторону и она начнёт терять пропорции, ибо не знает реальных данных персонажа. Ситуация ухудшается с отдалением от камеры.
Если они предложат тренировку на своём датасете по фото или видео, это может измениться.
Сайт
Твит
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI: запустили генерацию картинок моделью gpt-image-1 через API. Можно попробовать на Playground.
Она может использоваться как для создания новых изображений, редактирования существующих (например, для смены стиля), или композиции разных объектов вместе.
Работает с разрешениями 1024х1024, 1024х1536 (портрет), или 1536x1024 (пейзаж). Может выдавать картинки с прозрачным фоном. Есть три режима качества Low, Medium, High, каждый из которых потребляет своё количество токенов. Финальная цена за генерацию = количество входных токенов + токенов на редактирование img2img + выходных токенов.
На генерацию может уйти пара минут. Возможны проблемы с рендерингом текста, стабильностью персонажей, и композицией.
Либо можно воспользоваться платформами, на которые модель уже подрубили:
Comfy
Higgsfield
Krea
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Она может использоваться как для создания новых изображений, редактирования существующих (например, для смены стиля), или композиции разных объектов вместе.
Работает с разрешениями 1024х1024, 1024х1536 (портрет), или 1536x1024 (пейзаж). Может выдавать картинки с прозрачным фоном. Есть три режима качества Low, Medium, High, каждый из которых потребляет своё количество токенов. Финальная цена за генерацию = количество входных токенов + токенов на редактирование img2img + выходных токенов.
На генерацию может уйти пара минут. Возможны проблемы с рендерингом текста, стабильностью персонажей, и композицией.
Либо можно воспользоваться платформами, на которые модель уже подрубили:
Comfy
Higgsfield
Krea
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Wan: Alibaba выпустили обновлённый V 1.1 Fun контролнет для WAN.
Повысилось качество, стало больше динамики, и меньше артефактов. Помимо контроля видео по 2 кадрам, Canny, Depth, Pose, MLSD и траектории, теперь есть работа с референсным изображением, например, для анимации аватаров.
Также появились отдельные модели для управления камерой. Движения базовые (влево / вправо / вверх / вниз), но их можно комбинировать.
Натренировано выдавать до 81 кадра на 16 fps в разных разрешениях (512, 768, 1024). Минимум нужно 12 ГБ VRAM, для модели 1.3B. Для 14B лучше иметь 24ГБ+ VRAM.
Гитхаб
Хаггинг
Comfy (официальное)
Comfy (Kijai)
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Повысилось качество, стало больше динамики, и меньше артефактов. Помимо контроля видео по 2 кадрам, Canny, Depth, Pose, MLSD и траектории, теперь есть работа с референсным изображением, например, для анимации аватаров.
Также появились отдельные модели для управления камерой. Движения базовые (влево / вправо / вверх / вниз), но их можно комбинировать.
Натренировано выдавать до 81 кадра на 16 fps в разных разрешениях (512, 768, 1024). Минимум нужно 12 ГБ VRAM, для модели 1.3B. Для 14B лучше иметь 24ГБ+ VRAM.
Гитхаб
Хаггинг
Comfy (официальное)
Comfy (Kijai)
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
StepFun: выпустили Step1X-Edit для редактирования картинок текстом. Можно использовать для добавления / изменения / удаления объектов в кадре или смены стиля.
Неплохо справляется, например, с рекламным контентом, где объект хорошо выделен в кадре. С надписями работает хуже, чем KV-Edit.
Чтобы гонять локально без оффлоада в RAM, нужно 43 ГБ или 50ГБ VRAM для работы c разрешением 512 или 1024 соответственно. С оффлоадом 26 ГБ или 29 ГБ. Сообщество уже наваяло fp8 веса: самый лайтовый вариант запуска 18 ГБ VRAM.
Демо
Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Неплохо справляется, например, с рекламным контентом, где объект хорошо выделен в кадре. С надписями работает хуже, чем KV-Edit.
Чтобы гонять локально без оффлоада в RAM, нужно 43 ГБ или 50ГБ VRAM для работы c разрешением 512 или 1024 соответственно. С оффлоадом 26 ГБ или 29 ГБ. Сообщество уже наваяло fp8 веса: самый лайтовый вариант запуска 18 ГБ VRAM.
Демо
Сайт
Гитхаб
Хаггинг
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Bytedance: выпустили ID-Patch для групповой персонализации фото.
Демка работает с 2 персонами, но примеры есть и с 8. Закидываем фотки требуемых людей (порядок загрузки влияет на порядок в кадре), загружаем реф с позой, задаём промт + настройки, и генерим контент.
По скорости и качеству есть ощущение, что под капотом что-то вроде SD (апдейт, действительно SDXL). Лица шакалит даже если человек на фото прямо смотрит в камеру.
До этого они дропнули Infinite You (InfU) для генерации картинок с одной персоной.
Больше, чем с одним человеком в кадре работает ещё, например, InstantID.
Демо
Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Демка работает с 2 персонами, но примеры есть и с 8. Закидываем фотки требуемых людей (порядок загрузки влияет на порядок в кадре), загружаем реф с позой, задаём промт + настройки, и генерим контент.
По скорости и качеству есть ощущение, что под капотом что-то вроде SD (апдейт, действительно SDXL). Лица шакалит даже если человек на фото прямо смотрит в камеру.
До этого они дропнули Infinite You (InfU) для генерации картинок с одной персоной.
Больше, чем с одним человеком в кадре работает ещё, например, InstantID.
Демо
Сайт
Гитхаб
Хаггинг
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM