This media is not supported in your browser
VIEW IN TELEGRAM
Midjourney: выпустили видеогенератор Midjourney Video V1.
Работает в режиме img-2-video. Выбираете сгенерированную картинку или загружаете свою и нажимаете Animate. Промт автоматом улучшается. Есть и ручной режим, где можно описать, что именно нужно поменять/анимировать. Также в наличии настройка “low motion” и “high motion”. Первая для статичных медленных кадров, вторая для динамичных сцен. Ещё можно расширять видео на 4 сек с лимитом в 16 сек.
Картинка на выходе эстетичная, характерная для Midjourney. С динамикой работает хорошо, и вроде даже с анатомией неплохо. Но есть вопросы к детализации: заметны артефакты и пожатость изображения. Народ пишет на выходе 480p, что не чета даже опенсорсным генераторам типа Wan и сегодняшнему Hailuo 02.
Сами разрабы видят генерацию картинок и видео частью глобальной системы симуляции 3D пространства с управлением сценами и объектами в нём:
Доступно по подписке $10/мес. Генерация одного видоса стоит в 5 раз дороже картинки. Владельцы Pro подписок и выше смогут генерить в Relax режиме (тестируется).
Сайт
Анонс
Работает в режиме img-2-video. Выбираете сгенерированную картинку или загружаете свою и нажимаете Animate. Промт автоматом улучшается. Есть и ручной режим, где можно описать, что именно нужно поменять/анимировать. Также в наличии настройка “low motion” и “high motion”. Первая для статичных медленных кадров, вторая для динамичных сцен. Ещё можно расширять видео на 4 сек с лимитом в 16 сек.
Картинка на выходе эстетичная, характерная для Midjourney. С динамикой работает хорошо, и вроде даже с анатомией неплохо. Но есть вопросы к детализации: заметны артефакты и пожатость изображения. Народ пишет на выходе 480p, что не чета даже опенсорсным генераторам типа Wan и сегодняшнему Hailuo 02.
Сами разрабы видят генерацию картинок и видео частью глобальной системы симуляции 3D пространства с управлением сценами и объектами в нём:
Представьте себе систему искусственного интеллекта, которая генерирует изображения в режиме реального времени. Вы можете приказать ей двигаться в 3D-пространстве, окружение и персонажи тоже двигаются, и вы можете взаимодействовать со всем.
Чтобы сделать это, нам нужны строительные блоки. Нам нужны визуальные образы (наши первые модели изображений). Мы должны заставить эти изображения двигаться (видеомодели). Мы должны иметь возможность перемещаться в пространстве (3D-модели) и делать все это *быстро* (модели реального времени).
В течение следующего года мы будем создавать эти части по отдельности, выпускать их, а затем медленно собирать все вместе в единую систему. Поначалу это может быть дорого, но очень скоро, этим смогут пользоваться все.
Доступно по подписке $10/мес. Генерация одного видоса стоит в 5 раз дороже картинки. Владельцы Pro подписок и выше смогут генерить в Relax режиме (тестируется).
Сайт
Анонс
This media is not supported in your browser
VIEW IN TELEGRAM
Nijijourney: версия Midjourney, натренированная на аниме и манге, теперь тоже генерирует видео.
Опенинг в посте сгенерирован целиком в Niji. То, что они повторно использовали пару фрагментов в видео намекает на уровень черрипикинга. Madhouse и MAPPA пока могут спать спокойно.
В целом всё равно выглядит годно. Качество картинки, планы, динамика и переходы действительно анимешные.
Чтобы начать, заходите на их сайт. Нажимаете Create, генерите/загружаете картинку, пишете промт, и вперёд.
Стиль изображения влияет на анимацию. Если картинка в стиле ТВ аниме, она будет иметь ТВшные движения. Если вкинуть реалистичный 3D рендер, движения будут отражать объём и реализм.
Правила написания хорошего промта:
* Описываем то, что можно увидеть, а не то, что персонаж чувствует.
* Описываем основное действие (что происходит)
* Описываем фоновое действие (происходящее вокруг в результате основного действия)
На выходе также 480p длиной в 5 сек. Если у вас есть подписка Midjourney, она тут тоже работает.
PS: осталось генерить сразу на рутрекер с сабами и голосами любимых актёров озвучки.
Сайт
Анонс
Опенинг в посте сгенерирован целиком в Niji. То, что они повторно использовали пару фрагментов в видео намекает на уровень черрипикинга. Madhouse и MAPPA пока могут спать спокойно.
В целом всё равно выглядит годно. Качество картинки, планы, динамика и переходы действительно анимешные.
Чтобы начать, заходите на их сайт. Нажимаете Create, генерите/загружаете картинку, пишете промт, и вперёд.
Стиль изображения влияет на анимацию. Если картинка в стиле ТВ аниме, она будет иметь ТВшные движения. Если вкинуть реалистичный 3D рендер, движения будут отражать объём и реализм.
Правила написания хорошего промта:
* Описываем то, что можно увидеть, а не то, что персонаж чувствует.
* Описываем основное действие (что происходит)
* Описываем фоновое действие (происходящее вокруг в результате основного действия)
На выходе также 480p длиной в 5 сек. Если у вас есть подписка Midjourney, она тут тоже работает.
PS: осталось генерить сразу на рутрекер с сабами и голосами любимых актёров озвучки.
Сайт
Анонс
Какое аниме вы хотели бы снять/продолжить/переделать?
Я писал почти 3 года назад, что было бы норм увидеть нейронно-фанатское продолжение Берсерка, раз Миуры уже нет с нами. А теперь есть возможность и видео генерить. Можно экранизовать историю по манге с начала, а не как её интерпретировали в аниме. Если NJ по копирайту и кровушке не стянет, то затюненные Wan и ко помогут.
Сам-то я бы хотел нормальной экранизации 2 сезона One Punch Man. Рисовка Мураты шикарна и то, что с ней сделали J.C.Staff должно караться просмотром всех филлеров Наруто как в Заводном апельсине.
Я писал почти 3 года назад, что было бы норм увидеть нейронно-фанатское продолжение Берсерка, раз Миуры уже нет с нами. А теперь есть возможность и видео генерить. Можно экранизовать историю по манге с начала, а не как её интерпретировали в аниме. Если NJ по копирайту и кровушке не стянет, то затюненные Wan и ко помогут.
Сам-то я бы хотел нормальной экранизации 2 сезона One Punch Man. Рисовка Мураты шикарна и то, что с ней сделали J.C.Staff должно караться просмотром всех филлеров Наруто как в Заводном апельсине.
Midjourney: заметили, что видео в соцсетях выглядят слишком пожато и оптимизировали их, дабы решить проблему.
Чтобы скачать видео оптимизированное для соцсетей, нажмите на нём правой кнопкой и выберите "Save for Social Media". С Nijijourney должно работать тоже.
На видосах пример до и после.
Про Midjourney Video 1
Про Nijijourney Video 1
Чтобы скачать видео оптимизированное для соцсетей, нажмите на нём правой кнопкой и выберите "Save for Social Media". С Nijijourney должно работать тоже.
На видосах пример до и после.
Про Midjourney Video 1
Про Nijijourney Video 1
Стоило мне упомянуть Берсерка и возможность его экранизации в нужном русле сообществом с помощью Midjourney // Nijijourney, как сразу Дима Алексеев в своём канале AI Filmmaker уже наваял видос.
Forwarded from Ai Filmmaker
Media is too big
VIEW IN TELEGRAM
Midjourney Video V1 - утраченные мечты стали еще ближе.
Я как и многие всей душой люблю аниме сериал "Берсерк" 1997 года ( Однажды мы с Ai Molodca даже случайно пришли на встречу в футболках с Berserk) и тоже испытываю разные чувства из-за трагедии, которая постигла великолепный анимационный проект. Закончившись на самом интересном месте, он не получил продолжения. Все последующие адаптации — бездушные 3D-римейки той же части истории. А мечты фанатов о продолжении так и остались мечтами. Хотя особо хардкорные даже начали делать сами .
Но тут вдруг сошлись звёзды. Выход видео модели Midjourney V1, которая побила всех конкурентов в сегменте анимации. И пост Андрея. Которые подарили мне шальную идею — немного заглянуть в светлое будущее, когда можно будет самому экранизировать мангу напрямую через нейросети. А поверьте, это вопрос времени.
И я попросил ChatGPT стилизовать кадры из манги. А он взял и сделал. Не с первого раза, не идеально - но сделал. А Midjourney V1 всё это органично заанимировал. Так я за выходные сжег все свои кредиты, но подложив тот самый трек - понял: это того стоило.
Ждем видео-версию Nijijourney, заточенную под аниме!
Ai Filmmaker подписаться.
Я как и многие всей душой люблю аниме сериал "Берсерк" 1997 года ( Однажды мы с Ai Molodca даже случайно пришли на встречу в футболках с Berserk) и тоже испытываю разные чувства из-за трагедии, которая постигла великолепный анимационный проект. Закончившись на самом интересном месте, он не получил продолжения. Все последующие адаптации — бездушные 3D-римейки той же части истории. А мечты фанатов о продолжении так и остались мечтами. Хотя особо хардкорные даже начали делать сами .
Но тут вдруг сошлись звёзды. Выход видео модели Midjourney V1, которая побила всех конкурентов в сегменте анимации. И пост Андрея. Которые подарили мне шальную идею — немного заглянуть в светлое будущее, когда можно будет самому экранизировать мангу напрямую через нейросети. А поверьте, это вопрос времени.
И я попросил ChatGPT стилизовать кадры из манги. А он взял и сделал. Не с первого раза, не идеально - но сделал. А Midjourney V1 всё это органично заанимировал. Так я за выходные сжег все свои кредиты, но подложив тот самый трек - понял: это того стоило.
Ждем видео-версию Nijijourney, заточенную под аниме!
Ai Filmmaker подписаться.
2
This media is not supported in your browser
VIEW IN TELEGRAM
Горячие опенсорсные девушки!
Контроль пламени с помощью масок в Wan. Залипательно.
А Midjourney так может?
Автор
Контроль пламени с помощью масок в Wan. Залипательно.
А Midjourney так может?
Автор
2
Бесшовные длинные видео.
Smooth Travel: у генераторов ваяющих видосы по двум кадрам есть проблема, что стык виден по цветам, подводящему движению, и паузе на месте шва.
Котаны с Banodoco, а именно его основатель Pom, сделал воркфлоу Smooth Travel для плавного перехода между ключевыми кадрами без этого косяка.
Работает на базе его же аниматора картинок Steerable Motion, для которого есть ноды в Comfy. Открывам воркфлоу, закидываем 7 изображений, пишем промт, выбираем нужные параметры и генерим. По ходу пьесы получаем 7 видео фрагментов, которые в конце объединяются в одно.
Воркфлоу по умолчанию настроен в 8 шагов генерить крупными 14B версиями Wan и VACE, но можно использовать и 1.3B. На удивление весьма неплохо выходит по качеству, если отключить TeaCache (для этой модели он и ни к чему). 14B очень хорошо сохраняет и дорисовывает детали. Между fp8 и fp16 разницы по скорости почти нет 57 сек/шаг против 58 сек/шаг ибо много обработки перекладывается на RAM, а по качеству она видна в детализации (нет пожатости).
FPS дефолтно стоит на 8, потому что сгенерившиеся фрагменты в конце с помощью FILM VFI интерполируются в 2 раза (или как сам поставишь) и сшиваются в итоговое видео. Я попробовал разный фреймрейт, не увидел сильной разницы по потреблению VRAM и оставил везде 24 fps, отключив интерполяцию. Что ещё дало и прирост скорости, ибо не нужно было ждать пока кадры соединятся и кэш отчистится.
Далее тесты на 4090 + 128 ГБ RAM, PyTorch 2.7, CUDA 12.9.
1.3B (fp16) скорость и потребление:
512х512, хрон 61 кадр, 8 fps, 8 шагов, 1,3 сек/шаг, TeaCache OFF, BlockSwap OFF, FLIM VFI ON ===
512х512, хрон 61 кадр, 24 fps, 8 шагов, 1,3 сек/шаг, TeaCache OFF, BlockSwap OFF ===
1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 13 сек/шаг, TeaCache OFF, BlockSwap OFF ===
1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 8,6 сек/шаг, TeaCache ON, BlockSwap OFF ===
14B (fp8) скорость и потребление:
512х512, хрон 61 кадр, 24 fps, 8 шагов, 6,5 сек/шаг, TeaCache OFF, BlockSwap OFF ===
1024x1024, хрон 61 кадр, 24 fps, 8 шагов, 57 сек/шаг, TeaCache OFF, BlockSwap 25 Wan / 5 VACE ===
14B (fp16) скорость и потребление:
512х512, хрон 61 кадр, 24 fps, 8 шагов, 9 сек/шаг, TeaCache OFF, BlockSwap 15 Wan / 5 VACE ===
1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 58 сек/шаг, TeaCache OFF, BlockSwap 30 Wan / 5 VACE ===
Каждый сгенерированный фрагмент съедает пару гигов RAM. Энергопотребление в моменте подлетает до 547 Вт.
Без BlockSwap запустить fp16 и частично fp8 не получалось, упиралось в VRAM. На дефолтных BlockSwap перекладывает 40 Wan и 5 VACE блоков трансформера с обработки видеопамятью на процессор и оперативку. Так он будет занимать 19 ГБ VRAM плюс 79 ГБ RAM.
Уменьшив количество блоков до 30 удалось загрузить VRAM до 24 ГБ, освободить оперативку до 69 RAM ибо оно в конце пиканёт до 117 ГБ, и получить ускорение в 2 секунды (58 сек против 56 сек), хотя от доп 5 ГБ VRAM ожидаешь большего. На этих настройках удалось получить максимальное качество в fp16, 1024х1024, 24 fps.
Стоит ещё поиграться с ускорялками помимо TeaCache. Fast fp16 тут работает и ускоряет 1.3b 512x512 с 1,3 сек до 1 сек без потери качества. Подрубить Torch Compile, пишут 30% буст должен быть. Посмотреть на разницу в замене блоков VACE на RAM. И там ещё в опциях новый тип внимания Flex Attention, который стоит затестить.
Из проявившихся проблем:
* Если картинки заметно отличаются, то могут быть видны логические блоки внутри цельного видео.
* Движения персонажа могут занимать больше времени , чем они должны. Чтобы это нивелировать вероятно придётся играться с длительностью и фреймретом.
Кстати разные ракурсы с котом я сгенерил халявными кредитами в Kontext на сайте BFL, и пока я тестил этот воркфлоу вышел в опенсорс Kontext Dev. Время тестов!
Comfy воркфлоу
Дискорд
Smooth Travel: у генераторов ваяющих видосы по двум кадрам есть проблема, что стык виден по цветам, подводящему движению, и паузе на месте шва.
Котаны с Banodoco, а именно его основатель Pom, сделал воркфлоу Smooth Travel для плавного перехода между ключевыми кадрами без этого косяка.
Работает на базе его же аниматора картинок Steerable Motion, для которого есть ноды в Comfy. Открывам воркфлоу, закидываем 7 изображений, пишем промт, выбираем нужные параметры и генерим. По ходу пьесы получаем 7 видео фрагментов, которые в конце объединяются в одно.
Воркфлоу по умолчанию настроен в 8 шагов генерить крупными 14B версиями Wan и VACE, но можно использовать и 1.3B. На удивление весьма неплохо выходит по качеству, если отключить TeaCache (для этой модели он и ни к чему). 14B очень хорошо сохраняет и дорисовывает детали. Между fp8 и fp16 разницы по скорости почти нет 57 сек/шаг против 58 сек/шаг ибо много обработки перекладывается на RAM, а по качеству она видна в детализации (нет пожатости).
FPS дефолтно стоит на 8, потому что сгенерившиеся фрагменты в конце с помощью FILM VFI интерполируются в 2 раза (или как сам поставишь) и сшиваются в итоговое видео. Я попробовал разный фреймрейт, не увидел сильной разницы по потреблению VRAM и оставил везде 24 fps, отключив интерполяцию. Что ещё дало и прирост скорости, ибо не нужно было ждать пока кадры соединятся и кэш отчистится.
Далее тесты на 4090 + 128 ГБ RAM, PyTorch 2.7, CUDA 12.9.
1.3B (fp16) скорость и потребление:
512х512, хрон 61 кадр, 8 fps, 8 шагов, 1,3 сек/шаг, TeaCache OFF, BlockSwap OFF, FLIM VFI ON ===
213 сек (3,5 мин) // 6,5 ГБ VRAM 512х512, хрон 61 кадр, 24 fps, 8 шагов, 1,3 сек/шаг, TeaCache OFF, BlockSwap OFF ===
115 сек (2 мин) // 6,5 ГБ VRAM1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 13 сек/шаг, TeaCache OFF, BlockSwap OFF ===
814 сек (13,5 мин) // 15,2 ГБ VRAM 1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 8,6 сек/шаг, TeaCache ON, BlockSwap OFF ===
723 сек (12 мин) // 15,2 ГБ VRAM 14B (fp8) скорость и потребление:
512х512, хрон 61 кадр, 24 fps, 8 шагов, 6,5 сек/шаг, TeaCache OFF, BlockSwap OFF ===
424 сек (7 мин) // 24 ГБ VRAM // 65 ГБ RAM1024x1024, хрон 61 кадр, 24 fps, 8 шагов, 57 сек/шаг, TeaCache OFF, BlockSwap 25 Wan / 5 VACE ===
2956 сек (49 мин) // 24 ГБ VRAM // 80 ГБ RAM14B (fp16) скорость и потребление:
512х512, хрон 61 кадр, 24 fps, 8 шагов, 9 сек/шаг, TeaCache OFF, BlockSwap 15 Wan / 5 VACE ===
497 сек (8 мин) // 24 ГБ VRAM // 85 ГБ RAM1024х1024, хрон 61 кадр, 24 fps, 8 шагов, 58 сек/шаг, TeaCache OFF, BlockSwap 30 Wan / 5 VACE ===
3015 сек (50 мин) // 24 ГБ VRAM // 117 ГБ RAMКаждый сгенерированный фрагмент съедает пару гигов RAM. Энергопотребление в моменте подлетает до 547 Вт.
Без BlockSwap запустить fp16 и частично fp8 не получалось, упиралось в VRAM. На дефолтных BlockSwap перекладывает 40 Wan и 5 VACE блоков трансформера с обработки видеопамятью на процессор и оперативку. Так он будет занимать 19 ГБ VRAM плюс 79 ГБ RAM.
Уменьшив количество блоков до 30 удалось загрузить VRAM до 24 ГБ, освободить оперативку до 69 RAM ибо оно в конце пиканёт до 117 ГБ, и получить ускорение в 2 секунды (58 сек против 56 сек), хотя от доп 5 ГБ VRAM ожидаешь большего. На этих настройках удалось получить максимальное качество в fp16, 1024х1024, 24 fps.
Стоит ещё поиграться с ускорялками помимо TeaCache. Fast fp16 тут работает и ускоряет 1.3b 512x512 с 1,3 сек до 1 сек без потери качества. Подрубить Torch Compile, пишут 30% буст должен быть. Посмотреть на разницу в замене блоков VACE на RAM. И там ещё в опциях новый тип внимания Flex Attention, который стоит затестить.
Из проявившихся проблем:
* Если картинки заметно отличаются, то могут быть видны логические блоки внутри цельного видео.
* Движения персонажа могут занимать больше времени , чем они должны. Чтобы это нивелировать вероятно придётся играться с длительностью и фреймретом.
Кстати разные ракурсы с котом я сгенерил халявными кредитами в Kontext на сайте BFL, и пока я тестил этот воркфлоу вышел в опенсорс Kontext Dev. Время тестов!
Comfy воркфлоу
Дискорд
Comfy: добавили ноду IntelVINO для оптимизации генерации на железе Intel, включая cpu, gpu, npu.
Нода
Для работы нужен Triton. Есть билд на Windows и на Linux. Я долго ходил вокруг да около него, не хотел и брыкался, а он поставился быстро и безболезненно. Главное следовать инструкциям с гитхаба. Бонусом идёт то, что он нужен для всяких Sage, Flash, и прочих атеншенов. Так что на OpenVINO с ним история не заканчивается.
Чтобы ноду привести в работу, нужно запустить Comfy с параметрами:
Для портативной версии:
Для декстопной (хотя я не нашёл в настройках где вбить):
Нода должна соединять загрузчик модели и KSampler как на видео. Если при запуске у вас будет ошибка про компилятор cl, добавьте путь до cl.exe в переменную среды Path. Путь типа такого:
Мне со всеми ошибками помог справиться бесплатный Grok. Можете юзать любую ллм на свой вкус, чтобы решить задачку.
Первый запуск может быть долгим из-за компиляциишейдеров торча в оптимизированную версию для запуска на своём железе. Второй должен быть значительно шустрее.
На моём i9 12900k первый прогон занял 50 минут на дефолтную генерацию через Flux Kontext в 20 шагов (на 4090 это 28 сек для сравнения). При этом температура цп поднимается до 87, а потребление RAM до 77 ГБ.
Второй прогон... также. Пока не ясно, что именно не так, будем выяснять. У кого производительность забустилась отпишитесь в комментах.
UPDATE: удалось завести. Первая генерация 37 секунд, потом ускоряет Kontext в fp8 с 24 сек на картинку до 16 сек. Если запустить в сочетании с SageAttention и флагом в батнике
Анонс
Triton (Windows)
Triton (Linux)
Нода
OpenVINO_TorchCompileModel ставится через Comfy менеджер. Апдейт позволяет получить существенное ускорение создания контента, не жертвуя качеством. Для работы нужен Triton. Есть билд на Windows и на Linux. Я долго ходил вокруг да около него, не хотел и брыкался, а он поставился быстро и безболезненно. Главное следовать инструкциям с гитхаба. Бонусом идёт то, что он нужен для всяких Sage, Flash, и прочих атеншенов. Так что на OpenVINO с ним история не заканчивается.
Чтобы ноду привести в работу, нужно запустить Comfy с параметрами:
Для портативной версии:
.\python_embeded\python.exe -s ComfyUI\main.py --cpu --use-pytorch-cross-attention --windows-standalone-build
pause
Для декстопной (хотя я не нашёл в настройках где вбить):
python3 main.py --cpu --use-pytorch-cross-attention
Нода должна соединять загрузчик модели и KSampler как на видео. Если при запуске у вас будет ошибка про компилятор cl, добавьте путь до cl.exe в переменную среды Path. Путь типа такого:
C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Tools\MSVC\14.43.34808\bin\Hostx64\x64
Мне со всеми ошибками помог справиться бесплатный Grok. Можете юзать любую ллм на свой вкус, чтобы решить задачку.
Первый запуск может быть долгим из-за компиляции
На моём i9 12900k первый прогон занял 50 минут на дефолтную генерацию через Flux Kontext в 20 шагов (на 4090 это 28 сек для сравнения). При этом температура цп поднимается до 87, а потребление RAM до 77 ГБ.
Второй прогон... также. Пока не ясно, что именно не так, будем выяснять. У кого производительность забустилась отпишитесь в комментах.
UPDATE: удалось завести. Первая генерация 37 секунд, потом ускоряет Kontext в fp8 с 24 сек на картинку до 16 сек. Если запустить в сочетании с SageAttention и флагом в батнике
--gpu --use-pytorch-cross-attention, то можно добить до 12 сек на генку, но может работать нестабильно. Папка python_embeded со всем нужным в комментах в виде архива. BF16 Kontext не ускоряется ибо не помещается целиком в 24 ГБ VRAM.Анонс
Triton (Windows)
Triton (Linux)
Обзор редактора картинок тестом Flux Kontext Dev от BFL. Подробнее про сам Kontext и его облачные версии я писал тут, а этот пост сконцентриуется на тестах опенсорсной версии Dev.
На релизе нам доступно два воркфлоу: одно для поэтапного редактирования картинки в виде изменения объектов, смены ракурса и освещения, или переноса объекта/стиля с рефа, а другое для объединения персонажей с разных картинок на одно изображение.
В обоих случаях стоит помнить, что Kontext заточена под последовательное редактирование короткими промтами. Подразумевается, что вы будете дробить общую задачу на более мелкие. Сгенерили нужное изменение — нажали refresh, и картинка подаётся на вход вместо оригинала. И так далее в глубину.
Но вместе с этим могут начать вклиниваться и нежелательные элементы: снижение разрешения, смещение цветов, итд. Так, что в идеале целевой контент должен быть на расстоянии 1 изменения от оригинала.
Поэтому очень важно писать промт в нужном формате для модели. Kontext очень капризная в этом плане: ей нужны и по-человечески простые короткие инструкции, и машинные тригеры с чётким описанием что заменить на что. Есть гайд по промтингу от самих BFL и от Comfy, очень помогает.
На картинках с таким подходом кожа выглядит отлично, без пластика, лицо и тело переносятся максимально близко к оригиналу, а детали вроде татуировок и аксессуаров улавливаются просто супер. Ощущается, что модель заточена под коммерческий контент, ибо одежду на персонажах она меняет на ура и удерживает детали принтов даже при смене стиля и угла обзора. Вместе с этим BFL упростили получение лицензии на коммерческое использование.
Также Comfy добавили фичу быстрого создания новой групповой ноды, чтобы можно было реще собрать витиеватое воркфлоу для поэтапного изменения контента и упрощения навигации по векторам развития сюжета.
Теперь к тестам Dev модели на 4090. Есть FP8 и есть BF16 версии.
FP8 влезает в 20 ГБ VRAM, пикуя до 22 ГБ. Генерит и следует промту хорошо, но видна пожатость изображения, детализация слабее, и она чаще отходит от оригинального лица.
24 сек на 1024х1024 в 20 шагов // воркфлоу редактирования
26 сек на 1635х1243 в 20 шагов // воркфлоу объединения
BF16 занимает 23,6 ГБ VRAM, не забивая её до отказа, и заходя в оперативку на десяток другой гигов с общим потреблением ~32 ГБ RAM. Здесь сетки уже не видно, картинка плавная и чёткая, а промту следует ещё лучше. Разница по скорости с fp8 в пару секунд, а по качеству она видна на глаз — если есть 24 ГБ VRAM, запускаем BF16 без оглядки.
28 сек на 1024х1024 в 20 шагов // воркфлоу редактирования
35 сек на 1635х1243 в 20 шагов // воркфлоу объединения
На 5090 при тех же параметрах редактирование 18 сек занимает.
Тут ещё и ускорение через ноду OpenVINO подъехало.
Тренировку я ещё не тестировал, но вы можете посмотреть на эту тему заметки от разрабов Comfy с их стрима, где они сравнивают Kontext и OmniGen2.
В один пост все не вместилось — далее будут наблюдения и замечания.
Анонс Kontext Dev
Хаггинг (FP8)
Хаггинг (BF16)
Гайд по промтингу (BFL)
Гайд по промтингу (Comfy)
Подробнее про Kontext
На релизе нам доступно два воркфлоу: одно для поэтапного редактирования картинки в виде изменения объектов, смены ракурса и освещения, или переноса объекта/стиля с рефа, а другое для объединения персонажей с разных картинок на одно изображение.
В обоих случаях стоит помнить, что Kontext заточена под последовательное редактирование короткими промтами. Подразумевается, что вы будете дробить общую задачу на более мелкие. Сгенерили нужное изменение — нажали refresh, и картинка подаётся на вход вместо оригинала. И так далее в глубину.
Но вместе с этим могут начать вклиниваться и нежелательные элементы: снижение разрешения, смещение цветов, итд. Так, что в идеале целевой контент должен быть на расстоянии 1 изменения от оригинала.
Поэтому очень важно писать промт в нужном формате для модели. Kontext очень капризная в этом плане: ей нужны и по-человечески простые короткие инструкции, и машинные тригеры с чётким описанием что заменить на что. Есть гайд по промтингу от самих BFL и от Comfy, очень помогает.
На картинках с таким подходом кожа выглядит отлично, без пластика, лицо и тело переносятся максимально близко к оригиналу, а детали вроде татуировок и аксессуаров улавливаются просто супер. Ощущается, что модель заточена под коммерческий контент, ибо одежду на персонажах она меняет на ура и удерживает детали принтов даже при смене стиля и угла обзора. Вместе с этим BFL упростили получение лицензии на коммерческое использование.
Также Comfy добавили фичу быстрого создания новой групповой ноды, чтобы можно было реще собрать витиеватое воркфлоу для поэтапного изменения контента и упрощения навигации по векторам развития сюжета.
Теперь к тестам Dev модели на 4090. Есть FP8 и есть BF16 версии.
FP8 влезает в 20 ГБ VRAM, пикуя до 22 ГБ. Генерит и следует промту хорошо, но видна пожатость изображения, детализация слабее, и она чаще отходит от оригинального лица.
24 сек на 1024х1024 в 20 шагов // воркфлоу редактирования
26 сек на 1635х1243 в 20 шагов // воркфлоу объединения
BF16 занимает 23,6 ГБ VRAM, не забивая её до отказа, и заходя в оперативку на десяток другой гигов с общим потреблением ~32 ГБ RAM. Здесь сетки уже не видно, картинка плавная и чёткая, а промту следует ещё лучше. Разница по скорости с fp8 в пару секунд, а по качеству она видна на глаз — если есть 24 ГБ VRAM, запускаем BF16 без оглядки.
28 сек на 1024х1024 в 20 шагов // воркфлоу редактирования
35 сек на 1635х1243 в 20 шагов // воркфлоу объединения
На 5090 при тех же параметрах редактирование 18 сек занимает.
Тут ещё и ускорение через ноду OpenVINO подъехало.
Тренировку я ещё не тестировал, но вы можете посмотреть на эту тему заметки от разрабов Comfy с их стрима, где они сравнивают Kontext и OmniGen2.
В один пост все не вместилось — далее будут наблюдения и замечания.
Анонс Kontext Dev
Хаггинг (FP8)
Хаггинг (BF16)
Гайд по промтингу (BFL)
Гайд по промтингу (Comfy)
Подробнее про Kontext