Потестил Flux Lite от Freepik, являющийся ускоренной версией Flux Dev (дистилляция дистилляции?).
Данная версия имеет 8B параметров вместо 12B у оригинала. В ходе исследований Freepik выяснилось, что блоки в середине можно убрать без вреда для качества картинки.
Это позволило модели стать на 23% быстрее и занимать на 7 ГБ меньше RAM, без потери качества картинки. Изображения на выходе масимально близкие к базовой Dev. У меня на генерацию в среднем уходило 13-14 сек при CFG 3.5 в 24 шага 1024х1024, а сама модель не забивала все 24 ГБ VRAM.
Ostris уже опробовал и успешно натренировал лору на ней с помощью AI-Tools.
Рекомендуют Guidance_Scale ставить 3.5, а количество шагов между 22 и 30.
Freepik продолжать работать над тем, чтобы Flux в BF16 вмещался целиком в 24 ГБ VRAM.
Воркфлоу для комфи идёт в комплекте.
Быстрее SD 3.5 Large и несравнимо качественнее. Берём в работу!
Хаггинг
Воркфлоу
Данная версия имеет 8B параметров вместо 12B у оригинала. В ходе исследований Freepik выяснилось, что блоки в середине можно убрать без вреда для качества картинки.
Это позволило модели стать на 23% быстрее и занимать на 7 ГБ меньше RAM, без потери качества картинки. Изображения на выходе масимально близкие к базовой Dev. У меня на генерацию в среднем уходило 13-14 сек при CFG 3.5 в 24 шага 1024х1024, а сама модель не забивала все 24 ГБ VRAM.
Ostris уже опробовал и успешно натренировал лору на ней с помощью AI-Tools.
Рекомендуют Guidance_Scale ставить 3.5, а количество шагов между 22 и 30.
Freepik продолжать работать над тем, чтобы Flux в BF16 вмещался целиком в 24 ГБ VRAM.
Воркфлоу для комфи идёт в комплекте.
Быстрее SD 3.5 Large и несравнимо качественнее. Берём в работу!
Хаггинг
Воркфлоу
Можете на моём компе погенерить во Flux Lite, раскатал вам доступ. Работает и с компа и с телефона.
Воркфлоу в коментах. Вкиньте его в комфи как интерфейс откроется. Либо загрузите нажав Load и выбрав где оно. Если вы с телефона, скачайте файл (можно в телеге выбрать в меню файла Save to Downloads) и через Load укажите где он.
Убедитесь, что энкодеры указаны Clip L и Т5, а не Clip G (!). См. скрины в комментах
Для тех, кто мало знаком с комфи, чтобы сгенерить изображение пишете промт в поле ClipTextEncoderFlux и нажимаете Queue в панельке справа (если что гляньте скрины на оригинальном посте по Flux Lite). Промт надо писать два раза: один идёт для энкодера CLIP L, другой для T5. Ваша позиция в очереди отражается рядом с Queue, а в левом верхнем углу в процентах прогресс генерации.
Сохраняйте к себе понравившиеся картинки. Когда сессия закончится они удалятся.
Правила:
Хотелось бы чтобы VRAM хватало и не было сильных очередей (интересно посмотреть как комфи это разрулит). Поэтому меняйте только промт. Количество генераций (batch size), разрешение, количество шагов, итд, оставляйте как есть. И тогда у всех по идее на 1 картинку будет по ~13 сек.
Если знаете, что и как менять, так чтобы очередь для всех не становилась длиннее, то ок, заодно поделитесь опытом для всех в комментах.
UPD: сессия закрыта. Ожидайте следующую
Ссылка:
https://cu-ae-bradley-feeds.trycloudflare.com/
Воркфлоу в коментах. Вкиньте его в комфи как интерфейс откроется. Либо загрузите нажав Load и выбрав где оно. Если вы с телефона, скачайте файл (можно в телеге выбрать в меню файла Save to Downloads) и через Load укажите где он.
Убедитесь, что энкодеры указаны Clip L и Т5, а не Clip G (!). См. скрины в комментах
Для тех, кто мало знаком с комфи, чтобы сгенерить изображение пишете промт в поле ClipTextEncoderFlux и нажимаете Queue в панельке справа (если что гляньте скрины на оригинальном посте по Flux Lite). Промт надо писать два раза: один идёт для энкодера CLIP L, другой для T5. Ваша позиция в очереди отражается рядом с Queue, а в левом верхнем углу в процентах прогресс генерации.
Сохраняйте к себе понравившиеся картинки. Когда сессия закончится они удалятся.
Правила:
Хотелось бы чтобы VRAM хватало и не было сильных очередей (интересно посмотреть как комфи это разрулит). Поэтому меняйте только промт. Количество генераций (batch size), разрешение, количество шагов, итд, оставляйте как есть. И тогда у всех по идее на 1 картинку будет по ~13 сек.
Если знаете, что и как менять, так чтобы очередь для всех не становилась длиннее, то ок, заодно поделитесь опытом для всех в комментах.
UPD: сессия закрыта. Ожидайте следующую
Ссылка:
https://cu-ae-bradley-feeds.trycloudflare.com/
Для видеогенератора Allegro появился 1-кнопочный установщик в Pinokio.
Я затестил. Напомню что на выходе 6 сек видео 1280х720 в fps от 15 до 30. От комьюнити ещё появилась опция в 60 fps. Чтобы генерить полностью в видюхе нужно около 30 ГБ VRAM. По умолчанию включен CPU offload и в видюху идёт 9 ГБ, а остальное выгружается в RAM.
На дефолтных настройках в Guidance 7,5 и 20 шагов видео не особо стабильное с качеством 23 года и генерится оно 30 минут на 4090 (на 3090 по словам разрабов 1 час). Чтобы получить качество как в примерах из их галереи нужно ставить 100 шагов и использовать "теги на качество", например те, что они дают:
Негативный промт тоже уже вписан, но можно добавить/убавить.
Генерация в 100 шагов займёт 2 с небольшим часа. Ещё на хаггинге написано можно подрубить библиотеку imageio для улучшения картинки, но к этому не идёт никаких деталей. Кстати не заметил, чтобы выбор FPS влиял на время.
На выходе тогда будет видео с лучшим качеством из опенсорсных вариантов (возможно лучше только Moshi 1 от Genmo, который тоже просится на тест). Если бы Allegro вышел в прошлом году, то мог бы посоперничать с Gen-2, Pika 1, и некоторыми другими платными аналогами, но они уже ушли дальше с более качественными продуктами.
Разрабы планируют запилить Img-2-video и контроль движения. Это хорошо, но вот ещё бы скорости, а то 2 часа на 6 сек это не интерактивчик. Возможно FasterCache и другие оптимизации скоро завезут, и тогда станет ловчее.
Установка в Pinokio
Подробнее про Allegro
Я затестил. Напомню что на выходе 6 сек видео 1280х720 в fps от 15 до 30. От комьюнити ещё появилась опция в 60 fps. Чтобы генерить полностью в видюхе нужно около 30 ГБ VRAM. По умолчанию включен CPU offload и в видюху идёт 9 ГБ, а остальное выгружается в RAM.
На дефолтных настройках в Guidance 7,5 и 20 шагов видео не особо стабильное с качеством 23 года и генерится оно 30 минут на 4090 (на 3090 по словам разрабов 1 час). Чтобы получить качество как в примерах из их галереи нужно ставить 100 шагов и использовать "теги на качество", например те, что они дают:
Prompt: (masterpiece), (best quality), (ultra-detailed), (unwatermarked),
твой промт
emotional, harmonious, vignette, 4k epic detailed, shot on kodak, 35mm photo, sharp focus, high budget, cinemascope, moody, epic, gorgeous
Негативный промт тоже уже вписан, но можно добавить/убавить.
Генерация в 100 шагов займёт 2 с небольшим часа. Ещё на хаггинге написано можно подрубить библиотеку imageio для улучшения картинки, но к этому не идёт никаких деталей. Кстати не заметил, чтобы выбор FPS влиял на время.
На выходе тогда будет видео с лучшим качеством из опенсорсных вариантов (возможно лучше только Moshi 1 от Genmo, который тоже просится на тест). Если бы Allegro вышел в прошлом году, то мог бы посоперничать с Gen-2, Pika 1, и некоторыми другими платными аналогами, но они уже ушли дальше с более качественными продуктами.
Разрабы планируют запилить Img-2-video и контроль движения. Это хорошо, но вот ещё бы скорости, а то 2 часа на 6 сек это не интерактивчик. Возможно FasterCache и другие оптимизации скоро завезут, и тогда станет ловчее.
Установка в Pinokio
Подробнее про Allegro
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Пришло письмо от Wonder Dynamics
Они выпускают Wonder Animation - и выглядит это невыносимо круто.
И да, это вам не однокнопочный ViggleAI - это профессиональное решение со сложным управление.
Поглядите видео, они преобразуют отснятый материал в 3D-сцены со всеми настройками камеры, анимацией тела и лица персонажа и полностью редактируемыми элементами в одной 3D-сцене. Тут много !.
Может кушать несколько планов с разными углами (широкий, средний, крупный). Затем ИИ реконструирует сцену в 3D и согласует положение и движение каждой камеры с персонажами и окружающей средой (анимация, персонаж, окружение, освещение и трекинг камеры)
Напомню, что пять месяцев назад их пожрал Автодеск. Но пока не убрал под сукно, а даже рекламирует как тул для Maya, Blender or Unreal.
https://adsknews.autodesk.com/en/news/autodesk-launches-wonder-animation-video-to-3d-scene-technology/
Цены профессиональные, особенно в пересчет на секунды.
@cgevent
Они выпускают Wonder Animation - и выглядит это невыносимо круто.
И да, это вам не однокнопочный ViggleAI - это профессиональное решение со сложным управление.
Поглядите видео, они преобразуют отснятый материал в 3D-сцены со всеми настройками камеры, анимацией тела и лица персонажа и полностью редактируемыми элементами в одной 3D-сцене. Тут много !.
Может кушать несколько планов с разными углами (широкий, средний, крупный). Затем ИИ реконструирует сцену в 3D и согласует положение и движение каждой камеры с персонажами и окружающей средой (анимация, персонаж, окружение, освещение и трекинг камеры)
Напомню, что пять месяцев назад их пожрал Автодеск. Но пока не убрал под сукно, а даже рекламирует как тул для Maya, Blender or Unreal.
https://adsknews.autodesk.com/en/news/autodesk-launches-wonder-animation-video-to-3d-scene-technology/
Цены профессиональные, особенно в пересчет на секунды.
@cgevent
Forwarded from Ai Filmmaker (Dmitriy Alekseev)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Телега продолжает обрастать полезными обновлениями.
Выбор качества видео. Теперь можно закидывать видосы несжатыми сразу в канал и платформа их оптимизирует под подходящий вариант для пользователя. А в настройках видео юзер может сам выбрать качество. Пока на примерах максимум стоит 1080p, но думаю позже и 4к подтянут.
Это +1 камешек в огород YouTube. Скорее всего Паша потом пришьёт монетизацию через списывание звёзд при просмотре (скажем 0.1 за стрим) или доход с рекламы Telegram Ads во время показа видео. Там глядишь и музыкальный плеер обновят и сделают выплаты за стримы тоже в звёздах.
Добавление медиа к уже вышедшему посту. Гром и молнии, как долго я этого ждал! Теперь не надо удалять сообщение, если случайно отправил без картинки/видео — можно сразу прицепить недостающее (правда только один файл). В планировщике канала станет удобнее ваять посты.
Реклама от Telegram Ads станет показываться в ботах и мини-приложениях. Монетизация новостных каналов нативной рекламой телеги осложнена тем, что больше 50% пользователей должны быть не из России, Украины, Израиля и некоторых других стран. А боты/мини-апы могут таргетироваться на глобальную аудиторию, которая сама выберет язык в приложении, и значит тут может быть доход с рекламы. Единственно, админ не может выбирать какую рекламу показывать и показывать ли вообще. Ну штош.
В общем отличная обнова! Для меня — меньше итераций в работе с контентом, для вас — посты чаще.
Выбор качества видео. Теперь можно закидывать видосы несжатыми сразу в канал и платформа их оптимизирует под подходящий вариант для пользователя. А в настройках видео юзер может сам выбрать качество. Пока на примерах максимум стоит 1080p, но думаю позже и 4к подтянут.
Это +1 камешек в огород YouTube. Скорее всего Паша потом пришьёт монетизацию через списывание звёзд при просмотре (скажем 0.1 за стрим) или доход с рекламы Telegram Ads во время показа видео. Там глядишь и музыкальный плеер обновят и сделают выплаты за стримы тоже в звёздах.
Добавление медиа к уже вышедшему посту. Гром и молнии, как долго я этого ждал! Теперь не надо удалять сообщение, если случайно отправил без картинки/видео — можно сразу прицепить недостающее (правда только один файл). В планировщике канала станет удобнее ваять посты.
Реклама от Telegram Ads станет показываться в ботах и мини-приложениях. Монетизация новостных каналов нативной рекламой телеги осложнена тем, что больше 50% пользователей должны быть не из России, Украины, Израиля и некоторых других стран. А боты/мини-апы могут таргетироваться на глобальную аудиторию, которая сама выберет язык в приложении, и значит тут может быть доход с рекламы. Единственно, админ не может выбирать какую рекламу показывать и показывать ли вообще. Ну штош.
В общем отличная обнова! Для меня — меньше итераций в работе с контентом, для вас — посты чаще.
Media is too big
VIEW IN TELEGRAM
Invoke: обновили свой генеративный опенсорсный аналог фотошопа до V 5.3.1. Писал подробнее про него здесь.
Что нового:
* Flux-IP Adapter для генерации картинок в стиле прицепленного рефа.
* Возможность маркерами выделять объекты на слое. Работает и на сложных фонах. Под капотом Segment Anything.
* Улучшения в смешивании слоёв.
* И другое по мелочи.
PS: тестим оптимизацию. Этот видос залит в 1080р (90 МБ). Как у вас воспроизводится? Обновите телегу, если не видно варианта выбора качества.
Гитхаб
Сайт
Про Invoke
Что нового:
* Flux-IP Adapter для генерации картинок в стиле прицепленного рефа.
* Возможность маркерами выделять объекты на слое. Работает и на сложных фонах. Под капотом Segment Anything.
* Улучшения в смешивании слоёв.
* И другое по мелочи.
PS: тестим оптимизацию. Этот видос залит в 1080р (90 МБ). Как у вас воспроизводится? Обновите телегу, если не видно варианта выбора качества.
Гитхаб
Сайт
Про Invoke
This media is not supported in your browser
VIEW IN TELEGRAM
CSM: обновили генератор 3D объектов по изображению.
Добавили модель для скульптурирования с ретопологией. Для последнего используется своя языковая модель, и на обработку уходят минуты.
Чтобы получить меш в высоком качестве с ретопом нужна подписка. Без неё выходит не айс.
Твит
Добавили модель для скульптурирования с ретопологией. Для последнего используется своя языковая модель, и на обработку уходят минуты.
Чтобы получить меш в высоком качестве с ретопом нужна подписка. Без неё выходит не айс.
Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Suno: добавили Personas (Персоны) — инструмент для выделения характерных черт композиции (вокал, стиль, атмосферу), чтобы их можно было переложить на другие треки.
Хотите, чтобы вашу демку исполнил Фредди Меркьюри — держите. Или Metallica перепела Царица.
Персоны могут быть публичными или приватными. Публичные доступны всем на платформе для персонализации чужих треков в своём стиле.
Выделить персону пока можно только у генераций. То есть, загрузить трек и завируситься на эссенции своего характерного стиля ещё нельзя. Потом скорее всего подтянут, а там глядишь и монетизацию за каждое использование сделают.
Фича доступна платным подписчикам.
Твит
Сайт
Хотите, чтобы вашу демку исполнил Фредди Меркьюри — держите. Или Metallica перепела Царица.
Персоны могут быть публичными или приватными. Публичные доступны всем на платформе для персонализации чужих треков в своём стиле.
Выделить персону пока можно только у генераций. То есть, загрузить трек и завируситься на эссенции своего характерного стиля ещё нельзя. Потом скорее всего подтянут, а там глядишь и монетизацию за каждое использование сделают.
Фича доступна платным подписчикам.
Твит
Сайт