This media is not supported in your browser
VIEW IN TELEGRAM
Пока про Comfy говорим. Наткнулся тут на Comfyui-FlowChain. С его помощью можно конвертировать свои воркфлоу в ноды, и соединять воркфлоу между собой.
Автор говорит, что вшитая в Comfy фича для группировки "convert to group node" может вызывать баги и имеет ограничения, а его решение их обходит.
Пока не тестил. Бэкапьтесь, если что.
Гитхаб
Автор говорит, что вшитая в Comfy фича для группировки "convert to group node" может вызывать баги и имеет ограничения, а его решение их обходит.
Пока не тестил. Бэкапьтесь, если что.
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
RhymesAI: полку опенсорсных генераторов видео пополнение — Allegro.
Что тут у нас:
* Видео 720p в 15 к/с. Пока только text-2-video, вроде с хорошим следованием промту. Можно интерполировать до 30 к/с через EMA-VFI. Если что, с помощью Flowframes можно и больше.
* Нужно 9,3 ГБ VRAM ибо модель маленькая, но эффективная (175M VideoVAE // 2,8B DiT). Остальное пойдёт в RAM. Если вырубить CPU offload, то будет жрать 27,5 ГБ VRAM.
* Ухватывает контекст 88 кадров (до 6 сек), что может пригодиться для продления видео как у Adobe, или редактирования как в Movie Gen
* Ограничения по контенту минимальные
* Код и веса открыты
* Лицензия Apache 2
Генерируемые видео по качеству и консистентности лучше, чем у CogVideoX и других опенсорных альтернатив. Я бы даже сказал, если оно реально как на примерах, то может стать щелчком по лбу и некоторым платным моделям. Но сколько уходит на 1 видео и насколько контролируем в реальности результат неясно. Надо тестить.
Дальше планируют: image-2-video, мульти-GPU генерацию, контроль движения, и создание видео на основе раскадровок. Если последнее будет как когда-то было обещано в NUWA — будет ништяк.
Анонс
Гитхаб
Хаггинг
Что тут у нас:
* Видео 720p в 15 к/с. Пока только text-2-video, вроде с хорошим следованием промту. Можно интерполировать до 30 к/с через EMA-VFI. Если что, с помощью Flowframes можно и больше.
* Нужно 9,3 ГБ VRAM ибо модель маленькая, но эффективная (175M VideoVAE // 2,8B DiT). Остальное пойдёт в RAM. Если вырубить CPU offload, то будет жрать 27,5 ГБ VRAM.
* Ухватывает контекст 88 кадров (до 6 сек), что может пригодиться для продления видео как у Adobe, или редактирования как в Movie Gen
* Ограничения по контенту минимальные
* Код и веса открыты
* Лицензия Apache 2
Генерируемые видео по качеству и консистентности лучше, чем у CogVideoX и других опенсорных альтернатив. Я бы даже сказал, если оно реально как на примерах, то может стать щелчком по лбу и некоторым платным моделям. Но сколько уходит на 1 видео и насколько контролируем в реальности результат неясно. Надо тестить.
Дальше планируют: image-2-video, мульти-GPU генерацию, контроль движения, и создание видео на основе раскадровок. Если последнее будет как когда-то было обещано в NUWA — будет ништяк.
Анонс
Гитхаб
Хаггинг
StabilityAI: стараются исправиться и выпустили Stable Diffusion 3.5.
В релиз входят версии Large и Turbo. Первая имеет 8B параметров и заточена работать в разрешении 1024х1024, а вторая является её ускоренной (дистиллированной) версией, выдающей в 4 шага при CFG 1.2 результат схожий с 30 шагами в базовой модели. 29 октября ещё выкатят Medium 2.5B с исправленной MMDiT-X архитектурой и возможностью генерить до 2048х2048.
В этот раз Stability оптимизировали модель для тренировок на её основе. Также это привело к тому, что результаты по одному и тому же промту могут быть разные, даже если сид зафиксирован. Нужно писать промты детальнее.
Пока генерить можно либо в командной строке из папки с SD 3.5, либо в Comfy (обновитесь до последней версии).
Весят Large и Turbo одинаково по 16,5 ГБ и жрут до 20 ГБ VRAM на одну x1024 картинку, если гонять их через Comfy (22 ГБ на 4 картинки). Если просто запускать командами из папки, то не хватит и 24 ГБ — оно полезет в RAM.
В Large на одно 1024х1024 изображение в 30 шагов нужно около 15 секунд на 4090, на 4 картинки 1 минута. В Turbo при 4 шагах 2-3 сек. Это в Comfy, из командной строки в Large 40 сек на картинку тратится мбо модель, clip и vae загружаются/выгружаются при каждой генерации.
Обе модели промту следуют так себе, а качество вообще швах, временами словно на голую SD 1.5 смотришь. Опять артефакты, lowres шакальность и проблемы с анатомией. Я с Flux уже забыл, что это такое.
И если Flux это была любовь с первого промта, то тут видать только острозаточенные лоры дадут поймать то, что ты ищешь. Из коробки может только если что-то абстрактное или артовое даётся приемлемо. Видать поэтому фокус действительно на кастомизиции-тренировке модели.
При этом TDP (энергопотребление) доходит до 499 Вт, что даже выше целевых 480 Вт для игрового режима у 4090.
Нормально ли видюху долго гонять на мощностях выше целевых при условии, что охлаждение удерживает температуру в пределах 65-75 градусов? Пишите в комментах.
В плане лицензии, SD 3.5 позволяет свободное коммерческое использование, если годовой заработок на ней до $1 млн.
В общем, комьюнити сделало из SD 1.5 конфетку. Будем наблюдать, как сообщество примет и разовьёт SD 3.5.
Анонс
Гитхаб
Хаггинг
Comfy воркфлоу
Демо Large
Демо Turbo
В релиз входят версии Large и Turbo. Первая имеет 8B параметров и заточена работать в разрешении 1024х1024, а вторая является её ускоренной (дистиллированной) версией, выдающей в 4 шага при CFG 1.2 результат схожий с 30 шагами в базовой модели. 29 октября ещё выкатят Medium 2.5B с исправленной MMDiT-X архитектурой и возможностью генерить до 2048х2048.
В этот раз Stability оптимизировали модель для тренировок на её основе. Также это привело к тому, что результаты по одному и тому же промту могут быть разные, даже если сид зафиксирован. Нужно писать промты детальнее.
Пока генерить можно либо в командной строке из папки с SD 3.5, либо в Comfy (обновитесь до последней версии).
Весят Large и Turbo одинаково по 16,5 ГБ и жрут до 20 ГБ VRAM на одну x1024 картинку, если гонять их через Comfy (22 ГБ на 4 картинки). Если просто запускать командами из папки, то не хватит и 24 ГБ — оно полезет в RAM.
В Large на одно 1024х1024 изображение в 30 шагов нужно около 15 секунд на 4090, на 4 картинки 1 минута. В Turbo при 4 шагах 2-3 сек. Это в Comfy, из командной строки в Large 40 сек на картинку тратится мбо модель, clip и vae загружаются/выгружаются при каждой генерации.
Обе модели промту следуют так себе, а качество вообще швах, временами словно на голую SD 1.5 смотришь. Опять артефакты, lowres шакальность и проблемы с анатомией. Я с Flux уже забыл, что это такое.
И если Flux это была любовь с первого промта, то тут видать только острозаточенные лоры дадут поймать то, что ты ищешь. Из коробки может только если что-то абстрактное или артовое даётся приемлемо. Видать поэтому фокус действительно на кастомизиции-тренировке модели.
При этом TDP (энергопотребление) доходит до 499 Вт, что даже выше целевых 480 Вт для игрового режима у 4090.
Нормально ли видюху долго гонять на мощностях выше целевых при условии, что охлаждение удерживает температуру в пределах 65-75 градусов? Пишите в комментах.
В плане лицензии, SD 3.5 позволяет свободное коммерческое использование, если годовой заработок на ней до $1 млн.
В общем, комьюнити сделало из SD 1.5 конфетку. Будем наблюдать, как сообщество примет и разовьёт SD 3.5.
Анонс
Гитхаб
Хаггинг
Comfy воркфлоу
Демо Large
Демо Turbo
Так вот, про тренировку генератора речи e2f5 на датасете с русским языком.
На днях появился скрипт для файнтюна. Поставить можно либо с гитхаба, либо обновив/переустановив приложение в Pinokio. Если пойдёте вторым путём, при запуске e2f5 нажмите Stop в боковой панели и следом Train. Если появится тот же интерфейс, что и до этого, нажмите Refresh вверху Pinokio и тогда появится интерфейс для тренировки...Либо нажмите Stop в боковой панели... В общем смотрим первое видео в посте. UI/UX так себе, да.
По словам разработчика, здесь не получится на небольшом семпле данных зафайнтюнить модель — нужно тренировать с нуля на крупном датасете в 10к+ часов записей. Для справки: базовая модель тренилась на 95к часов английского и китайского в течении недели на 8 A100 с 80 ГБ VRAM.
Датасеты с русской речью есть на хаггинге. Но пока вижу, что звучащие дельно варианты входят в состав крупных мультиязычных датасетов и не ясно сколько там семплов на русском и как их выцеживать. Есть смысл достать нужное где-то ещё.
На гитхабе народ обсуждает процесс тренировки и у кого-то даже получается на 60 часах получить что-то годное после дня трени.
Локально, я закинул 3 минуты для теста. Оно сначала дробит файл на семплы и с помощью Whisper транскрибирует речь в текст.
Дальше на вкладке Train Data можно поиграться с настройками трени, или нажать авто, после чего настройки подберутся самостоятельно. На одну эпоху уходит ~17 секунд на 4090, а потребляется в это время около 19-20 ГБ VRAM. Возможно, если Whisper выгрузить из памяти то можно 4-5 ГБ ещё освободить. Кстати чекпоинты тяжелые, я сделал две трени (вторая на видео) и не успел оглянуться как в папке chkpt возлежало 194 ГБ с каждым файлом по 5 ГБ.
После трени идём во вкладку Test Model и там, где написано Chekpoint вставляем адрес до конкретного чекпоинта, на основе которого хотите генерить. Включая название файла и его расширение.
Нажимаем Random Sample и получаем кусок из закинутого ранее датасета (в моём случае 3 минут) с его транскрибацией. Вероятно этот шаг работает как guidance для модели, иначе не знаю зачем оно. Ниже пишем текст, который хотим озвучить и жмём Infer.
У меня на основе 3 минут получилась белиберда по содержанию, но тембр похож на мой. Первый раз когда прогонял было с китайским акцентом. Вероятно потому, что оно по умолчанию использует англо-китайский датасет Emilia.
В общем для весомых тестов нужно больше данных.
Гитхаб
Требования к датасету
Установка через Pinokio
Обсуждение процесса тренировки
На днях появился скрипт для файнтюна. Поставить можно либо с гитхаба, либо обновив/переустановив приложение в Pinokio. Если пойдёте вторым путём, при запуске e2f5 нажмите Stop в боковой панели и следом Train. Если появится тот же интерфейс, что и до этого, нажмите Refresh вверху Pinokio и тогда появится интерфейс для тренировки...Либо нажмите Stop в боковой панели... В общем смотрим первое видео в посте. UI/UX так себе, да.
По словам разработчика, здесь не получится на небольшом семпле данных зафайнтюнить модель — нужно тренировать с нуля на крупном датасете в 10к+ часов записей. Для справки: базовая модель тренилась на 95к часов английского и китайского в течении недели на 8 A100 с 80 ГБ VRAM.
Датасеты с русской речью есть на хаггинге. Но пока вижу, что звучащие дельно варианты входят в состав крупных мультиязычных датасетов и не ясно сколько там семплов на русском и как их выцеживать. Есть смысл достать нужное где-то ещё.
На гитхабе народ обсуждает процесс тренировки и у кого-то даже получается на 60 часах получить что-то годное после дня трени.
Локально, я закинул 3 минуты для теста. Оно сначала дробит файл на семплы и с помощью Whisper транскрибирует речь в текст.
Дальше на вкладке Train Data можно поиграться с настройками трени, или нажать авто, после чего настройки подберутся самостоятельно. На одну эпоху уходит ~17 секунд на 4090, а потребляется в это время около 19-20 ГБ VRAM. Возможно, если Whisper выгрузить из памяти то можно 4-5 ГБ ещё освободить. Кстати чекпоинты тяжелые, я сделал две трени (вторая на видео) и не успел оглянуться как в папке chkpt возлежало 194 ГБ с каждым файлом по 5 ГБ.
После трени идём во вкладку Test Model и там, где написано Chekpoint вставляем адрес до конкретного чекпоинта, на основе которого хотите генерить. Включая название файла и его расширение.
Нажимаем Random Sample и получаем кусок из закинутого ранее датасета (в моём случае 3 минут) с его транскрибацией. Вероятно этот шаг работает как guidance для модели, иначе не знаю зачем оно. Ниже пишем текст, который хотим озвучить и жмём Infer.
У меня на основе 3 минут получилась белиберда по содержанию, но тембр похож на мой. Первый раз когда прогонял было с китайским акцентом. Вероятно потому, что оно по умолчанию использует англо-китайский датасет Emilia.
В общем для весомых тестов нужно больше данных.
Гитхаб
Требования к датасету
Установка через Pinokio
Обсуждение процесса тренировки
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Midjourney тоже, как и обещали, выкатили новый web-editor для картинок.
"Тоже" - потому что вчера Ideogram зарелизил свой Canvas - и там, наверное, все выглядит понаряднее, с учетом идеограмского inpaint и outpaint.
В Midjourney теперь есть свой ControlNet (вроде как Depth) и возможность загружать картинки извне и использовать их как контролирующие изображения. Ну и редактор картинок.
Те, кто сидят на Stable Diffusion\Flux\Fooocus\Invoke\Krita просто пожмут плечами сочувственно, у них это есть 2 тысячи лет уже.
Идеограммщики скажут, а у нас лучше.
chatGPT и DALL·E 3 такие: нет, не слышали, но вы держитесь.
Midjourney фанаты, подобно поклонникам эппле, радостно возопят "ура".
Ну и это здорово, что есть конкуренция, все-таки у мидджуниоров огромное сообщество и оно, наконец, дождалось, пусть ограниченного, но контролНета и возможностью хоть как-то управлять картинками.
Я-то жду от них совсем других новостей до конца года.
Но есть коричневая вишняшка: это только для тех, кто нагенерил 10 000 картинок через Midjourney. Остальным будет позже.
Подсобрал вам видосов и картинок, как это выглядит.
И да, retexturing - это ребрендинг ControlNet Depth от Midjourney.
@cgevent
"Тоже" - потому что вчера Ideogram зарелизил свой Canvas - и там, наверное, все выглядит понаряднее, с учетом идеограмского inpaint и outpaint.
В Midjourney теперь есть свой ControlNet (вроде как Depth) и возможность загружать картинки извне и использовать их как контролирующие изображения. Ну и редактор картинок.
Те, кто сидят на Stable Diffusion\Flux\Fooocus\Invoke\Krita просто пожмут плечами сочувственно, у них это есть 2 тысячи лет уже.
Идеограммщики скажут, а у нас лучше.
chatGPT и DALL·E 3 такие: нет, не слышали, но вы держитесь.
Midjourney фанаты, подобно поклонникам эппле, радостно возопят "ура".
Ну и это здорово, что есть конкуренция, все-таки у мидджуниоров огромное сообщество и оно, наконец, дождалось, пусть ограниченного, но контролНета и возможностью хоть как-то управлять картинками.
Я-то жду от них совсем других новостей до конца года.
Но есть коричневая вишняшка: это только для тех, кто нагенерил 10 000 картинок через Midjourney. Остальным будет позже.
Подсобрал вам видосов и картинок, как это выглядит.
И да, retexturing - это ребрендинг ControlNet Depth от Midjourney.
@cgevent