Psy Eyes

StabilityAI: стараются исправиться и выпустили Stable Diffusion 3.5.

В релиз входят версии Large и Turbo. Первая имеет 8B параметров и заточена работать в разрешении 1024х1024, а вторая является её ускоренной (дистиллированной) версией, выдающей в 4 шага при CFG 1.2 результат схожий с 30 шагами в базовой модели. 29 октября ещё выкатят Medium 2.5B с исправленной MMDiT-X архитектурой и возможностью генерить до 2048х2048.

В этот раз Stability оптимизировали модель для тренировок на её основе. Также это привело к тому, что результаты по одному и тому же промту могут быть разные, даже если сид зафиксирован. Нужно писать промты детальнее.

Пока генерить можно либо в командной строке из папки с SD 3.5, либо в Comfy (обновитесь до последней версии).

Весят Large и Turbo одинаково по 16,5 ГБ и жрут до 20 ГБ VRAM на одну x1024 картинку, если гонять их через Comfy (22 ГБ на 4 картинки). Если просто запускать командами из папки, то не хватит и 24 ГБ — оно полезет в RAM.

В Large на одно 1024х1024 изображение в 30 шагов нужно около 15 секунд на 4090, на 4 картинки 1 минута. В Turbo при 4 шагах 2-3 сек. Это в Comfy, из командной строки в Large 40 сек на картинку тратится мбо модель, clip и vae загружаются/выгружаются при каждой генерации.

Обе модели промту следуют так себе, а качество вообще швах, временами словно на голую SD 1.5 смотришь. Опять артефакты, lowres шакальность и проблемы с анатомией. Я с Flux уже забыл, что это такое.

И если Flux это была любовь с первого промта, то тут видать только острозаточенные лоры дадут поймать то, что ты ищешь. Из коробки может только если что-то абстрактное или артовое даётся приемлемо. Видать поэтому фокус действительно на кастомизиции-тренировке модели.

При этом TDP (энергопотребление) доходит до 499 Вт, что даже выше целевых 480 Вт для игрового режима у 4090.

Нормально ли видюху долго гонять на мощностях выше целевых при условии, что охлаждение удерживает температуру в пределах 65-75 градусов? Пишите в комментах.

В плане лицензии, SD 3.5 позволяет свободное коммерческое использование, если годовой заработок на ней до $1 млн.

В общем, комьюнити сделало из SD 1.5 конфетку. Будем наблюдать, как сообщество примет и разовьёт SD 3.5.

Анонс
Гитхаб
Хаггинг
Comfy воркфлоу
Демо Large
Демо Turbo

1.6K views23:50

Psy Eyes

0:39

This media is not supported in your browser

Так вот, про тренировку генератора речи e2f5 на датасете с русским языком.

На днях появился скрипт для файнтюна. Поставить можно либо с гитхаба, либо обновив/переустановив приложение в Pinokio. Если пойдёте вторым путём, при запуске e2f5 нажмите Stop в боковой панели и следом Train. Если появится тот же интерфейс, что и до этого, нажмите Refresh вверху Pinokio и тогда появится интерфейс для тренировки...Либо нажмите Stop в боковой панели... В общем смотрим первое видео в посте. UI/UX так себе, да.

По словам разработчика, здесь не получится на небольшом семпле данных зафайнтюнить модель — нужно тренировать с нуля на крупном датасете в 10к+ часов записей. Для справки: базовая модель тренилась на 95к часов английского и китайского в течении недели на 8 A100 с 80 ГБ VRAM.

Датасеты с русской речью есть на хаггинге. Но пока вижу, что звучащие дельно варианты входят в состав крупных мультиязычных датасетов и не ясно сколько там семплов на русском и как их выцеживать. Есть смысл достать нужное где-то ещё.

На гитхабе народ обсуждает процесс тренировки и у кого-то даже получается на 60 часах получить что-то годное после дня трени.

Локально, я закинул 3 минуты для теста. Оно сначала дробит файл на семплы и с помощью Whisper транскрибирует речь в текст.

Дальше на вкладке Train Data можно поиграться с настройками трени, или нажать авто, после чего настройки подберутся самостоятельно. На одну эпоху уходит ~17 секунд на 4090, а потребляется в это время около 19-20 ГБ VRAM. Возможно, если Whisper выгрузить из памяти то можно 4-5 ГБ ещё освободить. Кстати чекпоинты тяжелые, я сделал две трени (вторая на видео) и не успел оглянуться как в папке chkpt возлежало 194 ГБ с каждым файлом по 5 ГБ.

После трени идём во вкладку Test Model и там, где написано Chekpoint вставляем адрес до конкретного чекпоинта, на основе которого хотите генерить. Включая название файла и его расширение.

Нажимаем Random Sample и получаем кусок из закинутого ранее датасета (в моём случае 3 минут) с его транскрибацией. Вероятно этот шаг работает как guidance для модели, иначе не знаю зачем оно. Ниже пишем текст, который хотим озвучить и жмём Infer.

У меня на основе 3 минут получилась белиберда по содержанию, но тембр похож на мой. Первый раз когда прогонял было с китайским акцентом. Вероятно потому, что оно по умолчанию использует англо-китайский датасет Emilia.

В общем для весомых тестов нужно больше данных.

Гитхаб
Требования к датасету
Установка через Pinokio
Обсуждение процесса тренировки

1.8K views21:37

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

1:55

This media is not supported in your browser

VIEW IN TELEGRAM

Midjourney тоже, как и обещали, выкатили новый web-editor для картинок.

"Тоже" - потому что вчера Ideogram зарелизил свой Canvas - и там, наверное, все выглядит понаряднее, с учетом идеограмского inpaint и outpaint.

В Midjourney теперь есть свой ControlNet (вроде как Depth) и возможность загружать картинки извне и использовать их как контролирующие изображения. Ну и редактор картинок.

Те, кто сидят на Stable Diffusion\Flux\Fooocus\Invoke\Krita просто пожмут плечами сочувственно, у них это есть 2 тысячи лет уже.

Идеограммщики скажут, а у нас лучше.

chatGPT и DALL·E 3 такие: нет, не слышали, но вы держитесь.

Midjourney фанаты, подобно поклонникам эппле, радостно возопят "ура".
Ну и это здорово, что есть конкуренция, все-таки у мидджуниоров огромное сообщество и оно, наконец, дождалось, пусть ограниченного, но контролНета и возможностью хоть как-то управлять картинками.

Я-то жду от них совсем других новостей до конца года.

Но есть коричневая вишняшка: это только для тех, кто нагенерил 10 000 картинок через Midjourney. Остальным будет позже.

Подсобрал вам видосов и картинок, как это выглядит.

И да, retexturing - это ребрендинг ControlNet Depth от Midjourney.

@cgevent

1.0K views12:00

Psy Eyes

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Anthropic: добавили в Claude инструмент для анализа данных, напоминающий Code Interpreter у OpenAI.

С его помощью можно строить графики и другие визуализации, а также запускать код и наблюдать его результаты.

Твит
Сайт

1.4K views13:08

Psy Eyes

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Пара слов про рекламный видос, который был выше.

Я некоторое время назад писал сценарии для разных брендов и сам помогал в съёмках.

Сначала ты на стадии разработки просаживаешь кучу времени с правками туда-сюда, и обычно чем больше контора, тем дольше ждать ответа на каждую итерацию. Потом подготовка к съёмкам: найти людей, оборудование, место, сверить графики, договориться об оплате, итд. Во время продакшена и актриса может опоздать, и животное не двигаться по нужной траектории, и дублей уже тьма а аренда площадки подходит к концу, да и в целом нужно координировать людей, чтобы никто не потерялся в процессе. Всё сняли — выдохнули. Теперь на посте собираем это, показываем заказчику, и начинается новый сет правок тоже длительностью в недели или месяцы, в результате которых принятый материал неизвестно когда выйдет и выйдет ли вообще.

Так вот, от предложения о рекламе выше до итогового видео и его принятия прошло меньше часа. Сгенерил картинку локально во Flux, благо он сразу делает marketing-ready контент. Тут же кинул в Kling (у меня оставались кредиты на подписке), сделал несколько вариантов в V 1.5 и в V 1.0, где есть Motion Brush, и вуаля!

Да есть вопросы к фону, да хотелось бы, чтобы пламя во рту и глазницах двигалось чуть иначе под слова "огонь в глазах", и липсинк! (я пробовал, с тыквой не прокатило на английском, русский вообще не принимает) Но когда ты знаешь, что пост проживёт в канале 24 часа, смысла тратить на его разработку больше 1 часа не много.

Визуал к ролику и слова в озвучке я сделал сам. Мне был дан только текст поста и вводная, что оно под хэлуин.

Я люблю рекламу, которая креативная, развлекательная, и в идеале образовательная. Думаю с помощью нейронок мы сможем больше такого встречать, и заодно экономить время и бюджеты.

1.6K views14:46

About

Blog

Apps

Platform