Метаверсище и ИИще

В общем Гугл опять отжигает.
Когда-то они не смогли побороть проблему, что их ИИ распознает афроамериканцев на картинках как горилл.
Теперь выкрутили рульки в другую сторону. Население планеты и исторические личности сильно потемнели. Некоторые, типа папы Римскага, вообщем сменили пол.

В сети флешмоб. Народ пытается генерить в Гемини "счастливые белые пары" и получает визгливый отказ - типа расовая дискриминация. Чорные пары генерит норм.

Сегодня гугл уже извиняется везде:
https://www.foxbusiness.com/media/google-apologizes-new-gemini-ai-refuses-show-pictures-achievements-white-people

Пост об этом напишу завтра, а пока поглядите, как Гугл играет в игру "мы не такие" и переписывает историю.

Вишенка: говорят (думаю шутка): что в команде разработки Google Gemini на 2 инженеров приходится 29 менеджеров по расовому и гендерному разнообразию.

🔥58👎7👍3

7.79K viewsSergey Tsyptsyn ️️, 14:15

Метаверсище и ИИще

fastsdxl.ai

SDXL Lightning - by fal.ai

Lightning fast SDXL API demo by fal.ai

Я тут вчера сдержанно наезжал на Молниеносную SDXL.
Точнее не восторгался, как весь интернетик.
А сегодня обнаружил вот такой демо-сайт, где она генерит почти в реальном времени. Попробуйте, забавный опыт. Мы это уже проходили с SDXL Turbo, но тут все бесплатно вроде.
Ну и вот этот вот мгновенный отклик - ключевая фишка будущих продуктов для художников, а не для программистов.
https://fastsdxl.ai/

🔥39👍5

6.45K viewsSergey Tsyptsyn ️️, 11:51

Метаверсище и ИИще

Stable Diffusion 3. Мясо

Давайте я вам поясню за SD3 за пределами того, что вам её пообещали в интернете и взорали про это в новостях.

Первая и самая главная особенность - понимание промпта. Мы это уже углядели на примере Stable Cascade (тут с таймингом пресс-релизов, конечно, ад, но пишут, что до релиза SD3 еще довольно много времени).

Профессия заклинателя промптов типа "[[осторожно]], ((тут)) ((рыбу:1.2)) {заворачивали}, wow, 4K, конецглазам, ивоще" потихоньку уходит в прошлое. Теперь модели начинают "понимать" промпт, там, грубо говоря, внутри свои LLM.

Когда-то DALL·E 3 задрал планку до небес в этом направдении, теперь остальные подтягиваются. SD3 и SC слушаются промпта в разы лучше чем SDXL.

Про качество картинок - надо смотреть. На шум, на детали, на мыло, на искажения. Все что показано на сайте очень годно, но туризм с эмиграцией путать не стоит и как будет на деле - покажут тесты и сравнения.

Про текст. Да, как и SC она хорошо умеет в текст. Но меня всегда удивляла упоротость на этой фиче. Вы часто рисуете текст на картинках руками? Ну то есть не выбирая шрифт, а попиксельно? Кроме того, я предвижу кейсы, когда модель зафикачила картику с копирайченным шрифтом (очень похожим, ок). Повалят иски. А разработчики начнут шарахаться от этой фичи обратно в тину.

Да, пальцы. Лучше.

А теперь два главных вопроса: скорость и требования к памяти.

Про скорость ничего сказать пока нельзя. Об этом ни слова.

Про память. Будет несколько моделей от 800М параметров до 8 миллиардов.. Сколько их будет неясно.

А теперь следите внимательно.
Stable Diffusion 1.5 - примерно те же 800М параметров
SDXL - 2.3B

Помните требования к памяти для SDXL?
А теперь умножайте их на 3.3 и получите VRAM для старших моделей SD3.

Но. Мостак на реддите пишет, что все эти разные модели можно будет квантизировать вплоть до int4. Ну то есть сжимать веса (размер файлов модели) в 2, 4 и более раза. С потерей качества генерации.

Дальше все это начинает напоминать ситуацию с LLM. Разные размеры моделей, разные степени пожатости этих разных моделей. Таблицы сравнения: что лучше пожать бОльшую модель или взять непожатую меньшую модель. Ну и многочисленные сравнений "на глаз". Для LLM есть кривые-косые бенчмарки, для картинок есть "на глазок".

Также Мостак говорит, что тренировать модели SD3 можно будет на 16Гиг памяти. За кадром вопрос (отныне и во веки веков) - которые из моделей от 800M до 8B?

Ну и я боюсь представить требования (и скорость) для старших непожатых моделей SD3..

Ну и последнее. На сайте стабилити две трети текста про цензуру и безопасность. Народ на Реддите: "Эмад, ты вообще нормальный, ты с народом общался из коммьюнити?".
Эмад, там же: "На чилле ребята, мне так легче общаться с регуляторами"

В общем думаю, нас ждем зоопарк моделей, потом зоопарк в квадрате от по разному пожатых моделей из этих моделей. И зоопарк в кубе от натренированных чекпойнтов из пожатых по разному моделей из модельного ряда SD3 от 800M до 8B.

А пока можете начать тренировать модели для Stable Cascade, разминаться:
https://www.reddit.com/r/StableDiffusion/s/jTZ6eownFy

From the StableDiffusion community on Reddit: OneTrainer now supports Stable Cascade. And much more.

Explore this post and more from the StableDiffusion community

👍26

11.8K viewsSergey Tsyptsyn ️️, edited 12:30

Метаверсище и ИИще

А Эмад тем временем троллит всех в Твитторе.
Я, говорит, тестирую нечто за пределами SD3. Накидайте мне промптов..
Картинки тут:
https://www.reddit.com/r/StableDiffusion/s/Bur04ALVDq

👍17

6.31K viewsSergey Tsyptsyn ️️, 12:34

Метаверсище и ИИще

Forwarded from Dreams and Robots

В общем, пока мы все обсуждали видео от Соры, которую еще никто в глаза не видел, Suno сделали настоящую революцию. Инструментальный режим в третьей версии генерирует практически идеальную продакшн-музыку.

Вы делаете игру, а денег не то, что на Ханса Циммера, но даже на Мика Гордона и Майкла МакКана не хватает? Не беда. За 20 баксов и пару часов можно сделать готовый саундтрек, который будет звучать вполне адекватно на большинстве консьюмерских девайсов.

Я вот так и сделал, презентую вам OST к выдуманной игре про роботов, которые видят сны.

Пара советов начинающим композиторам:
- Не пишите в стиле слово Orchestral, если не хотите банальную корпоративную музыку со второй страницы выдачи AudioJungle.
- Используйте в промпте стилистику (sci-fi themed exploration theme), настроение (calm, sad, aggressive, thoughtful) и набор инструментов (Piano, Cellos, Bells, Toms, Violins, Pads, Moog).
- Если мелодия прерывается на середине, используйте функцию Continue from this Song.
- Если трек логично закончился, Суно может добить хронометраж повтором. В этом случае просто отрежьте финал в своем любимом аудиоредакторе.

Композиторам успехов!

#suno

👍62🔥38

5.66K viewsSergey Tsyptsyn ️️, 21:51

🔥72👍11

6.82K viewsSergey Tsyptsyn ️️, 21:51

Метаверсище и ИИще

Stable Video 1.1 открыли для всех. Можно играцца.
Я уже писал про нее 3 недели назад.
https://xn--r1a.website/cgevent/7418

А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/

4 секунды макс, и как пишет Эмад

Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)

0:04

Метаверсище и ИИще

Пришло приглашение в Stable Video Diffusion 1.1 - доступ к сайту.
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация…

👎16👍11🔥2

6.89K viewsSergey Tsyptsyn ️️, edited 22:19

Метаверсище и ИИще

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

ИИ-видео-генератор от Snap.

Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:

Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).

Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).

Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html

Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.

А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/

Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.

Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.

🔥32👍12

7.14K viewsSergey Tsyptsyn ️️, edited 15:27

Метаверсище и ИИще

Илон Маск приподвзорвал интернетик, намекнув на возможное сотрудничество между Твиттором и MidJourney.

"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".

Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.

👍67🔥10👎5

10.6K viewsSergey Tsyptsyn ️️, 15:44

Метаверсище и ИИще

Про пальцы и тексты. Баг, а не фича.

Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.

Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и сами шрифты ладони очень кривые: это как правило мужские ладони, сильно не попадающие в размер самой руки, правая и левая разные, ну и так далее. При этом жесты типа V (виктори) или U (коза) вполне себе норм, ибо зашиты в датасетах.

Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.

👍56

6.66K viewsSergey Tsyptsyn ️️, 11:25

About

Blog

Apps

Platform