В общем Гугл опять отжигает.
Когда-то они не смогли побороть проблему, что их ИИ распознает афроамериканцев на картинках как горилл.
Теперь выкрутили рульки в другую сторону. Население планеты и исторические личности сильно потемнели. Некоторые, типа папы Римскага, вообщем сменили пол.
В сети флешмоб. Народ пытается генерить в Гемини "счастливые белые пары" и получает визгливый отказ - типа расовая дискриминация. Чорные пары генерит норм.
Сегодня гугл уже извиняется везде:
https://www.foxbusiness.com/media/google-apologizes-new-gemini-ai-refuses-show-pictures-achievements-white-people
Пост об этом напишу завтра, а пока поглядите, как Гугл играет в игру "мы не такие" и переписывает историю.
Вишенка: говорят (думаю шутка): что в команде разработки Google Gemini на 2 инженеров приходится 29 менеджеров по расовому и гендерному разнообразию.
Когда-то они не смогли побороть проблему, что их ИИ распознает афроамериканцев на картинках как горилл.
Теперь выкрутили рульки в другую сторону. Население планеты и исторические личности сильно потемнели. Некоторые, типа папы Римскага, вообщем сменили пол.
В сети флешмоб. Народ пытается генерить в Гемини "счастливые белые пары" и получает визгливый отказ - типа расовая дискриминация. Чорные пары генерит норм.
Сегодня гугл уже извиняется везде:
https://www.foxbusiness.com/media/google-apologizes-new-gemini-ai-refuses-show-pictures-achievements-white-people
Пост об этом напишу завтра, а пока поглядите, как Гугл играет в игру "мы не такие" и переписывает историю.
Вишенка: говорят (думаю шутка): что в команде разработки Google Gemini на 2 инженеров приходится 29 менеджеров по расовому и гендерному разнообразию.
🔥58👎7👍3
fastsdxl.ai
SDXL Lightning - by fal.ai
Lightning fast SDXL API demo by fal.ai
Я тут вчера сдержанно наезжал на Молниеносную SDXL.
Точнее не восторгался, как весь интернетик.
А сегодня обнаружил вот такой демо-сайт, где она генерит почти в реальном времени. Попробуйте, забавный опыт. Мы это уже проходили с SDXL Turbo, но тут все бесплатно вроде.
Ну и вот этот вот мгновенный отклик - ключевая фишка будущих продуктов для художников, а не для программистов.
https://fastsdxl.ai/
Точнее не восторгался, как весь интернетик.
А сегодня обнаружил вот такой демо-сайт, где она генерит почти в реальном времени. Попробуйте, забавный опыт. Мы это уже проходили с SDXL Turbo, но тут все бесплатно вроде.
Ну и вот этот вот мгновенный отклик - ключевая фишка будущих продуктов для художников, а не для программистов.
https://fastsdxl.ai/
🔥39👍5
Stable Diffusion 3. Мясо
Давайте я вам поясню за SD3 за пределами того, что вам её пообещали в интернете и взорали про это в новостях.
Первая и самая главная особенность - понимание промпта. Мы это уже углядели на примере Stable Cascade (тут с таймингом пресс-релизов, конечно, ад, но пишут, что до релиза SD3 еще довольно много времени).
Профессия заклинателя промптов типа "[[осторожно]], ((тут)) ((рыбу:1.2)) {заворачивали}, wow, 4K, конецглазам, ивоще" потихоньку уходит в прошлое. Теперь модели начинают "понимать" промпт, там, грубо говоря, внутри свои LLM.
Когда-то DALL·E 3 задрал планку до небес в этом направдении, теперь остальные подтягиваются. SD3 и SC слушаются промпта в разы лучше чем SDXL.
Про качество картинок - надо смотреть. На шум, на детали, на мыло, на искажения. Все что показано на сайте очень годно, но туризм с эмиграцией путать не стоит и как будет на деле - покажут тесты и сравнения.
Про текст. Да, как и SC она хорошо умеет в текст. Но меня всегда удивляла упоротость на этой фиче. Вы часто рисуете текст на картинках руками? Ну то есть не выбирая шрифт, а попиксельно? Кроме того, я предвижу кейсы, когда модель зафикачила картику с копирайченным шрифтом (очень похожим, ок). Повалят иски. А разработчики начнут шарахаться от этой фичи обратно в тину.
Да, пальцы. Лучше.
А теперь два главных вопроса: скорость и требования к памяти.
Про скорость ничего сказать пока нельзя. Об этом ни слова.
Про память. Будет несколько моделей от 800М параметров до 8 миллиардов.. Сколько их будет неясно.
А теперь следите внимательно.
Stable Diffusion 1.5 - примерно те же 800М параметров
SDXL - 2.3B
Помните требования к памяти для SDXL?
А теперь умножайте их на 3.3 и получите VRAM для старших моделей SD3.
Но. Мостак на реддите пишет, что все эти разные модели можно будет квантизировать вплоть до int4. Ну то есть сжимать веса (размер файлов модели) в 2, 4 и более раза. С потерей качества генерации.
Дальше все это начинает напоминать ситуацию с LLM. Разные размеры моделей, разные степени пожатости этих разных моделей. Таблицы сравнения: что лучше пожать бОльшую модель или взять непожатую меньшую модель. Ну и многочисленные сравнений "на глаз". Для LLM есть кривые-косые бенчмарки, для картинок есть "на глазок".
Также Мостак говорит, что тренировать модели SD3 можно будет на 16Гиг памяти. За кадром вопрос (отныне и во веки веков) - которые из моделей от 800M до 8B?
Ну и я боюсь представить требования (и скорость) для старших непожатых моделей SD3..
Ну и последнее. На сайте стабилити две трети текста про цензуру и безопасность. Народ на Реддите: "Эмад, ты вообще нормальный, ты с народом общался из коммьюнити?".
Эмад, там же: "На чилле ребята, мне так легче общаться с регуляторами"
В общем думаю, нас ждем зоопарк моделей, потом зоопарк в квадрате от по разному пожатых моделей из этих моделей. И зоопарк в кубе от натренированных чекпойнтов из пожатых по разному моделей из модельного ряда SD3 от 800M до 8B.
А пока можете начать тренировать модели для Stable Cascade, разминаться:
https://www.reddit.com/r/StableDiffusion/s/jTZ6eownFy
Давайте я вам поясню за SD3 за пределами того, что вам её пообещали в интернете и взорали про это в новостях.
Первая и самая главная особенность - понимание промпта. Мы это уже углядели на примере Stable Cascade (тут с таймингом пресс-релизов, конечно, ад, но пишут, что до релиза SD3 еще довольно много времени).
Профессия заклинателя промптов типа "[[осторожно]], ((тут)) ((рыбу:1.2)) {заворачивали}, wow, 4K, конецглазам, ивоще" потихоньку уходит в прошлое. Теперь модели начинают "понимать" промпт, там, грубо говоря, внутри свои LLM.
Когда-то DALL·E 3 задрал планку до небес в этом направдении, теперь остальные подтягиваются. SD3 и SC слушаются промпта в разы лучше чем SDXL.
Про качество картинок - надо смотреть. На шум, на детали, на мыло, на искажения. Все что показано на сайте очень годно, но туризм с эмиграцией путать не стоит и как будет на деле - покажут тесты и сравнения.
Про текст. Да, как и SC она хорошо умеет в текст. Но меня всегда удивляла упоротость на этой фиче. Вы часто рисуете текст на картинках руками? Ну то есть не выбирая шрифт, а попиксельно? Кроме того, я предвижу кейсы, когда модель зафикачила картику с копирайченным шрифтом (очень похожим, ок). Повалят иски. А разработчики начнут шарахаться от этой фичи обратно в тину.
Да, пальцы. Лучше.
А теперь два главных вопроса: скорость и требования к памяти.
Про скорость ничего сказать пока нельзя. Об этом ни слова.
Про память. Будет несколько моделей от 800М параметров до 8 миллиардов.. Сколько их будет неясно.
А теперь следите внимательно.
Stable Diffusion 1.5 - примерно те же 800М параметров
SDXL - 2.3B
Помните требования к памяти для SDXL?
А теперь умножайте их на 3.3 и получите VRAM для старших моделей SD3.
Но. Мостак на реддите пишет, что все эти разные модели можно будет квантизировать вплоть до int4. Ну то есть сжимать веса (размер файлов модели) в 2, 4 и более раза. С потерей качества генерации.
Дальше все это начинает напоминать ситуацию с LLM. Разные размеры моделей, разные степени пожатости этих разных моделей. Таблицы сравнения: что лучше пожать бОльшую модель или взять непожатую меньшую модель. Ну и многочисленные сравнений "на глаз". Для LLM есть кривые-косые бенчмарки, для картинок есть "на глазок".
Также Мостак говорит, что тренировать модели SD3 можно будет на 16Гиг памяти. За кадром вопрос (отныне и во веки веков) - которые из моделей от 800M до 8B?
Ну и я боюсь представить требования (и скорость) для старших непожатых моделей SD3..
Ну и последнее. На сайте стабилити две трети текста про цензуру и безопасность. Народ на Реддите: "Эмад, ты вообще нормальный, ты с народом общался из коммьюнити?".
Эмад, там же: "На чилле ребята, мне так легче общаться с регуляторами"
В общем думаю, нас ждем зоопарк моделей, потом зоопарк в квадрате от по разному пожатых моделей из этих моделей. И зоопарк в кубе от натренированных чекпойнтов из пожатых по разному моделей из модельного ряда SD3 от 800M до 8B.
А пока можете начать тренировать модели для Stable Cascade, разминаться:
https://www.reddit.com/r/StableDiffusion/s/jTZ6eownFy
Reddit
From the StableDiffusion community on Reddit: OneTrainer now supports Stable Cascade. And much more.
Explore this post and more from the StableDiffusion community
👍26
А Эмад тем временем троллит всех в Твитторе.
Я, говорит, тестирую нечто за пределами SD3. Накидайте мне промптов..
Картинки тут:
https://www.reddit.com/r/StableDiffusion/s/Bur04ALVDq
Я, говорит, тестирую нечто за пределами SD3. Накидайте мне промптов..
Картинки тут:
https://www.reddit.com/r/StableDiffusion/s/Bur04ALVDq
👍17
Forwarded from Dreams and Robots
В общем, пока мы все обсуждали видео от Соры, которую еще никто в глаза не видел, Suno сделали настоящую революцию. Инструментальный режим в третьей версии генерирует практически идеальную продакшн-музыку.
Вы делаете игру, а денег не то, что на Ханса Циммера, но даже на Мика Гордона и Майкла МакКана не хватает? Не беда. За 20 баксов и пару часов можно сделать готовый саундтрек, который будет звучать вполне адекватно на большинстве консьюмерских девайсов.
Я вот так и сделал, презентую вам OST к выдуманной игре про роботов, которые видят сны.
Пара советов начинающим композиторам:
- Не пишите в стиле слово Orchestral, если не хотите банальную корпоративную музыку со второй страницы выдачи AudioJungle.
- Используйте в промпте стилистику (sci-fi themed exploration theme), настроение (calm, sad, aggressive, thoughtful) и набор инструментов (Piano, Cellos, Bells, Toms, Violins, Pads, Moog).
- Если мелодия прерывается на середине, используйте функцию Continue from this Song.
- Если трек логично закончился, Суно может добить хронометраж повтором. В этом случае просто отрежьте финал в своем любимом аудиоредакторе.
Композиторам успехов!
#suno
Вы делаете игру, а денег не то, что на Ханса Циммера, но даже на Мика Гордона и Майкла МакКана не хватает? Не беда. За 20 баксов и пару часов можно сделать готовый саундтрек, который будет звучать вполне адекватно на большинстве консьюмерских девайсов.
Я вот так и сделал, презентую вам OST к выдуманной игре про роботов, которые видят сны.
Пара советов начинающим композиторам:
- Не пишите в стиле слово Orchestral, если не хотите банальную корпоративную музыку со второй страницы выдачи AudioJungle.
- Используйте в промпте стилистику (sci-fi themed exploration theme), настроение (calm, sad, aggressive, thoughtful) и набор инструментов (Piano, Cellos, Bells, Toms, Violins, Pads, Moog).
- Если мелодия прерывается на середине, используйте функцию Continue from this Song.
- Если трек логично закончился, Суно может добить хронометраж повтором. В этом случае просто отрежьте финал в своем любимом аудиоредакторе.
Композиторам успехов!
#suno
👍62🔥38
Stable Video 1.1 открыли для всех. Можно играцца.
Я уже писал про нее 3 недели назад.
https://xn--r1a.website/cgevent/7418
А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/
4 секунды макс, и как пишет Эмад
Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)
Я уже писал про нее 3 недели назад.
https://xn--r1a.website/cgevent/7418
А теперь после демо SORA это выглядит бессмысленно.
Но вы попробуйте ещё раз:
https://www.stablevideo.com/
4 секунды макс, и как пишет Эмад
Something to note: Stable Video was trained from Stable Diffusion 2 (ie a 2022 model!)
Telegram
Метаверсище и ИИще
Пришло приглашение в Stable Video Diffusion 1.1 - доступ к сайту.
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация…
На день дается 150 кредитов, одна генерация с дефолтным качеством забирает 10 кредитов и длится около минуты или меньше. Можно запрашивать больше кредитов, денег не просят.
Два режима - генерация…
👎16👍11🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ-видео-генератор от Snap.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
Результаты и общий замысел мне нравятся гораздо больше, чем Stable Video Diffusion с его 4 сек макс, ибо это не оживление картинок и не модификация существующих image-моделей к генерации видео, а создание видео "с нуля".
Вот, что пишет Сергей Туляков:
Все видео генерируются с помощью нашей новейшей модели Snap Video. Мы представляем новую архитектуру на основе трансформеров, которая очень хорошо масштабируется по количеству параметров и графических процессоров (тут можно предположить, что в условиях дефицита GPU в Снапе сделал очень хорошую оптимизацию).
Это архитектура, ориентированная именно на видео - мы не адаптируем существующие модели изображений для создания видео, а относимся к видео как к "пассажирам первого класса" (first class citizens).
Вот тут можно найти сравнения с Пикой, Runway и другими:
https://snap-research.github.io/snapvideo/gen2_pikalab_floor33.html
Тут, конечно, привычный трюк сравнений черрипиков с нечеррипиками.. Но в шапке поста прям сторрителлинг.
А полный фарш с информацией тут:
https://snap-research.github.io/snapvideo/
Низкое разрешение в примерах смущает, качество тоже, но работа с пространством и динамика анимаций мне нравятся. Это уже больше симуляция трехмерного мира (пусть и низкого разрешения), чем шевеление пикселей на картинках и параллаксы.
Кода нет, и где это можно будет попробовать непонятно, но я знаю команду Снапа еще по давним киевским CG Event-ам, и отчаянно им симпатизирую.
🔥32👍12
Илон Маск приподвзорвал интернетик, намекнув на возможное сотрудничество между Твиттором и MidJourney.
"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".
Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.
"Мы ведем интересные переговоры с Midjourney, и, возможно, из этого что-то получится, но в любом случае, так или иначе, мы сделаем возможным генерацию Арта на платформе X".
Мне эта новость нравится тем, что у Midjourney станет явно больше денег. И, возможно, им достанутся некоторые наработки от Grok (LLM от Маска) - встраивание трансформеров в генерацию картинок становится мейнстримом, а промптинг в Midjourney до сих пор носит заклинательно шаманский характер. Ждем от новых версий MJ промтинга на обычном языке, как в DALL·E 3 и демках Stable Diffusion 3 и Cascade.
👍67🔥10👎5
Про пальцы и тексты. Баг, а не фича.
Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.
Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и самишрифты ладони очень кривые: это как правило мужские ладони, сильно не попадающие в размер самой руки, правая и левая разные, ну и так далее. При этом жесты типа V (виктори) или U (коза) вполне себе норм, ибо зашиты в датасетах.
Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.
Про тексты на сгенерированных картинках я уже писал. Не очень понимаю, зачем столько усилий тратится на это. Шрифты, расстояния между буквами, размер букв относительно друг друга и еще десяток параметров, знакомых любому фотошопщику, просто рандомно накиданы на картинке. Я так понимаю, что 90% усилий было потрачено на то, чтобы генератор хотя бы писал тексты без ошибок. Но, блин, само написание кривое, косое, рандомное. Может у меня глаз профдеформирован, конечно, но это не шрифты, а рандом из букв. Который нельзя никак контролировать. Может быть кто-то придумает ControlNet для шрифтов, где в промпте можно указывать написание, кегль, засечки, размер - но это странный путь.
Теперь про пальцы. Вот держите примеры из Stable Diffusion 3. Как и со шрифтами 90% усилий потрачено на то, чтобы было 5 (не 6 или 4)
пальцев на руке. И все равно на картинках мелькают варианты c 4, 5.5, 6 пальцами. Ну и сами
Я это к тому, что демонстрировать все эти тексты или пальцы лучше на картинках с граффити или без вот этих вот открытых нарочитых ладоней. В хорошие шрифты или ровные пальцы модели все равно не умеют (по природе своей), поэтому просто скажите, что пальцы стали лучше, а ошибок стало меньше, но не подавайте это как фичу. Это багфикс, но не фича.
👍56