Одеваторы, раздеваторы и переодеваторы.
Тема виртуальных примерочных горяча и будет перегреваться и дальше.
Ибо за спиной ритейл и массмаркет.
Я уже писал про одеваторы и раздеваторы. Сегодня попробовал опенсорсный переодеватор, суть примерочную:
https://github.com/levihsu/OOTDiffusion?tab=readme-ov-file
Ну в общем .. такое. Смотрите на вариант с тельняшкой (Guidance Scale не помог). Китайские товарищи бесхитростно лепят контролНет на два разных варианта - в полный рост и на поясной план.
То случай, когда код и демо есть, а статьи нет.
Я тут же пошел и скормил Виталика (и себя на заднем плане) в бот Slook (одеватор-разlеватор) и в Superlook.ai
Slook выдал мне идеальный латекс, а Superlook переодел Виталика лучшие дома Лондона и Парижа. И обратите внимание, как он бейджик перевесил! Вощекосмос.
Одно дело писать бумаги и демо, другое дело - пилить продукт. Даже на опен-сорсе.
Продукт не прощает ошибок, и тем хорош. А в бумагах можно обчерипикатся и никто слова не скажет.
В общем пробуйте сами, присылайте в коменты свои луки.
Переодеватор демо: https://ootd.ibot.cn/
Slook Bot одеватор: https://xn--r1a.website/SlookBot
Чемпион по примеркам: - https://superlook.ai/
Виталик с сиськами будет в коментах(если разрешит).
И кстати, Виталик шарит за генеративный арт и лихо рулит Stable Diffusion и After Effects. Если что пишите ему, он открыт для работы.
Тема виртуальных примерочных горяча и будет перегреваться и дальше.
Ибо за спиной ритейл и массмаркет.
Я уже писал про одеваторы и раздеваторы. Сегодня попробовал опенсорсный переодеватор, суть примерочную:
https://github.com/levihsu/OOTDiffusion?tab=readme-ov-file
Ну в общем .. такое. Смотрите на вариант с тельняшкой (Guidance Scale не помог). Китайские товарищи бесхитростно лепят контролНет на два разных варианта - в полный рост и на поясной план.
То случай, когда код и демо есть, а статьи нет.
Я тут же пошел и скормил Виталика (и себя на заднем плане) в бот Slook (одеватор-разlеватор) и в Superlook.ai
Slook выдал мне идеальный латекс, а Superlook переодел Виталика лучшие дома Лондона и Парижа. И обратите внимание, как он бейджик перевесил! Вощекосмос.
Одно дело писать бумаги и демо, другое дело - пилить продукт. Даже на опен-сорсе.
Продукт не прощает ошибок, и тем хорош. А в бумагах можно обчерипикатся и никто слова не скажет.
В общем пробуйте сами, присылайте в коменты свои луки.
Переодеватор демо: https://ootd.ibot.cn/
Slook Bot одеватор: https://xn--r1a.website/SlookBot
Чемпион по примеркам: - https://superlook.ai/
Виталик с сиськами будет в коментах(если разрешит).
И кстати, Виталик шарит за генеративный арт и лихо рулит Stable Diffusion и After Effects. Если что пишите ему, он открыт для работы.
🔥30👍5❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Про DeemosTech, их Чатаватаров и Родена (Rodin GEN-1) я уже писал пару раз. Слежу за ними внимательно. У них там много народа, а не пара аспирантов.
Они выкатили демо нового Rodin GEN-1 для генерации 3Д из картинки. Выглядит нарядно, видно, что деталей стало больше, но видео явно черипикнутое и есть пара моментов.
1. Все равно объекты "мылятся" по краям и острым граням. Это родовая проблема неявных поверхностей, ведь задирать разрешение до мегасканов будет дорого. Эти фасочки всегда будут сглаживать любой объект, пока туда не придет ИИ и не скажет "вот тут угол", делаем по другому.
2. Гонку за деталями с таким подходом не выиграть у Гауссианов, которые благодаря свое микрополигонистости всегда будут впереди. Вон недавно вышли Гауссианы на стероидах с упором на детали:
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering.
А вот тут Гауссианами генерят целые сцены:
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting.
Но проблема в том, что из при попытке получить из Гауссианов полигональные меши, вы опять будете получать замыленные края.
Так что либо детали в неведомой гауссовой хрени, либо старые добрые, но обмылочные полигоны.
3. Я записался в вейтлист в Димос и написал им, что без ретопологии будет нещитово.
4. Ну и фу такими быть "The #Sora Moment in #3D has never been close" - пиариться на успехе Соры - ну такое.
Кроме того, очень может статься, что ответ SORA всем этим 3Д-ИИ-генераторам может быть очень жоским и в один день умрут вот эти вот все 2D-to-3D.
В общем на поляне генерации 3Д вот-вот будет интересный прорыв и придет он из геймдева.
Пока это улучшатели улучшателей.
Но DeemosTech интересные, поглядите за ними:
https://twitter.com/i/status/1760008401621483665
Они выкатили демо нового Rodin GEN-1 для генерации 3Д из картинки. Выглядит нарядно, видно, что деталей стало больше, но видео явно черипикнутое и есть пара моментов.
1. Все равно объекты "мылятся" по краям и острым граням. Это родовая проблема неявных поверхностей, ведь задирать разрешение до мегасканов будет дорого. Эти фасочки всегда будут сглаживать любой объект, пока туда не придет ИИ и не скажет "вот тут угол", делаем по другому.
2. Гонку за деталями с таким подходом не выиграть у Гауссианов, которые благодаря свое микрополигонистости всегда будут впереди. Вон недавно вышли Гауссианы на стероидах с упором на детали:
GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering.
А вот тут Гауссианами генерят целые сцены:
GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guidedGenerative Gaussian Splatting.
Но проблема в том, что из при попытке получить из Гауссианов полигональные меши, вы опять будете получать замыленные края.
Так что либо детали в неведомой гауссовой хрени, либо старые добрые, но обмылочные полигоны.
3. Я записался в вейтлист в Димос и написал им, что без ретопологии будет нещитово.
4. Ну и фу такими быть "The #Sora Moment in #3D has never been close" - пиариться на успехе Соры - ну такое.
Кроме того, очень может статься, что ответ SORA всем этим 3Д-ИИ-генераторам может быть очень жоским и в один день умрут вот эти вот все 2D-to-3D.
В общем на поляне генерации 3Д вот-вот будет интересный прорыв и придет он из геймдева.
Пока это улучшатели улучшателей.
Но DeemosTech интересные, поглядите за ними:
https://twitter.com/i/status/1760008401621483665
👍22🔥8
"Думают ли Ламы на английском? О скрытом языке многоязычных трансформеров"
Ух, интереснейшая работа.
Используют ли многоязычные LLM, обучающиеся в основном на английском языке, английский в качестве "внутреннего языка"?
Значит ли это, что Llama2 сначала вычисляет ответ на английском, а затем переводит его на китайский?
Все гораздо тоньше. Если присмотреться внимательнее, то можно предположить, что промежуточные эмбединги, выглядящие по-английски, на самом деле соответствуют абстрактным понятиям, а не конкретным лексемам.
В процессе послойного преобразования эмбеддингов они проходят 3 этапа:
1. "Входное пространство": модель "отменяет грехи" токенизатора(перевода слов в вектора).
2. "Концептуальное пространство": эмбеддинги живут в абстрактном концептуальном пространстве.
3. "Выходное пространство": понятия(вектора) отображаются обратно на лексемы, которые их выражают.
Гипотеза авторов:
Внутренним "лингва франка" Llama2 является не английский язык, а суть концепции - и, что очень важно, эти концепции "тяготеют" к английскому. Таким образом, английский язык все еще можно рассматривать как "внутренний язык", но в семантическом, а не в чисто лексическом смысле.
Семантическое тяготение к определенному языку - мне это напомнило очень интересную теорию о том, что язык носителя определяет мышление носителя. Ну или характер(character), наиболее часто встречающийся в популяции. На каком языке ты думаешь определяет очень многие твои черты, грубо говоря.
Воистину ИИ дает нам огромные шансы узнать, как мы устроены изнутри, о чем я регулярно приподвзвываю.
P.S. "лингва франка" - это язык, систематически используемый для коммуникации между людьми, родными языками которых являются другие.
https://arxiv.org/abs/2402.10588
https://twitter.com/cervisiarius/status/1759989584371298554
Ух, интереснейшая работа.
Используют ли многоязычные LLM, обучающиеся в основном на английском языке, английский в качестве "внутреннего языка"?
Значит ли это, что Llama2 сначала вычисляет ответ на английском, а затем переводит его на китайский?
Все гораздо тоньше. Если присмотреться внимательнее, то можно предположить, что промежуточные эмбединги, выглядящие по-английски, на самом деле соответствуют абстрактным понятиям, а не конкретным лексемам.
В процессе послойного преобразования эмбеддингов они проходят 3 этапа:
1. "Входное пространство": модель "отменяет грехи" токенизатора(перевода слов в вектора).
2. "Концептуальное пространство": эмбеддинги живут в абстрактном концептуальном пространстве.
3. "Выходное пространство": понятия(вектора) отображаются обратно на лексемы, которые их выражают.
Гипотеза авторов:
Внутренним "лингва франка" Llama2 является не английский язык, а суть концепции - и, что очень важно, эти концепции "тяготеют" к английскому. Таким образом, английский язык все еще можно рассматривать как "внутренний язык", но в семантическом, а не в чисто лексическом смысле.
Семантическое тяготение к определенному языку - мне это напомнило очень интересную теорию о том, что язык носителя определяет мышление носителя. Ну или характер(character), наиболее часто встречающийся в популяции. На каком языке ты думаешь определяет очень многие твои черты, грубо говоря.
Воистину ИИ дает нам огромные шансы узнать, как мы устроены изнутри, о чем я регулярно приподвзвываю.
P.S. "лингва франка" - это язык, систематически используемый для коммуникации между людьми, родными языками которых являются другие.
https://arxiv.org/abs/2402.10588
https://twitter.com/cervisiarius/status/1759989584371298554
👍46🔥16
Был такой фильм "Боги, наверное, сошли с ума".
Почитайте, мы уже близко...
https://xn--r1a.website/theworldisnoteasy/1897
Почитайте, мы уже близко...
https://xn--r1a.website/theworldisnoteasy/1897
Telegram
Малоизвестное интересное
10 часов назад GPT-4 спятил.
Сколько может стоить миру час безумия сверхмощного ИИ.
Это не шутка или розыгрыш.
• Вот скупое уведомление OpenAI о произошедшем [1]
• Вот сообщения c форума разработчиков OpenAI [2]
• Вот подборка чуши и ахинеи, которую целый…
Сколько может стоить миру час безумия сверхмощного ИИ.
Это не шутка или розыгрыш.
• Вот скупое уведомление OpenAI о произошедшем [1]
• Вот сообщения c форума разработчиков OpenAI [2]
• Вот подборка чуши и ахинеи, которую целый…
👍18👎3
chroma.webm
8.2 MB
От Альпаки пришло приглашение попробовать Хрому - нет, это не векторная база, это новое web-приложение для рисования с помощью Stable Diffusion.
В 2024 году это смотрится очень и очень плохо. Такое впечатление, что чуваки застряли в конце 2022.
Попробуйте, может у вас что-то получится.
А я позже напишу, почему будущее за Креа и Визкомом, и почему у нас до сих пор такие адовые UI/UX в большинстве генераторов.
А Хрома мне через раз пишет "я тут сгенерила какое-то непотребство и тебе не покажу". Там стоит adult filtr видать.
А еще у Альпаки был плагин для фотошопа и Stable Diffusion.
https://www.alpacaml.com/
В 2024 году это смотрится очень и очень плохо. Такое впечатление, что чуваки застряли в конце 2022.
Попробуйте, может у вас что-то получится.
А я позже напишу, почему будущее за Креа и Визкомом, и почему у нас до сих пор такие адовые UI/UX в большинстве генераторов.
А Хрома мне через раз пишет "я тут сгенерила какое-то непотребство и тебе не покажу". Там стоит adult filtr видать.
А еще у Альпаки был плагин для фотошопа и Stable Diffusion.
https://www.alpacaml.com/
👍11
Помните я писал, что Reddit продает за 60 миллионов свои данные одной неназванной компании?
Сегодня стало известно, что это Гугл.
Мало ему своих....
https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/
Сегодня стало известно, что это Гугл.
Мало ему своих....
https://www.reuters.com/technology/reddit-ai-content-licensing-deal-with-google-sources-say-2024-02-22/
Reuters
Exclusive: Reddit in AI content licensing deal with Google
Social media platform Reddit has struck a deal with Google to make its content available for training the search engine giant's artificial intelligence models, three people familiar with the matter said.
👎26👍8🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Зумеры переизобрели раскраски, кальку и трафарет. За 3500.
🔥75👎7👍5
SDXL-Lightning: Progressive Adversarial Diffusion Distillation
Реддит принес новости про Молниеносную SDXL от ТикТока.
Это еще одна вариация на тему ускорителей Stable Diffusion.
Ее лоботомируют разными способами, чтобы радикально увеличить скорость.
Таких ускоренных лоботомированных моделей уже несколько: SDXL Turbo, LCM и другие. SDXL-Lightning здесь, похоже, не лучше и не хуже других.
Цена? - Правильно, качество.
Вопрос, насколько вы готовы жертвовать качеством.
ВЫ можете попробовать сами тут:
https://huggingface.co/spaces/AP123/SDXL-Lightning
Полный опен-сорс, есть конект к Комфи.
Я не впечатлен. Stable Cascade выглядит сильно перспективнее, когда ее допилят.
P/S/ Жертвовать качество ради скорости можно в угоду интерактиву. И ловким интерфейсам для нормальных людей. Тут этим и не пахнет
Реддит принес новости про Молниеносную SDXL от ТикТока.
Это еще одна вариация на тему ускорителей Stable Diffusion.
Ее лоботомируют разными способами, чтобы радикально увеличить скорость.
Таких ускоренных лоботомированных моделей уже несколько: SDXL Turbo, LCM и другие. SDXL-Lightning здесь, похоже, не лучше и не хуже других.
Цена? - Правильно, качество.
Вопрос, насколько вы готовы жертвовать качеством.
ВЫ можете попробовать сами тут:
https://huggingface.co/spaces/AP123/SDXL-Lightning
Полный опен-сорс, есть конект к Комфи.
Я не впечатлен. Stable Cascade выглядит сильно перспективнее, когда ее допилят.
P/S/ Жертвовать качество ради скорости можно в угоду интерактиву. И ловким интерфейсам для нормальных людей. Тут этим и не пахнет
🔥12👍7👎2
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition
Давайте я вам проясню за FreeControl, которые в сеточке называют убийцей ControlNet-а.
Да, это крутая штука, код которой выпустили 3 дня назад, уже прикрутили в Комфи и вот-вот запилят в A1111. Он позволяет контролировать картинку похожими на ControlNet инструментами и добывать из картинок разную информацию.
Разница:
ContolNet - это куча обученных моделей. Гигабайты, которые вы кладете в нужные папочки. И код к ним, которые все это читает и исполняет.
FreeControl - это просто код. Точка. Он не использует никакие предобученных моделей.
Плюсы - скорость, удобство установки, простота и частота обновлений.
Минусы - качество и контроль. FreeControl скорее всего будет проигрывать в качестве и точности контроля КонтролНету.
Вопрос в задачах. Возможно он закроет 90% ваших нужд. Надо тестировать.
В примерах они умеют читать PointCloud, интересно...
https://genforce.github.io/freecontrol/
Давайте я вам проясню за FreeControl, которые в сеточке называют убийцей ControlNet-а.
Да, это крутая штука, код которой выпустили 3 дня назад, уже прикрутили в Комфи и вот-вот запилят в A1111. Он позволяет контролировать картинку похожими на ControlNet инструментами и добывать из картинок разную информацию.
Разница:
ContolNet - это куча обученных моделей. Гигабайты, которые вы кладете в нужные папочки. И код к ним, которые все это читает и исполняет.
FreeControl - это просто код. Точка. Он не использует никакие предобученных моделей.
Плюсы - скорость, удобство установки, простота и частота обновлений.
Минусы - качество и контроль. FreeControl скорее всего будет проигрывать в качестве и точности контроля КонтролНету.
Вопрос в задачах. Возможно он закроет 90% ваших нужд. Надо тестировать.
В примерах они умеют читать PointCloud, интересно...
https://genforce.github.io/freecontrol/
👍22🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, я тут все время распинаюсь, что весь генеративный контент уже вполне годится для соц-сетей. А вы такие: нет, мы не такие, мы за искусство!
OpenAI завели свой тикток. И постят туда SORA генерации. Выглядит как ОЧЕНЬ КРУТОЙ ТИКТОК.
Я когда увидел эту собаку, я точно не смог сразу сказать - это реально пса так замучили или ИИ нас троллит. Стал приглядываться к буквам на худи.
И свет, Карл! Свет!
Короче, в тиктоке вы уже не сможете отличить генератив от кожаного видео. Ну ок, если вы из постпродакшена, то скажем, что 95% населения ТикТока не смогут.
Ждем, когда ИИ закормит ТикТок видосами до потери сознания (тут про сознание спонтанная шутка).
А вы пока идите залипать сюда:
https://www.tiktok.com/@openai
Хорошо хоть они дозируют дозу, иначе вы бы залипли в матрице.
OpenAI завели свой тикток. И постят туда SORA генерации. Выглядит как ОЧЕНЬ КРУТОЙ ТИКТОК.
Я когда увидел эту собаку, я точно не смог сразу сказать - это реально пса так замучили или ИИ нас троллит. Стал приглядываться к буквам на худи.
И свет, Карл! Свет!
Короче, в тиктоке вы уже не сможете отличить генератив от кожаного видео. Ну ок, если вы из постпродакшена, то скажем, что 95% населения ТикТока не смогут.
Ждем, когда ИИ закормит ТикТок видосами до потери сознания (тут про сознание спонтанная шутка).
А вы пока идите залипать сюда:
https://www.tiktok.com/@openai
Хорошо хоть они дозируют дозу, иначе вы бы залипли в матрице.
👍54🔥35
В общем Гугл опять отжигает.
Когда-то они не смогли побороть проблему, что их ИИ распознает афроамериканцев на картинках как горилл.
Теперь выкрутили рульки в другую сторону. Население планеты и исторические личности сильно потемнели. Некоторые, типа папы Римскага, вообщем сменили пол.
В сети флешмоб. Народ пытается генерить в Гемини "счастливые белые пары" и получает визгливый отказ - типа расовая дискриминация. Чорные пары генерит норм.
Сегодня гугл уже извиняется везде:
https://www.foxbusiness.com/media/google-apologizes-new-gemini-ai-refuses-show-pictures-achievements-white-people
Пост об этом напишу завтра, а пока поглядите, как Гугл играет в игру "мы не такие" и переписывает историю.
Вишенка: говорят (думаю шутка): что в команде разработки Google Gemini на 2 инженеров приходится 29 менеджеров по расовому и гендерному разнообразию.
Когда-то они не смогли побороть проблему, что их ИИ распознает афроамериканцев на картинках как горилл.
Теперь выкрутили рульки в другую сторону. Население планеты и исторические личности сильно потемнели. Некоторые, типа папы Римскага, вообщем сменили пол.
В сети флешмоб. Народ пытается генерить в Гемини "счастливые белые пары" и получает визгливый отказ - типа расовая дискриминация. Чорные пары генерит норм.
Сегодня гугл уже извиняется везде:
https://www.foxbusiness.com/media/google-apologizes-new-gemini-ai-refuses-show-pictures-achievements-white-people
Пост об этом напишу завтра, а пока поглядите, как Гугл играет в игру "мы не такие" и переписывает историю.
Вишенка: говорят (думаю шутка): что в команде разработки Google Gemini на 2 инженеров приходится 29 менеджеров по расовому и гендерному разнообразию.
🔥58👎7👍3