Метаверсище и ИИще

Принес вам забавную архитектурную ИИ-рисовалку.
Этакая nano-krea, сделанная одним человеком на коленке и питонге. Заточенная как бы под архитектурку (хотя там просто Дримшейпер модель с возможностью замены).
Полный опенсорс, несложная установка, можете сами попробовать.
Прикольная фишка - в качестве входного изображения, можно подать ему на вход захват области экрана, например окна Иллюстратора, где можно рисовать сплайнами. Справа будет ИИ-подрендер вьюпорта Иллюстратора.
Поглядите примерчики, забавно.
https://github.com/s-du/ScribbleArchitect?tab=readme-ov-file

👍28🔥4

6.61K viewsSergey Tsyptsyn ️️, 11:22

Метаверсище и ИИще

Хмм. Ведение социальных сетей с помощью GenAI.
Доклад на Adobe Max 2024.
Вы находитесь здесь.

👍27👎2

5.7K viewsSergey Tsyptsyn ️️, 11:36

Метаверсище и ИИще

Внимание айтишников! Вы можете принять участие в отборе статей к публикации в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

Автор самой лучшей работы получит денежное вознаграждение — 1 млн рублей.

Причем издание выйдет и на англоязычной версии журнала под названием Doklady Mathematics, а также будет представлено в рамках ведущей международной конференции по ИИ — AI Journey. А это значит, что все статьи будут рассматривать реальные эксперты. Поэтому ваши таланты и знания оценят по достоинству.

Не упустите такую возможность — заявку можно подать до 20 августа. Не забудьте прочитать все правила оформления статьи на сайте.

👍11👎11🔥4

7.08K viewsSergey Tsyptsyn ️️, 13:02

Метаверсище и ИИще

Ну, за дизайнеров.

Тут Тик-Ток выкатил работу под названием ГРАФИСТ.

Графист берет на вход некоторое количество графических элементов (просто картинки с альфой, RGBA), понимает, что они из себя представляют и делает макет. Расставляет элементы красиво с точки зрения графического дизайна.
То есть ИИ берет на себя композицию, по пути понимая, что за контент вы ему скормили.
На входе пачка RGBA файлов, на выходе JSON, описывающий слои и расположение элементов.

Из интересного: под капотом китайская LLM Qwen1.5-0.5B/7B, причем есть две версии Графиста: Graphist-Tiny на Qwen1.5-0.5B и
Graphist-Base на Qwen1.5-7B.

Читая статью узнал вот про такой датасет-сток:
https://create.vista.com/ - может кому-то пригодится.

На итоге они взяли волонтеров, которые в их веб-демо(которого нет) нагенерили картинок. Которые они прогнали через CPT-4 Eval и получили, предсказуемо, что Графист всех уделал.

Кода нет, демо нет, есть гитхаб с картинками и статья, любопытная притом.

https://github.com/graphic-design-ai/graphist

🔥32👍8👎7

5.86K viewsSergey Tsyptsyn ️️, 08:27

Метаверсище и ИИще

ИИ-регуляции в действии.
Но есть вопросы.

Преступнику, осужденному за создание более 1000 непристойных изображений детей, запретили использовать любые «инструменты искусственного интеллекта» в течение следующих пяти лет в рамках первого известного дела такого рода.

Народ на реддите уже отжигает с аналогиями:

«Мужчина арестован после того, как нарисовал более 1000 изображений несовершеннолетних детей. Ему пожизненно запретили использовать Photoshop».

https://www.reddit.com/r/StableDiffusion/comments/1c9dnof/sex_offender_banned_from_using_ai_tools_in/

У таких приговоров конечно больше вопросов, чем ответов.

Ну и мне не нравится прецедент тем, что массовый читатель газет получит еще один шаблон типа "а, ИИ-картики, это ж сплошное порно и педофилия", по аналогии с "а, крипта, это для покупки наркотиков".

Но больше всего, конечно, интересно, как они будут отслеживать трогал он ИИ или не трогал после вынесения приговора.

From the StableDiffusion community on Reddit: Sex offender banned from using AI tools in landmark UK case

Explore this post and more from the StableDiffusion community

👍18🔥9👎1

5.81K viewsSergey Tsyptsyn ️️, 08:48

Метаверсище и ИИще

В покере есть такое понятие - полублеф. Это когда ты ставишь имея на руках дро или перспективу.
Похоже пора вводить понятие полудипфейк.

Это когда на картинке вроде как узнаваемый человек, но как бы в перспективе, если он, например, похудеет или займется спортом.

Одна из австрийских политических партий использует искусственный интеллект для создания «мужественных» фотографий своего кандидата, второе изображение - то, как он выглядит на самом деле.

Если раньше у нас была бьютификация в фотошопе, то теперь бьютификация происходит в мозгах ИИ. Просто говоришь ему, сделать так, чтобы кожаным понравилось. Он делает. Дальше вопрос чувства меры.

👍47🔥8👎3

5.64K viewsSergey Tsyptsyn ️️, 11:03

Метаверсище и ИИще

Помните, как я распинался про измерение красоты?
Умные люди запили, наконец, слепые тесты.
Есть такой сайт, ChatBotArena, там люди общаются с разными LLM вслепую и просто выбирают те ответы, которые им понравились. Не зная, какая ЛЛМ ответила.
Получается коллективно-сознательный тест.
Так вот, теперь такое же сделали для картинок, можете самом попробовать.
Смотрите на промпт, и выбираете, какая картинка ему лучше соответствует.
Только хардкор и вкусовщина!

Предсказуемо Midjourney на первом месте.
Пока.
Остальное смотрите на сайте:
https://artificialanalysis.ai/text-to-image/arena

Тестировались только базовые модели, никаких чекпойнтов с цивитай:

Models compared: DALLE 3, DALLE 2, DALLE 3 HD, Stable Diffusion 3, Playground v2.5, Stable Diffusion 1.6, Stable Diffusion 2.1, Stable Diffusion 3 Turbo, Midjourney v6, SDXL-Lightning (4-Step), Stable Diffusion XL 1.0 (SDXL)

Number of inference steps: for open source models with inference/DDIM step setting, creator defaults preferred. Stable Diffusion XL 1.0 (SDXL): 30. SDXL-Lightning (4-Step): 4. Stable Diffusion 1.6: 50. Stable Diffusion 2.1: 50. Playground v2.5: 50.

👍32👎3🔥3

5.89K viewsSergey Tsyptsyn ️️, edited 12:13

Метаверсище и ИИще

Сорян, но я снова про лыжную маску.

Тут вот пару месяцев назад все обсуждали объемы производства масочек. Те, у кого не хватило денег на покупку, тешили себя надеждой, что будет (когда-то в сферическом будущем) дешевая версия, те у кого хватило - признались, что девайс пустой и что с ним делать(кроме как смотреть кино) - непонятно. А я писал, что без киллер-фичи - не взлетит.

Нуштош.

Apple, сокращает производство гарнитуры Vision Pro ПОЧТИ ВДВОЕ и отменяет обновленную гарнитуру, поскольку продажи в США падают.

Читаю статьи и вижу, что правду ведь писал про killer-фичу и про масс-маркет: "Apple еще не представила действительно стоящего приложения для гарнитуры."

"It was never going to be a mass market device."

https://www.pcgamer.com/hardware/vr-hardware/apple-reportedly-slashes-vision-pro-headset-production-and-cancels-updated-headset-as-sales-tank-in-the-us/

https://www.business-standard.com/technology/tech-news/apple-slashes-vision-pro-shipment-estimates-amid-plummeting-demand-124042400632_1.html

https://www.ign.com/articles/apple-reportedly-slashes-apple-vision-pro-shipments-due-to-unexpectedly-low-demand

👍35👎4❤1

5.62K viewsSergey Tsyptsyn ️️, edited 08:17

Метаверсище и ИИще

А вот у Метачки с очками все идет неплохо.

Мало того, что теперь вы можете расшаривать свой "обзор" с собеседниками (я когда-то писал, что мы теперь можем видеть мир глазами других людей и это эдакое коллективное зрение, к которому наши мозги не готовы).
Теперь они раскатали в апдейт очков мультимодальный ИИ. Вы можете спрашивать его голосом, показывать ему картинки или просто окружающий мир и общаться с ним на эту тему.

От встроенного аудио и сверхширокоугольной 12-Мп камеры до интеллектуального помощника - вы просто говорите "Эй, Мета" и ну общацца с ИИ.

"Допустим, вы путешествуете и пытаетесь прочитать меню на французском языке. Ваши умные очки могут использовать встроенную камеру и Meta AI для перевода текста, предоставляя вам необходимую информацию без необходимости доставать телефон или смотреть на экран."

Подробнее тут:
https://about.fb.com/news/2024/04/new-ray-ban-meta-smart-glasses-styles-and-meta-ai-updates/

И похоже, что Марк делает очень правильные продуктовые ходы.
Просто представьте, что в вотсапе теперь можно через @ позвать @Meta.ai и затем спросить, что угодно или сгенерить картинку, анимировать ея. И все это не выходя из привычного мессенджера (инста, вотсап, фбмессенджер). Не надо лазить в браузер, копипастить, шарить и пр.
А коль скоро аудитория метачки это около 4 миллиардов(!) юзеров, и они получают свой ИИ просто за свой логин, то это просто убийственный ход с точки зрения юзер аквизишен.

А тут еще Марк вознамерился сделать из своей метаверс-операционки Horizon открытую систему для различных производителей VR-железа (Цукерберг упомянул Microsoft, Lenovo, Asus)
Этакий VR-Андроид.
https://www.cnbc.com/2024/04/22/mark-zuckerberg-says-meta-will-offer-its-virtual-reality-os-to-hardware-companies.html

Вкупе с открытостью Лламы и доступностью метачкиного ИИ для половины населения планеты это делает Метачку новым Микрософтом.

В интересное время живем. Социальные сети становятся операционками на стероидах ИИ.

Meta Newsroom

New Ray-Ban | Meta Smart Glasses Styles and Meta AI Updates

We’re adding new styles, video calling with WhatsApp and Messenger, and Meta AI with Vision, so you can ask your glasses about what you’re seeing and get helpful information.

🔥42👍19👎3

5.36K viewsSergey Tsyptsyn ️️, edited 09:46

К посту выше

👍20🔥1

5.1K viewsSergey Tsyptsyn ️️, 10:10

Метаверсище и ИИще

Время сравнивать красоту!

Вчера писал про новый сравниватор, там были только базовые модели, включая DALL·E 3 и Midjourney без чекпойнтов с цивитай.

А тут вот ИИ-хостер fal.ai замутил Image Bot Arena, где уже хлещутся и чекпойнты с Цивитай (их количество растет) и Fooocus(!) и Stable Cascade(!) и всякия Турбо с Лайтнингами.
Запустили вчера, там все живенько - вчера царем горы был PlayGround, сегодя RealVis XL.

И самое главное, тут можно самим генерить, а потом жмакать три кнопки внизу - кто выиграл или ничья(Tie).
Работает и с телефона и показывает после голосовалки, какая картинка где сделана. Более того, есть ссылка на Хаггинг, где хранится база данных голосования. И ссылка на Гитхаб, где есть код.

Это родственный проект Chatbot Arena, а также Image Arena от artificialanalysis.ai

Сравниваем красоту здесь:
https://imgsys.org/

P.S. Кстати, тут незаметно идет сравнивание UX-а моделей.
Ибо если углубиться в недра Цивитай, то там у каждой модели есть туча прибабахов типа: используйте вот такой VAE, CFG скейл вот такой, в промпте укажите вот эдак.

А здесь идет народное тестирование "из коробки". Также как если бы народ вводил промпты в Идеограм или DALL·E 3. Время шаманства со скобками проходит, на первый план выходят скорость и удобство.

🔥36👍8👎1

6.12K viewsSergey Tsyptsyn ️️, 10:30

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Сравниваем быструю красоту!

Тут вот Тиктокченко недавно бахнул быструю версию Stable Diffusion под названием Hyper-SD.
https://hyper-sd.github.io/
Еще одна дистиллированная (ускоренно-пожатая) модель, которая по словам авторов бьет SDXL-Lightning.

А если вы уже слегка охренели от всех этих SDXL Turbo, SDXL-Lightning и Hyper-SD, то в следующем посте дам вам экскаватор-сравниватор именно для скоростных моделей, которые генерят картинку с малым количество шагов, почти в реалтайме. Сможете сами попробовать.

👍18🔥6

5.21K viewsSergey Tsyptsyn ️️, 10:40

Метаверсище и ИИще

Сравниваем быструю красоту сами!

Держите сравниватор для ускоренных моделей. Генерация ЗА ОДИН ШАГ!

Похоже, что Hyper-SD действительно всех делает.
Я также погонял на NSFW - там Турбо сразу сдулся, у него датасет порезанный, а вот Hyper-SD снова молодец. В коментах примерчик.
Ну и это реально быстро!
Подумайте, три картинки генерятся за секунду.
А будет еще хуже\лучше!
https://huggingface.co/spaces/multimodalart/one-step-comparison

🔥17👎2👍1

5.14K viewsSergey Tsyptsyn ️️, 10:47

Метаверсище и ИИще

Новая базовая модель (то есть не клон Ламы или Мистраля) от Snowflake по названием Arctic (Снежинка выпускает Арктику).

Говорят, что довольно вольная, с минимальной цензурой, компактная и даже опер-сорсная, веса обещают.
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

Для гиков: Arctic использует гибридную архитектуру Dense-MoE (на картинке), применяя Top-2 gating со 128 экспертами, чтобы найти баланс между повышением качества и эффективностью системы.

Более того, уже можно попробовать самим тут:
https://arctic.streamlit.app/

Умеет в русский (не знаю пока насколько хорошо)
Для гиков есть вот такой разбор:
https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16

Что-то ураган новых базовых моделей (phi-3 от Микрософта, китайский Qwen) несется над планетой. Скоро их начнут ужимать и присовывать в телефоны. И будет нам ИИ нашептывать колыбельные...

LLM: новая модель каждый день! Все круче и круче! За углом Llama 400+
Картинки: Скоро будет Stable Diffusion 3, Эмада прогнали из Стабилити, Уволили 10% разрабов, наверное скоро будет Stable Diffusion 3 но это неточно, есть SD3 API но за конские деньги, Midjourney молчит, DALL·E 3 не обновлялся с прошлого года, Stable Diffusion 3 обещали два месяца назад.

Пойду посмотрю, что с картинками.

🔥20👍9👎7

5.15K viewsSergey Tsyptsyn ️️, edited 11:12

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

После выводка ИИ генераторов 3Д, поглядите, как это делает Vizcom.
Пример нормального UI/UX. Слои, история и пр.

У них там мощный апдейт 2Д Студио, поглядите вот тут:
https://youtu.be/qYax7QPVZVw

👍25🔥3👎1

5.77K viewsSergey Tsyptsyn ️️, 11:25

Метаверсище и ИИще

0:55

This media is not supported in your browser

VIEW IN TELEGRAM

Вот поглядите на забавное видео, где стиль вытаскивает картинку и историю.

Концепты и визуалы: Midjourney и Stable Diffusion.
Аnimatediff для взрыва мозга.
Runway для липсинка(!) - очень неплохо.
Voice to voice in eleven labs
After Effects для полировки - куда ж без него.

В общем, одной кнопкой пока не получится. Нужен мозг(пока) и некривые руки. И АЕ.

🔥36👍7👎3

5.6K viewsSergey Tsyptsyn ️️, 11:32

Метаверсище и ИИще

Как бы не упирались новые модели, текст все равно генерится криво. Шрифтовой дизайн - это не пустое слово.
Ну и мне видится вот такой пайплайн - сидишь в Фотошопе и говоришь: ИИ, найди мне конкретную надпись или, например, номера на машине. И замени их на нормальные шрифты, текст без ошибок и воще сделай как в Фотошопе.
ИИ, такой, алехко - поставь Concept Art plugin

Поглядите, что люди замыслили:
https://twitter.com/cantrell/status/1782879174497362411/

👎7👍2

5.52K viewsSergey Tsyptsyn ️️, 11:42

Метаверсище и ИИще

0:16

This media is not supported in your browser

VIEW IN TELEGRAM

Пока LLM дают передохнуть, вернемся к графике и пошепчемся за ИИ-композ и 3Д.

Увидел вот такой ролик и полез посмотреть на 3daistudio (в ролике набросок концепта, нейрорендер в креа, а потом конвертация картинки в 3Д).

Еще один 3Д-генератор. Сделан ловко, но за каждый чих просит денег.
Нынешняя ситуация 3Д напоминает мне лихорадку с картинками полтора года назад, когда все срочно поднимали сервак-другой в сети, давали веб-морду к Stable Diffusion и просили кредитов, денег, подписок за генерацию картинок.
С 3Д немного сложнее сделать веб-морду - тут надо вьюпортик вонзить, сделать экпорт в fbx(конечно, платный), рульки для света и пр.
Но кода на гитхабе уже полно вкупе с бумагами, поэтому 3Д-генераторов за кредиты будет все больше.
У 3daistudio есть даже плагин для Блендора - поэтому я жду, что рано или поздно 3Д-генерация просто появится в Блендоре из коробки.
Равно как и в Юнити и UE.
https://3daistudio.com/BlenderAddon

👍30👎1

5.88K viewsSergey Tsyptsyn ️️, edited 04:39

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Ну, за левел-дизайнеров и пропс-инженеров.

Помянул Юнити и вспомнил, что забыл написать про Holodeck - они тут подались на CVPR 2024 и обновили код на Гитхабе.
Это генератор 3Д-сцен из текста. Чем-то напоминает Прометей от Андрея Максимова.

Holodeck может генерировать различные сцены, например, игровые автоматы, спа-салоны и музеи, корректировать дизайн в зависимости от стиля и улавливать семантику сложных запросов, таких как "квартира для научного сотрудника с кошкой" и "офис профессора, который является поклонником "Звездных войн".

Он не генерирует сами объекты, он их тащит из датасета Objaverse:
Holodeck использует GPT-4 для получения знаний о том, как может выглядеть сцена, и использует 3D-ассеты из Objaverse для наполнения сцены разнообразными объектами.

Это скорее расставлятор 3Д-ассетов по текстовому запросу.

Его также используют для обучение агентов навигации в новых сценах без использования разметки и данных, созданных человеком. Источник синтетики без необходимости наруливать миры в Юнити.

Код есть, но там все из палок и Юнити.

А я увидел в сети новый термин - "Синтиверс". Это когда ваши виар-мирки или игровые локации генерируются под запрос в реальном времени. Подумал о чем-то - хоп, твой мир перед тобой.

👍31👎4🔥3

6.36K viewsSergey Tsyptsyn ️️, edited 05:05

About

Blog

Apps

Platform