Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Принес вам забавную архитектурную ИИ-рисовалку.
Этакая nano-krea, сделанная одним человеком на коленке и питонге. Заточенная как бы под архитектурку (хотя там просто Дримшейпер модель с возможностью замены).
Полный опенсорс, несложная установка, можете сами попробовать.
Прикольная фишка - в качестве входного изображения, можно подать ему на вход захват области экрана, например окна Иллюстратора, где можно рисовать сплайнами. Справа будет ИИ-подрендер вьюпорта Иллюстратора.
Поглядите примерчики, забавно.
https://github.com/s-du/ScribbleArchitect?tab=readme-ov-file
👍28🔥4
Хмм. Ведение социальных сетей с помощью GenAI.
Доклад на Adobe Max 2024.
Вы находитесь здесь.
👍27👎2
Внимание айтишников! Вы можете принять участие в отборе статей к публикации в журнале «Доклады Российской академии наук. Математика, информатика, процессы управления».

Автор самой лучшей работы получит денежное вознаграждение — 1 млн рублей.

Причем издание выйдет и на англоязычной версии журнала под названием Doklady Mathematics, а также будет представлено в рамках ведущей международной конференции по ИИ — AI Journey. А это значит, что все статьи будут рассматривать реальные эксперты. Поэтому ваши таланты и знания оценят по достоинству.

Не упустите такую возможность — заявку можно подать до 20 августа. Не забудьте прочитать все правила оформления статьи на сайте.
👍11👎11🔥4
Ну, за дизайнеров.

Тут Тик-Ток выкатил работу под названием ГРАФИСТ.

Графист берет на вход некоторое количество графических элементов (просто картинки с альфой, RGBA), понимает, что они из себя представляют и делает макет. Расставляет элементы красиво с точки зрения графического дизайна.
То есть ИИ берет на себя композицию, по пути понимая, что за контент вы ему скормили.
На входе пачка RGBA файлов, на выходе JSON, описывающий слои и расположение элементов.

Из интересного: под капотом китайская LLM Qwen1.5-0.5B/7B, причем есть две версии Графиста: Graphist-Tiny на Qwen1.5-0.5B и
Graphist-Base на Qwen1.5-7B.

Читая статью узнал вот про такой датасет-сток:
https://create.vista.com/ - может кому-то пригодится.

На итоге они взяли волонтеров, которые в их веб-демо(которого нет) нагенерили картинок. Которые они прогнали через CPT-4 Eval и получили, предсказуемо, что Графист всех уделал.

Кода нет, демо нет, есть гитхаб с картинками и статья, любопытная притом.

https://github.com/graphic-design-ai/graphist
🔥32👍8👎7
ИИ-регуляции в действии.
Но есть вопросы.

Преступнику, осужденному за создание более 1000 непристойных изображений детей, запретили использовать любые «инструменты искусственного интеллекта» в течение следующих пяти лет в рамках первого известного дела такого рода.

Народ на реддите уже отжигает с аналогиями:

«Мужчина арестован после того, как нарисовал более 1000 изображений несовершеннолетних детей. Ему пожизненно запретили использовать Photoshop».

https://www.reddit.com/r/StableDiffusion/comments/1c9dnof/sex_offender_banned_from_using_ai_tools_in/

У таких приговоров конечно больше вопросов, чем ответов.

Ну и мне не нравится прецедент тем, что массовый читатель газет получит еще один шаблон типа "а, ИИ-картики, это ж сплошное порно и педофилия", по аналогии с "а, крипта, это для покупки наркотиков".

Но больше всего, конечно, интересно, как они будут отслеживать трогал он ИИ или не трогал после вынесения приговора.
👍18🔥9👎1
В покере есть такое понятие - полублеф. Это когда ты ставишь имея на руках дро или перспективу.
Похоже пора вводить понятие полудипфейк.

Это когда на картинке вроде как узнаваемый человек, но как бы в перспективе, если он, например, похудеет или займется спортом.

Одна из австрийских политических партий использует искусственный интеллект для создания «мужественных» фотографий своего кандидата, второе изображение - то, как он выглядит на самом деле.

Если раньше у нас была бьютификация в фотошопе, то теперь бьютификация происходит в мозгах ИИ. Просто говоришь ему, сделать так, чтобы кожаным понравилось. Он делает. Дальше вопрос чувства меры.
👍47🔥8👎3
Помните, как я распинался про измерение красоты?
Умные люди запили, наконец, слепые тесты.
Есть такой сайт, ChatBotArena, там люди общаются с разными LLM вслепую и просто выбирают те ответы, которые им понравились. Не зная, какая ЛЛМ ответила.
Получается коллективно-сознательный тест.
Так вот, теперь такое же сделали для картинок, можете самом попробовать.
Смотрите на промпт, и выбираете, какая картинка ему лучше соответствует.
Только хардкор и вкусовщина!

Предсказуемо Midjourney на первом месте.
Пока.
Остальное смотрите на сайте:
https://artificialanalysis.ai/text-to-image/arena

Тестировались только базовые модели, никаких чекпойнтов с цивитай:

Models compared: DALLE 3, DALLE 2, DALLE 3 HD, Stable Diffusion 3, Playground v2.5, Stable Diffusion 1.6, Stable Diffusion 2.1, Stable Diffusion 3 Turbo, Midjourney v6, SDXL-Lightning (4-Step), Stable Diffusion XL 1.0 (SDXL)

Number of inference steps: for open source models with inference/DDIM step setting, creator defaults preferred. Stable Diffusion XL 1.0 (SDXL): 30. SDXL-Lightning (4-Step): 4. Stable Diffusion 1.6: 50. Stable Diffusion 2.1: 50. Playground v2.5: 50.
👍32👎3🔥3
Сорян, но я снова про лыжную маску.

Тут вот пару месяцев назад все обсуждали объемы производства масочек. Те, у кого не хватило денег на покупку, тешили себя надеждой, что будет (когда-то в сферическом будущем) дешевая версия, те у кого хватило - признались, что девайс пустой и что с ним делать(кроме как смотреть кино) - непонятно. А я писал, что без киллер-фичи - не взлетит.

Нуштош.

Apple, сокращает производство гарнитуры Vision Pro ПОЧТИ ВДВОЕ и отменяет обновленную гарнитуру, поскольку продажи в США падают.

Читаю статьи и вижу, что правду ведь писал про killer-фичу и про масс-маркет: "Apple еще не представила действительно стоящего приложения для гарнитуры."

"It was never going to be a mass market device."

https://www.pcgamer.com/hardware/vr-hardware/apple-reportedly-slashes-vision-pro-headset-production-and-cancels-updated-headset-as-sales-tank-in-the-us/

https://www.business-standard.com/technology/tech-news/apple-slashes-vision-pro-shipment-estimates-amid-plummeting-demand-124042400632_1.html

https://www.ign.com/articles/apple-reportedly-slashes-apple-vision-pro-shipments-due-to-unexpectedly-low-demand
👍35👎41
А вот у Метачки с очками все идет неплохо.

Мало того, что теперь вы можете расшаривать свой "обзор" с собеседниками (я когда-то писал, что мы теперь можем видеть мир глазами других людей и это эдакое коллективное зрение, к которому наши мозги не готовы).
Теперь они раскатали в апдейт очков мультимодальный ИИ. Вы можете спрашивать его голосом, показывать ему картинки или просто окружающий мир и общаться с ним на эту тему.

От встроенного аудио и сверхширокоугольной 12-Мп камеры до интеллектуального помощника - вы просто говорите "Эй, Мета" и ну общацца с ИИ.

"Допустим, вы путешествуете и пытаетесь прочитать меню на французском языке. Ваши умные очки могут использовать встроенную камеру и Meta AI для перевода текста, предоставляя вам необходимую информацию без необходимости доставать телефон или смотреть на экран."

Подробнее тут:
https://about.fb.com/news/2024/04/new-ray-ban-meta-smart-glasses-styles-and-meta-ai-updates/

И похоже, что Марк делает очень правильные продуктовые ходы.
Просто представьте, что в вотсапе теперь можно через @ позвать @Meta.ai и затем спросить, что угодно или сгенерить картинку, анимировать ея. И все это не выходя из привычного мессенджера (инста, вотсап, фбмессенджер). Не надо лазить в браузер, копипастить, шарить и пр.
А коль скоро аудитория метачки это около 4 миллиардов(!) юзеров, и они получают свой ИИ просто за свой логин, то это просто убийственный ход с точки зрения юзер аквизишен.

А тут еще Марк вознамерился сделать из своей метаверс-операционки Horizon открытую систему для различных производителей VR-железа (Цукерберг упомянул Microsoft, Lenovo, Asus)
Этакий VR-Андроид.
https://www.cnbc.com/2024/04/22/mark-zuckerberg-says-meta-will-offer-its-virtual-reality-os-to-hardware-companies.html

Вкупе с открытостью Лламы и доступностью метачкиного ИИ для половины населения планеты это делает Метачку новым Микрософтом.

В интересное время живем. Социальные сети становятся операционками на стероидах ИИ.
🔥42👍19👎3
Media is too big
VIEW IN TELEGRAM
К посту выше
👍20🔥1
Время сравнивать красоту!

Вчера писал про новый сравниватор, там были только базовые модели, включая DALL·E 3 и Midjourney без чекпойнтов с цивитай.

А тут вот ИИ-хостер fal.ai замутил Image Bot Arena, где уже хлещутся и чекпойнты с Цивитай (их количество растет) и Fooocus(!) и Stable Cascade(!) и всякия Турбо с Лайтнингами.
Запустили вчера, там все живенько - вчера царем горы был PlayGround, сегодя RealVis XL.

И самое главное, тут можно самим генерить, а потом жмакать три кнопки внизу - кто выиграл или ничья(Tie).
Работает и с телефона и показывает после голосовалки, какая картинка где сделана. Более того, есть ссылка на Хаггинг, где хранится база данных голосования. И ссылка на Гитхаб, где есть код.

Это родственный проект Chatbot Arena, а также Image Arena от artificialanalysis.ai

Сравниваем красоту здесь:
https://imgsys.org/

P.S. Кстати, тут незаметно идет сравнивание UX-а моделей.
Ибо если углубиться в недра Цивитай, то там у каждой модели есть туча прибабахов типа: используйте вот такой VAE, CFG скейл вот такой, в промпте укажите вот эдак.

А здесь идет народное тестирование "из коробки". Также как если бы народ вводил промпты в Идеограм или DALL·E 3. Время шаманства со скобками проходит, на первый план выходят скорость и удобство.
🔥36👍8👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Сравниваем быструю красоту!

Тут вот Тиктокченко недавно бахнул быструю версию Stable Diffusion под названием Hyper-SD.
https://hyper-sd.github.io/
Еще одна дистиллированная (ускоренно-пожатая) модель, которая по словам авторов бьет SDXL-Lightning.

А если вы уже слегка охренели от всех этих SDXL Turbo, SDXL-Lightning и Hyper-SD, то в следующем посте дам вам экскаватор-сравниватор именно для скоростных моделей, которые генерят картинку с малым количество шагов, почти в реалтайме. Сможете сами попробовать.
👍18🔥6
Сравниваем быструю красоту сами!

Держите сравниватор для ускоренных моделей. Генерация ЗА ОДИН ШАГ!

Похоже, что Hyper-SD действительно всех делает.
Я также погонял на NSFW - там Турбо сразу сдулся, у него датасет порезанный, а вот Hyper-SD снова молодец. В коментах примерчик.
Ну и это реально быстро!
Подумайте, три картинки генерятся за секунду.
А будет еще хуже\лучше!
https://huggingface.co/spaces/multimodalart/one-step-comparison
🔥17👎2👍1
Новая базовая модель (то есть не клон Ламы или Мистраля) от Snowflake по названием Arctic (Снежинка выпускает Арктику).

Говорят, что довольно вольная, с минимальной цензурой, компактная и даже опер-сорсная, веса обещают.
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

Для гиков: Arctic использует гибридную архитектуру Dense-MoE (на картинке), применяя Top-2 gating со 128 экспертами, чтобы найти баланс между повышением качества и эффективностью системы.

Более того, уже можно попробовать самим тут:
https://arctic.streamlit.app/

Умеет в русский (не знаю пока насколько хорошо)
Для гиков есть вот такой разбор:
https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16

Что-то ураган новых базовых моделей (phi-3 от Микрософта, китайский Qwen) несется над планетой. Скоро их начнут ужимать и присовывать в телефоны. И будет нам ИИ нашептывать колыбельные...

LLM: новая модель каждый день! Все круче и круче! За углом Llama 400+
Картинки: Скоро будет Stable Diffusion 3, Эмада прогнали из Стабилити, Уволили 10% разрабов, наверное скоро будет Stable Diffusion 3 но это неточно, есть SD3 API но за конские деньги, Midjourney молчит, DALL·E 3 не обновлялся с прошлого года, Stable Diffusion 3 обещали два месяца назад.

Пойду посмотрю, что с картинками.
🔥20👍9👎7
This media is not supported in your browser
VIEW IN TELEGRAM
После выводка ИИ генераторов 3Д, поглядите, как это делает Vizcom.
Пример нормального UI/UX. Слои, история и пр.

У них там мощный апдейт 2Д Студио, поглядите вот тут:
https://youtu.be/qYax7QPVZVw
👍25🔥3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот поглядите на забавное видео, где стиль вытаскивает картинку и историю.

Концепты и визуалы: Midjourney и Stable Diffusion.
Аnimatediff для взрыва мозга.
Runway для липсинка(!) - очень неплохо.
Voice to voice in eleven labs
After Effects для полировки - куда ж без него.

В общем, одной кнопкой пока не получится. Нужен мозг(пока) и некривые руки. И АЕ.
🔥36👍7👎3
Как бы не упирались новые модели, текст все равно генерится криво. Шрифтовой дизайн - это не пустое слово.
Ну и мне видится вот такой пайплайн - сидишь в Фотошопе и говоришь: ИИ, найди мне конкретную надпись или, например, номера на машине. И замени их на нормальные шрифты, текст без ошибок и воще сделай как в Фотошопе.
ИИ, такой, алехко - поставь Concept Art plugin

Поглядите, что люди замыслили:
https://twitter.com/cantrell/status/1782879174497362411/
👎7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Пока LLM дают передохнуть, вернемся к графике и пошепчемся за ИИ-композ и 3Д.


Увидел вот такой ролик и полез посмотреть на 3daistudio (в ролике набросок концепта, нейрорендер в креа, а потом конвертация картинки в 3Д).

Еще один 3Д-генератор. Сделан ловко, но за каждый чих просит денег.
Нынешняя ситуация 3Д напоминает мне лихорадку с картинками полтора года назад, когда все срочно поднимали сервак-другой в сети, давали веб-морду к Stable Diffusion и просили кредитов, денег, подписок за генерацию картинок.
С 3Д немного сложнее сделать веб-морду - тут надо вьюпортик вонзить, сделать экпорт в fbx(конечно, платный), рульки для света и пр.
Но кода на гитхабе уже полно вкупе с бумагами, поэтому 3Д-генераторов за кредиты будет все больше.
У 3daistudio есть даже плагин для Блендора - поэтому я жду, что рано или поздно 3Д-генерация просто появится в Блендоре из коробки.
Равно как и в Юнити и UE.
https://3daistudio.com/BlenderAddon
👍30👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за левел-дизайнеров и пропс-инженеров.

Помянул Юнити и вспомнил, что забыл написать про Holodeck - они тут подались на CVPR 2024 и обновили код на Гитхабе.
Это генератор 3Д-сцен из текста. Чем-то напоминает Прометей от Андрея Максимова.

Holodeck может генерировать различные сцены, например, игровые автоматы, спа-салоны и музеи, корректировать дизайн в зависимости от стиля и улавливать семантику сложных запросов, таких как "квартира для научного сотрудника с кошкой" и "офис профессора, который является поклонником "Звездных войн".

Он не генерирует сами объекты, он их тащит из датасета Objaverse:
Holodeck использует GPT-4 для получения знаний о том, как может выглядеть сцена, и использует 3D-ассеты из Objaverse для наполнения сцены разнообразными объектами.

Это скорее расставлятор 3Д-ассетов по текстовому запросу.

Его также используют для обучение агентов навигации в новых сценах без использования разметки и данных, созданных человеком. Источник синтетики без необходимости наруливать миры в Юнити.

Код есть, но там все из палок и Юнити.

А я увидел в сети новый термин - "Синтиверс". Это когда ваши виар-мирки или игровые локации генерируются под запрос в реальном времени. Подумал о чем-то - хоп, твой мир перед тобой.
👍31👎4🔥3