Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Помните, как я распинался про измерение красоты?
Умные люди запили, наконец, слепые тесты.
Есть такой сайт, ChatBotArena, там люди общаются с разными LLM вслепую и просто выбирают те ответы, которые им понравились. Не зная, какая ЛЛМ ответила.
Получается коллективно-сознательный тест.
Так вот, теперь такое же сделали для картинок, можете самом попробовать.
Смотрите на промпт, и выбираете, какая картинка ему лучше соответствует.
Только хардкор и вкусовщина!

Предсказуемо Midjourney на первом месте.
Пока.
Остальное смотрите на сайте:
https://artificialanalysis.ai/text-to-image/arena

Тестировались только базовые модели, никаких чекпойнтов с цивитай:

Models compared: DALLE 3, DALLE 2, DALLE 3 HD, Stable Diffusion 3, Playground v2.5, Stable Diffusion 1.6, Stable Diffusion 2.1, Stable Diffusion 3 Turbo, Midjourney v6, SDXL-Lightning (4-Step), Stable Diffusion XL 1.0 (SDXL)

Number of inference steps: for open source models with inference/DDIM step setting, creator defaults preferred. Stable Diffusion XL 1.0 (SDXL): 30. SDXL-Lightning (4-Step): 4. Stable Diffusion 1.6: 50. Stable Diffusion 2.1: 50. Playground v2.5: 50.
👍32👎3🔥3
Сорян, но я снова про лыжную маску.

Тут вот пару месяцев назад все обсуждали объемы производства масочек. Те, у кого не хватило денег на покупку, тешили себя надеждой, что будет (когда-то в сферическом будущем) дешевая версия, те у кого хватило - признались, что девайс пустой и что с ним делать(кроме как смотреть кино) - непонятно. А я писал, что без киллер-фичи - не взлетит.

Нуштош.

Apple, сокращает производство гарнитуры Vision Pro ПОЧТИ ВДВОЕ и отменяет обновленную гарнитуру, поскольку продажи в США падают.

Читаю статьи и вижу, что правду ведь писал про killer-фичу и про масс-маркет: "Apple еще не представила действительно стоящего приложения для гарнитуры."

"It was never going to be a mass market device."

https://www.pcgamer.com/hardware/vr-hardware/apple-reportedly-slashes-vision-pro-headset-production-and-cancels-updated-headset-as-sales-tank-in-the-us/

https://www.business-standard.com/technology/tech-news/apple-slashes-vision-pro-shipment-estimates-amid-plummeting-demand-124042400632_1.html

https://www.ign.com/articles/apple-reportedly-slashes-apple-vision-pro-shipments-due-to-unexpectedly-low-demand
👍35👎41
А вот у Метачки с очками все идет неплохо.

Мало того, что теперь вы можете расшаривать свой "обзор" с собеседниками (я когда-то писал, что мы теперь можем видеть мир глазами других людей и это эдакое коллективное зрение, к которому наши мозги не готовы).
Теперь они раскатали в апдейт очков мультимодальный ИИ. Вы можете спрашивать его голосом, показывать ему картинки или просто окружающий мир и общаться с ним на эту тему.

От встроенного аудио и сверхширокоугольной 12-Мп камеры до интеллектуального помощника - вы просто говорите "Эй, Мета" и ну общацца с ИИ.

"Допустим, вы путешествуете и пытаетесь прочитать меню на французском языке. Ваши умные очки могут использовать встроенную камеру и Meta AI для перевода текста, предоставляя вам необходимую информацию без необходимости доставать телефон или смотреть на экран."

Подробнее тут:
https://about.fb.com/news/2024/04/new-ray-ban-meta-smart-glasses-styles-and-meta-ai-updates/

И похоже, что Марк делает очень правильные продуктовые ходы.
Просто представьте, что в вотсапе теперь можно через @ позвать @Meta.ai и затем спросить, что угодно или сгенерить картинку, анимировать ея. И все это не выходя из привычного мессенджера (инста, вотсап, фбмессенджер). Не надо лазить в браузер, копипастить, шарить и пр.
А коль скоро аудитория метачки это около 4 миллиардов(!) юзеров, и они получают свой ИИ просто за свой логин, то это просто убийственный ход с точки зрения юзер аквизишен.

А тут еще Марк вознамерился сделать из своей метаверс-операционки Horizon открытую систему для различных производителей VR-железа (Цукерберг упомянул Microsoft, Lenovo, Asus)
Этакий VR-Андроид.
https://www.cnbc.com/2024/04/22/mark-zuckerberg-says-meta-will-offer-its-virtual-reality-os-to-hardware-companies.html

Вкупе с открытостью Лламы и доступностью метачкиного ИИ для половины населения планеты это делает Метачку новым Микрософтом.

В интересное время живем. Социальные сети становятся операционками на стероидах ИИ.
🔥42👍19👎3
Media is too big
VIEW IN TELEGRAM
К посту выше
👍20🔥1
Время сравнивать красоту!

Вчера писал про новый сравниватор, там были только базовые модели, включая DALL·E 3 и Midjourney без чекпойнтов с цивитай.

А тут вот ИИ-хостер fal.ai замутил Image Bot Arena, где уже хлещутся и чекпойнты с Цивитай (их количество растет) и Fooocus(!) и Stable Cascade(!) и всякия Турбо с Лайтнингами.
Запустили вчера, там все живенько - вчера царем горы был PlayGround, сегодя RealVis XL.

И самое главное, тут можно самим генерить, а потом жмакать три кнопки внизу - кто выиграл или ничья(Tie).
Работает и с телефона и показывает после голосовалки, какая картинка где сделана. Более того, есть ссылка на Хаггинг, где хранится база данных голосования. И ссылка на Гитхаб, где есть код.

Это родственный проект Chatbot Arena, а также Image Arena от artificialanalysis.ai

Сравниваем красоту здесь:
https://imgsys.org/

P.S. Кстати, тут незаметно идет сравнивание UX-а моделей.
Ибо если углубиться в недра Цивитай, то там у каждой модели есть туча прибабахов типа: используйте вот такой VAE, CFG скейл вот такой, в промпте укажите вот эдак.

А здесь идет народное тестирование "из коробки". Также как если бы народ вводил промпты в Идеограм или DALL·E 3. Время шаманства со скобками проходит, на первый план выходят скорость и удобство.
🔥36👍8👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Сравниваем быструю красоту!

Тут вот Тиктокченко недавно бахнул быструю версию Stable Diffusion под названием Hyper-SD.
https://hyper-sd.github.io/
Еще одна дистиллированная (ускоренно-пожатая) модель, которая по словам авторов бьет SDXL-Lightning.

А если вы уже слегка охренели от всех этих SDXL Turbo, SDXL-Lightning и Hyper-SD, то в следующем посте дам вам экскаватор-сравниватор именно для скоростных моделей, которые генерят картинку с малым количество шагов, почти в реалтайме. Сможете сами попробовать.
👍18🔥6
Сравниваем быструю красоту сами!

Держите сравниватор для ускоренных моделей. Генерация ЗА ОДИН ШАГ!

Похоже, что Hyper-SD действительно всех делает.
Я также погонял на NSFW - там Турбо сразу сдулся, у него датасет порезанный, а вот Hyper-SD снова молодец. В коментах примерчик.
Ну и это реально быстро!
Подумайте, три картинки генерятся за секунду.
А будет еще хуже\лучше!
https://huggingface.co/spaces/multimodalart/one-step-comparison
🔥17👎2👍1
Новая базовая модель (то есть не клон Ламы или Мистраля) от Snowflake по названием Arctic (Снежинка выпускает Арктику).

Говорят, что довольно вольная, с минимальной цензурой, компактная и даже опер-сорсная, веса обещают.
https://www.snowflake.com/blog/arctic-open-efficient-foundation-language-models-snowflake/

Для гиков: Arctic использует гибридную архитектуру Dense-MoE (на картинке), применяя Top-2 gating со 128 экспертами, чтобы найти баланс между повышением качества и эффективностью системы.

Более того, уже можно попробовать самим тут:
https://arctic.streamlit.app/

Умеет в русский (не знаю пока насколько хорошо)
Для гиков есть вот такой разбор:
https://medium.com/snowflake/snowflake-arctic-cookbook-series-exploring-mixture-of-experts-moe-c7d6b8f14d16

Что-то ураган новых базовых моделей (phi-3 от Микрософта, китайский Qwen) несется над планетой. Скоро их начнут ужимать и присовывать в телефоны. И будет нам ИИ нашептывать колыбельные...

LLM: новая модель каждый день! Все круче и круче! За углом Llama 400+
Картинки: Скоро будет Stable Diffusion 3, Эмада прогнали из Стабилити, Уволили 10% разрабов, наверное скоро будет Stable Diffusion 3 но это неточно, есть SD3 API но за конские деньги, Midjourney молчит, DALL·E 3 не обновлялся с прошлого года, Stable Diffusion 3 обещали два месяца назад.

Пойду посмотрю, что с картинками.
🔥20👍9👎7
This media is not supported in your browser
VIEW IN TELEGRAM
После выводка ИИ генераторов 3Д, поглядите, как это делает Vizcom.
Пример нормального UI/UX. Слои, история и пр.

У них там мощный апдейт 2Д Студио, поглядите вот тут:
https://youtu.be/qYax7QPVZVw
👍25🔥3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот поглядите на забавное видео, где стиль вытаскивает картинку и историю.

Концепты и визуалы: Midjourney и Stable Diffusion.
Аnimatediff для взрыва мозга.
Runway для липсинка(!) - очень неплохо.
Voice to voice in eleven labs
After Effects для полировки - куда ж без него.

В общем, одной кнопкой пока не получится. Нужен мозг(пока) и некривые руки. И АЕ.
🔥36👍7👎3
Как бы не упирались новые модели, текст все равно генерится криво. Шрифтовой дизайн - это не пустое слово.
Ну и мне видится вот такой пайплайн - сидишь в Фотошопе и говоришь: ИИ, найди мне конкретную надпись или, например, номера на машине. И замени их на нормальные шрифты, текст без ошибок и воще сделай как в Фотошопе.
ИИ, такой, алехко - поставь Concept Art plugin

Поглядите, что люди замыслили:
https://twitter.com/cantrell/status/1782879174497362411/
👎7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Пока LLM дают передохнуть, вернемся к графике и пошепчемся за ИИ-композ и 3Д.


Увидел вот такой ролик и полез посмотреть на 3daistudio (в ролике набросок концепта, нейрорендер в креа, а потом конвертация картинки в 3Д).

Еще один 3Д-генератор. Сделан ловко, но за каждый чих просит денег.
Нынешняя ситуация 3Д напоминает мне лихорадку с картинками полтора года назад, когда все срочно поднимали сервак-другой в сети, давали веб-морду к Stable Diffusion и просили кредитов, денег, подписок за генерацию картинок.
С 3Д немного сложнее сделать веб-морду - тут надо вьюпортик вонзить, сделать экпорт в fbx(конечно, платный), рульки для света и пр.
Но кода на гитхабе уже полно вкупе с бумагами, поэтому 3Д-генераторов за кредиты будет все больше.
У 3daistudio есть даже плагин для Блендора - поэтому я жду, что рано или поздно 3Д-генерация просто появится в Блендоре из коробки.
Равно как и в Юнити и UE.
https://3daistudio.com/BlenderAddon
👍30👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за левел-дизайнеров и пропс-инженеров.

Помянул Юнити и вспомнил, что забыл написать про Holodeck - они тут подались на CVPR 2024 и обновили код на Гитхабе.
Это генератор 3Д-сцен из текста. Чем-то напоминает Прометей от Андрея Максимова.

Holodeck может генерировать различные сцены, например, игровые автоматы, спа-салоны и музеи, корректировать дизайн в зависимости от стиля и улавливать семантику сложных запросов, таких как "квартира для научного сотрудника с кошкой" и "офис профессора, который является поклонником "Звездных войн".

Он не генерирует сами объекты, он их тащит из датасета Objaverse:
Holodeck использует GPT-4 для получения знаний о том, как может выглядеть сцена, и использует 3D-ассеты из Objaverse для наполнения сцены разнообразными объектами.

Это скорее расставлятор 3Д-ассетов по текстовому запросу.

Его также используют для обучение агентов навигации в новых сценах без использования разметки и данных, созданных человеком. Источник синтетики без необходимости наруливать миры в Юнити.

Код есть, но там все из палок и Юнити.

А я увидел в сети новый термин - "Синтиверс". Это когда ваши виар-мирки или игровые локации генерируются под запрос в реальном времени. Подумал о чем-то - хоп, твой мир перед тобой.
👍31👎4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за композеров!

Продолжаем ИИ-композ и 3Д марафон.
Давно хотел написать про Simulon.

Это совершенно огненный софт для вкомпаживания 3Д в реальное видео.
В твитторах полно примеров с котиками и столиками, а вот держите кое-что посложнее - тачки с HDRI!
Я даже хотел, как обычно, запостить как "рендер или видео", уж больно хорошо.

Внимание, если у вас есть модель точилы, то вкомпоз этого порша (на всей этой трясущейся телефонной камере занимает минуты. Никаких пфтреков, бужу, нюков и прочей бесовщины.
A 15 second video like this takes about 3 minutes to cloud render.

Читаем, как у народа разносит мозг в коментах к поршу:
https://twitter.com/diveshnaidoo/status/1781018755331498339

Порша забираем вот тут:
https://sketchfab.com/3d-models/free-1975-porsche-911-930-turbo-8568d9d14a994b9cae59499f0dbed21e

Записываемся в бету тут:
https://simulon.typeform.com/betatest
🔥46👍20
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за экстремальных композеров!

Сорри
, еще один экстремальный пример из Симулона.

Коль скоро он использует гироскопы телефона для трекания камеры, то можно делать просто иезуитские движения камерой, за которые любой композер вас задушит без сожаления. А Симулончик сохраняет при этом стабильный трек.
А теперь смотрим и думаем, сколько бы вы это делали в нюке или афтере?

Самолетик - 3дшный, остальное - съемка на телефон.

И поглядите примеры тут:
https://twitter.com/Simulon
🔥74👍22
Вот вам еще очень странный 3Д-ИИ.

На входе картинка с животным. На выходе 3Д-модель этого животного и даже скелет.
Работает только с фауной (и похоже переобучен на их датасет).

Я сгенерил волчару с лапищами в Идеограм и присунул ему на вход.
Получил скорее котяру, чем волчару.
Из ИИ-кожаных, он, как правило, делает овечек, я проверял.
Видать что-то знает.
https://huggingface.co/spaces/Kyle-Liz/3DFauna_demo

Но вы можете потренироваться на котиках
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
Держите еще один апскейлер:
https://clarityai.cc/

В отличие от супер-дорогого Магнифика, автор честно пишет:
Если вы не знакомы с cog, a1111 и не хотите использовать Replicate, вы можете использовать мою платную версию на ClarityAI.cc
А если знакомы - раскатывайте код у себя и пользуйтесь на здоровье.
Поглядите, может вам зайдет. Мне хватает того, который в Фокусе встроен.
Ну и покидайте в коменты еще ИИ-апскейлеров, соберем, сделаю пост.
Вот еще один, может пачками апскейлить.
https://www.upscayl.org/
👍45🔥13
Forwarded from Data Secrets
Врачами было выявлено новое серьезное психическое заболевание. Проверьте себя на симптомы:

– Вы легко забываете то, что было сказано в разговоре минуту назад
– Часто вообще не понимаете, о чем идет речь, и вставляете неуместные и неподходящие фразы
– Вы тратите очень много энергии и ресурсов на общение
– Иногда вспоминаете то, чего на самом деле не было

Если вы набрали хотя бы 2 пункта, то у вас LLM. Срочно примите дообучение.
👍86🔥15👎3