Метаверсище и ИИще
46.7K subscribers
5.93K photos
4.33K videos
45 files
6.81K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from РЕПТИЛОИДНАЯ (Denis Rossiev)
Ценность нейро-арта: этот пост вам не понравится

Нейросети, создающие изображения по текстовому запросу, меняют само восприятие искусства.

Вплоть до изобретения прото-фотоаппарата (гелиографии) в начале 19 века, классическая живопись использовалось лишь для фиксации действительности — портретов или пейзажей. Академичность оставалась неизменным атрибутом большинства работ — они должны были как можно более точно и детально отражать реальность.

Фотоаппарат изменил все.

Во-первых, он показал художникам, что эпоха реализма закончилась: зачем тратить годы на изучение сложнейших техник, если машина делает это лучше? Так зародилось современное искусство, в котором содержание преобладает над формой, и достигло пика в супрематизме и «Черном Квадрате» Малевича — полотно, где было изображено ничего, стало символом превосходства идеи.

Во-вторых, позволил огромному количество людей начать творить не владея кистью и красками, и спустя годы насмешек, фотография стала отдельным направлением искусства.

Теперь все меняют нейросети.

Соцсети ломятся от тысяч сгенерированных картинок безумной красоты. И это при том, что доступ к DALLE-2, Midjourney и Stable Diffusion пока есть только у избранных. За ближайшие полгода будет сгенерировано больше изображений, чем было нарисовано и отснято за всю историю человечества.

Станет ли нейроарт искусством? Безусловно.

Но как и с фотографией, это получится лишь у единиц, способных вложить в новое современное искусство новые смыслы и эмоции.

А если вдруг кому-то кажется, что введя фразу и нажав кнопку, он стал художником — у меня плохие новости.
👍28
Ну вот, наванговал..
UI для генерации промптов уже пошли в массы.
Вместо вот этих вот -флагов и чтения доков к ним - текстовые поля, кнопочки, подсказки и пояснения к полям.
Чувствуете как прямо на ваших глазах происходит переход от командной строки MS-DOS к первым окошкам Windows 3.x?
Только вместо OS - черное зеркало нашей кожаной операционки.

Смотрите, что пишет автор:
"После нескольких недель изучения изображений, изучения дизайна подсказок и сбора тонн описательной терминологии я создал организованную и автоматизированную электронную таблицу (через Google Drive) для помощи в создании подсказок. Моей целью было создать инструмент, который был бы одновременно визуально простым для новых пользователей, но в то же время достаточно сложным и всеобъемлющим для опытных.

В интерфейсе Prompter есть все: ввод URL-адреса изображения, дополнительные пользовательские веса почти для каждого элемента, простые для понимания описания и флажки для таких кодов, как STYLIZE и QUALITY, управление seeds и выпадающие меню с большой базой дескрипторов на выбор. Объективы камер, освещение, цвет или даже огромный список направлений искусства и известных художников. У вас нет того, что вы хотите? Выберите CUSTOM и впишите своего собственного художника или добавьте свои собственные условия в лист MyData (ваша собственная частная база данных). Вы даже можете нажать кнопку SAVE, чтобы сохранить все ваши подсказки с датой и временем, добавить примечания и пр."

В общем все это сделано из Гугльшит и палок и выглядит как UI юниксоида, но явно может служить прототипом для более нарядных решений, которые взрослые мальчики ОЧЕНЬ скоро выкинут на рынок.

P.S. Ну и кнопка SAVE - это про ассетное мышление, о котором я уже обысписался.
P.P.S Я уже сам собирался написать такое на C, после адовых копипастингов в дискорде Stable Diffusion, но вижу, что вот-вот появятся очень ловкие интерфейсы от нормальных программеров.
https://www.thedreamingstate.com/portfolio/art/prompter/
👍12
Помощь зала. (Сорян, снова про текстовые промпты, похоже эта неделя будет только про них, ИИ и Метаверсы рыдают, забытые, в чулане).
Кто-нибудь решал задачу передачи текстовой строки(запроса к нейросетке) с сайта -> в Midjourney, SD, DALLE, whatever?
Да, я знаю, что любая автоматизация жестко банится и что, похоже, нет никакого секретного АПИ к этим сеткам.
Но все же.
Есть строка на сайте(или в коде), хочется передать ея куда-то(скорее всего с танцами и бубнами в дискорд через токен пользователя), получить ссылку на картинку и сделать с ней, что хочется.
Есть идеи?
Ну и снова за ИИ и подсказки.
Я уже писал некоторое время назад про этот проект по автогенерации (точнее, по автодополнению) запросов к Midjourney.
Но если почитать подробнее их описание, то можно найти любопытные детали и идеи для стартапа (куда ж без них).

Итак, пара чуваков, Iulia Turc and Gaurav Nemade, ушли из Google Research и сделали свой проект succinctly.ai

Они взяли и скачали (заскрапили) около 250 000 картинок и текстовых подсказок в Дискорде, из которых были сделаны эти картинки.
И сделали датасет. Картинка, промпт. Описание по ссылке.

248k user-generated prompts and their associated generated images, out of which:
60% are requests for new images (initial or variation requests for a previously-generated image)
40% are requests for upscaling previously-generated images.

Скажите мне, кто-то уже пилит reverse engineering нейросеть, которой скормили все эти данные, а потом просят по любой картинке сгенерить подсказку, с помощью которой Midjourney сгенерил бы что-то похожее?

Этакий референс на стероидах. Вот картинка - сделай похожее, только новое, пропущенное через латентное пространство. Много. Сейчас.
Все как у кожаных заказчиков и исполнителей.
https://www.kaggle.com/datasets/succinctlyai/midjourney-texttoimage
👍8
Промптогенераторы множатся, как фракталы после N=8.
Держите web-версию.
Это уже не гугльшит и палки, все по красоте, на стиле и по моде.
Хошь Stable diffusion, хошь Midjourney.
https://promptomania.com
👍8
Сейчас, конечно, все(включая меня) свихнулись на генерации картинок.
Немного разбавим визуальную истерику аудиальным вайбом.

Вот бот, который озвучивает все ваши текстовые вводы оригинальными голосами героев Warcraft.

Ребята из Silero сделали шикарного бота:
"Всем известно, что Blizzard сделали с Warcraft-ом и его божественной оригинальной озвучкой.
Поэтому мы сделали бота в телеге, которым можно озвучивать любые фразы голосом своего любимого персонажа из Warcraft 3!
Чтобы сделать свою озвучку нужно зайти в бота по ссылке, выбрать персонажа и ввести текст. И все, озвучка готова!"

Теперь вы можете делать клипы-презентации, озвучивая все ваши безумные генерации не менее безумными голосами.

Бот

Авторы
🔥20👍3
Довыпивался, не чокаясь. 🥃

После выхода stable diffusion (и моих бесконечных т/п/остов) художники не выдержали. Крышу сорвало напрочь.

Вчера досмотрел новый фильм "Элвис" - там пытались запретить Элвису двигать бедрами, потому что это плохо воздействует на зрителей.
Теперь пытаются запретить stable diffusion по той же причине. Более того, некоторые даже сравнивают нейросетку с ядерной войной. В твитторе шквал петиций, заявлений о том, как это мерзко и криков "оно нас всех уничтожит!".

А теперь вспомним, где теперь запрещатели и где Элвис.

Про stable diffusion готовлю большой материал.
А пока почитайте в красках о том, как бомбит художников повсей планете тут:
https://xn--r1a.website/mishin_learning/1299

Отлично написано, лучше не скажешь.
👍8
Передохнем от промптов, немного ИИ и компьютервижена на ваши головы.

На которые можно одеть хоть десять масок,и даже никаб, но ИИ вас мало того что узнает и идентифицирует, он еще и определит по вашим лживым глазам (которые суть единственное, что ему досталось на входе) ваш возраст и пол (с точностью 99.9%), и даже эмоцию (с точностью 80%).

Мне кажется с возрастом иорданские и сауддитские ученые горячатся, но против International Journal of Biometrics не попрешь:

"Исследователи утверждают, что их метод глубокого обучения для распознавания лиц верен на 99,95%, даже когда человек носит никаб, который в основном скрывает лицо, за исключением глаз. Оценка возраста и распознавание пола алгоритмами верны на 99,9%. Осмотр глаз может идентифицировать человека в никабе или в маске COVID как счастливого или хмурящегося с точностью 80,9%. Для тестов использовалась база данных из 150 изображений, в том числе 109 женщин и 41 мужчина в возрасте от 8 до 78 лет. Исследователь использовал глубокий анализ. Каждый слой процесса распознавания в нейронной сети имеет 4096 признаков."

В общем глаза - зеркало души. По крайней мере для ИИ, который теперь читает по глазам с космической точностью.

P.S. Но вот что меня поразило еще больше, это темпы работы научных журналов.
Эта статья:
Received: 23 Dec 2020
Accepted: 19 Apr 2021
Published online: 11 Jul 2022

За полтора года в CV и AI столько всего происходит, а журнальчик не торопясь печатает материалы из 2020. Явшоке.
https://www.inderscience.com/info/inarticle.php?artid=124683
👍7
До сих пор многие сравнивают Unity и Epic Games.

Чтобы вы понимали масштабы компаний, вот вам такая новость.

Unity подписала трехлетний многомиллионный контракт с CACI International на разработку интеллектуальных человеко-машинных интерфейсов (human machine interfaces). Этот контракт является «стратегической сделкой, которая помогает укрепить Unity в качестве предпочтительной 3D-платформы реального времени для будущих программ проектирования систем и моделирования в правительстве США».

Что это будут за интерфейсы, остается пока гадать, но явно что-то связанное со сэкранами, шлемами и сбором данных с башки и тушки кожаного мешка.

"This win is the single largest Digital Twin Solutions deal for Unity to date and is a strategic deal that helps to solidify Unity as the preferred real-time 3D platform for future systems design and simulation programs across the U.S. Government."

Ну а CACI — это компания, занимающаяся информационными технологиями, которая предоставляет услуги многим подразделениям федерального правительства США, включая оборону, национальную безопасность, разведку и здравоохранение.

Матрица все ближе.

А, и кстати, Юнити отказалась продаваться AppLovin-у, и гордо покупает IronSource.
https://www.gamedeveloper.com/business/unity-signs-multi-million-dollar-contract-to-help-u-s-government-with-defense
👍13
Не знаешь как, спроси ИИ.
Если олдскульные историки до сих пор ломают голову над тем, как же были построены эти чортовы пирамиды (я, кстати, как человек проживший в Египте 12 лет, тоже не понимаю, ибо знаю реалии), то новые нормальные археологи просто берут и спрашивают у ИИ (в лице DALLE-2):
- брат, напечатай инструкцию по изготовлению египетских пирамид.
- готово!
- а теперь тоже самое, по-английски, только еще с необходимыми инструментами, ибо непонятно, чем орудовать.
- апажалста!

Шах и мат, кабинетные крысы!
👍14🔥6👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Совмещая Гиперлапс и ИИ арт

Malick.fr создал гиперлапс видео, таймлапс с движением и фиксации при движении объекта
А Manu.vision отвечал за ИИ арты, используя inpainting в Dalle 2 и Midjourney для фонов.

Для создания видео использовалось 1200 генерации для 1400 фоток, а вся работа было проделана за сутки.

Представьте 1200 артов за сутки, где каждый арт имеет ценность.

Пока где-то отменяют ИИ арты, в других местах творцы ускоряют свой процесс работы.

Видео получилось шикарным!
🔥21👍2
Вы спрашивали про ИИ-3Д. Его есть.

Смотрите, берете 2Д-изображения вашего объекта. Это может быть карандашный эскиз, фото или (внимание) весь этот генератив из нейросетей.
Кормите отрыжку одного ИИ другому ИИ, под названием Kaedim, и он вам из картинки генерит 3Д-модель.

А теперь внимание - с хорошей топологией!

Если честно, я не верю, но разработчики постят сладкие картинки и видео.

Еще раз - на вход эскиз или 2Д-генератив, на выходе - хорошая 3Д-модель.

Читаем доки:

В Kaedim мы создаем алгоритмы машинного обучения, которые превращают 2D-графику в 3D-контент.
С помощью нашего веб-приложения мы даем возможность художникам и разработчикам игр быстро создавать прототипы, создавать и повторять свои 3D-графики экономичным способом."

"Система может взять что угодно: от реалистичного изображения объекта, сделанного на телефон, до 2D-концепта или 2D-набросков карандашом/ручкой. Неважно, показана трехмерная перспектива или нет, но если она есть, это определенно полезно. Что касается нескольких изображений, алгоритм сделает обоснованное предположение о задней части, если предоставлен только один вид, но если вы предоставите больше изображений, будет меньше предположений, если это имеет смысл."

Меня если честно, больше всего подбросило от хорошей топологии, ибо этого нет ни у кого.

Дальше начинаются тонкости.

Ценообразование просто конское. Там заградительные цены.
А трехдневный "триал" стоит 6 баксов за одну (непредсказуемую) генерацию.

Поэтому смотрим видосы, читаем доки и восхищаемся.
Ждем ответа от опен-сорса.
https://www.kaedim3d.com/
https://docs.kaedim3d.com/3d-library
https://www.youtube.com/watch?v=rvHfaZIZsug

Сериал #kaedim
👍17🔥3👎2