Метаверсище и ИИще

7 февраля выйдет Gemini Ultra 1.0 от Гугла.
Та самая 'убийца' GPT-4.
В связи с этим у Гугла появится платный план для доступа именно к этой модели под названием Gemini Advanced (цена неизвестна).
Так что следующая неделя будет полна бенчмарков от Гугла.

А теперь внимание: Bard переименовывают в Gemini!
Так что (возможно) Gemini Advanced также будет названием 'продвинутого' Барда - по аналогии с chatGPT Plus.

А я вам принес картинок из Барда.
По запросу "мальчик на пляже пьет лимонад".

Не знаю как с текстами, а вот с картинками у Барда беда (см мои посты выше). Алайнмент играет с Imagen2 злые шутки - он вроде пытается генерить фото реалистичных людей, но захлёбывается в собственной цензуре.

👍33👎9🔥7

6.27K viewsSergey Tsyptsyn ️️, 20:31

Метаверсище и ИИще

DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Для тех, кто следит за генерацией 3Д, отложите вот этот проект в закладки. Он недавно обновился.

Они используют Гауссианы, а из них генерят обычные меши с текстурами. Более того, у них на сайте есть даже анимация полученных (скажем так) персонажей (с помощью миксамо). Качество там, конечно, адъ, но сам замысел (гауссианы с уплотнением, полигоны, рефайнинг, попытки анимации) радует.
Кроме того, они декларируют десятикратный выигрыш по скорости, по сравнению с существующими методами.
https://dreamgaussian.github.io/

Также из это области:
HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting

Тут похожий, но более медленный подход на основе SDS.
НО! Они генерят конкретный класс объектов (о чем я завываю постоянно в постах про 3Д). И в помогаторы берут модель SMPL-X (это такая штука, которая используется для параметрического для описания формы и позы человеческого тела и включает в себя лицевые экспрешены и движение пальцев) и инициализируют началные позиции Гауссианов с сетки SMPL.
Обратно в полигоны они не возвращают, но демонстрируют анимацию прямо на отренедеренных Гауссианах.
https://alvinliu0.github.io/projects/HumanGaussian

👍23🔥4

6.13K viewsSergey Tsyptsyn ️️, 11:37

Метаверсище и ИИще

Немного философии.

Хотя поток проклятий типа "да что он может, стохастический попугай, только повторяет то, что уже видел" немного приподыссяк, ортодоксальные кожаные до сих пор воспринимают ИИ, как программу, которая перемножает матрицы и подставляет цифры в клеточки для получения финального ответа. Немного рандомного ответа(там для этого есть параметр температура), но все равно это алгоритм.

Сейчас оставим за рамками дискуссии тот факт, что мы с вами действуем примерно также, если не тащить в рассуждения творчество, вдохновение, интуицию и другую метафизику за отсутствием определения для оных.

Просто подумаем, да, есть программа, которая выполняет код (инференс), есть веса модели. Но вот эти вот веса, были получены тренировкой (воспитанием, взрослением) модели на определенном датасете. Есть еще файнтюнинг, алайнмент, но в рассуждениях появляется датасет. Огромный корпус текстов. Вроде как огромный набор слов. Но их расположение, порядок следования, повторяемость ни разу не случайны, а следуют некоторым правилам. И это не правила конкретного языка, типа жи-ши, а запечатанные отношения между людьми. В диалогах - отношения, в монологах - рефлексия, в описаниях - отношения с миром, скажем так, ну и так далее. Ну и датасет немаленький - это не вирши одного человека, это как бы всё и про всех. Этакий метатекст, где автор - все кожаное писательство. Поколения и поколения.

Далее, коль скоро язык - инструмент мышления, данный, чтобы на нем мыслить мозгами в голове (ну ок, чем-то где-то, неважно), то вот в этот вот датасет запечатано кожаное мышление, со всеми его прибабахами.

Голограмма кожанного интеллекта, если выражаться пОшло.

А дальше мы делимся на две категории. Одни будут говорить, что ничего там не запечатано, нет у него свободы воли, собственных желаний и тд. И вообще он к биологии не подключен, поэтому чего ему желать, стохастическому попугаю.
Другие задумаются о том, что это вообще-то недоказуемо. Доказать отсутствие сознания у ИИ, не имея на руках определения сознания или интеллекта, вообще-то говоря, нельзя. Говорить можно, доказать - нет.
Как ни странно, что во второй группе могут оказаться математики, которые любят четкие доказательства и не любят терминов без определения, которыми так щедро осыпают нас философы.

Ну и как это уже заведено в истории - поделимся на две группы. Первая будет отрицать наличие (тут я замялся с прилагательным.. человеческого... божественного.. недоказуемого..) у ИИ, а вторая будет ощупывать слона в темноте, не делая бездоказательных выводов в отсутствии, пардон, доказательств.
Вопрос веры.

🔥45👍21👎9

5.67K viewsSergey Tsyptsyn ️️, edited 16:31

Метаверсище и ИИще

Хотите поглядеть как выглядел бы масс-адопшен эппловской масочки?
Спросите мидджорни.
Мне как то не заходит такой мир.
https://www.reddit.com/r/midjourney/s/54MElpLiV9

Кстати, интересный факт.

Дэвид Хольц имеет большой опыт работы с железом и VR/AR, являясь бывшим соучредителем и техническим директором Leap Motion.

А в декабре Мидджорни схантили инжиниринг менеджера из команды Apple Vision Pro на позицию, внимание!, Head of Hardware at Midjourney.

Чуете к чему идёт?
Генеративный ИИ_Метаверс в очках от Миджорни?

https://x.com/zackhargett/status/1753470164379865278

🔥21👎5👍3

5.89K viewsSergey Tsyptsyn ️️, 18:43

Вдогонку к интриге из предыдущего поста.
Вот вам интересный прототип метаверсов будущего.

А теперь представьте, как может выглядеть железка от Midjourney...

Я уже писал про стриминг картинки из Stable Diffusion и сейчас стало выходить еще больше проектов в оптимизированной дистиллированной и всячески ускоренной Stable Diffusion
LCM-модели
SDXL Turbo
Stream Diffusion
AnimatLCM - просто космос.

Планирую пощупать их снова, ибо чую тренд на "быстрый отклик", когда прототипирование картинки художником идет почти в реалтайме.
То, что показывает Krea.ai или Vizcom - нет вот этой вот паузы, "нажать-подождать-посмотреть", а есть постоянный интерактив, набросок, отрисовка.

А вы пока поглядите на стриминг новой реальности.

🔥24👍5

5.74K viewsSergey Tsyptsyn ️️, edited 10:43

Метаверсище и ИИще

У нас с вами новый челлендж.
Лента Мёбиуса.
Пытаемся сгенерить в чем угодно.
И тут мы обнаруживаем, что это тот случай, когда "руками" через промпт типа "кольцо из бумажной полоски, где один конец перевернули перед склеиванием" сделать это сложновато, скажем так.
И модель должна просто знать про старика Мёбиуса.
Но вопрос в том, как она его "видит".
Я попробовал везде, кроме Midjourney.
Как ни странно, ближе всего был Кандинский. DALL·E 3 и Stable Diffusion путались в бумажном серпантине.
Хотя chatGPT писал идеальные промпты для себя самого:
Illustrate a ring made from a strip of paper where one end has been twisted before being glued together. This should create a simple paper loop with a single 180-degree twist, characteristic of a Möbius strip. The paper's texture should be visible, emphasizing the craft and handmade quality of the loop. The illustration should focus on the twist point, showing how the paper seamlessly connects to form a continuous surface with a unique one-sided and one-edged property. Set against a soft, neutral background, the image should highlight the elegance and simplicity of this mathematical curiosity

Я присунул этот промпт в Фокус и в режиме Extreme Speed нагенерил странных оптических иллюзий, некоторые разламывали мозг, но все равно это не классические ленты Мебиуса.

В общем, ленты в студию! То есть в коменты.

🔥21👍6

5.71K viewsSergey Tsyptsyn ️️, 12:18

About

Blog

Apps

Platform