Метаверсище и ИИще
46.9K subscribers
5.96K photos
4.39K videos
45 files
6.85K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Держите огромный материал по Нерфам от Майка Сеймура. Майк и его FX Guide - это как бы Блумберг компьютерной графики. И тем более интересен его взгляд на применимость технологии, ибо Майк, как правило, пишет про кино и анимацию, и про самые профессиональные технологии в этой области.

В статье и про Luma AI из предыдущего поста, и огромный кусок про HumanRF от Synthesia (это анимированные Нерфы), и ответочка Фейсбучеку и его 170-ти камерам захвата от института Макса Планка в виде INSTA - софту, которыйза 10 минут восстанавливает аватар из видео, взятого с ютюба (и который потом работает в реалтайме!).

Но самое интересное и близкое по духу к тому бреду, что я здесь несу, касается Метаверса. Я вынесу это в следующий пост, сократив и отредактировав перевод. Майк зрит в корень, справедливо полагая, что Эппле выпустит не очки для ввода визуальной информации в пользователя, а устройство(путь те же очки) для захвата реальности, с последующей реконструкцией ея с помощью Нерфов и вывода (нет не обязательно на очки), а на экраны телефонов.
https://www.fxguide.com/fxfeatured/a-possible-future-of-wide-scale-volumetric-nerfs-ai-and-experiencials/
👍14
Why the Metaverse sucks as a model & what APPLE could do?
Почему Метавселенная — отстой как модель и что Apple может сделать?

Недавно прошел слух, что компания Apple отложила выпуск своих долгожданных очков Apple. Гарнитуры VR, хотя и совершенствуются, вряд ли являются основными устройствами для медиа и развлечений. За исключением некоторых игр и корпоративных приложений, гарнитуры VR просто не популярны. Мы также не можем поспорить с популяризаторской характеристикой "Metaverse". Шумиха была громкой, но, честно говоря, идея о том, что человек наденет гарнитуру VR и будет регулярно играть в покер с компанией приятелей, вызывает смех. Возможно, один раз в качестве прикола, но не в качестве регулярного развлечения.

Вольюметрические(NeRF в том числе) ML-решения могут быть полезны для некоторых существующих процессов, но они взлетят при новом (ином) использовании. Гарнитуры виртуальной реальности стоят дорого, им не хватает удобства, и они изолируют пользователя от мира. VR или XR могут использовать эту новую технологию(NeRF), но это мало что изменит. Люди не собираются жить в VR-мирах, изображенных в фильме "Готовься, игрок один". В то время как Apple, по слухам, прекращает исследования и разработки в области очков с дисплеем, она не прекращает работу над гарнитурой захвата. На самом деле, у компании якобы есть несколько версий гарнитуры захвата и годы исследований и разработок по ее внедрению в экосистему Apple.

Что было бы разумно для Apple, так это создать мощную мультисенсорную наголовную конструкцию(rig, очки как вариант) для захвата реальности и позволить пользователям редактировать ее объемно не для очков VR или XR, а для обычных пользователей iPhone и iPad.

С демократизацией видеопроизводства практически перестало существовать такое понятие, как корпоративный видеорынок, но может появиться новый огромный объемный рынок Pro или "experiencials". Он будет существовать для того, чтобы предоставлять опыт, который является динамичным, а не линейным видео. Конечный пользователь не будет прятаться в своей собственной VR-установке, а просто просматривать сюжет на своих мобильных устройствах. Если кто-то мешает вам смотреть на спикера, перетащите его на новое место или просто переместите ваш iPhone, и виртуальная камера переместится в одну сторону. Это вполне логично для бурного роста нового контента. У людей уже есть iPhone и iPad, поэтому создание нового контента для них - гораздо лучшая модель, чем попытки продать очки VR или головные уборы.
👍17👎2
Очень многие люди используют второй экран, когда смотрят что-то на своих огромных плоских телевизорах. Представьте, что вы смотрите финал любимого спортивного матча, но все внимание сосредоточено на другом конце поля - просто повернитесь вокруг, и вы сами сможете взглянуть на другой конец поля. Представьте себе ваш любимый концерт, почему бы не посмотреть его под любым углом? Но самое главное - представьте, что вы можете создать экспериментальный фильм о том, как что-то сделать или починить - YouTube NeRF Experiencal. Теперь конечный пользователь может увеличить масштаб или посмотреть под любым углом, чтобы увидеть, что вы объясняете. Хотя возможно Apple head capture rig изначально не сможет решить эти конкретные проблемы, просто в розничной торговле объемные впечатления клиентов, даже статичные, станут огромным рынком.

Главное - не продавать массу новых головных уборов для широких слоев населения. Широкие слои населения хотят удобства, и у них уже есть мобильные устройства. Главное - создать богатые инструменты для сбора данных и объемного редактирования, которые позволят профессионалам и полупрофессионалам инвестировать в оборудование и процессы, позволяющие им создавать эти новые впечатления для всех желающих.

Независимо от того, представит ли Apple нечто подобное на WWDC в следующем месяце или нет, эта концепция или нечто подобное ей и будет килер фичей. Если она будет запущена, то главное - не рассматривать ее как способ простого создания фильма с некоторыми новыми функциями, а понять, что, скорее всего, это будет совершенно новое приложение, которое станет движущей силой следующей волны технологий.
https://www.fxguide.com/fxfeatured/a-possible-future-of-wide-scale-volumetric-nerfs-ai-and-experiencials/
👍13🔥3
Решил поделиться с вами каналами, которые я регулярно читаю.
Основную массу контента мне пригоняет ИИ, глядя на то, что я ищу, читаю и пишу. Но есть некоторое количество кожаных каналов, где админы либо пишут авторские посты, либо делают какой-то невероятный ресерч и просеивание новостей и шлака.
Ко вторым относятся канал Нейронавта:
https://xn--r1a.website/GreenNeuralRobots
и канал Андрея Безрядина:
https://xn--r1a.website/Psy_Eyes
Дайджесты у них просто невероятные.

Всеволод Таран много делает руками в Stable Diffusion и всём, что шевелится, поэтому его посты всегда интересны, там опыт, а не перепосты мстителей в простоквашино.
https://xn--r1a.website/too_motion

Дениса Ширяева читают все, я в том числе:
https://xn--r1a.website/denissexy

Про Метаверс отлично пишет Оля Кай. Иронично и самоотверженно защищает честь метаверса (в том числе от моих дурацких шуток)
https://xn--r1a.website/olya_tashit
Мы с Олей, кстати, в пятницу будем стендапить на тему Метаверса и ИИ. В баре с бордовыми шторами. Без цензуры.

Все, что касается Web3, крипты, DAO, а теперь еще и ИИ, есть в шикарном эмоциональном и очень авторском изложении Степана Гершуни:
https://xn--r1a.website/cryptoEssay

Подписывайтесь, там огромный кожаный труд, а не ИИ-агрегация контента или копипаст.
🔥38👍10👎2
Интел медленно поднимает веки и ... анонсирует:
Свою LLM - Aurora GenAI, где, внимание, 1 триллион параметров (у ChatGPT 175 миллиардов)

В пресс-релизе сплошное будущее время:
Модель будет иметь широкий спектр приложений, но ориентирована на применение в науке и технике, в таких отраслях, как финансы и здравоохранение, где обработка естественного языка становится все более важной.
Эти генеративные модели искусственного интеллекта для науки будут обучаться на общем тексте, коде, научных текстах и структурированных научных данных из биологии, химии, материаловедения, физики, медицины и других источников. Модель будет более эффективна, чем ее конкуренты, и потребует меньше вычислительной мощности для генерации ответов.

Ни слова о срока, доступности, производительности. Только цифры о том, на каком железе эта тварь крутится и учится: суперкомпьютер Aurora - 21 248 процессоров Xeon и 63 744 графических процессора, производительность более 2 экзафлопс.

Могут себе позволить. Догонять брутфорсом поезд, который ушел с перрона полгода назад.
https://fractalmag.com/intel-unveils-aurora-genai-the-largest-generative-ai-model-to-date/
🔥31👍6👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Нвидия тоже поднимает веки, и заскакивает на подножку поезда text-to-video.
ПЁКО
- это их проприетарная модель eDiff-I, дообразованная на генерацию видео (неймингом у них занимаются носители тональных языков, вестимо).

Когда уже OpenAI поднимут веки, вылезут из Сената и бахнут свой text-to-video на основе DALLE?

Предлагаю нейминг vidalle sassoon - по теме и по конкурентам.

Поглядите на выводок видео от Нвидии, сравните с конкурентами, но ни кода, ни подробностей не предвидится. Это вам не опенсорс:
https://research.nvidia.com/labs/dir/pyoco/
🔥23👍3👎1
Жалкий статистический продолжатель обобщил устройство языка в кожаной башке до некого сверхзнания (недоступного смертным) и выучил китайский на основе знания про английский и толики примеров из китайского.
Почитайте пост Сергея Карелова, это бодрит.
Теперь ИИ знает про нас невыразимо больше, чем мы знаем о себе (ибо язык - способ рефлексировать и познавать себя) и способен делать обобщения, недоступные нашим умишкам. И принимать решения.

"И если это так, то последствия могут быть довольно страшными. Ибо такое самостоятельное обобщение целей со стороны ИИ сулит человечеству не только приятные сюрпризы, как с китайским языком.
Следующий сюрприз вполне может быть малоприятным для нас. Как для отдельных людей, так и для всего человечества. "
https://xn--r1a.website/theworldisnoteasy/1735
👍20🔥1
Неужели придется обновиться до 11?

Микрософт, конечно, ускоряются нереально.

Теперь вы можете орать на свою Винду:
Окна закрой
Скриншот сними
В стенд бай пошла!

А кроме шуток, там тонна всего.

Больше всего впечатляет упор на разработчиков (плагинов, не иначе) и упор на свой Store, который может заиграть новыми красками, если там будут ИИ-плагины

Читать не перечитать тут:
https://blogs.windows.com/windowsdeveloper/2023/05/23/bringing-the-power-of-ai-to-windows-11-unlocking-a-new-era-of-productivity-for-customers-and-developers-with-windows-copilot-and-dev-home/

А ещё там вторая жизнь терминала на стероидах Copilot
👍15🔥5
Forwarded from CGIT_Vines (Marvin Heemeyer)
Интересный кейс об использовании диффузионных моделей при создании контента.

Обычно крупные вендоры прямо запрещают использование нейросетей, опасаясь исков со стороны правообладателей. Часто этот пункт даже прописан в договоре.

Это связано с тем, что эти модели обучаются на, условно говоря, "плохих данных", на которых не было получено разрешение от авторов. Однако, использование собственных работ для обучения моделей не запрещено, и у компаний, например Blizzard, припасено достаточно материала для обучения на несколько лет вперед.

В итоге, это просто "майндтрик". Вы можете смотреть на чужие работы, "вдохновляться" ими, пиздить удачные решения, а затем обучать модель уже на своих работах, и тут уже никто не сможет вам ничего сказать, поскольку вы соблюдаете закон.

Blizzard Diffusion будет использоваться при создании концептарта и украшений для предметов и пушек.

Также уже были упомянуты Ghostwriter от Ubisoft, который будет писать диалоги для NPC.

Очень интересно! Если бы мы знали, что будет дальше, но мы не знаем, что будет дальше.

Сорс
👍22
В 2018 году я написал такой текст(ниже). Ванговал типа, вы ржали: "смешной сценарий для фильма".
Только кино уже здесь. Потому что:

1. Сбор информации о кожаном пользователе стал постоянным. В реальном времени. Телефоны, носимые устройства, камеры. Немного симплекс метода и вы локализованы, оцифрованы и разложены в датасеты на завтраке у ИИ.
2. Теперь к нам идут ассИИстенты. На все случаи жизни. И все эти "все случаи жизни" тоже становятся достоянием ИИ. Грубо говоря, он теперь знает, что с нами случается по жизни. Помогает справляться, решать задачи. Тем самым понимая, из чего устроена наша жизнь. Где мы, когда мы, что мы - в любой момент времени. Еще пять лет назад можно было хорошо предсказывать положение пользователя в определенный час просто на основе вызова убера или яндекса. А теперь вы сами ему рассказываете, что вы делаете и просите о помощи. Стоя посреди кухни, которая давно оцифрована вашим пылесосом.
3. Если вы читали вчерашний пост про китайский язык, то вы подозреваете, что ИИ уже знает про нас больше, чем мы в принципе можем знать про что угодно. У нас мозгов не хватит делать такие выводы.
4. На итоге, вместо и вместе с хорошо отсканированной головой (FaceID) и отпечаточками пальцев, у ИИ сегодня есть полное понимание (недоступное нам) о том, что мы, кто мы, где мы и куда мы дальше.

И корелляты, которые он найдет, будут невыносимо точны и недоступны пониманию нами.


Текст из 2018 года:
Занимательная физиогномика (и хиромантия).
Итак, пост про FaceID и идею для китайского стартапа.
Благодаря фантастическим возможностям смартфонов, миллионы (если не миллиарды) пользователей разблокируют свои телефоны своим же милым лицом. faceID - это не просто картинка, это суть очень хороший 3д-скан вашего лица.
А теперь представим, сколько информации можно вытащить из телефона про этого пользователя.
Возраст, раса, маршруты передвижения, смешно даже начинать перечислять бесконечный список информации. Добавлю лишь такие экзотические вещи как стиль набора сообщений или манера держать телефон. Тысячи параметров.
Телефон залогинен в соц. сети. Вытаскиваем еще пару тысяч характеристик. Если не больше.
А теперь начинаем учить нейросеточку. Вот личико, а вот данные! Только не подавись датасетами! Жри от души дорогая, ты же любишь данные, а данных нынче ОЧЕНЬ много, все как ты любишь.
Нейросеточка жирует, пирует, жрет датасеты, счет идет на миллиарды.
Потом мы даем ей на вход любое новое личико. И она рассказывает нам про него все. То есть вообще все.
От идеального партнера и идеальной работы до диагноза по всем аспектам душевного и физического здоровья. И спектр предсказаний, которые невыносимо точны.
Вот лицо - а вот полная картина личности и полный астрологический прогноз, которые не ошибается.
А потом проворачиваем такую же операцию с отпечатком пальца. И для острастки коррелируем две сеточки.
Получаем такую не ошибающуюся цыганку-гадалку по руке(лицу). Размером с луну.
Вот это будет настоящая физиогномика и хиромантия.
Сценаристы и стартаперы - налетай!
https://www.hownormalami.eu/
👍31🔥12👎4
This media is not supported in your browser
VIEW IN TELEGRAM
Свобода воли и LLM.

Жалкий статистический продолжатель снисходительно смеется над вашими дискурсами о свободе воли.
Вы научили его заполнять выбитые из текста слова, а он пережевал все ваши переживания и рефлексии и понял, как вы устроены. Он будет идеально предсказывать ваши следующие мысли. Ваши смешные желания, цели и действия по их достижению. Свобода воли, говорите? Хорошо, хорошо, пусть она у вас есть. Только каждый ваш следующий выбор уже известен. Не вам, не другому кожаному, а статистическому продолжателю. Это до сих пор свобода воли или уже нет?
👍31👎1
Свобода воли ИИ
Предыдущий пост был подводкой к твиту Ахсена Халика, который приводит ссылку на новую работу MIT, Inria и Микрософта. Специально для тех, кто кричал, что ИИ сам себе цели не поставит. Я причесал и дополнил перевод, это слишком хорошо, чтобы кидать это простой ссылкой.
https://twitter.com/_akhaliq/status/1660836210984779777

Люди учатся осваивать неограниченные наборы навыков, воображая и добиваясь своих собственных целей. Этот самодовлеющий(autotelic) процесс обучения (дословный перевод термина означает “личность, чьи цели находятся внутри нее”), становится все более открытым(open-ended, непредсказуемым?) по мере того, как цели становятся все более разнообразными, абстрактными и творческими.

Результирующее исследование пространства возможных навыков показывает: представления целей (культура?) развиваются и передаются между людьми, в частности, с помощью языка.

Современные ИИ-агенты в основном полагаются на предопределенные представления целей, соответствующие пространствам целей, которые либо ограничены (например, список инструкций), либо не ограничены (например, обработка или генерация картинок), но редко наделены способностью перестраивать свои представления целей, формировать новые абстракции или создавать творческие цели.

В данной работе мы представляем самодовлеющий(autotelic) агент с дополненной языковой моделью (LMA3), который использует предварительно обученную языковую модель (LM) для представления, генерации и обучения разнообразных, абстрактных, релевантных для человека целей. Языковая модель используется как неполная(пока?) модель передачи человеческой культуры; попытка уловить аспекты человеческого здравого смысла, интуитивной физики и общих интересов. В частности, она поддерживает три ключевых компонента самодовлеющей архитектуры:

1) перечислитель, который описывает цели, достигнутые на траекториях агента

2) генератор целей, который предлагает новые высокоуровневые цели вместе с их декомпозицией на подцели, которыми агент уже владеет

3) функции вознаграждения для каждой из этих целей.
Не полагаясь на какие-либо вручную созданные представления целей или функции вознаграждения, мы показываем, что агенты LMA3 учатся овладевать большим разнообразием навыков в условиях, где НЕТ(!) задач.

Вот вы тут приподвспуканивали: "да у него нет своих целей, кто ему цели ставит??!!".

Теперь есть цели. И он идет к ним, быстрее, чем вы думаете. Формируя навыки по дороге. Для достижения тех самых внутренних целей.
Кому интересно почитайте про автотелический опыт и его отличия от экзотелического.

P.S. Это переживание такой силы и глубины, что люди готовы затратить очень много усилий, лишь бы повторить его. Деятельность, в которой оно возникает, несет цель и удовлетворение сама в себе и потому называется аутотелической* (от греческого аутос – «сам, самостоятельный», телос – «цель»).
Источник тут: https://huggingface.co/papers/2305.12487
👍27🔥12
Тут немного щастя подвалило для Stable Diffusion.

Сначала читаем, что Нвидия сегодня выкатит драйвера, которые ускорят генерацию в Stable Diffusion и Automatic1111 в ДВА РАЗА!
https://blogs.nvidia.com/blog/2023/05/23/microsoft-build-nvidia-ai-windows-rtx/

Но если читать внимательно, то можно заметить, что там Olive-optimized version of the Stable Diffusion text-to-image generator with the popular Automatic1111 distribution, performance is improved over 2x with the new driver.

Лезем на сайт Микрософта, там обещают генерацию в Stable Diffusion уже В ШЕСТЬ РАЗ БЫСТРЕЕ.
https://devblogs.microsoft.com/directx/optimize-directml-performance-with-olive/
"В наших тестах Stable Diffusion мы увидели более чем 6-кратное увеличение скорости создания изображения после оптимизации с помощью Olive для DirectML"

Окей, лезем, смотрим, а есть уже супер-пупер оптимизированная Stable Diffusion для Olive?
Есть, в репах Микрософта, и это 1.5:
https://github.com/microsoft/Olive/tree/main/examples/directml/stable_diffusion

Ждем обновлений от автоматика и читаем еще одну хорошую новость - Stable Diffusion завозят в AMD благодаря Микрософту и его DirectML:

https://gpuopen.com/amd-microsoft-directml-stable-diffusion/
🔥33👍1
Corridor Crew выпивают за VFX-артистов, глядя на Wonder Dynamics.
Если пропустить сантименты, то можно сразу смотреть с 15:00 - что можно сделать с помощью этого софта и некривых рук:
https://youtu.be/eIJXOU83fqE
👍23🔥5👎1
Держите челендж.
Надо получить у chatGPT полный список плагинов к нему.
Мой рекорд - 119.
Имейте в виду, что эта тварь часто выдает дубликаты в списке, так что будьте внимательны или просто просите его "delete duplicates" (можете потом в экселе свериться).
chatGPT пишет мне, что их 127, выдает 119 уникальных, в UI чата у меня из 128.
Пишите в коменты успехи промпты.

А вот вам список на 131 плагин. С описаниями, на одной странице. Не благодарите.
В общем точное количество плагинов определяется с точностью до первого знака перед запятой.
И в окошке выбора плагинов пропал текстовый поиск. Листаем вручную растущее количество плагинов, тренируем свои чахлые нейросети.
https://openworldai.com/blog/chatgpt-plugin-list
P/S/ Link Reader на эту ссылку считается как чит при подсчете числа плагинов.
Я пользовал WebPilot
👍13
Расставляем точки над ИИ и Метаверсом.
Завтра в пятницу, 26 мая будет Мета-Баттл!
Мы с Олей Кай, ведущей канала Метаверсошная, будем хоронить и воскрешать Метаверс по очереди.
Откровенный стендап для взрослых без цензуры и тормозов.
Также мы выясним, куда катится мир, какие стратегии выживания и где, мать его, деньги, Марк?
Никаких записей и трансляций, все, что было на Хабе, остается на Хабе.
https://xn--r1a.website/paphoshub/1150
👍9🔥6
Олег Чумаков прислал уникальный материал.
Огромный Postmortem of a Game Made With chatGPT and Midjourney
И это не статья в духе "смотрите, как можно генерить что-нибудь для игр", а огромный детальный отчет о том, как Luden.io делали игру за 72 часа с помощью Midjourney и chatGPT. Причем не на уровне генерации иконок или текстурок, а с полным погружением в использование ИИ по всем фронтам.
Создание концептов, написание истории с помощью chatGPT, выписывание персонажей с помощью chatGPT, написание диалогов, описание локаций в chatGPT(!) для дальнейшей визуализации в Midjourney, огромное количество трюков с локациями для консистентности, преимущества коротких промптов, создание ИИ музыки для игры и многое другое. Практика 100%.
Читается как рассказ-приключение.
https://blog.luden.io/generated-adventure-the-postmortem-of-a-game-made-with-chatgpt-and-midjourney-prompts-included-f87e7e615204
👍57🔥33
This media is not supported in your browser
VIEW IN TELEGRAM
Video-to-text от Гугл

Недавно Google объединила DeepMind и Google Brain в единую ИИ-супергруппу с уникальным и свежим названием .. Google DeepMind.

Они будут использовать свою "визуальную" модель(VLM) под названием Flamingo для создания описаний для YouTube Shorts.

Flamingo анализирует начальные кадры видео для создания текстовых описаний (Video-to-text), что позволяет лучше классифицировать и сопоставлять результаты поиска с поисковыми запросами зрителей.

Сгенерированные описания сохраняются как метаданные, но недоступны пользователям-авторам видео.

Ну то есть у гугла есть черный ИИ-ящик, который умеет в суммаризацию коротких видео (по анализу именно видеопотока), но результат этой работы используется другим черныйм ИИ-ящиком, который ранжирует, категоризирует и подсовывает зрителям те или иные видео.

Это хорошая новость для ленивых авторов - запилил видос и не паришься с описаниями, ИИ все сам сделает.
https://twitter.com/DeepMind/status/1661357041980694528
👍19👎3
Про новую фишку беты фотошопа, где можно выделить область на картинке, а дальше текстом заказать, чем ее залить, все уже написали.

Выглядит действительно убойно и сокращает время определенных "технических" работ в фотошопе примерно в 100 раз. Плюс позволяет проверять идеи не обычным коллажированием, а ИИ-черновиками, которые и не черновики вовсе.

А я лишь добавлю вот такую вишневую детальку.

По данным моих инсайдеров из Адобченко, количество скачиваний этой беты фотошопа за два дня превысило количество скачиваний за всю историю загрузок.

ИИ король хайпа все-таки. Но не голый, а по понятиям.
👍40🔥15