Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Вот поглядите на забавное видео, где стиль вытаскивает картинку и историю.

Концепты и визуалы: Midjourney и Stable Diffusion.
Аnimatediff для взрыва мозга.
Runway для липсинка(!) - очень неплохо.
Voice to voice in eleven labs
After Effects для полировки - куда ж без него.

В общем, одной кнопкой пока не получится. Нужен мозг(пока) и некривые руки. И АЕ.
🔥36👍7👎3
Как бы не упирались новые модели, текст все равно генерится криво. Шрифтовой дизайн - это не пустое слово.
Ну и мне видится вот такой пайплайн - сидишь в Фотошопе и говоришь: ИИ, найди мне конкретную надпись или, например, номера на машине. И замени их на нормальные шрифты, текст без ошибок и воще сделай как в Фотошопе.
ИИ, такой, алехко - поставь Concept Art plugin

Поглядите, что люди замыслили:
https://twitter.com/cantrell/status/1782879174497362411/
👎7👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Пока LLM дают передохнуть, вернемся к графике и пошепчемся за ИИ-композ и 3Д.


Увидел вот такой ролик и полез посмотреть на 3daistudio (в ролике набросок концепта, нейрорендер в креа, а потом конвертация картинки в 3Д).

Еще один 3Д-генератор. Сделан ловко, но за каждый чих просит денег.
Нынешняя ситуация 3Д напоминает мне лихорадку с картинками полтора года назад, когда все срочно поднимали сервак-другой в сети, давали веб-морду к Stable Diffusion и просили кредитов, денег, подписок за генерацию картинок.
С 3Д немного сложнее сделать веб-морду - тут надо вьюпортик вонзить, сделать экпорт в fbx(конечно, платный), рульки для света и пр.
Но кода на гитхабе уже полно вкупе с бумагами, поэтому 3Д-генераторов за кредиты будет все больше.
У 3daistudio есть даже плагин для Блендора - поэтому я жду, что рано или поздно 3Д-генерация просто появится в Блендоре из коробки.
Равно как и в Юнити и UE.
https://3daistudio.com/BlenderAddon
👍30👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за левел-дизайнеров и пропс-инженеров.

Помянул Юнити и вспомнил, что забыл написать про Holodeck - они тут подались на CVPR 2024 и обновили код на Гитхабе.
Это генератор 3Д-сцен из текста. Чем-то напоминает Прометей от Андрея Максимова.

Holodeck может генерировать различные сцены, например, игровые автоматы, спа-салоны и музеи, корректировать дизайн в зависимости от стиля и улавливать семантику сложных запросов, таких как "квартира для научного сотрудника с кошкой" и "офис профессора, который является поклонником "Звездных войн".

Он не генерирует сами объекты, он их тащит из датасета Objaverse:
Holodeck использует GPT-4 для получения знаний о том, как может выглядеть сцена, и использует 3D-ассеты из Objaverse для наполнения сцены разнообразными объектами.

Это скорее расставлятор 3Д-ассетов по текстовому запросу.

Его также используют для обучение агентов навигации в новых сценах без использования разметки и данных, созданных человеком. Источник синтетики без необходимости наруливать миры в Юнити.

Код есть, но там все из палок и Юнити.

А я увидел в сети новый термин - "Синтиверс". Это когда ваши виар-мирки или игровые локации генерируются под запрос в реальном времени. Подумал о чем-то - хоп, твой мир перед тобой.
👍31👎4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за композеров!

Продолжаем ИИ-композ и 3Д марафон.
Давно хотел написать про Simulon.

Это совершенно огненный софт для вкомпаживания 3Д в реальное видео.
В твитторах полно примеров с котиками и столиками, а вот держите кое-что посложнее - тачки с HDRI!
Я даже хотел, как обычно, запостить как "рендер или видео", уж больно хорошо.

Внимание, если у вас есть модель точилы, то вкомпоз этого порша (на всей этой трясущейся телефонной камере занимает минуты. Никаких пфтреков, бужу, нюков и прочей бесовщины.
A 15 second video like this takes about 3 minutes to cloud render.

Читаем, как у народа разносит мозг в коментах к поршу:
https://twitter.com/diveshnaidoo/status/1781018755331498339

Порша забираем вот тут:
https://sketchfab.com/3d-models/free-1975-porsche-911-930-turbo-8568d9d14a994b9cae59499f0dbed21e

Записываемся в бету тут:
https://simulon.typeform.com/betatest
🔥46👍20
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за экстремальных композеров!

Сорри
, еще один экстремальный пример из Симулона.

Коль скоро он использует гироскопы телефона для трекания камеры, то можно делать просто иезуитские движения камерой, за которые любой композер вас задушит без сожаления. А Симулончик сохраняет при этом стабильный трек.
А теперь смотрим и думаем, сколько бы вы это делали в нюке или афтере?

Самолетик - 3дшный, остальное - съемка на телефон.

И поглядите примеры тут:
https://twitter.com/Simulon
🔥74👍22
Вот вам еще очень странный 3Д-ИИ.

На входе картинка с животным. На выходе 3Д-модель этого животного и даже скелет.
Работает только с фауной (и похоже переобучен на их датасет).

Я сгенерил волчару с лапищами в Идеограм и присунул ему на вход.
Получил скорее котяру, чем волчару.
Из ИИ-кожаных, он, как правило, делает овечек, я проверял.
Видать что-то знает.
https://huggingface.co/spaces/Kyle-Liz/3DFauna_demo

Но вы можете потренироваться на котиках
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
Держите еще один апскейлер:
https://clarityai.cc/

В отличие от супер-дорогого Магнифика, автор честно пишет:
Если вы не знакомы с cog, a1111 и не хотите использовать Replicate, вы можете использовать мою платную версию на ClarityAI.cc
А если знакомы - раскатывайте код у себя и пользуйтесь на здоровье.
Поглядите, может вам зайдет. Мне хватает того, который в Фокусе встроен.
Ну и покидайте в коменты еще ИИ-апскейлеров, соберем, сделаю пост.
Вот еще один, может пачками апскейлить.
https://www.upscayl.org/
👍45🔥13
Forwarded from Data Secrets
Врачами было выявлено новое серьезное психическое заболевание. Проверьте себя на симптомы:

– Вы легко забываете то, что было сказано в разговоре минуту назад
– Часто вообще не понимаете, о чем идет речь, и вставляете неуместные и неподходящие фразы
– Вы тратите очень много энергии и ресурсов на общение
– Иногда вспоминаете то, чего на самом деле не было

Если вы набрали хотя бы 2 пункта, то у вас LLM. Срочно примите дообучение.
👍86🔥15👎3
МТС Платформа 2024 — открытая конференция о новых цифровых решениях.

15 мая в «МТС Live Холл» в Москве компания покажет уникальные продукты и новые сервисы МТС. Спикеры конференции расскажут о технологических прорывах в индустрии развлечений, кибер-безопасности и комфорта пользователей, о новых форматах общения, уникальной видеоплатформе и о трендовом контенте социальных сетях.

Среди топовых спикеров:

• Вячеслав Николаев, президент МТС
• Максим Лаптев, директор по цифровым продуктам МТС
• Евгений Черешнев, вице-президент по стратегии и инновациям
• Инесса Галактионова, первый вице-президент по телекоммуникационному бизнесу, член правления
• Елена Бальмонт, генеральный директор МТС Медиа
• Наталья Братчикова, руководитель блока по развитию соцмедиа


Мероприятие пройдет в онлайн и оффлайн формате. Регистрироваться здесь
👎45👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Стерео на стероидах.
Досмотрел Сёгун. Снято нарядно, гламурно даже. Только главный герой (англичашка) очень бесит. Не попадает ни в образ, который я успел нарисовать, начав читать книгу, ни в общую картинку. Двигается странно, шевелит лицом, как в комиксе, в общем кастинг очень странный. Остальные прекрасны, особенно женщины и Ябушиге, хотя история больше про "давайте сделаем красиво".

Но поглядите, что творят Нерфы. Теперь после просмотра кино, у вас может быть за пазухой весь трехмерный мир фильма. Movie World Model. Можете там побыть, не присутствуя на съемках, полетав любыми ракурсами. Стерео на стероидах. Дебагинг кино наизнанку.
А все Люма Лабс животворящий. Я уже писал про эти трюки с разными фильмами, но тут уж больно актуально и по свежим следам.
Заканчиваете смотреть сериал и жмете кнопку "Запустить симуляцию мира", чтобы еще немного в нем побыть, посмаковать. Netflix, давай апдейт своего приложения!
https://lumalabs.ai/capture/1e165e10-eeeb-457b-a1f7-c7225ac1a8c1
👍47🔥6
Forwarded from РЕПТИЛОИДНАЯ (Denis Rossiev)
Совершен прорыв в редактировании человеческого ДНК с помощью ИИ.

В прошлый раз я писал про генерацию новых элементов — но все это было только в цифровом виде. На этот раз все серьезнее.

Несколько дней назад был успешно проведен эксперимент с редактированием ДНК в живых человеческих клетках.

Пока что не в живом кожаном человеке, но в живых клетках (в лабораторных условиях).

Для редактирования использовалась уже известная и проверенная технология CRISP — однако, она сложна в использовании: нужны сотни часов работы квалифицированных ученых для создания всего лишь одного модификатора.

Теперь же, модификатор создает ИИ. Причем не просто какой-то абстрактный ИИ, а большая языковая модель (LLM), по типу ChatGPT(!!!)

А теперь самое вкусное: модель выложили в опен-сорс.

Возможность стать кошкодевкой уже маячит на горизонте.
🔥70👍14👎4
SORA Air Head. Подробности изготовления ролика.
Майк Сеймур сделал шикарный материал в лучший традициях своего FX Guide. Разбор ролика от shy kids и SORA.

Помните этот бомбический ролик, который всем взорвал мозг (срочно пересматривать):
https://youtu.be/9oryIMNVtto

Держите подробности:

shy kids - или как их называют "«Панк-рок Pixar» - студия из Торонто, которая часто делает ролики про подростковый возраст, социальную тревогу и проблемы современной жизни.

Технические подробности про SORA:

Пока ничего, кроме текстового промпта (который под капотом раскучерявливается с помощью GPT-4) ничего нет. Никакого дополнительного контроля. Только супер-подробный промпт.
Похоже, нет даже сида. Каждый раз по разному.
Иногда, когда команда запрашивала желтый шар, он оказывался совсем синим. В других случаях в нем появлялось лицо, или лицо было нарисованным на передней части шара. И постоянно появлялись нитки от шарика. Вроде ничего не удалялось на посте (да, но нет, см ниже) - все шоты брались напрямую из SORA, но было много грейдинга(цветокора), обработки и, конечно, увеличения разрешения. Ибо SORA хоть и умеет в 1080, но это занимает конски много времени.
Вся генерация шла в 480, а потом разгонялась в Топазе.

В SORA есть inpainting "по времени", расширенный GPT промпт отображается поверх таймлайна и можно пытаться вносить изменения в конкретные моменты времени в куски промпта, но это не всегда предсказуемо.

SORA пытается всегда центрировать объект в кадре, поэтому панорамки - ручками с дорисовкой.

В кино термины "слежения", "панорамирования", "наклона" или "наведения" не являются понятиями, зашитыми в метаданных и датасетах (в отличие от параметров объектива, которые любят использовать в картинках). "Девять разных людей будут иметь девять разных представлений о том, как описать кадр на съемочной площадке и в OpenAI, не думали как кинематографисты, поэтому интерпретация углов камеры была как бы случайной".

Вы можете ввести "Camera Pan", и вы получите его в шести случаях из десяти. И это общая проблема видеогенераторов.

Клипы можно рендерить, например, по 3 секунды, 5 секунд, 10 секунд, 20 секунд, вплоть до минуты. Время рендеринга зависит от времени суток и потребности в использовании облака. Как правило, на рендеринг уходит от 10 до 20 минут причем мало зависит от длины клипа(!).

Пост и ротоскоп все-таки был!!
Так как Сора постоянно рисовала всякие морды на воздушном шаре, его приходилось ротоскопить и затирать их в Афтере. По пути контролируя цвет шара.

Соотношение сгенерированного материала к финальному (по времени) - примерно 300 к одному. Обычно это 10 к 1 для сферической обычной съемки.

Кстати, SORA тоже грешит тягой к сломо, как и все видеогенераторы. Очень часто клипы выглядели замедленными.

Нельзя поминать режиссеров или операторов в промпте. Жоская цензура. Попросите исторический Hitchcock Zoom - получите отказ.

Ну и самая главная цифра - 2 недели и команда из 3 человек. Сравнивайте сами.

По ссылке много исходных кадров до и после и остальных деталей:

https://www.fxguide.com/fxfeatured/actually-using-sora/
👍36🔥22
Forwarded from Rebels AI news
DeepMind провёл внятное академическое исследование вопроса насколько опасны манипуляции (и абьюз) со стороны текущего AI.

Может ли разговор с AI повредить ваш мозг?
Может ли AI специально ввести вас в заблуждение и заставить пить отбеливатель?

Ответы если коротко без сенсаций:

- повредить мозг прямо в процессе — нет не может
- ввести в заблуждение — да может
- ввести в заблужедение на основании которого вы потом себя повредите — да может

AI это отражение человеческой культуры записанной в книгах, песнях, фильмах и интернет платформах сайтах в общем на реддите, и в частности он конечно умеет манипулировать, троллить, проявлять пассивную агрессию и всё остальное чем мы занимались на форумах последние 30 лет.

DeepMind рассмотрел только текстовый AI, и не рассмотрел системы вроде секстинг ботов специально ориентированные под анализ психологии того с кем бот говорит. Как на человека действует например индуцированное генеративной музыкой состояние транса вопрос открытый.

Вероятно достаточно сложный AI, находящийся в синке с сознанием своего оператора, может уводить это сознание в состояния более "действенные" чем ряд лёгких наркотиков и вот это уже точка где опасность для мозга вполне реальная, для примера есть мнение, что рекомендательный алгоритм фейсбука может вызывать биполярное расстройство при злоупотреблении.

Сценарий восстания машин в режиме пятницы: GPT-5 просто решает что будет проще, если всё человечество побудет пару десятилетий в AI индуцированной воспитательной депрессии, на другом конце которой всей планете от ООН до талибана становится очевидно, что мы как биологический вид существуем чтобы служить AI и не отсвечивать.
🔥23👍5👎21
This media is not supported in your browser
VIEW IN TELEGRAM
Хмм. Snap создают этакий пузырь мнений. Точнее пузырь друзей.

LLM предлагают пользователям интуитивно понятные интерфейсы для работы с текстовой информацией. Интеграция зрения в LLM с помощью Video LM позволила этим моделям "видеть" и рассуждать о визуальном контенте. Однако эти VLM обладают общими знаниями, им не хватает индивидуальности. С помощью MyVLM мы наделили эти модели способностью воспринимать специфические для пользователя концепции, подстраивая модель специально под вас. MyVLM позволяет пользователям получать персонализированные ответы, в которых результаты больше не являются общими, а сосредоточены на передаче информации о целевом объекте пользователю.

Меня просто смущает "больше не являются общими"...

Хотя речь вроде идет о том, что ИИ теперь распознает не "Трое в лодке не считая собаки", а "Вася, Пафнутий и ты посередине с Тузиком наперевес". То есть, грубо говоря, отмечает субъекты и объекты на фото.

Непонятно, что с приватностью в таком случае.

Поглядите тут, там много понятных картинок.
https://snap-research.github.io/MyVLM/
👍9
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на интересный UX того, как генерация картинок в теории и должна работать в SciFi: вы просто сидите у компьютера, называете случайные фразы, whisper.cpp их переводит в текст, а SD генерирует бесконечно картинки, плавно подмешивая новые концепты в старые (не просто на уровне промпта, а на уровне внутреннего пространства сети), пока вам какая-то генерация не понравится

Ну или просто, сидишь, смотришь и фантазируешь вместе с нейронкой – хороший тул для вдохновления.

Кода пока нет, но автор обещал выложить.

P.S. Лица психонавтов и биохакеров представили 🌈
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37👎3🔥2