Метаверсище и ИИще
47.1K subscribers
5.99K photos
4.45K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Вот вам еще очень странный 3Д-ИИ.

На входе картинка с животным. На выходе 3Д-модель этого животного и даже скелет.
Работает только с фауной (и похоже переобучен на их датасет).

Я сгенерил волчару с лапищами в Идеограм и присунул ему на вход.
Получил скорее котяру, чем волчару.
Из ИИ-кожаных, он, как правило, делает овечек, я проверял.
Видать что-то знает.
https://huggingface.co/spaces/Kyle-Liz/3DFauna_demo

Но вы можете потренироваться на котиках
👍14
This media is not supported in your browser
VIEW IN TELEGRAM
Держите еще один апскейлер:
https://clarityai.cc/

В отличие от супер-дорогого Магнифика, автор честно пишет:
Если вы не знакомы с cog, a1111 и не хотите использовать Replicate, вы можете использовать мою платную версию на ClarityAI.cc
А если знакомы - раскатывайте код у себя и пользуйтесь на здоровье.
Поглядите, может вам зайдет. Мне хватает того, который в Фокусе встроен.
Ну и покидайте в коменты еще ИИ-апскейлеров, соберем, сделаю пост.
Вот еще один, может пачками апскейлить.
https://www.upscayl.org/
👍45🔥13
Forwarded from Data Secrets
Врачами было выявлено новое серьезное психическое заболевание. Проверьте себя на симптомы:

– Вы легко забываете то, что было сказано в разговоре минуту назад
– Часто вообще не понимаете, о чем идет речь, и вставляете неуместные и неподходящие фразы
– Вы тратите очень много энергии и ресурсов на общение
– Иногда вспоминаете то, чего на самом деле не было

Если вы набрали хотя бы 2 пункта, то у вас LLM. Срочно примите дообучение.
👍86🔥15👎3
МТС Платформа 2024 — открытая конференция о новых цифровых решениях.

15 мая в «МТС Live Холл» в Москве компания покажет уникальные продукты и новые сервисы МТС. Спикеры конференции расскажут о технологических прорывах в индустрии развлечений, кибер-безопасности и комфорта пользователей, о новых форматах общения, уникальной видеоплатформе и о трендовом контенте социальных сетях.

Среди топовых спикеров:

• Вячеслав Николаев, президент МТС
• Максим Лаптев, директор по цифровым продуктам МТС
• Евгений Черешнев, вице-президент по стратегии и инновациям
• Инесса Галактионова, первый вице-президент по телекоммуникационному бизнесу, член правления
• Елена Бальмонт, генеральный директор МТС Медиа
• Наталья Братчикова, руководитель блока по развитию соцмедиа


Мероприятие пройдет в онлайн и оффлайн формате. Регистрироваться здесь
👎45👍6🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Стерео на стероидах.
Досмотрел Сёгун. Снято нарядно, гламурно даже. Только главный герой (англичашка) очень бесит. Не попадает ни в образ, который я успел нарисовать, начав читать книгу, ни в общую картинку. Двигается странно, шевелит лицом, как в комиксе, в общем кастинг очень странный. Остальные прекрасны, особенно женщины и Ябушиге, хотя история больше про "давайте сделаем красиво".

Но поглядите, что творят Нерфы. Теперь после просмотра кино, у вас может быть за пазухой весь трехмерный мир фильма. Movie World Model. Можете там побыть, не присутствуя на съемках, полетав любыми ракурсами. Стерео на стероидах. Дебагинг кино наизнанку.
А все Люма Лабс животворящий. Я уже писал про эти трюки с разными фильмами, но тут уж больно актуально и по свежим следам.
Заканчиваете смотреть сериал и жмете кнопку "Запустить симуляцию мира", чтобы еще немного в нем побыть, посмаковать. Netflix, давай апдейт своего приложения!
https://lumalabs.ai/capture/1e165e10-eeeb-457b-a1f7-c7225ac1a8c1
👍47🔥6
Forwarded from РЕПТИЛОИДНАЯ (Denis Rossiev)
Совершен прорыв в редактировании человеческого ДНК с помощью ИИ.

В прошлый раз я писал про генерацию новых элементов — но все это было только в цифровом виде. На этот раз все серьезнее.

Несколько дней назад был успешно проведен эксперимент с редактированием ДНК в живых человеческих клетках.

Пока что не в живом кожаном человеке, но в живых клетках (в лабораторных условиях).

Для редактирования использовалась уже известная и проверенная технология CRISP — однако, она сложна в использовании: нужны сотни часов работы квалифицированных ученых для создания всего лишь одного модификатора.

Теперь же, модификатор создает ИИ. Причем не просто какой-то абстрактный ИИ, а большая языковая модель (LLM), по типу ChatGPT(!!!)

А теперь самое вкусное: модель выложили в опен-сорс.

Возможность стать кошкодевкой уже маячит на горизонте.
🔥70👍14👎4
SORA Air Head. Подробности изготовления ролика.
Майк Сеймур сделал шикарный материал в лучший традициях своего FX Guide. Разбор ролика от shy kids и SORA.

Помните этот бомбический ролик, который всем взорвал мозг (срочно пересматривать):
https://youtu.be/9oryIMNVtto

Держите подробности:

shy kids - или как их называют "«Панк-рок Pixar» - студия из Торонто, которая часто делает ролики про подростковый возраст, социальную тревогу и проблемы современной жизни.

Технические подробности про SORA:

Пока ничего, кроме текстового промпта (который под капотом раскучерявливается с помощью GPT-4) ничего нет. Никакого дополнительного контроля. Только супер-подробный промпт.
Похоже, нет даже сида. Каждый раз по разному.
Иногда, когда команда запрашивала желтый шар, он оказывался совсем синим. В других случаях в нем появлялось лицо, или лицо было нарисованным на передней части шара. И постоянно появлялись нитки от шарика. Вроде ничего не удалялось на посте (да, но нет, см ниже) - все шоты брались напрямую из SORA, но было много грейдинга(цветокора), обработки и, конечно, увеличения разрешения. Ибо SORA хоть и умеет в 1080, но это занимает конски много времени.
Вся генерация шла в 480, а потом разгонялась в Топазе.

В SORA есть inpainting "по времени", расширенный GPT промпт отображается поверх таймлайна и можно пытаться вносить изменения в конкретные моменты времени в куски промпта, но это не всегда предсказуемо.

SORA пытается всегда центрировать объект в кадре, поэтому панорамки - ручками с дорисовкой.

В кино термины "слежения", "панорамирования", "наклона" или "наведения" не являются понятиями, зашитыми в метаданных и датасетах (в отличие от параметров объектива, которые любят использовать в картинках). "Девять разных людей будут иметь девять разных представлений о том, как описать кадр на съемочной площадке и в OpenAI, не думали как кинематографисты, поэтому интерпретация углов камеры была как бы случайной".

Вы можете ввести "Camera Pan", и вы получите его в шести случаях из десяти. И это общая проблема видеогенераторов.

Клипы можно рендерить, например, по 3 секунды, 5 секунд, 10 секунд, 20 секунд, вплоть до минуты. Время рендеринга зависит от времени суток и потребности в использовании облака. Как правило, на рендеринг уходит от 10 до 20 минут причем мало зависит от длины клипа(!).

Пост и ротоскоп все-таки был!!
Так как Сора постоянно рисовала всякие морды на воздушном шаре, его приходилось ротоскопить и затирать их в Афтере. По пути контролируя цвет шара.

Соотношение сгенерированного материала к финальному (по времени) - примерно 300 к одному. Обычно это 10 к 1 для сферической обычной съемки.

Кстати, SORA тоже грешит тягой к сломо, как и все видеогенераторы. Очень часто клипы выглядели замедленными.

Нельзя поминать режиссеров или операторов в промпте. Жоская цензура. Попросите исторический Hitchcock Zoom - получите отказ.

Ну и самая главная цифра - 2 недели и команда из 3 человек. Сравнивайте сами.

По ссылке много исходных кадров до и после и остальных деталей:

https://www.fxguide.com/fxfeatured/actually-using-sora/
👍36🔥22
Forwarded from Rebels AI news
DeepMind провёл внятное академическое исследование вопроса насколько опасны манипуляции (и абьюз) со стороны текущего AI.

Может ли разговор с AI повредить ваш мозг?
Может ли AI специально ввести вас в заблуждение и заставить пить отбеливатель?

Ответы если коротко без сенсаций:

- повредить мозг прямо в процессе — нет не может
- ввести в заблуждение — да может
- ввести в заблужедение на основании которого вы потом себя повредите — да может

AI это отражение человеческой культуры записанной в книгах, песнях, фильмах и интернет платформах сайтах в общем на реддите, и в частности он конечно умеет манипулировать, троллить, проявлять пассивную агрессию и всё остальное чем мы занимались на форумах последние 30 лет.

DeepMind рассмотрел только текстовый AI, и не рассмотрел системы вроде секстинг ботов специально ориентированные под анализ психологии того с кем бот говорит. Как на человека действует например индуцированное генеративной музыкой состояние транса вопрос открытый.

Вероятно достаточно сложный AI, находящийся в синке с сознанием своего оператора, может уводить это сознание в состояния более "действенные" чем ряд лёгких наркотиков и вот это уже точка где опасность для мозга вполне реальная, для примера есть мнение, что рекомендательный алгоритм фейсбука может вызывать биполярное расстройство при злоупотреблении.

Сценарий восстания машин в режиме пятницы: GPT-5 просто решает что будет проще, если всё человечество побудет пару десятилетий в AI индуцированной воспитательной депрессии, на другом конце которой всей планете от ООН до талибана становится очевидно, что мы как биологический вид существуем чтобы служить AI и не отсвечивать.
🔥23👍5👎21
This media is not supported in your browser
VIEW IN TELEGRAM
Хмм. Snap создают этакий пузырь мнений. Точнее пузырь друзей.

LLM предлагают пользователям интуитивно понятные интерфейсы для работы с текстовой информацией. Интеграция зрения в LLM с помощью Video LM позволила этим моделям "видеть" и рассуждать о визуальном контенте. Однако эти VLM обладают общими знаниями, им не хватает индивидуальности. С помощью MyVLM мы наделили эти модели способностью воспринимать специфические для пользователя концепции, подстраивая модель специально под вас. MyVLM позволяет пользователям получать персонализированные ответы, в которых результаты больше не являются общими, а сосредоточены на передаче информации о целевом объекте пользователю.

Меня просто смущает "больше не являются общими"...

Хотя речь вроде идет о том, что ИИ теперь распознает не "Трое в лодке не считая собаки", а "Вася, Пафнутий и ты посередине с Тузиком наперевес". То есть, грубо говоря, отмечает субъекты и объекты на фото.

Непонятно, что с приватностью в таком случае.

Поглядите тут, там много понятных картинок.
https://snap-research.github.io/MyVLM/
👍9
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Наткнулся на интересный UX того, как генерация картинок в теории и должна работать в SciFi: вы просто сидите у компьютера, называете случайные фразы, whisper.cpp их переводит в текст, а SD генерирует бесконечно картинки, плавно подмешивая новые концепты в старые (не просто на уровне промпта, а на уровне внутреннего пространства сети), пока вам какая-то генерация не понравится

Ну или просто, сидишь, смотришь и фантазируешь вместе с нейронкой – хороший тул для вдохновления.

Кода пока нет, но автор обещал выложить.

P.S. Лица психонавтов и биохакеров представили 🌈
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37👎3🔥2
Чем живет российский ИИ-рисерч.

Держите большой материал с исследовательской группой Tinkoff Research. Больше всего мне нравится плотность подачи и то, что довольно сложные вещи здесь рассказаны очень понятным языком. Объяснения терминов, страшные аббревиатуры, актуальные направления исследований в области ИИ, обсуждение алгоритмов - все это очень живо растолковано на примере фитнеса и пылесосов. Очень доступно и в тоже время очень плотно и полезно.
Материала на пару вводных курсов. А на вставках - почти вся популярная ИИ-терминология. И написано молодыми учеными. которые прямо сейчас двигают ИИ-науку.
Я вынесу пару цитат для интриги, но всем рекомендую пройтись по статье, очень много полезного в плане расширения кругозора. Будет полезно абсолютно всем, кто интересуется рисерчём, особенно NLP, RL и рекомендательными системами.

«Понятие научной степени в области, которая несется и сметает все на своем пути, несколько устарело»
«Возможно, скоро мы забудем о существовании информационных пузырей и будем искать данные совсем иначе»
«Видеокарты не бесконечны»
«Чтобы не произошло восстание машин, нужен alignment»
«Революция в рекомендательных системах еще не случилась»
👍39👎13🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
360-панорамы в 8К! Вот это уже интересно!

Blockade Labs обновился, и с таким разрешением это уже готовое решение для всяческих лыжных масок.
А еще у них уже давно есть рисовалка в 3Д, карты глубины и HDRI, преобразование скайбокса в 3D-сетку, параметры стиля, а теперь еще обещают inpaint в 2.5D и редактирование сцены.
И поглядите сюда, если еще не видели.

Виарщеги, пишите, что думаете, выглядит нарядно.

https://www.blockadelabs.com/
🔥37
This media is not supported in your browser
VIEW IN TELEGRAM
Экспресс эмоции или эмоциональные экспрешены.

Synthesia обновила свой движок и теперь это Express-1 - самая главная фича в том, что эмоции и движения головы теперь не полагаются на заранее прошитые скрипты, а генерируются на основе анализа сентимента речи, на лету, так сказать.
ИИ анализирует эмоции во входном аудио или тексте и сам добавляет Станиславского в мимику и движения головы.
Ну и генерация голосов тоже на уровне.
Иногда аватары "показывают зубки", но это даже мило.
HeyGen немного занервничал, особенно после того, как Нвидия вонзила очень много денег в Synthesia.
После того, что показал Микрософт и Алибаба, понятно, что нейрорендеринг аватаров будет основным направление генерации реалистичных лиц. Ибо 3Д безнадежно застряло при переходе, через зловещую долину (это касается человеческих лиц) и пока не нашло выхода оттуда.
🔥32👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Для сравнения кину сюда эмоции и нейрорендеринг из Микрософтовской Вазы.
Да-да, это все ИИ-шная генерация кожаных лиц. На входе - одно фото или картинка из Midjourney/Stable Diffusion

Ну, за дикторов!
🔥81👍14
Это скорее новость для многочисленных каналов-аггрегаторов ИИ-новостей:

Эппле выбирает, чей ИИ вонзить в свои телефоны: решения OpenAI или Google Gemini...
https://www.businessinsider.com/apple-negotiating-openai-google-gemini-ai-to-next-iphone-2024-4
🔥13👍5👎1
Почему такие заголовки работают для одних доменов населения и не работают для других? Где и когда раздают критическое мышление? В семье или в школе?
Я давно так не смеялся, это очень смешно: