Метаверсище и ИИще

Open AI Sora: Creating video from text
Я отложил до утра пост про новый генератор видео от Open AI.
Просто был сильно занят, выпивая без остановки за разнообразные кожаные аудитории.
Так в тишине, не чокаясь прошел вечер c поминанием следующих тружеников:

- Стартапы и сайты с видеогенерациями. Неделю назад, я написал что пора завязывать обозревать ИИ-шевеляж до какого-то нового прорыва.
Ибо сервисов и моделей расплодилось очень много, а качество застряло на уровне шевеления камеры.
И вот прорыв произошел. OpenAI показал, кто хозяин в доме. Теперь уже сложно смотреть на то, что делает Пика Лабс или Stabe Video Diffusion, очень сложно. И многочисленные стартапы, шевелящие пиксели на фотках, приподвзвыли и накрылись белой простыней. Также как стартапы с компьютер виженом, в прошлом ноябре.

- Видео-продакшены, которые так любят метнуться в Бразилию подснять фактурку для рекламки или пляжик для видеоклипа.

- Видео-клипы быстрого приготовления и продажу видеотехники в умелые руки видео-операторов.

- Понемногу за видео-стоки

- За вот этих вот трэвел и фуд-блоггеров. Лишние теперь

Ну и я вам принес только одно видео. Все остальное вы можете посмотреть на сайте OpenAI и в твитторе Сэма Альтмана, где от тонко тролит все остальные видеогенераторы, создавая ИИ видео по промптам, присланным ему в твиттор.

Это видео говорит за всё. И за всех. Такой уровень (движения в кадре прежде всего и динамика оных) просто недостижим. Для всех остальных. Я даже обсуждать это видео не хочу. Это просто другой уровень, точнее 80 уровней над тем, что было вчера.

Prompt: This close-up shot of a Victoria crowned pigeon showcases its striking blue plumage and red chest. Its crest is made of delicate, lacy feathers, while its eye is a striking red color. The bird’s head is tilted slightly to the side, giving the impression of it looking regal and majestic. The background is blurred, drawing attention to the bird’s striking appearance.

👍60🔥52

7.45K viewsSergey Tsyptsyn ️️, 02:55

Метаверсище и ИИще

Теперь немного диванных мыслей. И ссылка на новую статью, которая вышла в процессе написания поста.

Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).

Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.

Цензура наверняка будет лютой. Дух дипфейка будет жутко пугать OpenAI.

Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.

Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.

А еще уже вышла статья. И там примеры за гранью нравственности.

Оно умеет продолжать видео по времени назад и вперед.

"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."

Video-to-video editing

В общем оно умеет все и даже картинки в 2048х2048

Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators

Надо поспать, или это все уже сон?

Openai

Video generation models as world simulators

We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates…

🔥63👍15

7.13K viewsSergey Tsyptsyn ️️, edited 02:57

Симуляция нашего восприятия и хороший сериал.
Я уже писал философский пост о том, что LLM (возможно) через все эти текстовые датасеты срисовали то, как мы мыслим, ибо язык - инструмент мышления, а не общения.
После вчерашнего демарша OpenAI с выходом видеогенератора SORA, интересно подумать, как ИИ срисовывает наше восприятие внешнего мира. Через все эти размеченные видео и картинки у него в голове строится этакая визуальная модель реконструкции этого мира - способ построения картинок в голове в ответ на сигналы в виде слов(текстов) и звуков.

Ну и понятно, что он реконструирует разные многочисленные миры, соответствующие разным промптам, от игровых миров, как в случае с майнкрафтовым видео, до самых замысловатых фантазий и даже мультиков.

Пока были только генераторы картинок, речь шла скорее о симуляции воображения. С появлением временного измерения запахло симуляцией работы всего нашего мира. Точнее симуляцией того, что происходит у нас в голове (как там в реальности мы не знаем, вон змеи не видят неподвижное и живут без этой части мира в голове).

И лучше всего демонстрирует мои неловкие философские потуги вот такое видео.

Взяли сгенерированное видео из SORA и присунули его в Нерф. Получили 3Д-модель сгенерированного мира. Понятно, что в голове у ИИ латентное пространство типа 738D, вместо нашего утлого 3D. И мы через такую 3Д-замочную скважину в виде Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) можем теперь подглядывать чего он там насимулил про нас и наше восприятие.

Ну и интересно поразмышлять о том, какие миры у него в башке будут близки друг к друг другу по "смыслу". Помните на у него на картинках от короля к королеве идет такой же вектор как от мужчины к женщине в его мозгах. Ответ может быть неочевидным. И шорткаты между мирами могут вас удивить.

🔥52👍11👎1

6.37K viewsSergey Tsyptsyn ️️, edited 12:18

Метаверсище и ИИще

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Продолжение: Ну соединив теперь генеративное видео, 3Д, симуляцию нашего мышления в виде LLM, получим ... внутренность нашей кожаной башки, когда туда светят фонариком из замочной скважины многомерного мира и шепчут на ухо понятные слова и непонятные мантры.

Ну и хочу порекоментовать к просмотру сериал Разрабы (Devs) - он прям неглупый, смотрится отлично и заставляет задуматься, что мы, возможно уже давно живем на инференс-серверах OpenAI. Обобщенной Open AI.

https://radiancefields.com/openai-launches-sora-and-the-world/

🔥20👍9

6.44K viewsSergey Tsyptsyn ️️, 12:22

Метаверсище и ИИще

Забыл вам донести бесплатный и даже опен-сорсный удалятор фона на изображениях. Как и все удаляторы, хорошо работает на пляжных фото, но там где есть детали, спорная прозрачность и другие радости реальной жизни изворачивается как может.
Может вам пригодится:
Пробуем тут:
https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4

👍40👎6

7.51K viewsSergey Tsyptsyn ️️, 12:54

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Sora, далеко ли до продукта.

Судя по сообщениям от OpenAI, да, далеко.

Как мне кажется, одной из ключевых проблем будет цензура.

В статье, которую мы все прочитали прямо написано, что SORA может генерить картинки, причем сразу в 2048х2048.

Далее, в примерах полно видео с людьми. С очень хорошими такими, фотореалистичными людьми. Совсем не такими, как в DALL·E 3, где они основательно и намеренно "подпорчены", так чтобы не быть реалистичными.

Ожидать ли, что в продукте эти великолепные лица на видео уйдут в прошлое и снова будут шаржированы под "безопасные" изображения людей?

Далее, в шапке видео, которое SORA генерит по картинке на входе. Да, она умеет брать картинки на вход (тут расплакались навзрыд существующие генераторы).

Что будет если вы возьмете хорошую фотку себя любимого или на худой конец Тейлор Свифт и присунете ея в Сору?
Правильно, очень хороший дипфейк (оставим за кадром вопросы генерации именно говорения).
Как будет вырезать такой функционал OpenAI? Ибо за поминание дипфейка можно сейчас получит в бан и кансел в приличных корпоративных кругах.

В общем, сдается мне, мы сейчас любуемся на чистую, нецензурированную, свободную духом модель, которую скоро поведут в застенки адаптации в нормам приличного кожаного общества. К продукту.

👍64🔥18👎3

6.26K viewsSergey Tsyptsyn ️️, edited 13:48

Метаверсище и ИИще

1:07

This media is not supported in your browser

VIEW IN TELEGRAM

А тем временем Ян ЛеКун в твитторе поясняет за симуляцию окружающего мира и говорит, что метачкина V-JEPA еще всем покажет, как генерить видео.

Позвольте мне прояснить *огромное* недоразумение.
Генерация в основном реалистично выглядящих видеороликов на основе подсказок *не* указывает на то, что система понимает физический мир.
Генерация сильно отличается от каузального предсказания на основе модели мира.
Пространство правдоподобных видео очень велико, и системе генерации видео достаточно создать *один* образец, чтобы добиться успеха.
Пространство правдоподобных продолжений реального видео *значительно* меньше, и сгенерировать репрезентативный фрагмент из них - гораздо более сложная задача, особенно если это обусловлено каким-либо действием.
Кроме того, генерировать эти продолжения будет не только дорого, но и совершенно бессмысленно.
Гораздо желательнее генерировать *абстрактные представления* этих продолжений, которые устраняют детали сцены, не имеющие отношения к любому действию, которое мы можем захотеть предпринять.
В этом и заключается суть JEPA (Joint Embedding Predictive Architecture), которая является *не генеративной* и делает предсказания в пространстве представлений.
Наша работа над VICReg, I-JEPA, V-JEPA и работы других авторов показывают, что архитектуры Joint Embedding создают гораздо лучшие представления визуальных входов, чем генеративные архитектуры, которые восстанавливают пиксели (такие как Variational AE, Masked AE, Denoising AE и т. д.).
При использовании полученных представлений в качестве входных данных для supervised head , обученной на последующих задачах, Joint Embedding выигрывает у генеративной архитектуры.
https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

🔥36👍5👎1

6.82K viewsSergey Tsyptsyn ️️, edited 13:59

Метаверсище и ИИще

Forwarded from Дмитрий Савостьянов Вещает