Метаверсище и ИИще
47.8K subscribers
6.05K photos
4.51K videos
46 files
6.95K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Open AI Sora: Creating video from text
Я отложил до утра пост про новый генератор видео от Open AI.
Просто был сильно занят, выпивая без остановки за разнообразные кожаные аудитории.
Так в тишине, не чокаясь прошел вечер c поминанием следующих тружеников:

- Стартапы и сайты с видеогенерациями. Неделю назад, я написал что пора завязывать обозревать ИИ-шевеляж до какого-то нового прорыва.
Ибо сервисов и моделей расплодилось очень много, а качество застряло на уровне шевеления камеры.
И вот прорыв произошел. OpenAI показал, кто хозяин в доме. Теперь уже сложно смотреть на то, что делает Пика Лабс или Stabe Video Diffusion, очень сложно. И многочисленные стартапы, шевелящие пиксели на фотках, приподвзвыли и накрылись белой простыней. Также как стартапы с компьютер виженом, в прошлом ноябре.

- Видео-продакшены, которые так любят метнуться в Бразилию подснять фактурку для рекламки или пляжик для видеоклипа.

- Видео-клипы быстрого приготовления и продажу видеотехники в умелые руки видео-операторов.

- Понемногу за видео-стоки

- За вот этих вот трэвел и фуд-блоггеров. Лишние теперь

Ну и я вам принес только одно видео. Все остальное вы можете посмотреть на сайте OpenAI и в твитторе Сэма Альтмана, где от тонко тролит все остальные видеогенераторы, создавая ИИ видео по промптам, присланным ему в твиттор.


Это видео говорит за всё. И за всех. Такой уровень (движения в кадре прежде всего и динамика оных) просто недостижим. Для всех остальных. Я даже обсуждать это видео не хочу. Это просто другой уровень, точнее 80 уровней над тем, что было вчера.

Prompt: This close-up shot of a Victoria crowned pigeon showcases its striking blue plumage and red chest. Its crest is made of delicate, lacy feathers, while its eye is a striking red color. The bird’s head is tilted slightly to the side, giving the impression of it looking regal and majestic. The background is blurred, drawing attention to the bird’s striking appearance.
👍60🔥52
Теперь немного диванных мыслей. И ссылка на новую статью, которая вышла в процессе написания поста.

Если у кого-то есть надежда типа "а мы вот умеем из картинок видео делать, а не только из текста", то нет. Надежды. GPT-V пережует любую картинку на входе, превратит ее промпт, удобрит с помощью GPT-4, сам найдет динамику и предложит вам десяток вариантов операторской работы с этой картинкой (вышла статья - подтвердили эту фичу).

Интересно будет посмотреть на варианты контроля движения кроме текстовых промптов. Судя по Далле3 OpenAI не сильно упираются в продуктовые фичи и всякие контролнеты, так что моушен брашей можно и не дождаться.

Цензура наверняка будет лютой. Дух дипфейка будет жутко пугать OpenAI.

Судя по примерам, в обучении использовалось много синтетики. Типа видео из игровых движков. Поглядите на пролеты камеры, особенно в городских локациях. Это касается некоторых примеров. На других этого нет.

Одна минута of high definition video - это как вообще?. Там где любые видео-генераторы разрывает в клочья после 8 секунд, тут ОДНА МИНУТА.

А еще уже вышла статья. И там примеры за гранью нравственности.

Оно умеет продолжать видео по времени назад и вперед.

"Как и в DALL-E 3, мы также используем GPT для превращения коротких подсказок пользователя в длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora генерировать высококачественные видеоролики, которые точно следуют подсказкам пользователя."

Video-to-video editing

В общем оно умеет все и даже картинки в 2048х2048

Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
https://openai.com/research/video-generation-models-as-world-simulators

Надо поспать, или это все уже сон?
🔥63👍15
Media is too big
VIEW IN TELEGRAM
Симуляция нашего восприятия и хороший сериал.
Я уже писал философский пост о том, что LLM (возможно) через все эти текстовые датасеты срисовали то, как мы мыслим, ибо язык - инструмент мышления, а не общения.
После вчерашнего демарша OpenAI с выходом видеогенератора SORA, интересно подумать, как ИИ срисовывает наше восприятие внешнего мира. Через все эти размеченные видео и картинки у него в голове строится этакая визуальная модель реконструкции этого мира - способ построения картинок в голове в ответ на сигналы в виде слов(текстов) и звуков.

Ну и понятно, что он реконструирует разные многочисленные миры, соответствующие разным промптам, от игровых миров, как в случае с майнкрафтовым видео, до самых замысловатых фантазий и даже мультиков.

Пока были только генераторы картинок, речь шла скорее о симуляции воображения. С появлением временного измерения запахло симуляцией работы всего нашего мира. Точнее симуляцией того, что происходит у нас в голове (как там в реальности мы не знаем, вон змеи не видят неподвижное и живут без этой части мира в голове).

И лучше всего демонстрирует мои неловкие философские потуги вот такое видео.

Взяли сгенерированное видео из SORA и присунули его в Нерф. Получили 3Д-модель сгенерированного мира. Понятно, что в голове у ИИ латентное пространство типа 738D, вместо нашего утлого 3D. И мы через такую 3Д-замочную скважину в виде Neural Radiance Fields (NeRFs) and 3D Gaussian Splatting (3DGS) можем теперь подглядывать чего он там насимулил про нас и наше восприятие.

Ну и интересно поразмышлять о том, какие миры у него в башке будут близки друг к друг другу по "смыслу". Помните на у него на картинках от короля к королеве идет такой же вектор как от мужчины к женщине в его мозгах. Ответ может быть неочевидным. И шорткаты между мирами могут вас удивить.
🔥52👍11👎1
Продолжение: Ну соединив теперь генеративное видео, 3Д, симуляцию нашего мышления в виде LLM, получим ... внутренность нашей кожаной башки, когда туда светят фонариком из замочной скважины многомерного мира и шепчут на ухо понятные слова и непонятные мантры.

Ну и хочу порекоментовать к просмотру сериал Разрабы (Devs) - он прям неглупый, смотрится отлично и заставляет задуматься, что мы, возможно уже давно живем на инференс-серверах OpenAI. Обобщенной Open AI.

https://radiancefields.com/openai-launches-sora-and-the-world/
🔥20👍9
Забыл вам донести бесплатный и даже опен-сорсный удалятор фона на изображениях. Как и все удаляторы, хорошо работает на пляжных фото, но там где есть детали, спорная прозрачность и другие радости реальной жизни изворачивается как может.
Может вам пригодится:
Пробуем тут:
https://huggingface.co/spaces/briaai/BRIA-RMBG-1.4
👍40👎6
This media is not supported in your browser
VIEW IN TELEGRAM
Sora, далеко ли до продукта.

Судя по сообщениям от OpenAI, да, далеко.

Как мне кажется, одной из ключевых проблем будет цензура.

В статье, которую мы все прочитали прямо написано, что SORA может генерить картинки, причем сразу в 2048х2048.

Далее, в примерах полно видео с людьми. С очень хорошими такими, фотореалистичными людьми. Совсем не такими, как в DALL·E 3, где они основательно и намеренно "подпорчены", так чтобы не быть реалистичными.

Ожидать ли, что в продукте эти великолепные лица на видео уйдут в прошлое и снова будут шаржированы под "безопасные" изображения людей?

Далее, в шапке видео, которое SORA генерит по картинке на входе. Да, она умеет брать картинки на вход (тут расплакались навзрыд существующие генераторы).

Что будет если вы возьмете хорошую фотку себя любимого или на худой конец Тейлор Свифт и присунете ея в Сору?
Правильно, очень хороший дипфейк (оставим за кадром вопросы генерации именно говорения).
Как будет вырезать такой функционал OpenAI? Ибо за поминание дипфейка можно сейчас получит в бан и кансел в приличных корпоративных кругах.

В общем, сдается мне, мы сейчас любуемся на чистую, нецензурированную, свободную духом модель, которую скоро поведут в застенки адаптации в нормам приличного кожаного общества. К продукту.
👍64🔥18👎3
This media is not supported in your browser
VIEW IN TELEGRAM
А тем временем Ян ЛеКун в твитторе поясняет за симуляцию окружающего мира и говорит, что метачкина V-JEPA еще всем покажет, как генерить видео.

Позвольте мне прояснить *огромное* недоразумение.
Генерация в основном реалистично выглядящих видеороликов на основе подсказок *не* указывает на то, что система понимает физический мир.
Генерация сильно отличается от каузального предсказания на основе модели мира.
Пространство правдоподобных видео очень велико, и системе генерации видео достаточно создать *один* образец, чтобы добиться успеха.
Пространство правдоподобных продолжений реального видео *значительно* меньше, и сгенерировать репрезентативный фрагмент из них - гораздо более сложная задача, особенно если это обусловлено каким-либо действием.
Кроме того, генерировать эти продолжения будет не только дорого, но и совершенно бессмысленно.
Гораздо желательнее генерировать *абстрактные представления* этих продолжений, которые устраняют детали сцены, не имеющие отношения к любому действию, которое мы можем захотеть предпринять.
В этом и заключается суть JEPA (Joint Embedding Predictive Architecture), которая является *не генеративной* и делает предсказания в пространстве представлений.
Наша работа над VICReg, I-JEPA, V-JEPA и работы других авторов показывают, что архитектуры Joint Embedding создают гораздо лучшие представления визуальных входов, чем генеративные архитектуры, которые восстанавливают пиксели (такие как Variational AE, Masked AE, Denoising AE и т. д.).
При использовании полученных представлений в качестве входных данных для supervised head , обученной на последующих задачах, Joint Embedding выигрывает у генеративной архитектуры.

https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
🔥36👍5👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам посмотреть на выходные.

Это видео из Соры сгенерировано за один проход. Тут ничего не склеивали, композили или монтировали. Просто она умеет и вот так: сразу из пяти камер. На одном видео.
Поразглядывайте.
Это видео из твиттора чувака, который работает над Сорой в OpenAI.
Я поглядел его твиттор и мне как-то не по себе.
Поглядите и вы, одному мне что ли мучиться?
https://twitter.com/billpeeb
🔥142👍17👎1
Хех, на ибей появились карты RTX 2080TI с 22 гигабайтами.
Насколько я понимаю, это моддеры берут живые RTX 2080TI с 11 гиг видеопамяти и набивают туда еще 11 гиг.(Год назад моддеры сделали версию 2080 на 44 гига).
Раньше этим промышляли китайцы, сейчас такие карты предлагаются американской компанией, утверждающей, что они представляют собой «лучшую бюджетную альтернативу RTX 3090 за 1/3 стоимости». Утверждается, что эти карты прошли тестирование с некоторыми ИИ-генераторами, такими как Stable Diffusion или LLAMA2. Кроме того, они оснащены специальными вентиляторами.

Я лишь могу добавить, что моя ноутбучная 2080 MaxQ иногда обгоняет 3060 в Stable Diffusion. Так что 2080 была очень хорошей серией.
https://2080ti22g.com
👍29🔥16
Интересное. Данные - это не нефть, это чистое золото. Где-то 60 миллионов.

Reddit подписал контракт, позволяющий неназванной пока (Мета, Гугл, OpenAI, Маск?) компании, занимающейся разработкой собственного ИИ, обучать свои модели на контенте Реддита.

Reddit, которая готовится к IPO, сообщила (невзначай), что подписала контракт на сумму 60 миллионов долларов в год в начале этого года, говорится в сообщении.

Вот уж наглядная демонстрация того, что если у тебя есть много текстов (причем созданных бесплатно другими людьми), то у тебя все в порядке.
Теперь эти тексты можно продавать примерно как персональные данные. Они и есть персональные данные - на основе сообщений кожаного пользователя ИИ легко составит его портрет и даст оценку его интеллекта. Просто об этом не принято говорить. Пока.

Кстати, поговаривают, что в мире заканчиваются тексты. Поэтому расшифровка видео и аудио, в которую сейчас идут буквально все, способны дать ИИ еще один здоровенный корпус текстов-расшифровок, содержащий новые оттенки - разговорная речь, быстрые ответы, абсолютно новые эмоции. Еще один шаг в улучшении симуляции кожаного мышления через языковые модели.
https://finance.yahoo.com/news/reddit-signs-content-licensing-deal-234221336.html
🔥49👍14👎3
Ну и вот вам еще одна новость, про расшифровку разговорных данных, которая сильно продвигает обучение ИИ.

Продвигает настолько сильно, что ИИ начинает демонстрировать "новые языковые способности".

Новая модель Text-to-Speech модель от Amazon, по словам создавших авторов вот такой статьи, демонстрирует языковые способности, которым она не обучалась.

Амазоновцы утверждают, что их LLM демонстрирует "самую современную естественность" при работе с разговорным текстом.

Как говорится в статье, модель смогла придумать всевозможные предложения, которые, согласно критериям, разработанным с помощью "эксперта-лингвиста", показали, что она совершает такие языковые скачки, которые естественны для людей, изучающих язык, но которые было трудно получить в ИИ.

Первоначальная модель "Big Adaptive Streamable TTS with Emergent abilities" или BASE TTS, была обучена на 100 000 часах "речевых данных, являющихся общественным достоянием", 90 процентов которых были на английском языке, чтобы научить ее тому, как разговаривают американцы.
Там внутри 1-billionparameter autoregressive Transformer that converts raw texts into discrete codes, а затем декодер на основе свертки, который преобразует эти речевые коды в аудио в потоковой манере.
Чтобы проверить, насколько большими должны быть модели, чтобы продемонстрировать "возникающие способности", или способности, которым они не обучались, команда Amazon обучила две меньшие модели, одну на 1 000 часов речевых данных, а другую на 10 000, чтобы посмотреть, какая из трех - если таковая имеется - демонстрирует тот тип естественности языка, который они искали.

Интересно, что средняя модель на "10 000 часов", набрала наибольшее количество баллов в списке критериев эмерджентных способностей, куда входили такие вещи, как способность понимать знаки препинания, неанглийские слова и эмоции.

BASE TTS никогда не было "явно" приказано придумать свои удивительные результаты.

"Эти предложения предназначены для выполнения сложных задач - разбора предложений, которые вводят читателя в заблуждение, постановки фразового ударения в длинных сложных существительных, создания эмоциональной или тихой речи, правильной фонемной передачи иностранных слов типа "qi" или пунктуации типа "@" - ни одну из которых BASE TTS не была явно не обучена выполнять".

Статья тут, авторов - 18 штук. В качестве обратной связи указана скромная компания:
Amazon AGI
https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data
Послушать записи можно тут:
https://www.amazon.science/base-tts-samples/
🔥42👍14
Для гиков.
Выкатили нативный саппорт для Stable Cascade в ComfyUI.
Ждём в А1111 и Форже.

Running on a 12 gb RTX 3060 a 2048x2048 render took about 170 seconds and used 8.5 gb vram in the first stage and 5.1 in the second. 40 + 20 stepts. This was with the bf16-models.

https://github.com/comfyanonymous/ComfyUI
👍36🔥3
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Получение трёхмерных сцен из видео с достраиванием недостающих ракурсов — это просто вопрос времени. Вопрос очень ближайшего времени! Об этом говорит Peggy Wang, в прошлом студент Стенфорда по ИИ и робототехнике, также бывшая сотрудница RealityLabs. С её слов, она в данный момент занимается подобной работой.

Второй важный звонок заключается в том, что старший научный сотрудник Nvidia по созданию фундаментальных моделей для агентов ИИ, робототехники и игр утверждает, что SORA — это не просто рандомно галлюцинирующая сеть, как DALL·E или ей подобные, а сеть, в основе имеющая физический движок, управляемый данными. То, что она создаёт, это не просто выученные паттерны; это, как он утверждает, расчёты, и приводит в пример чашку кофе с двумя плавающими в ней кораблями. Вероятно, внутри своего пространства SORA создаёт трёхмерную среду, внутри которой происходит анимация объектов и их симуляция.

Самое страшное, если всеми этими параметрами дадут управлять, тогда повалятся по эффекту карточного домика многие пайплайны, которые устанавливались десятилетиями. Как следствие мы получим полностью генерируемые и управляемые по наполнению среды.

Я, честно, пишу и сам с трудом в этом верю, просто потому, что у меня пока не умещается это в голове.
👍74🔥43
Генеративный Мандельбалб

Я тут мучаю Stable Cascade (спойлер - очень хорошо, SDXL тяжело отдыхает)
Как я уже недавно писал, ея прикрутили нативно в ComfyUI.
Все остальные сборки, которые через diffusers, слегка кривые (хотя может быть сам код еще сырой).
Вот этот экстеншен да Automatic1111 дает разные картинки для одного сида.
Демо на Хаггинг имеет ошибку - там не регулируется Prior Steps (в локальной версии также игнорируется это параметр).
Единственная ходовая (и очень быстрая сборка) тут, к ней вроде даже есть интерфейс в форках.
Но я сейчас не об этом.
Поглядел, как Cascade уделывает SDXL на генерации Мандельбалба (это такая трехмерная фрактальная красивая хреновень).
А потом спросил DALL·E 3:
Mandelbulb colored three-dimensional fractal and white background
Ну и тот рассказал, кто в доме хозяин, когда речь не идет про фоториал и людей. А про общие знания и понимание промпта. Тут DALL·E 3 круче всех пока.
Красота, чо.
Миджорни знает про Мандельбалб?
Про Каскад еще напишу.
👍23🔥13