Метаверсище и ИИще
47.9K subscribers
6.05K photos
4.52K videos
46 files
6.95K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Sora, далеко ли до продукта.

Судя по сообщениям от OpenAI, да, далеко.

Как мне кажется, одной из ключевых проблем будет цензура.

В статье, которую мы все прочитали прямо написано, что SORA может генерить картинки, причем сразу в 2048х2048.

Далее, в примерах полно видео с людьми. С очень хорошими такими, фотореалистичными людьми. Совсем не такими, как в DALL·E 3, где они основательно и намеренно "подпорчены", так чтобы не быть реалистичными.

Ожидать ли, что в продукте эти великолепные лица на видео уйдут в прошлое и снова будут шаржированы под "безопасные" изображения людей?

Далее, в шапке видео, которое SORA генерит по картинке на входе. Да, она умеет брать картинки на вход (тут расплакались навзрыд существующие генераторы).

Что будет если вы возьмете хорошую фотку себя любимого или на худой конец Тейлор Свифт и присунете ея в Сору?
Правильно, очень хороший дипфейк (оставим за кадром вопросы генерации именно говорения).
Как будет вырезать такой функционал OpenAI? Ибо за поминание дипфейка можно сейчас получит в бан и кансел в приличных корпоративных кругах.

В общем, сдается мне, мы сейчас любуемся на чистую, нецензурированную, свободную духом модель, которую скоро поведут в застенки адаптации в нормам приличного кожаного общества. К продукту.
👍64🔥18👎3
This media is not supported in your browser
VIEW IN TELEGRAM
А тем временем Ян ЛеКун в твитторе поясняет за симуляцию окружающего мира и говорит, что метачкина V-JEPA еще всем покажет, как генерить видео.

Позвольте мне прояснить *огромное* недоразумение.
Генерация в основном реалистично выглядящих видеороликов на основе подсказок *не* указывает на то, что система понимает физический мир.
Генерация сильно отличается от каузального предсказания на основе модели мира.
Пространство правдоподобных видео очень велико, и системе генерации видео достаточно создать *один* образец, чтобы добиться успеха.
Пространство правдоподобных продолжений реального видео *значительно* меньше, и сгенерировать репрезентативный фрагмент из них - гораздо более сложная задача, особенно если это обусловлено каким-либо действием.
Кроме того, генерировать эти продолжения будет не только дорого, но и совершенно бессмысленно.
Гораздо желательнее генерировать *абстрактные представления* этих продолжений, которые устраняют детали сцены, не имеющие отношения к любому действию, которое мы можем захотеть предпринять.
В этом и заключается суть JEPA (Joint Embedding Predictive Architecture), которая является *не генеративной* и делает предсказания в пространстве представлений.
Наша работа над VICReg, I-JEPA, V-JEPA и работы других авторов показывают, что архитектуры Joint Embedding создают гораздо лучшие представления визуальных входов, чем генеративные архитектуры, которые восстанавливают пиксели (такие как Variational AE, Masked AE, Denoising AE и т. д.).
При использовании полученных представлений в качестве входных данных для supervised head , обученной на последующих задачах, Joint Embedding выигрывает у генеративной архитектуры.

https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
🔥36👍5👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот вам посмотреть на выходные.

Это видео из Соры сгенерировано за один проход. Тут ничего не склеивали, композили или монтировали. Просто она умеет и вот так: сразу из пяти камер. На одном видео.
Поразглядывайте.
Это видео из твиттора чувака, который работает над Сорой в OpenAI.
Я поглядел его твиттор и мне как-то не по себе.
Поглядите и вы, одному мне что ли мучиться?
https://twitter.com/billpeeb
🔥142👍17👎1
Хех, на ибей появились карты RTX 2080TI с 22 гигабайтами.
Насколько я понимаю, это моддеры берут живые RTX 2080TI с 11 гиг видеопамяти и набивают туда еще 11 гиг.(Год назад моддеры сделали версию 2080 на 44 гига).
Раньше этим промышляли китайцы, сейчас такие карты предлагаются американской компанией, утверждающей, что они представляют собой «лучшую бюджетную альтернативу RTX 3090 за 1/3 стоимости». Утверждается, что эти карты прошли тестирование с некоторыми ИИ-генераторами, такими как Stable Diffusion или LLAMA2. Кроме того, они оснащены специальными вентиляторами.

Я лишь могу добавить, что моя ноутбучная 2080 MaxQ иногда обгоняет 3060 в Stable Diffusion. Так что 2080 была очень хорошей серией.
https://2080ti22g.com
👍29🔥16
Интересное. Данные - это не нефть, это чистое золото. Где-то 60 миллионов.

Reddit подписал контракт, позволяющий неназванной пока (Мета, Гугл, OpenAI, Маск?) компании, занимающейся разработкой собственного ИИ, обучать свои модели на контенте Реддита.

Reddit, которая готовится к IPO, сообщила (невзначай), что подписала контракт на сумму 60 миллионов долларов в год в начале этого года, говорится в сообщении.

Вот уж наглядная демонстрация того, что если у тебя есть много текстов (причем созданных бесплатно другими людьми), то у тебя все в порядке.
Теперь эти тексты можно продавать примерно как персональные данные. Они и есть персональные данные - на основе сообщений кожаного пользователя ИИ легко составит его портрет и даст оценку его интеллекта. Просто об этом не принято говорить. Пока.

Кстати, поговаривают, что в мире заканчиваются тексты. Поэтому расшифровка видео и аудио, в которую сейчас идут буквально все, способны дать ИИ еще один здоровенный корпус текстов-расшифровок, содержащий новые оттенки - разговорная речь, быстрые ответы, абсолютно новые эмоции. Еще один шаг в улучшении симуляции кожаного мышления через языковые модели.
https://finance.yahoo.com/news/reddit-signs-content-licensing-deal-234221336.html
🔥49👍14👎3
Ну и вот вам еще одна новость, про расшифровку разговорных данных, которая сильно продвигает обучение ИИ.

Продвигает настолько сильно, что ИИ начинает демонстрировать "новые языковые способности".

Новая модель Text-to-Speech модель от Amazon, по словам создавших авторов вот такой статьи, демонстрирует языковые способности, которым она не обучалась.

Амазоновцы утверждают, что их LLM демонстрирует "самую современную естественность" при работе с разговорным текстом.

Как говорится в статье, модель смогла придумать всевозможные предложения, которые, согласно критериям, разработанным с помощью "эксперта-лингвиста", показали, что она совершает такие языковые скачки, которые естественны для людей, изучающих язык, но которые было трудно получить в ИИ.

Первоначальная модель "Big Adaptive Streamable TTS with Emergent abilities" или BASE TTS, была обучена на 100 000 часах "речевых данных, являющихся общественным достоянием", 90 процентов которых были на английском языке, чтобы научить ее тому, как разговаривают американцы.
Там внутри 1-billionparameter autoregressive Transformer that converts raw texts into discrete codes, а затем декодер на основе свертки, который преобразует эти речевые коды в аудио в потоковой манере.
Чтобы проверить, насколько большими должны быть модели, чтобы продемонстрировать "возникающие способности", или способности, которым они не обучались, команда Amazon обучила две меньшие модели, одну на 1 000 часов речевых данных, а другую на 10 000, чтобы посмотреть, какая из трех - если таковая имеется - демонстрирует тот тип естественности языка, который они искали.

Интересно, что средняя модель на "10 000 часов", набрала наибольшее количество баллов в списке критериев эмерджентных способностей, куда входили такие вещи, как способность понимать знаки препинания, неанглийские слова и эмоции.

BASE TTS никогда не было "явно" приказано придумать свои удивительные результаты.

"Эти предложения предназначены для выполнения сложных задач - разбора предложений, которые вводят читателя в заблуждение, постановки фразового ударения в длинных сложных существительных, создания эмоциональной или тихой речи, правильной фонемной передачи иностранных слов типа "qi" или пунктуации типа "@" - ни одну из которых BASE TTS не была явно не обучена выполнять".

Статья тут, авторов - 18 штук. В качестве обратной связи указана скромная компания:
Amazon AGI
https://www.amazon.science/publications/base-tts-lessons-from-building-a-billion-parameter-text-to-speech-model-on-100k-hours-of-data
Послушать записи можно тут:
https://www.amazon.science/base-tts-samples/
🔥42👍14
Для гиков.
Выкатили нативный саппорт для Stable Cascade в ComfyUI.
Ждём в А1111 и Форже.

Running on a 12 gb RTX 3060 a 2048x2048 render took about 170 seconds and used 8.5 gb vram in the first stage and 5.1 in the second. 40 + 20 stepts. This was with the bf16-models.

https://github.com/comfyanonymous/ComfyUI
👍36🔥3
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Получение трёхмерных сцен из видео с достраиванием недостающих ракурсов — это просто вопрос времени. Вопрос очень ближайшего времени! Об этом говорит Peggy Wang, в прошлом студент Стенфорда по ИИ и робототехнике, также бывшая сотрудница RealityLabs. С её слов, она в данный момент занимается подобной работой.

Второй важный звонок заключается в том, что старший научный сотрудник Nvidia по созданию фундаментальных моделей для агентов ИИ, робототехники и игр утверждает, что SORA — это не просто рандомно галлюцинирующая сеть, как DALL·E или ей подобные, а сеть, в основе имеющая физический движок, управляемый данными. То, что она создаёт, это не просто выученные паттерны; это, как он утверждает, расчёты, и приводит в пример чашку кофе с двумя плавающими в ней кораблями. Вероятно, внутри своего пространства SORA создаёт трёхмерную среду, внутри которой происходит анимация объектов и их симуляция.

Самое страшное, если всеми этими параметрами дадут управлять, тогда повалятся по эффекту карточного домика многие пайплайны, которые устанавливались десятилетиями. Как следствие мы получим полностью генерируемые и управляемые по наполнению среды.

Я, честно, пишу и сам с трудом в этом верю, просто потому, что у меня пока не умещается это в голове.
👍74🔥43
Генеративный Мандельбалб

Я тут мучаю Stable Cascade (спойлер - очень хорошо, SDXL тяжело отдыхает)
Как я уже недавно писал, ея прикрутили нативно в ComfyUI.
Все остальные сборки, которые через diffusers, слегка кривые (хотя может быть сам код еще сырой).
Вот этот экстеншен да Automatic1111 дает разные картинки для одного сида.
Демо на Хаггинг имеет ошибку - там не регулируется Prior Steps (в локальной версии также игнорируется это параметр).
Единственная ходовая (и очень быстрая сборка) тут, к ней вроде даже есть интерфейс в форках.
Но я сейчас не об этом.
Поглядел, как Cascade уделывает SDXL на генерации Мандельбалба (это такая трехмерная фрактальная красивая хреновень).
А потом спросил DALL·E 3:
Mandelbulb colored three-dimensional fractal and white background
Ну и тот рассказал, кто в доме хозяин, когда речь не идет про фоториал и людей. А про общие знания и понимание промпта. Тут DALL·E 3 круче всех пока.
Красота, чо.
Миджорни знает про Мандельбалб?
Про Каскад еще напишу.
👍23🔥13