Метаверсище и ИИще

Stable Diffusion on AMD

Уже писал, что Интел сообразила свой клиент для Stable Diffusion - отдельное приложение для генерации на карточках Intel Arc.

Теперь вот подзаброшенный клиент Amuse от AMD вышел из тени - полностью локальная установка и генерация для тех, кого угораздило купить AMD графику (к процессорам нет вопросов).

AMD XDNA™ Super Resolution

Single executable

No dependencies

Auto configuration and model selection
Paint to Image
Drawing to Image
Create your own AI filters
Multi-stage, ONNX based pipeline (Stable Diffusion, Control Nets, Feature Extractors)

После установки докачивает 11 гигов SDXL-related файлов.

Только для Виндовс, Линукса нет.

И да, там зашит NSFW фильтр.

Для кого это все тогда?
(из интересного там собственный апскейлер)

https://community.amd.com/t5/ai/introducing-amuse-2-0-beta-with-amd-xdna-super-resolution-a/ba-p/697374

Скорость можно подсмотреть на скриншоте

👍19👎2🔥2

6.22K viewsSergey Tsyptsyn ️️, edited 14:35

Метаверсище и ИИще

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

В RunwayML GEN-3 завезли image2video.
Теперь можно полноценно сравнивать Луму, Клинг и Ген-3.
Если сравнивать по скорости - очень и очень быстро (сейчас).
Если по цене, очень и очень и очень дорого.

У меня пока ощущение, то ГЕН-3 хорошо делает VFX, то есть всякие , водичку, дымы, огоньки и прочую пиротехнику.

Если у вас еще осталась хоть капля кредитов, го тестировать.

https://app.runwayml.com/

@cgevent

🔥19👍15

7.4K viewsSergey Tsyptsyn ️️, 20:23

Метаверсище и ИИще

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

В продолжение разговора про VFX и видеогенераторы.
Оказывается GEN-3 дает довольно консистентную картинку с точки зрения, скажем так, оптики камеры (перспектива, FOV). Настолько неплохую, что ея можно оттрекать (например в Синьке), навалить на это 3Д и отправить в Афтер.
И получить уже не просто "гляньчо схенерило", а композный шот, которые сильно обогащает картинку.

Поглядите, что вытворяет Graeme Shepherd в Синьке.

Если вы не знаете, что такое оттрекать - это имея только видео на входе, вытащить из него трехмерное движение камеры, которой это видео снималось. Чтобы потом присунуть это движение в 3Д-пакет и навалить сверху новых объектов (если грубо).

Посыл автора был такой: я, конечно, могу наваять весь этот бетонный ангар в Синьке, но пусть ИИ тоже поработает.

@cgevent

👍35🔥27

6.79K viewsSergey Tsyptsyn ️️, 20:40

Метаверсище и ИИще

Аватары, которых прямо сейчас показывает Хуанг на Сигграфе выглядят очень круто.
Их главное преимущество - это готовый цельный продукт. Они уже засетаплены в единое решение, где под капотом ТОЛЬКО решения Нвидия (от LLM до 3Д- или нейро- движка). Это продукт, а не говно и палки с гитхаба, заваренные кипятком питонга.
Их главный минус - это намертво закрытое решение. Облачное притом.

Перед этим он показал гибридную симуляцию 3Д-миров: промпт используется сначала для эмпирического поиска по базе 3Д, а потом ИИ делает композицию по промпту и приваливает нейрорендеринг сверху. Все это на базе USD и, конечно, внутри Омниверса.

Поглядите завтра тут:
https://youtu.be/H0WxJ7caZQU

Мотайте на 36:15 - 3д миры
И на 44:15 - аватары

@cgevent

🔥30👍12👎2

47.5K viewsSergey Tsyptsyn ️️, 21:14

Метаверсище и ИИще

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

Композ и ротоскоп никогда не будут прежними. Все это работает теперь и с видео. Это Метачка бахнулa SAM2 - Segment Anything Model for videos and images
Читаем ниже, а видосы смотрим тут
⬇️⬇️⬇️⬇️⬇️⬇️⬇️

🔥26

6.88K viewsSergey Tsyptsyn ️️, 11:27

Метаверсище и ИИще

Forwarded from Data Secrets

⚙️

GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta

В апреле 2023 Meta впервые показала свою «Segment Anything Model» (SAM). Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам.

И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны.

Датасет (SA-V) в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео.

Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым.

По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥21

6.06K viewsSergey Tsyptsyn ️️, 11:27

Метаверсище и ИИще

Помните, как модели меряются длинной контекта?
Типа "я могу заглотить Войну и Мир за один промпт".
Зачем на входе, я могу понять - мы просто добавляем оперативки в память LLM, чтобы она отвечала на наши дурацкие вопросы быстро и сразу, не прибегая к разному новому нормальному сваппингу на жесткий диск (сжатие и суммаризация контекста и пр). Держала все в голове.
Но теперь OpenAI выпустила версию GPT-4o with a maximum of 64K output tokens per request.

Мы и раньше страдали от многословности chatGPT и просили его быть покороче в своем графоманстве. А теперь он может поливать текстом в одном ответе ну очень долго.
Давайте покатаем в коментах юзер-кейсы такого длинного вывода.
Я пока ничего не могу придумать, кроме как просить его напечатать букву А еще бОльшее количество раз.
Наверное для кода это может быть полезно, но я вот не уверен, что кто-то хочет получить код Виндовс одним куском, веря gpt-4o на слово.
Похоже OpenAI тоже хочет понять зачем: this experiment helps you explore new use cases that are unlocked by longer completions.
https://openai.com/gpt-4o-long-output/

@cgevent

Openai

GPT-4o Long Output

OpenAI is offering an experimental version of GPT-4o with a maximum of 64K output tokens per request.

👍19🔥6👎1

6.09K viewsSergey Tsyptsyn ️️, edited 13:06

Метаверсище и ИИще

Apple uses chip from Google not Nvidia

А вот это интересно. После вчерашней феерии Nvidia на Сигграфе (к которой я еще вернусь), вышла такая новость - Эппле НЕ использовала чипы Нвидия для тренировки своих языковых моделей, а использовала чипы Гугл.
Какие именно и как вы можете посмотреть тут (поиском по TPU).

Ну и хороший вопрос: если Эппле смогла сделать свой чип M и уйти от Интел, сможет ли она сделать свой специализированный чип для ИИ и уйти и от дедушки, и от бабушки и от зеленого волка? Или будет накачивать свою линейку M ИИ-способностями?
Сама новость ниже, а технические детали тут.
https://www.reuters.com/technology/apple-says-it-uses-no-nvidia-gpus-train-its-ai-models-2024-07-29/

P.S. Google did not return a request for comment, while Nvidia declined to comment.

@cgevent

👍20👎1🔥1

6.29K viewsSergey Tsyptsyn ️️, edited 13:36

Посмотрите еще раз вот на этот генеративный ролик от Нвидия, показанный вчера на Сигграфе.
Конечно, это хороший монтаж, пост и девочка для мимими.
Но после всех этих TripoSR или Meshy - это смотрится как прототип продукта, а не говнокусочки пайплайна.
Я попробую сделать разбор ролика для вас ниже. Уж больно там много интересных деталей, кода, знакомых слов про USD и 3Д.

👍25🔥10👎1

8.03K viewsSergey Tsyptsyn ️️, edited 14:23

Метаверсище и ИИще

2:35

This media is not supported in your browser

VIEW IN TELEGRAM

Ну что ж, Матрица все ближе.

Компания Synchron объявила о подключении своего мозгового имплантата к гарнитуре Apple Vision Pro. Компания создает интерфейс мозг-компьютер, который позволит пациентам с параличом управлять своей электроникой с помощью мыслей. Synchron, вероятно, будет работать над подключением своего BCI к другим гарнитурам, но начнет она с Vision Pro.

Synchron - это как бы конкурент Нейралинка, но не требующий сверления дырок в черепе.

Поглядите ролик, там все наглядно.

Ключевое здесь - "и к другим гарнитурам".

🔥50👍9

7.64K viewsSergey Tsyptsyn ️️, edited 15:39

Метаверсище и ИИще

Фото или нейрорендер?
👍 Рендер
👎 Фото

Update: все оказались глазастыми и начитанными.

Бразилец Габриэль Медина празднует свой рекорд на соревнованиях по классическому серфингу на Олимпиаде.

Он получил самый высокий балл на одиночной волне за всю историю Олимпийских игр: 9.9 из 10. Красавчик, чо.
Жмем на 🔥

👎301🔥80👍79

6.5K viewsSergey Tsyptsyn ️️, edited 19:09

Метаверсище и ИИще

Мертвые заговорили! Миджорни 6.1 вышла.

Что нового в V6.1?
- улучшенная анатомия (руки, ноги, кисти, тела, растения, животные и т.д.)
- Значительно лучшее качество изображения (уменьшение пиксельных артефактов, улучшенные текстуры, кожа, 8-битное ретро и т.д.)
- Более точные, детальные и правильные мелкие детали изображения (глаза, маленькие лица, далекие руки и т.д.)
- Новые апскейлеры с гораздо лучшим качеством изображения/текстуры
- Примерно на 25 % быстрее при работе со стандартными изображениями
- Повышенная точность текста (при рисовании слов через "цитаты" в подсказках)
- Новая модель персонализации с улучшенными нюансами и точностью
- Новый режим ``q 2``, который требует на 25 % больше времени, чтобы (иногда) добавить больше текстуры ценой снижения целостности изображения.

Есть тут миджорниводы? Го тестировать и делиться впечатлениями в коментах.

@cgevent

👍38🔥6👎1

10.5K viewsSergey Tsyptsyn ️️, edited 21:59

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

А народ уже вовсю бесчинствует, комбинирует Midjourney 6.1 и Runway GEN-3.
Я не очень понимаю смысл, ибо видеогенерация одним махом съедает и размывает все детали и преимущества Midjourney 6.1

Так что данный видос - это скорее иллюстрация того, где мы находимся в конце июля 2024 года.
И как себя ведем при виде всего этого генеративного безобразия.

Могли ли мы подумать, ровно два года назад, когда только только релизнулись первые Stable Diffusion и Midjourney, что мы будем так скакать через два года?

Вряд ли. Просто в голову не приходило.

P.S. Машинки справа по борту тоже едут нарядно. Такого мы тоже не могли представить два года назад.

@cgevent

👍36🔥11👎3

7.22K viewsSergey Tsyptsyn ️️, edited 23:01

About

Blog

Apps

Platform