Метаверсище и ИИще
47.9K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Stable Diffusion on AMD

Уже писал, что Интел сообразила свой клиент для Stable Diffusion - отдельное приложение для генерации на карточках Intel Arc.

Теперь вот подзаброшенный клиент Amuse от AMD вышел из тени - полностью локальная установка и генерация для тех, кого угораздило купить AMD графику (к процессорам нет вопросов).

AMD XDNA Super Resolution

Single executable

No dependencies

Auto configuration and model selection
Paint to Image
Drawing to Image
Create your own AI filters
Multi-stage, ONNX based pipeline (Stable Diffusion, Control Nets, Feature Extractors)


После установки докачивает 11 гигов SDXL-related файлов.

Только для Виндовс, Линукса нет.

И да, там зашит NSFW фильтр.

Для кого это все тогда?
(из интересного там собственный апскейлер)

https://community.amd.com/t5/ai/introducing-amuse-2-0-beta-with-amd-xdna-super-resolution-a/ba-p/697374

Скорость можно подсмотреть на скриншоте
👍19👎2🔥2
В RunwayML GEN-3 завезли image2video.
Теперь можно полноценно сравнивать Луму, Клинг и Ген-3.
Если сравнивать по скорости - очень и очень быстро (сейчас).
Если по цене, очень и очень и очень дорого.

У меня пока ощущение, то ГЕН-3 хорошо делает VFX, то есть всякие , водичку, дымы, огоньки и прочую пиротехнику.

Если у вас еще осталась хоть капля кредитов, го тестировать.

https://app.runwayml.com/

@cgevent
🔥19👍15
В продолжение разговора про VFX и видеогенераторы.
Оказывается GEN-3 дает довольно консистентную картинку с точки зрения, скажем так, оптики камеры (перспектива, FOV). Настолько неплохую, что ея можно оттрекать (например в Синьке), навалить на это 3Д и отправить в Афтер.
И получить уже не просто "гляньчо схенерило", а композный шот, которые сильно обогащает картинку.

Поглядите, что вытворяет Graeme Shepherd в Синьке.

Если вы не знаете, что такое оттрекать - это имея только видео на входе, вытащить из него трехмерное движение камеры, которой это видео снималось. Чтобы потом присунуть это движение в 3Д-пакет и навалить сверху новых объектов (если грубо).

Посыл автора был такой: я, конечно, могу наваять весь этот бетонный ангар в Синьке, но пусть ИИ тоже поработает.

@cgevent
👍35🔥27
Аватары, которых прямо сейчас показывает Хуанг на Сигграфе выглядят очень круто.
Их главное преимущество - это готовый цельный продукт. Они уже засетаплены в единое решение, где под капотом ТОЛЬКО решения Нвидия (от LLM до 3Д- или нейро- движка). Это продукт, а не говно и палки с гитхаба, заваренные кипятком питонга.
Их главный минус - это намертво закрытое решение. Облачное притом.

Перед этим он показал гибридную симуляцию 3Д-миров: промпт используется сначала для эмпирического поиска по базе 3Д, а потом ИИ делает композицию по промпту и приваливает нейрорендеринг сверху. Все это на базе USD и, конечно, внутри Омниверса.

Поглядите завтра тут:
https://youtu.be/H0WxJ7caZQU

Мотайте на 36:15 - 3д миры
И на 44:15 - аватары

@cgevent
🔥30👍12👎2
Композ и ротоскоп никогда не будут прежними. Все это работает теперь и с видео. Это Метачка бахнулa SAM2 - Segment Anything Model for videos and images
Читаем ниже, а видосы смотрим тут
⬇️⬇️⬇️⬇️⬇️⬇️⬇️
🔥26
Forwarded from Data Secrets
⚙️ GPT-4 moment для для компьютерного зрения: новая SAM-2 от Meta

В апреле 2023 Meta впервые показала свою «Segment Anything Model» (SAM). Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам.

И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны.

Датасет (SA-V) в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео.

Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым.

По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥21
Помните, как модели меряются длинной контекта?
Типа "я могу заглотить Войну и Мир за один промпт".
Зачем на входе, я могу понять - мы просто добавляем оперативки в память LLM, чтобы она отвечала на наши дурацкие вопросы быстро и сразу, не прибегая к разному новому нормальному сваппингу на жесткий диск (сжатие и суммаризация контекста и пр). Держала все в голове.
Но теперь OpenAI выпустила версию GPT-4o with a maximum of 64K output tokens per request.

Мы и раньше страдали от многословности chatGPT и просили его быть покороче в своем графоманстве. А теперь он может поливать текстом в одном ответе ну очень долго.
Давайте покатаем в коментах юзер-кейсы такого длинного вывода.
Я пока ничего не могу придумать, кроме как просить его напечатать букву А еще бОльшее количество раз.
Наверное для кода это может быть полезно, но я вот не уверен, что кто-то хочет получить код Виндовс одним куском, веря gpt-4o на слово.
Похоже OpenAI тоже хочет понять зачем: this experiment helps you explore new use cases that are unlocked by longer completions.
https://openai.com/gpt-4o-long-output/

@cgevent
👍19🔥6👎1
Apple uses chip from Google not Nvidia

А вот это интересно. После вчерашней феерии Nvidia на Сигграфе (к которой я еще вернусь), вышла такая новость - Эппле НЕ использовала чипы Нвидия для тренировки своих языковых моделей, а использовала чипы Гугл.
Какие именно и как вы можете посмотреть тут (поиском по TPU).

Ну и хороший вопрос: если Эппле смогла сделать свой чип M и уйти от Интел, сможет ли она сделать свой специализированный чип для ИИ и уйти и от дедушки, и от бабушки и от зеленого волка? Или будет накачивать свою линейку M ИИ-способностями?
Сама новость ниже, а технические детали тут.
https://www.reuters.com/technology/apple-says-it-uses-no-nvidia-gpus-train-its-ai-models-2024-07-29/

P.S. Google did not return a request for comment, while Nvidia declined to comment.

@cgevent
👍20👎1🔥1
Media is too big
VIEW IN TELEGRAM
Посмотрите еще раз вот на этот генеративный ролик от Нвидия, показанный вчера на Сигграфе.
Конечно, это хороший монтаж, пост и девочка для мимими.
Но после всех этих TripoSR или Meshy - это смотрится как прототип продукта, а не говнокусочки пайплайна.
Я попробую сделать разбор ролика для вас ниже. Уж больно там много интересных деталей, кода, знакомых слов про USD и 3Д.
👍25🔥10👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что ж, Матрица все ближе.

Компания Synchron объявила о подключении своего мозгового имплантата к гарнитуре Apple Vision Pro. Компания создает интерфейс мозг-компьютер, который позволит пациентам с параличом управлять своей электроникой с помощью мыслей. Synchron, вероятно, будет работать над подключением своего BCI к другим гарнитурам, но начнет она с Vision Pro.

Synchron - это как бы конкурент Нейралинка, но не требующий сверления дырок в черепе.

Поглядите ролик, там все наглядно.

Ключевое здесь - "и к другим гарнитурам".
🔥50👍9
Фото или нейрорендер?
👍 Рендер
👎 Фото

Update: все оказались глазастыми и начитанными.

Бразилец Габриэль Медина празднует свой рекорд на соревнованиях по классическому серфингу на Олимпиаде.

Он получил самый высокий балл на одиночной волне за всю историю Олимпийских игр: 9.9 из 10. Красавчик, чо.
Жмем на 🔥
👎301🔥80👍79
Мертвые заговорили! Миджорни 6.1 вышла.

Что нового в V6.1?
- улучшенная анатомия (руки, ноги, кисти, тела, растения, животные и т.д.)
- Значительно лучшее качество изображения (уменьшение пиксельных артефактов, улучшенные текстуры, кожа, 8-битное ретро и т.д.)
- Более точные, детальные и правильные мелкие детали изображения (глаза, маленькие лица, далекие руки и т.д.)
- Новые апскейлеры с гораздо лучшим качеством изображения/текстуры
- Примерно на 25 % быстрее при работе со стандартными изображениями
- Повышенная точность текста (при рисовании слов через "цитаты" в подсказках)
- Новая модель персонализации с улучшенными нюансами и точностью
- Новый режим ``q 2``, который требует на 25 % больше времени, чтобы (иногда) добавить больше текстуры ценой снижения целостности изображения.

Есть тут миджорниводы? Го тестировать и делиться впечатлениями в коментах.

@cgevent
👍38🔥6👎1
This media is not supported in your browser
VIEW IN TELEGRAM
А народ уже вовсю бесчинствует, комбинирует Midjourney 6.1 и Runway GEN-3.
Я не очень понимаю смысл, ибо видеогенерация одним махом съедает и размывает все детали и преимущества Midjourney 6.1

Так что данный видос - это скорее иллюстрация того, где мы находимся в конце июля 2024 года.
И как себя ведем при виде всего этого генеративного безобразия.

Могли ли мы подумать, ровно два года назад, когда только только релизнулись первые Stable Diffusion и Midjourney, что мы будем так скакать через два года?

Вряд ли. Просто в голову не приходило.

P.S. Машинки справа по борту тоже едут нарядно. Такого мы тоже не могли представить два года назад.

@cgevent
👍36🔥11👎3