Stable Diffusion on AMD
Уже писал, что Интел сообразила свой клиент для Stable Diffusion - отдельное приложение для генерации на карточках Intel Arc.
Теперь вот подзаброшенный клиент Amuse от AMD вышел из тени - полностью локальная установка и генерация для тех, кого угораздило купить AMD графику (к процессорам нет вопросов).
AMD XDNA™ Super Resolution
Single executable
No dependencies
Auto configuration and model selection
Paint to Image
Drawing to Image
Create your own AI filters
Multi-stage, ONNX based pipeline (Stable Diffusion, Control Nets, Feature Extractors)
После установки докачивает 11 гигов SDXL-related файлов.
Только для Виндовс, Линукса нет.
И да, там зашит NSFW фильтр.
Для кого это все тогда?
(из интересного там собственный апскейлер)
https://community.amd.com/t5/ai/introducing-amuse-2-0-beta-with-amd-xdna-super-resolution-a/ba-p/697374
Скорость можно подсмотреть на скриншоте
Уже писал, что Интел сообразила свой клиент для Stable Diffusion - отдельное приложение для генерации на карточках Intel Arc.
Теперь вот подзаброшенный клиент Amuse от AMD вышел из тени - полностью локальная установка и генерация для тех, кого угораздило купить AMD графику (к процессорам нет вопросов).
AMD XDNA™ Super Resolution
Single executable
No dependencies
Auto configuration and model selection
Paint to Image
Drawing to Image
Create your own AI filters
Multi-stage, ONNX based pipeline (Stable Diffusion, Control Nets, Feature Extractors)
После установки докачивает 11 гигов SDXL-related файлов.
Только для Виндовс, Линукса нет.
И да, там зашит NSFW фильтр.
Для кого это все тогда?
(из интересного там собственный апскейлер)
https://community.amd.com/t5/ai/introducing-amuse-2-0-beta-with-amd-xdna-super-resolution-a/ba-p/697374
Скорость можно подсмотреть на скриншоте
👍19👎2🔥2
В RunwayML GEN-3 завезли image2video.
Теперь можно полноценно сравнивать Луму, Клинг и Ген-3.
Если сравнивать по скорости - очень и очень быстро (сейчас).
Если по цене, очень и очень и очень дорого.
У меня пока ощущение, то ГЕН-3 хорошо делает VFX, то есть всякие , водичку, дымы, огоньки и прочую пиротехнику.
Если у вас еще осталась хоть капля кредитов, го тестировать.
https://app.runwayml.com/
@cgevent
Теперь можно полноценно сравнивать Луму, Клинг и Ген-3.
Если сравнивать по скорости - очень и очень быстро (сейчас).
Если по цене, очень и очень и очень дорого.
У меня пока ощущение, то ГЕН-3 хорошо делает VFX, то есть всякие , водичку, дымы, огоньки и прочую пиротехнику.
Если у вас еще осталась хоть капля кредитов, го тестировать.
https://app.runwayml.com/
@cgevent
🔥19👍15
В продолжение разговора про VFX и видеогенераторы.
Оказывается GEN-3 дает довольно консистентную картинку с точки зрения, скажем так, оптики камеры (перспектива, FOV). Настолько неплохую, что ея можно оттрекать (например в Синьке), навалить на это 3Д и отправить в Афтер.
И получить уже не просто "гляньчо схенерило", а композный шот, которые сильно обогащает картинку.
Поглядите, что вытворяет Graeme Shepherd в Синьке.
Если вы не знаете, что такое оттрекать - это имея только видео на входе, вытащить из него трехмерное движение камеры, которой это видео снималось. Чтобы потом присунуть это движение в 3Д-пакет и навалить сверху новых объектов (если грубо).
Посыл автора был такой: я, конечно, могу наваять весь этот бетонный ангар в Синьке, но пусть ИИ тоже поработает.
@cgevent
Оказывается GEN-3 дает довольно консистентную картинку с точки зрения, скажем так, оптики камеры (перспектива, FOV). Настолько неплохую, что ея можно оттрекать (например в Синьке), навалить на это 3Д и отправить в Афтер.
И получить уже не просто "гляньчо схенерило", а композный шот, которые сильно обогащает картинку.
Поглядите, что вытворяет Graeme Shepherd в Синьке.
Если вы не знаете, что такое оттрекать - это имея только видео на входе, вытащить из него трехмерное движение камеры, которой это видео снималось. Чтобы потом присунуть это движение в 3Д-пакет и навалить сверху новых объектов (если грубо).
Посыл автора был такой: я, конечно, могу наваять весь этот бетонный ангар в Синьке, но пусть ИИ тоже поработает.
@cgevent
👍35🔥27
Аватары, которых прямо сейчас показывает Хуанг на Сигграфе выглядят очень круто.
Их главное преимущество - это готовый цельный продукт. Они уже засетаплены в единое решение, где под капотом ТОЛЬКО решения Нвидия (от LLM до 3Д- или нейро- движка). Это продукт, а не говно и палки с гитхаба, заваренные кипятком питонга.
Их главный минус - это намертво закрытое решение. Облачное притом.
Перед этим он показал гибридную симуляцию 3Д-миров: промпт используется сначала для эмпирического поиска по базе 3Д, а потом ИИ делает композицию по промпту и приваливает нейрорендеринг сверху. Все это на базе USD и, конечно, внутри Омниверса.
Поглядите завтра тут:
https://youtu.be/H0WxJ7caZQU
Мотайте на 36:15 - 3д миры
И на 44:15 - аватары
@cgevent
Их главное преимущество - это готовый цельный продукт. Они уже засетаплены в единое решение, где под капотом ТОЛЬКО решения Нвидия (от LLM до 3Д- или нейро- движка). Это продукт, а не говно и палки с гитхаба, заваренные кипятком питонга.
Их главный минус - это намертво закрытое решение. Облачное притом.
Перед этим он показал гибридную симуляцию 3Д-миров: промпт используется сначала для эмпирического поиска по базе 3Д, а потом ИИ делает композицию по промпту и приваливает нейрорендеринг сверху. Все это на базе USD и, конечно, внутри Омниверса.
Поглядите завтра тут:
https://youtu.be/H0WxJ7caZQU
Мотайте на 36:15 - 3д миры
И на 44:15 - аватары
@cgevent
🔥30👍12👎2
Композ и ротоскоп никогда не будут прежними. Все это работает теперь и с видео. Это Метачка бахнулa SAM2 - Segment Anything Model for videos and images
Читаем ниже, а видосы смотрим тут
⬇️⬇️⬇️⬇️⬇️⬇️⬇️
Читаем ниже, а видосы смотрим тут
⬇️⬇️⬇️⬇️⬇️⬇️⬇️
🔥26
Forwarded from Data Secrets
В апреле 2023 Meta впервые показала свою «Segment Anything Model» (SAM). Это базовая модель для сегментации, которую тогда прозвали «GPT-3 moment» для CV из-за прорыва по метрикам.
И вот: вышел SAM-2! Он, в отличие от предшественника, обучался не на изображениях, а на видео. По словам Meta, теперь сегментация по видео работает даже с шакальным качеством или если некоторые кадры вырезаны.
Датасет (SA-V) в Meta наклепали сами с помощью Data Engine: они дали людям-анотаторам SAM для лейблинга кадров, и новые размеченные данные использовались для обучения дальше. Получилось в 9 раз быстрее, чем с обычной разметкой, и в итоге SA-V содержит 200 часов аннотированных видео.
Архитектурно SAM-2 – это трансформер, как и прошлая версия. Чтобы адаптировать его к видео, был добавлен модуль памяти, который собственно и хранит информацию о прошлых кадрах. Если на вход подается картинка, модуль просто остается пустым.
По метрикам – SOTA. При этом моделька быстрая – в 6 раз быстрее SAM на изображениях, в три раза быстрее предшественников на видео. И при этом все полностью в опенсорс: вот репозиторий, где можно найти код, веса, демо, статью и блогпост.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥21
Помните, как модели меряются длинной контекта?
Типа "я могу заглотить Войну и Мир за один промпт".
Зачем на входе, я могу понять - мы просто добавляем оперативки в память LLM, чтобы она отвечала на наши дурацкие вопросы быстро и сразу, не прибегая к разному новому нормальному сваппингу на жесткий диск (сжатие и суммаризация контекста и пр). Держала все в голове.
Но теперь OpenAI выпустила версию GPT-4o with a maximum of 64K output tokens per request.
Мы и раньше страдали от многословности chatGPT и просили его быть покороче в своем графоманстве. А теперь он может поливать текстом в одном ответе ну очень долго.
Давайте покатаем в коментах юзер-кейсы такого длинного вывода.
Я пока ничего не могу придумать, кроме как просить его напечатать букву А еще бОльшее количество раз.
Наверное для кода это может быть полезно, но я вот не уверен, что кто-то хочет получить код Виндовс одним куском, веря gpt-4o на слово.
Похоже OpenAI тоже хочет понять зачем: this experiment helps you explore new use cases that are unlocked by longer completions.
https://openai.com/gpt-4o-long-output/
@cgevent
Типа "я могу заглотить Войну и Мир за один промпт".
Зачем на входе, я могу понять - мы просто добавляем оперативки в память LLM, чтобы она отвечала на наши дурацкие вопросы быстро и сразу, не прибегая к разному новому нормальному сваппингу на жесткий диск (сжатие и суммаризация контекста и пр). Держала все в голове.
Но теперь OpenAI выпустила версию GPT-4o with a maximum of 64K output tokens per request.
Мы и раньше страдали от многословности chatGPT и просили его быть покороче в своем графоманстве. А теперь он может поливать текстом в одном ответе ну очень долго.
Давайте покатаем в коментах юзер-кейсы такого длинного вывода.
Я пока ничего не могу придумать, кроме как просить его напечатать букву А еще бОльшее количество раз.
Наверное для кода это может быть полезно, но я вот не уверен, что кто-то хочет получить код Виндовс одним куском, веря gpt-4o на слово.
Похоже OpenAI тоже хочет понять зачем: this experiment helps you explore new use cases that are unlocked by longer completions.
https://openai.com/gpt-4o-long-output/
@cgevent
Openai
GPT-4o Long Output
OpenAI is offering an experimental version of GPT-4o with a maximum of 64K output tokens per request.
👍19🔥6👎1
Apple uses chip from Google not Nvidia
А вот это интересно. После вчерашней феерии Nvidia на Сигграфе (к которой я еще вернусь), вышла такая новость - Эппле НЕ использовала чипы Нвидия для тренировки своих языковых моделей, а использовала чипы Гугл.
Какие именно и как вы можете посмотреть тут (поиском по TPU).
Ну и хороший вопрос: если Эппле смогла сделать свой чип M и уйти от Интел, сможет ли она сделать свой специализированный чип для ИИ и уйти и от дедушки, и от бабушки и от зеленого волка? Или будет накачивать свою линейку M ИИ-способностями?
Сама новость ниже, а технические детали тут.
https://www.reuters.com/technology/apple-says-it-uses-no-nvidia-gpus-train-its-ai-models-2024-07-29/
P.S. Google did not return a request for comment, while Nvidia declined to comment.
@cgevent
А вот это интересно. После вчерашней феерии Nvidia на Сигграфе (к которой я еще вернусь), вышла такая новость - Эппле НЕ использовала чипы Нвидия для тренировки своих языковых моделей, а использовала чипы Гугл.
Какие именно и как вы можете посмотреть тут (поиском по TPU).
Ну и хороший вопрос: если Эппле смогла сделать свой чип M и уйти от Интел, сможет ли она сделать свой специализированный чип для ИИ и уйти и от дедушки, и от бабушки и от зеленого волка? Или будет накачивать свою линейку M ИИ-способностями?
Сама новость ниже, а технические детали тут.
https://www.reuters.com/technology/apple-says-it-uses-no-nvidia-gpus-train-its-ai-models-2024-07-29/
P.S. Google did not return a request for comment, while Nvidia declined to comment.
@cgevent
👍20👎1🔥1
Media is too big
VIEW IN TELEGRAM
Посмотрите еще раз вот на этот генеративный ролик от Нвидия, показанный вчера на Сигграфе.
Конечно, это хороший монтаж, пост и девочка для мимими.
Но после всех этих TripoSR или Meshy - это смотрится как прототип продукта, а не говнокусочки пайплайна.
Я попробую сделать разбор ролика для вас ниже. Уж больно там много интересных деталей, кода, знакомых слов про USD и 3Д.
Конечно, это хороший монтаж, пост и девочка для мимими.
Но после всех этих TripoSR или Meshy - это смотрится как прототип продукта, а не говнокусочки пайплайна.
Я попробую сделать разбор ролика для вас ниже. Уж больно там много интересных деталей, кода, знакомых слов про USD и 3Д.
👍25🔥10👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что ж, Матрица все ближе.
Компания Synchron объявила о подключении своего мозгового имплантата к гарнитуре Apple Vision Pro. Компания создает интерфейс мозг-компьютер, который позволит пациентам с параличом управлять своей электроникой с помощью мыслей. Synchron, вероятно, будет работать над подключением своего BCI к другим гарнитурам, но начнет она с Vision Pro.
Synchron - это как бы конкурент Нейралинка, но не требующий сверления дырок в черепе.
Поглядите ролик, там все наглядно.
Ключевое здесь - "и к другим гарнитурам".
Компания Synchron объявила о подключении своего мозгового имплантата к гарнитуре Apple Vision Pro. Компания создает интерфейс мозг-компьютер, который позволит пациентам с параличом управлять своей электроникой с помощью мыслей. Synchron, вероятно, будет работать над подключением своего BCI к другим гарнитурам, но начнет она с Vision Pro.
Synchron - это как бы конкурент Нейралинка, но не требующий сверления дырок в черепе.
Поглядите ролик, там все наглядно.
Ключевое здесь - "и к другим гарнитурам".
🔥50👍9
Фото или нейрорендер?
👍 Рендер
👎 Фото
Update: все оказались глазастыми и начитанными.
Бразилец Габриэль Медина празднует свой рекорд на соревнованиях по классическому серфингу на Олимпиаде.
Он получил самый высокий балл на одиночной волне за всю историю Олимпийских игр: 9.9 из 10. Красавчик, чо.
Жмем на 🔥
👍 Рендер
👎 Фото
Update: все оказались глазастыми и начитанными.
Бразилец Габриэль Медина празднует свой рекорд на соревнованиях по классическому серфингу на Олимпиаде.
Он получил самый высокий балл на одиночной волне за всю историю Олимпийских игр: 9.9 из 10. Красавчик, чо.
Жмем на 🔥
👎301🔥80👍79
Мертвые заговорили! Миджорни 6.1 вышла.
Что нового в V6.1?
- улучшенная анатомия (руки, ноги, кисти, тела, растения, животные и т.д.)
- Значительно лучшее качество изображения (уменьшение пиксельных артефактов, улучшенные текстуры, кожа, 8-битное ретро и т.д.)
- Более точные, детальные и правильные мелкие детали изображения (глаза, маленькие лица, далекие руки и т.д.)
- Новые апскейлеры с гораздо лучшим качеством изображения/текстуры
- Примерно на 25 % быстрее при работе со стандартными изображениями
- Повышенная точность текста (при рисовании слов через "цитаты" в подсказках)
- Новая модель персонализации с улучшенными нюансами и точностью
- Новый режим ``q 2``, который требует на 25 % больше времени, чтобы (иногда) добавить больше текстуры ценой снижения целостности изображения.
Есть тут миджорниводы? Го тестировать и делиться впечатлениями в коментах.
@cgevent
Что нового в V6.1?
- улучшенная анатомия (руки, ноги, кисти, тела, растения, животные и т.д.)
- Значительно лучшее качество изображения (уменьшение пиксельных артефактов, улучшенные текстуры, кожа, 8-битное ретро и т.д.)
- Более точные, детальные и правильные мелкие детали изображения (глаза, маленькие лица, далекие руки и т.д.)
- Новые апскейлеры с гораздо лучшим качеством изображения/текстуры
- Примерно на 25 % быстрее при работе со стандартными изображениями
- Повышенная точность текста (при рисовании слов через "цитаты" в подсказках)
- Новая модель персонализации с улучшенными нюансами и точностью
- Новый режим ``q 2``, который требует на 25 % больше времени, чтобы (иногда) добавить больше текстуры ценой снижения целостности изображения.
Есть тут миджорниводы? Го тестировать и делиться впечатлениями в коментах.
@cgevent
👍38🔥6👎1
This media is not supported in your browser
VIEW IN TELEGRAM
А народ уже вовсю бесчинствует, комбинирует Midjourney 6.1 и Runway GEN-3.
Я не очень понимаю смысл, ибо видеогенерация одним махом съедает и размывает все детали и преимущества Midjourney 6.1
Так что данный видос - это скорее иллюстрация того, где мы находимся в конце июля 2024 года.
И как себя ведем при виде всего этого генеративного безобразия.
Могли ли мы подумать, ровно два года назад, когда только только релизнулись первые Stable Diffusion и Midjourney, что мы будем так скакать через два года?
Вряд ли. Просто в голову не приходило.
P.S. Машинки справа по борту тоже едут нарядно. Такого мы тоже не могли представить два года назад.
@cgevent
Я не очень понимаю смысл, ибо видеогенерация одним махом съедает и размывает все детали и преимущества Midjourney 6.1
Так что данный видос - это скорее иллюстрация того, где мы находимся в конце июля 2024 года.
И как себя ведем при виде всего этого генеративного безобразия.
Могли ли мы подумать, ровно два года назад, когда только только релизнулись первые Stable Diffusion и Midjourney, что мы будем так скакать через два года?
Вряд ли. Просто в голову не приходило.
@cgevent
👍36🔥11👎3