StabilityAI выпустили SDXL 0.9
Новый SDXL работает на связке базовой модели, которая генерит картинку, и рефайнера, который улучшает её.
Базовая модель обладает 3.5B параметров, и переключается в 6,6B параметров в режиме тандема (когда обе модели работают над итоговой картинкой). Для сравнения бета имела 3,1B параметров и использовала только базовую модель.
Для запуска потребуется видеокарта как минимум с 8 ГБ VRAM плюс 16 ГБ оперативки. На генерируемых картинках ставится невидимый водяной знак, и он не тот же, что в предыдущих версиях.
Релиз версии 1.0 запланирован на середину июля. На гитхабе код базовой модели и рефайнера. Веса доступны по запросу.
Можете попробовать SDXL бесплатно уже сейчас в Nightcafe. Если авторизоваться или выполнить другие таски вам дадут халявные кредиты на генерации. А если сгенерированное опубликовать, то ещё кредитов насыпят. Например, эту картинку с киберпанк котаном я там сгенерировал. Там нет negative promt поэтому есть артефакты. Вот ещё пара примеров: раз и два. Промт:
Гитхаб
Nightcafe
Новый SDXL работает на связке базовой модели, которая генерит картинку, и рефайнера, который улучшает её.
Базовая модель обладает 3.5B параметров, и переключается в 6,6B параметров в режиме тандема (когда обе модели работают над итоговой картинкой). Для сравнения бета имела 3,1B параметров и использовала только базовую модель.
Для запуска потребуется видеокарта как минимум с 8 ГБ VRAM плюс 16 ГБ оперативки. На генерируемых картинках ставится невидимый водяной знак, и он не тот же, что в предыдущих версиях.
Релиз версии 1.0 запланирован на середину июля. На гитхабе код базовой модели и рефайнера. Веса доступны по запросу.
Можете попробовать SDXL бесплатно уже сейчас в Nightcafe. Если авторизоваться или выполнить другие таски вам дадут халявные кредиты на генерации. А если сгенерированное опубликовать, то ещё кредитов насыпят. Например, эту картинку с киберпанк котаном я там сгенерировал. Там нет negative promt поэтому есть артефакты. Вот ещё пара примеров: раз и два. Промт:
cat in the cyberpunk city
АнонсГитхаб
Nightcafe
Midjourney обновилась до версии 5.2
Помимо мелочей тут и там, добавили фичу Zoom Out, и быстро переняли на себя хайп вокруг Generative Fill. Она хорошо считывает контекст и добавляет деталей при отдалении картинки с каждой итерацией.
Чтобы ей воспользоваться надо сначала увеличить картинку через кнопку Upscale, а затем нажать Zoom х1,5 или х2 чтобы отдалить её в соответствующее количество раз. Есть ещё Custom zoom для установки отдаления вручную.
Народ очень быстро сложил 2 + 2 и от генерации картинок перешел к склейке их в видео. Зачастую получается весьма годно.
Хотя для пользователей SD тут ничего нового, Infinite Zoom в A1111 уже давно живёт и развивается.
PS: если смотреть долго в центр отдаляющегося видео, то когда оно остановится, реальность перед глазами будет немного пульсировать, словно приближаться. Это оптический эффект.
Помимо мелочей тут и там, добавили фичу Zoom Out, и быстро переняли на себя хайп вокруг Generative Fill. Она хорошо считывает контекст и добавляет деталей при отдалении картинки с каждой итерацией.
Чтобы ей воспользоваться надо сначала увеличить картинку через кнопку Upscale, а затем нажать Zoom х1,5 или х2 чтобы отдалить её в соответствующее количество раз. Есть ещё Custom zoom для установки отдаления вручную.
Народ очень быстро сложил 2 + 2 и от генерации картинок перешел к склейке их в видео. Зачастую получается весьма годно.
Хотя для пользователей SD тут ничего нового, Infinite Zoom в A1111 уже давно живёт и развивается.
PS: если смотреть долго в центр отдаляющегося видео, то когда оно остановится, реальность перед глазами будет немного пульсировать, словно приближаться. Это оптический эффект.
This media is not supported in your browser
VIEW IN TELEGRAM
Runway добавили превью к GEN-2 генерациям на сайте и iOS приложении. Теперь хотя бы можно предсказать результат и выбрать в какую сторону режиссировать. Генерации всё также платные, а вот превью халявные и их можно крутить промтами сколько нравится.
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Studio теперь открыт для всех.
Но бесплатного тарифного плана теперь нет, пусть они и планируют найти способ его реализовать. Всё потому что содержать 25 ML моделей и рендерить на GPU в облаках дорого. Разработчики работают над ускорением работы моделей, так как это позволит им снизить затраты и дать больше минут для рендеринга в месяц.
Появится отдельный тариф AI MoCap, в котором под рендеринг можно будет отдать 40 хронометража.
PS Все файлы и проекты, которые у вас были на WD теперь удалены.
Но бесплатного тарифного плана теперь нет, пусть они и планируют найти способ его реализовать. Всё потому что содержать 25 ML моделей и рендерить на GPU в облаках дорого. Разработчики работают над ускорением работы моделей, так как это позволит им снизить затраты и дать больше минут для рендеринга в месяц.
Появится отдельный тариф AI MoCap, в котором под рендеринг можно будет отдать 40 хронометража.
PS Все файлы и проекты, которые у вас были на WD теперь удалены.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Обучение NPC с помощью AI задач, которым его не учили, с сохранением их в памяти.
MobileSAM: вышло демо шустрого сегментатора на SAM.
Intel: расширение для ускорения библиотеки Transformers на CPU. Оно 37 раз быстрее ONNX Runtime и 345 раз быстрее PyTorch на процессорах Xeon.
One-2-3-45: метод преобразует любое изображение в 3D-модель всего за 45 секунд. Он создает множество видов из одного изображения, а затем преобразует их в 3D-пространство, обеспечивая быстрое и качественное воссоздание 3D-форм. Кода пока нет.
CSM: тоже разрабатывают img-2-3D плюс vid-2-3D. Кода тоже пока нет, но есть вейтлист.
🤖 ЧАТЫ 🤖
StabilityAI: появилось демо OpenFlamingo 9B через которое можно початиться с картинками и видео в формате gif.
Adobe: представили модель LLaVAR, основанную на модели LLaVA. Она обучена на 422 тыс. результатов распознавания сканов датасета LIAON. В итоге модель помогает LLaVA на 20% лучше считывать текстовые данные на картинках.
Как развернуть своего чатбота на Hugging Face.
LLM As Chatbot: добавили вчера упомянутый XGen-7B от Salesforce.
Bigcodek: датасет The Stack из 546 млн строк кода на 300 языках программирования общим размером 6 ТБ. Инфа о лицензиях пришита к датапоинтам.
OBELISC: датасет интрент-масштаба с 141 млн пар текст-картинка взятых с Common Crawl, 353 млн изображений и 115 млрд. текстовых токенов.
IBM: выпустили модуль NeuralFuse, который улучшает точность глубоких нейронных сетей при работе на низком напряжении, снижая энергопотребление. Он преобразует входные данные, делая их устойчивыми к ошибкам, и может улучшить точность на 57%, снижая энергию на 24%.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Обучение NPC с помощью AI задач, которым его не учили, с сохранением их в памяти.
MobileSAM: вышло демо шустрого сегментатора на SAM.
Intel: расширение для ускорения библиотеки Transformers на CPU. Оно 37 раз быстрее ONNX Runtime и 345 раз быстрее PyTorch на процессорах Xeon.
One-2-3-45: метод преобразует любое изображение в 3D-модель всего за 45 секунд. Он создает множество видов из одного изображения, а затем преобразует их в 3D-пространство, обеспечивая быстрое и качественное воссоздание 3D-форм. Кода пока нет.
CSM: тоже разрабатывают img-2-3D плюс vid-2-3D. Кода тоже пока нет, но есть вейтлист.
🤖 ЧАТЫ 🤖
StabilityAI: появилось демо OpenFlamingo 9B через которое можно початиться с картинками и видео в формате gif.
Adobe: представили модель LLaVAR, основанную на модели LLaVA. Она обучена на 422 тыс. результатов распознавания сканов датасета LIAON. В итоге модель помогает LLaVA на 20% лучше считывать текстовые данные на картинках.
Как развернуть своего чатбота на Hugging Face.
LLM As Chatbot: добавили вчера упомянутый XGen-7B от Salesforce.
Bigcodek: датасет The Stack из 546 млн строк кода на 300 языках программирования общим размером 6 ТБ. Инфа о лицензиях пришита к датапоинтам.
OBELISC: датасет интрент-масштаба с 141 млн пар текст-картинка взятых с Common Crawl, 353 млн изображений и 115 млрд. текстовых токенов.
IBM: выпустили модуль NeuralFuse, который улучшает точность глубоких нейронных сетей при работе на низком напряжении, снижая энергопотребление. Он преобразует входные данные, делая их устойчивыми к ошибкам, и может улучшить точность на 57%, снижая энергию на 24%.
Please open Telegram to view this post
VIEW IN TELEGRAM
Пора устроить BEDLAM (Bodies Exhibiting Detailed Lifelike Animated Motion)!
Это датасет, который впервые показывает, что нейронные сети, обученные только на синтетических данных, достигают высокого уровня точности в задаче оценки 3D-позы и формы человека на основе реальных изображений.
Прежние синтетические наборы данных были небольшими, нереалистичными или не включали реалистичную одежду. BEDLAM решает эти проблемы, предлагая набор данных, который включает в себя монокулярные RGB-видео с 3D-телами в формате SMPL-X. Есть разнообразие форм тела, движений, оттенков кожи, волос и одежды. Причём последняя реалистично симулируется на движущихся телах с помощью запатентованной технологии физической симуляции одежды.
BEDLAM может быть использован для обучения моделей, которые могут быть применены в таких областях, как компьютерное зрение (анализ движений человека на видео), виртуальная и дополненная реальность (создание реалистичных аватаров на основе одного изображения, итд), здравоохранение (анализ походки пациентов для диагностики или реабилитации, итд), спорт (анализ техники движений спортсменов, итд), итд.
Все изображения, тела, 3D-одежда, код и многое другое доступны для исследовательских целей, включая тренировку своего датасета.
Youtube
Сайт
Гитхаб (тренировка)
Гитхаб (рендеринг)
Это датасет, который впервые показывает, что нейронные сети, обученные только на синтетических данных, достигают высокого уровня точности в задаче оценки 3D-позы и формы человека на основе реальных изображений.
Прежние синтетические наборы данных были небольшими, нереалистичными или не включали реалистичную одежду. BEDLAM решает эти проблемы, предлагая набор данных, который включает в себя монокулярные RGB-видео с 3D-телами в формате SMPL-X. Есть разнообразие форм тела, движений, оттенков кожи, волос и одежды. Причём последняя реалистично симулируется на движущихся телах с помощью запатентованной технологии физической симуляции одежды.
BEDLAM может быть использован для обучения моделей, которые могут быть применены в таких областях, как компьютерное зрение (анализ движений человека на видео), виртуальная и дополненная реальность (создание реалистичных аватаров на основе одного изображения, итд), здравоохранение (анализ походки пациентов для диагностики или реабилитации, итд), спорт (анализ техники движений спортсменов, итд), итд.
Все изображения, тела, 3D-одежда, код и многое другое доступны для исследовательских целей, включая тренировку своего датасета.
Youtube
Сайт
Гитхаб (тренировка)
Гитхаб (рендеринг)
YouTube
BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike Animated Motion (CVPR 2023)
We show, for the first time, that neural networks trained only on synthetic data achieve state-of-the-art accuracy on the problem of 3D human pose and shape (HPS) estimation from real images. Previous synthetic datasets have been small, unrealistic, or lacked…
DreamFusion — генерим картинки из мыслей с помощью ЭЭГ (электро-энцефолограммы).
Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.
В копилку к другим проектам для генерации из мыслей.
Бумага
Данный метод преобразует сигналы ЭЭГ напрямую в высококачественные изображения, минуя текстовую фазу. Процесс такой: получаем сигналы из мозга и закидываем их в ЭЭГ энкодер —> проецируем данные в векторное пространство и через CLIP сопоставляем эмбединги с ЭЭГ эмбедингам на картинках —> SD берет эмбединги и генерит картинки на их основе.
В копилку к другим проектам для генерации из мыслей.
Бумага