QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.
Сайт
Реддит
Процесс тренировки
Сайт
Реддит
Процесс тренировки
This media is not supported in your browser
VIEW IN TELEGRAM
Планировщик задач для A1111 или Vlad. Можно поставить как через расширение в web-ui так и с гитхаба.
* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только
Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:
- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".
Реддит
Гитхаб
* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только
Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:
https://github.com/ArtVentureX/sd-webui-agent-scheduler.git
- Жмём "Install"- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".
Реддит
Гитхаб
Media is too big
VIEW IN TELEGRAM
Alibaba Group выходит в свет со своей моделью для контролируемой генерации видео — VideoCompeser.
Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video
Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.
Кода пока нет.
Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video
Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.
Кода пока нет.
Дайджест:
🎸 ЗВУК 🎸
Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.
🤖 ЧАТЫ 🤖
SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.
TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0
Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.
Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.
LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
🎸 ЗВУК 🎸
Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.
🤖 ЧАТЫ 🤖
SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.
TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0
Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.
Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.
LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Potat1 — новая опенсорсная text-2-video модель, которая может генерить видео с разрешением 1024x576.
Чтобы гонять локально нужно 15 Гб видеопамяти. Как альтернатива есть колаб.
Хаггинг
Гитхаб
Как пользоваться
Чтобы гонять локально нужно 15 Гб видеопамяти. Как альтернатива есть колаб.
Хаггинг
Гитхаб
Как пользоваться
This media is not supported in your browser
VIEW IN TELEGRAM
DIffusion FeaTures (DIFT): поиск схожих элементов изображений на картинках с разным контекстом без дополнительной настройки или специфической супервизии. Например, выделив струны у гитары, вам найдутся другие струнные инструменты. Инпейтинг в одном контексте, впишет объект в другом контексте с учетом его позиции.
Сайт
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Recognize Anything (RAM): система для распознавания контекста на изображениях и автоматического проставления тегов.
Модель:
* демонстрирует впечатляющую производительность в zero-shot режиме, значительно превосходя CLIP и BLIP.
* превосходит полностью контролируемый подход ML-Decoder.
* демонстрирует конкурентоспособную производительность при работе с Google API для проставления тегов.
* автоматически распознает 6400+ общих тегов, охватывая больше ценных категорий, чем OpenImages v6
Сайт
Модель:
* демонстрирует впечатляющую производительность в zero-shot режиме, значительно превосходя CLIP и BLIP.
* превосходит полностью контролируемый подход ML-Decoder.
* демонстрирует конкурентоспособную производительность при работе с Google API для проставления тегов.
* автоматически распознает 6400+ общих тегов, охватывая больше ценных категорий, чем OpenImages v6
Сайт
Дайджест:
📹 ВИДЕО + АРТ 🎨
ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.
🎸 ЗВУК 🎸
Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.
🤖 ЧАТЫ 🤖
Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.
InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.
LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.
MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.
Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.
Генерация текста с водяным знаком.
M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.
🎸 ЗВУК 🎸
Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.
🤖 ЧАТЫ 🤖
Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.
InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.
LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.
MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.
Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.
Генерация текста с водяным знаком.
M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Clipdrop (связаны со Stability AI) запустили Uncrop — ответ Generative Fill от Adobe.
Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.
Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.
Анонс
Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.
Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.
Анонс
Я тут с удивлением обнаружил, что у меня видюха на ноутбуке не на 1 ГБ, а на 2 ГБ... Жизнь обман.
Дайджест:
📹 ВИДЕО + АРТ 🎨
Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.
Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.
Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.
Zoom: теперь может делать выжимку созвонов в текстовом формате.
GenMM: появилось демо модели для генерации движения.
🎸 ЗВУК 🎸
MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.
🤖 ЧАТЫ 🤖
DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).
StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.
HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.
Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.
VideoChatGPT: модель для суммаризации и чата по видео. Можно раскатать локально.
MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.
Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
📹 ВИДЕО + АРТ 🎨
Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.
Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.
Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.
Zoom: теперь может делать выжимку созвонов в текстовом формате.
GenMM: появилось демо модели для генерации движения.
🎸 ЗВУК 🎸
MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.
🤖 ЧАТЫ 🤖
DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).
StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.
HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.
Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.
VideoChatGPT: модель для суммаризации и чата по видео. Можно раскатать локально.
MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.
Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).
Please open Telegram to view this post
VIEW IN TELEGRAM
Разработчик под ником The Axodonian поделился на реддите своей версией Stable Diffusion, написанной на C++.
В ней нет зависимостей от Python, нет нужды клонировать репы с гитхаба, создавать виртуальные пространства, и тянуть сотни паков занимающих место. Она быстро и легко устанавливается и запускается как один процесс. Это также делает её удобной для создания плагинов и встраивания в игры (C++ и библиотеки на С для них родное).
Также он пилит апу Unpaint на основе своего кода, где есть txt-2-img, img-2-img, итд.
Лицензия MIT, что подразумевает свободное использование.
Реддит
В ней нет зависимостей от Python, нет нужды клонировать репы с гитхаба, создавать виртуальные пространства, и тянуть сотни паков занимающих место. Она быстро и легко устанавливается и запускается как один процесс. Это также делает её удобной для создания плагинов и встраивания в игры (C++ и библиотеки на С для них родное).
Также он пилит апу Unpaint на основе своего кода, где есть txt-2-img, img-2-img, итд.
Лицензия MIT, что подразумевает свободное использование.
Реддит
This media is not supported in your browser
VIEW IN TELEGRAM
Unsupervised Compositional Concepts Discovery — новая img-2-img модель, которая берёт разные изображения на вход, понимает как их классифицировать, а дальше может их комбинировать как угодно. Например, если среди картинок будут кухня, собака и арт ВанГога, то модель сможет сделать кухню или собаку в стиле ВанГога.
Напоминает Break-a-Scene на основе imageBind. Но там кода нет, а тут код есть.
P.S. Если скормить ей вашу папку Загрузки и начать комбинировать, что мы увидим на экране?
Сайт
Код
Напоминает Break-a-Scene на основе imageBind. Но там кода нет, а тут код есть.
P.S. Если скормить ей вашу папку Загрузки и начать комбинировать, что мы увидим на экране?
Сайт
Код
AutoTrain: фреймворк для тренировки своих моделей через простой UI на Gradio для тех, кто не умеет программировать. Можно раскатать локально и тренировать модельки в сфере обработки языка (NLP), компьютерного зрения (CV), работы с голосом, и тд
Есть версии для тех, у кого небольшой датасет, и у кого есть доступ к большому корпусу данных. Также доступен API.
Есть версии для тех, у кого небольшой датасет, и у кого есть доступ к большому корпусу данных. Также доступен API.