QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.
Сайт
Реддит
Процесс тренировки
Сайт
Реддит
Процесс тренировки
This media is not supported in your browser
VIEW IN TELEGRAM
Планировщик задач для A1111 или Vlad. Можно поставить как через расширение в web-ui так и с гитхаба.
* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только
Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:
- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".
Реддит
Гитхаб
* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только
Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:
https://github.com/ArtVentureX/sd-webui-agent-scheduler.git
- Жмём "Install"- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".
Реддит
Гитхаб
Media is too big
VIEW IN TELEGRAM
Alibaba Group выходит в свет со своей моделью для контролируемой генерации видео — VideoCompeser.
Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video
Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.
Кода пока нет.
Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video
Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.
Кода пока нет.
Дайджест:
🎸 ЗВУК 🎸
Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.
🤖 ЧАТЫ 🤖
SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.
TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0
Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.
Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.
LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
🎸 ЗВУК 🎸
Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.
🤖 ЧАТЫ 🤖
SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.
TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0
Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.
Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.
LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Potat1 — новая опенсорсная text-2-video модель, которая может генерить видео с разрешением 1024x576.
Чтобы гонять локально нужно 15 Гб видеопамяти. Как альтернатива есть колаб.
Хаггинг
Гитхаб
Как пользоваться
Чтобы гонять локально нужно 15 Гб видеопамяти. Как альтернатива есть колаб.
Хаггинг
Гитхаб
Как пользоваться
This media is not supported in your browser
VIEW IN TELEGRAM
DIffusion FeaTures (DIFT): поиск схожих элементов изображений на картинках с разным контекстом без дополнительной настройки или специфической супервизии. Например, выделив струны у гитары, вам найдутся другие струнные инструменты. Инпейтинг в одном контексте, впишет объект в другом контексте с учетом его позиции.
Сайт
Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Recognize Anything (RAM): система для распознавания контекста на изображениях и автоматического проставления тегов.
Модель:
* демонстрирует впечатляющую производительность в zero-shot режиме, значительно превосходя CLIP и BLIP.
* превосходит полностью контролируемый подход ML-Decoder.
* демонстрирует конкурентоспособную производительность при работе с Google API для проставления тегов.
* автоматически распознает 6400+ общих тегов, охватывая больше ценных категорий, чем OpenImages v6
Сайт
Модель:
* демонстрирует впечатляющую производительность в zero-shot режиме, значительно превосходя CLIP и BLIP.
* превосходит полностью контролируемый подход ML-Decoder.
* демонстрирует конкурентоспособную производительность при работе с Google API для проставления тегов.
* автоматически распознает 6400+ общих тегов, охватывая больше ценных категорий, чем OpenImages v6
Сайт
Дайджест:
📹 ВИДЕО + АРТ 🎨
ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.
🎸 ЗВУК 🎸
Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.
🤖 ЧАТЫ 🤖
Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.
InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.
LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.
MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.
Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.
Генерация текста с водяным знаком.
M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
📹 ВИДЕО + АРТ 🎨
ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.
🎸 ЗВУК 🎸
Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.
🤖 ЧАТЫ 🤖
Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.
InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.
LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.
MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.
Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.
Генерация текста с водяным знаком.
M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Clipdrop (связаны со Stability AI) запустили Uncrop — ответ Generative Fill от Adobe.
Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.
Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.
Анонс
Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.
Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.
Анонс
Я тут с удивлением обнаружил, что у меня видюха на ноутбуке не на 1 ГБ, а на 2 ГБ... Жизнь обман.