Psy Eyes

QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.

Сайт
Реддит
Процесс тренировки

995 viewsAndrey Bezryadin, 10:23

Psy Eyes

3:22

This media is not supported in your browser

VIEW IN TELEGRAM

Планировщик задач для A1111 или Vlad. Можно поставить как через расширение в web-ui так и с гитхаба.

* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только

Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:

https://github.com/ArtVentureX/sd-webui-agent-scheduler.git

- Жмём "Install"
- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".

Реддит
Гитхаб

914 viewsAndrey Bezryadin, 11:14

Alibaba Group выходит в свет со своей моделью для контролируемой генерации видео — VideoCompeser.

Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video

Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.

Кода пока нет.

907 viewsAndrey Bezryadin, 12:21

Psy Eyes

Дайджест:

🎸 ЗВУК 🎸

Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.

🤖 ЧАТЫ 🤖

SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.

TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0

Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.

Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.

LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.

Please open Telegram to view this post

VIEW IN TELEGRAM

825 viewsAndrey Bezryadin, edited 10:41

Psy Eyes

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Живодёры

А так вообще это процесс самотренировки пса. Он за 1 час сам научился ходить.

Реддит

849 viewsAndrey Bezryadin, 11:02

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Potat1 — новая опенсорсная text-2-video модель, которая может генерить видео с разрешением 1024x576.

Чтобы гонять локально нужно 15 Гб видеопамяти. Как альтернатива есть колаб.

Хаггинг
Гитхаб
Как пользоваться

1.49K viewsAndrey Bezryadin, 11:58

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

DIffusion FeaTures (DIFT): поиск схожих элементов изображений на картинках с разным контекстом без дополнительной настройки или специфической супервизии. Например, выделив струны у гитары, вам найдутся другие струнные инструменты. Инпейтинг в одном контексте, впишет объект в другом контексте с учетом его позиции.

Сайт

880 viewsAndrey Bezryadin, 13:03

Psy Eyes

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

Генерация видео с помощью GEN-2 от Runway теперь доступна всем через сайт и мобильное приложение для iOS.

Бета-тестерам в дискорде по прежнему доступна безлимитная генерация и расширенные настройки.

1.18K viewsAndrey Bezryadin, edited 13:18

Psy Eyes

Recognize Anything (RAM): система для распознавания контекста на изображениях и автоматического проставления тегов.

Модель:
* демонстрирует впечатляющую производительность в zero-shot режиме, значительно превосходя CLIP и BLIP.
* превосходит полностью контролируемый подход ML-Decoder.
* демонстрирует конкурентоспособную производительность при работе с Google API для проставления тегов.
* автоматически распознает 6400+ общих тегов, охватывая больше ценных категорий, чем OpenImages v6

Сайт

1.02K viewsAndrey Bezryadin, 16:41

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.

🎸 ЗВУК 🎸

Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.

🤖 ЧАТЫ 🤖

Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.

InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.

LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.

MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.

Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.

Генерация текста с водяным знаком.

M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.

Please open Telegram to view this post

VIEW IN TELEGRAM

904 viewsAndrey Bezryadin, edited 10:22

Psy Eyes

QR-тян

Автор пишет надо картинку делать маленькой, чтобы она считывалась. Я как ни пробовал не работает. А у вас?

Реддит с инструкциями

929 viewsAndrey Bezryadin, 11:00

Psy Eyes

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Clipdrop (связаны со Stability AI) запустили Uncrop — ответ Generative Fill от Adobe.

Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.

Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.

Анонс

937 viewsAndrey Bezryadin, edited 20:54

Psy Eyes

Я тут с удивлением обнаружил, что у меня видюха на ноутбуке не на 1 ГБ, а на 2 ГБ... Жизнь обман.

824 viewsAndrey Bezryadin, 21:01

About

Blog

Apps

Platform