Psy Eyes

QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.

Сайт
Реддит
Процесс тренировки

995 viewsAndrey Bezryadin, 10:23

Psy Eyes

3:22

This media is not supported in your browser

VIEW IN TELEGRAM

Планировщик задач для A1111 или Vlad. Можно поставить как через расширение в web-ui так и с гитхаба.

* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только

Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория:

https://github.com/ArtVentureX/sd-webui-agent-scheduler.git

- Жмём "Install"
- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".

Реддит
Гитхаб

914 viewsAndrey Bezryadin, 11:14

Alibaba Group выходит в свет со своей моделью для контролируемой генерации видео — VideoCompeser.

Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video

Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.

Кода пока нет.

907 viewsAndrey Bezryadin, 12:21

Psy Eyes

Дайджест:

🎸 ЗВУК 🎸

Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.

🤖 ЧАТЫ 🤖

SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.

TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0

Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.

Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.

LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.

Please open Telegram to view this post

VIEW IN TELEGRAM

825 viewsAndrey Bezryadin, edited 10:41

Psy Eyes

0:50

This media is not supported in your browser

VIEW IN TELEGRAM

Живодёры

А так вообще это процесс самотренировки пса. Он за 1 час сам научился ходить.

Реддит

849 viewsAndrey Bezryadin, 11:02

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Potat1 — новая опенсорсная text-2-video модель, которая может генерить видео с разрешением 1024x576.

Чтобы гонять локально нужно 15 Гб видеопамяти. Как альтернатива есть колаб.

Хаггинг
Гитхаб
Как пользоваться

1.49K viewsAndrey Bezryadin, 11:58

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

DIffusion FeaTures (DIFT): поиск схожих элементов изображений на картинках с разным контекстом без дополнительной настройки или специфической супервизии. Например, выделив струны у гитары, вам найдутся другие струнные инструменты. Инпейтинг в одном контексте, впишет объект в другом контексте с учетом его позиции.

Сайт

880 viewsAndrey Bezryadin, 13:03

Psy Eyes

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

Генерация видео с помощью GEN-2 от Runway теперь доступна всем через сайт и мобильное приложение для iOS.

Бета-тестерам в дискорде по прежнему доступна безлимитная генерация и расширенные настройки.

1.18K viewsAndrey Bezryadin, edited 13:18

Psy Eyes

Recognize Anything (RAM): система для распознавания контекста на изображениях и автоматического проставления тегов.

Модель:
* демонстрирует впечатляющую производительность в zero-shot режиме, значительно превосходя CLIP и BLIP.
* превосходит полностью контролируемый подход ML-Decoder.
* демонстрирует конкурентоспособную производительность при работе с Google API для проставления тегов.
* автоматически распознает 6400+ общих тегов, охватывая больше ценных категорий, чем OpenImages v6

Сайт

1.02K viewsAndrey Bezryadin, 16:41

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.

🎸 ЗВУК 🎸

Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.

🤖 ЧАТЫ 🤖

Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.

InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.

LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.

MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.

Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.

Генерация текста с водяным знаком.

M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.

Please open Telegram to view this post

VIEW IN TELEGRAM

904 viewsAndrey Bezryadin, edited 10:22

Psy Eyes

QR-тян

Автор пишет надо картинку делать маленькой, чтобы она считывалась. Я как ни пробовал не работает. А у вас?

Реддит с инструкциями

929 viewsAndrey Bezryadin, 11:00

Psy Eyes

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Clipdrop (связаны со Stability AI) запустили Uncrop — ответ Generative Fill от Adobe.

Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.

Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.

Анонс

937 viewsAndrey Bezryadin, edited 20:54

Psy Eyes

Я тут с удивлением обнаружил, что у меня видюха на ноутбуке не на 1 ГБ, а на 2 ГБ... Жизнь обман.

824 viewsAndrey Bezryadin, 21:01

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.

Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.

Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.

Zoom: теперь может делать выжимку созвонов в текстовом формате.

GenMM: появилось демо модели для генерации движения.

🎸 ЗВУК 🎸

MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.

🤖 ЧАТЫ 🤖

DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).

StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.

HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.

Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.

VideoChatGPT: модель для суммаризации и чата по видео. Можно раскатать локально.

MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.

Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

796 viewsAndrey Bezryadin, edited 12:14

Psy Eyes

Разработчик под ником The Axodonian поделился на реддите своей версией Stable Diffusion, написанной на C++.

В ней нет зависимостей от Python, нет нужды клонировать репы с гитхаба, создавать виртуальные пространства, и тянуть сотни паков занимающих место. Она быстро и легко устанавливается и запускается как один процесс. Это также делает её удобной для создания плагинов и встраивания в игры (C++ и библиотеки на С для них родное).

Также он пилит апу Unpaint на основе своего кода, где есть txt-2-img, img-2-img, итд.

Лицензия MIT, что подразумевает свободное использование.

Реддит

924 viewsAndrey Bezryadin, 13:04

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Unsupervised Compositional Concepts Discovery — новая img-2-img модель, которая берёт разные изображения на вход, понимает как их классифицировать, а дальше может их комбинировать как угодно. Например, если среди картинок будут кухня, собака и арт ВанГога, то модель сможет сделать кухню или собаку в стиле ВанГога.

Напоминает Break-a-Scene на основе imageBind. Но там кода нет, а тут код есть.

P.S. Если скормить ей вашу папку Загрузки и начать комбинировать, что мы увидим на экране?

Сайт
Код

866 viewsAndrey Bezryadin, 14:02

Psy Eyes

AutoTrain: фреймворк для тренировки своих моделей через простой UI на Gradio для тех, кто не умеет программировать. Можно раскатать локально и тренировать модельки в сфере обработки языка (NLP), компьютерного зрения (CV), работы с голосом, и тд

Есть версии для тех, у кого небольшой датасет, и у кого есть доступ к большому корпусу данных. Также доступен API.

978 viewsAndrey Bezryadin, 15:02

About

Blog

Apps

Platform