Psy Eyes
6.79K subscribers
1.45K photos
1.57K videos
6 files
1.56K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
QR коды сделанные связкой ControlNet, StyleGAN и модели натренированной на QR кодах. На удивление они читаются.

Сайт
Реддит
Процесс тренировки
This media is not supported in your browser
VIEW IN TELEGRAM
Планировщик задач для A1111 или Vlad. Можно поставить как через расширение в web-ui так и с гитхаба.

* Повторяющиеся задачи можно добавлять в закладки
* менять промты и модели на лету
* менять местами таски, отменять их, и мониторить историю
* работать через API
* и не только

Установка:
- Открываем "Extensions"
- "Install from URL".
- Вставляем URL репозитория: https://github.com/ArtVentureX/sd-webui-agent-scheduler.git
- Жмём "Install"
- Открываем вкладку "Installed"
- Нажимаем "Apply and restart UI".

Реддит
Гитхаб
Media is too big
VIEW IN TELEGRAM
Alibaba Group выходит в свет со своей моделью для контролируемой генерации видео — VideoCompeser.

Работает в режимах:
* text-2-video
* style transfer (на основе картинки и карты глубины)
* video-2-video

Разработали STC-encoder через который можно достигать чёткого следования заданному стилю и хорошей консистентности.

Кода пока нет.
Дайджест:

🎸 ЗВУК 🎸

Mega-TTS: генерируем голос из текста с различными атрибутами речи (тембр, фаза, просодия, итд). Вместо использования аудиокодека для кодирования речи в латентное пространство, Mega-TTS использует спектрограмму, что позволяет лучше разделить фазу и другие атрибуты. Кода пока нет.

🤖 ЧАТЫ 🤖

SMEAR (Soft Merging of Experts with Adaptive Routing): новый метод градиентного обучения через слияние экспертных моделей. Он соответствует или превосходит по результатам предыдущие подходы без увеличения затрат или метаданных задачи.

TogetherCompute: выпустили модель RedPajama-INCITE-7B-Base, натренированную на 1Т (триллионе) токенов. Доступно 10 чекпоинтов, плюс скрипты для полного воспроизведения модели. Лицензия Apache 2.0

Исследование оценки моделей генерации кода, используя абстрактные синтаксические деревья.

Natural Program: улучшаем логическое рассуждение в LLM, разбивая сложные цепочки рассуждений на шаг за шагом, что увеличивает точность и интерпретируемость ответов. Код будет позже.

LEACE (LEAst-squares Concept Erasure): удаляем определенные характеристики из представления данных, улучшая справедливость и интерпретируемость моделей. LEACE эффективно препятствует обнаружению концепций всеми линейными классификаторами, минимизируя при этом ущерб для представления данных.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Живодёры

А так вообще это процесс самотренировки пса. Он за 1 час сам научился ходить.

Реддит
This media is not supported in your browser
VIEW IN TELEGRAM
Potat1 — новая опенсорсная text-2-video модель, которая может генерить видео с разрешением 1024x576.

Чтобы гонять локально нужно 15 Гб видеопамяти. Как альтернатива есть колаб.

Хаггинг
Гитхаб
Как пользоваться
This media is not supported in your browser
VIEW IN TELEGRAM
DIffusion FeaTures (DIFT): поиск схожих элементов изображений на картинках с разным контекстом без дополнительной настройки или специфической супервизии. Например, выделив струны у гитары, вам найдутся другие струнные инструменты. Инпейтинг в одном контексте, впишет объект в другом контексте с учетом его позиции.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация видео с помощью GEN-2 от Runway теперь доступна всем через сайт и мобильное приложение для iOS.

Бета-тестерам в дискорде по прежнему доступна безлимитная генерация и расширенные настройки.
Recognize Anything (RAM): система для распознавания контекста на изображениях и автоматического проставления тегов.

Модель:
* демонстрирует впечатляющую производительность в zero-shot режиме, значительно превосходя CLIP и BLIP.
* превосходит полностью контролируемый подход ML-Decoder.
* демонстрирует конкурентоспособную производительность при работе с Google API для проставления тегов.
* автоматически распознает 6400+ общих тегов, охватывая больше ценных категорий, чем OpenImages v6

Сайт
Дайджест:

📹 ВИДЕО + АРТ 🎨

ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.

🎸 ЗВУК 🎸

Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.

🤖 ЧАТЫ 🤖

Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.

InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.

LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.

MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.

Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.

Генерация текста с водяным знаком.

M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.
Please open Telegram to view this post
VIEW IN TELEGRAM
QR-тян

Автор пишет надо картинку делать маленькой, чтобы она считывалась. Я как ни пробовал не работает. А у вас?

Реддит с инструкциями
This media is not supported in your browser
VIEW IN TELEGRAM
Clipdrop (связаны со Stability AI) запустили Uncrop — ответ Generative Fill от Adobe.

Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.

Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.

Анонс
Я тут с удивлением обнаружил, что у меня видюха на ноутбуке не на 1 ГБ, а на 2 ГБ... Жизнь обман.