Psy Eyes – Telegram

Psy Eyes

6.8K subscribers

1.43K photos

1.57K videos

5 files

1.55K links

Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.

Download Telegram

About

Blog

Apps

Platform

6.8K subscribers

Дайджест:

📹 ВИДЕО + АРТ 🎨

ARTIC3D: генерация текстурированных и анимированных 3D моделей животных по одному фото. Кода пока нет.

🎸 ЗВУК 🎸

Google: представили модель SQuId для быстрой оценки качества работы TTS-моделей без необходимости привлечения людей. Кода нет.

🤖 ЧАТЫ 🤖

Falcon Chat: подъехал чат на основе Falcon 40B. Работает шустро и результаты неплохие.

InternLM: многоязычная модель языка с 104B параметров. Демонстрирует хорошие возможности в понимании текста, математике, кодировании. На тестах входит в топ-5 среди других моделей, а бенчмарке C-Eval уступает только GPT-4.

LLMZip: сжатие текста языковыми моделями. Метод превосходит на тестах подходы BSC, ZPAQ, и paq8h.

MobileNMT: система для развертывания моделей машинного перевода (не LLM) на мобильных устройствах. Авторы сжали модель Transformer до 15 МБ (в 65 раз) при скорости перевода 30 мс. Сочетая модель и движок оптимизированный под INT8, они ускорили декодирование в 47 раз при экономии 99,5% памяти. Потери BLEU всего 11,6%.

Исследование как улучшить в языковых моделях работу с контекстом, а также пошаговое рассуждение.

Генерация текста с водяным знаком.

M$^3$IT: набор данных, чтобы модель могла научиться связывать текст и изображения и понимать инструкции... Название канешн топ, китайские исследователи слушают вичуху?

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.

Please open Telegram to view this post

VIEW IN TELEGRAM

904 viewsAndrey Bezryadin, edited 10:22

QR-тян

Автор пишет надо картинку делать маленькой, чтобы она считывалась. Я как ни пробовал не работает. А у вас?

Реддит с инструкциями

929 viewsAndrey Bezryadin, 11:00

This media is not supported in your browser

VIEW IN TELEGRAM

Clipdrop (связаны со Stability AI) запустили Uncrop — ответ Generative Fill от Adobe.

Просто загружаем картинку и меняем соотношение сторон как нам надо, без промта. Модель сгенерирует недостающую часть на основе контекста.

Я потестил, и Gyre пока выглядит более многообещающим, скоро до него доберусь.

Анонс

937 viewsAndrey Bezryadin, edited 20:54

Я тут с удивлением обнаружил, что у меня видюха на ноутбуке не на 1 ГБ, а на 2 ГБ... Жизнь обман.

824 viewsAndrey Bezryadin, 21:01

Дайджест:

📹 ВИДЕО + АРТ 🎨

Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.

Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.

Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.

Zoom: теперь может делать выжимку созвонов в текстовом формате.

GenMM: появилось демо модели для генерации движения.

🎸 ЗВУК 🎸

MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.

🤖 ЧАТЫ 🤖

DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).

StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.

HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.

Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.

VideoChatGPT: модель для суммаризации и чата по видео. Можно раскатать локально.

MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.

Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

796 viewsAndrey Bezryadin, edited 12:14

Разработчик под ником The Axodonian поделился на реддите своей версией Stable Diffusion, написанной на C++.

В ней нет зависимостей от Python, нет нужды клонировать репы с гитхаба, создавать виртуальные пространства, и тянуть сотни паков занимающих место. Она быстро и легко устанавливается и запускается как один процесс. Это также делает её удобной для создания плагинов и встраивания в игры (C++ и библиотеки на С для них родное).

Также он пилит апу Unpaint на основе своего кода, где есть txt-2-img, img-2-img, итд.

Лицензия MIT, что подразумевает свободное использование.

Реддит

924 viewsAndrey Bezryadin, 13:04

This media is not supported in your browser

VIEW IN TELEGRAM

Unsupervised Compositional Concepts Discovery — новая img-2-img модель, которая берёт разные изображения на вход, понимает как их классифицировать, а дальше может их комбинировать как угодно. Например, если среди картинок будут кухня, собака и арт ВанГога, то модель сможет сделать кухню или собаку в стиле ВанГога.

Напоминает Break-a-Scene на основе imageBind. Но там кода нет, а тут код есть.

P.S. Если скормить ей вашу папку Загрузки и начать комбинировать, что мы увидим на экране?

Сайт
Код

866 viewsAndrey Bezryadin, 14:02

AutoTrain: фреймворк для тренировки своих моделей через простой UI на Gradio для тех, кто не умеет программировать. Можно раскатать локально и тренировать модельки в сфере обработки языка (NLP), компьютерного зрения (CV), работы с голосом, и тд

Есть версии для тех, у кого небольшой датасет, и у кого есть доступ к большому корпусу данных. Также доступен API.

978 viewsAndrey Bezryadin, 15:02

Media is too big

VIEW IN TELEGRAM

SyncDiffusion — модель для генерации согласованных панорам, синхронизуя несколько диффузий.

Она использует градиент потерь схожести с изображением на каждом шаге диффузии, что помогает модели понять напревление генерации для создания согласованных панорам. Результаты отличаются высоким качеством, сохраняют достоверность и совместимость с исходным промтом.

Метод демонстрирует значительное улучшение по сравнению с предыдущими подходами (66,35% против 33,65%).

Сайт
Кода пока нет

932 viewsAndrey Bezryadin, 16:01

This media is not supported in your browser

VIEW IN TELEGRAM

Как-то слишком хорошо по консистентности для GEN-1, но всё-равно оставлю это здесь.

Найдено тутЪ

1.09K viewsAndrey Bezryadin, 22:55

Media is too big

VIEW IN TELEGRAM

Уже опробовали MusicGen?

Модель генерирует 12 секунд аудио на основе текстового промта. По желанию можно предоставить аудио реф, из которого будет извлечена общая мелодия. Модель попытается следовать промту и мелодии.

К волне AI-каверов готовится присоединиться волна AI-мэшапов и ремиксов.

Демо
Модели
Код

1.02K viewsAndrey Bezryadin, 14:25

Deforum выпустили нодный редактор aiNodes Engine для генерации изображений и анимации.

Вдохновлён ComfyUI, написан на питоне, и имеет инсталлятор, который одним кликом поставит всё нужное, включая виртуальные среды.

Фичи:
* Полная модульность с динамической загрузкой пакетов узлов во время выполнения
* Поддержка RIFE (оценка промежуточного потока в реальном времени)
* Поддержка FILM для плавной интерполяции кадров при анимации
* Цветной фон для улучшения визуального восприятия
* Аннотации IDE для простого создания узлов

Гитхаб

1.9K viewsAndrey Bezryadin, 08:57

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

Вот еще один проект-прокладка между Stable Diffusion (+ControlNet) и пользователем.
Value здесь в том, что они:
1. Сделали мини-сток различных элементов, часто используемых в рекламе. Это маски (точнее canny) для Control Net, представляющие руки, лица, подставки, растения - в общем небольшая база элементов, по аналогии с многими софтами, в которых есть библиотеки. Только здесь это маски, на основе которых будут генериться элементы.
2. Сделали UI в духе PowerPoint и прочих для коллажирования.
3. Немного удаления фона и элементов.

Подписка, как обычно, 10 долларов в месяц. Можно попробовать бесплатно.

Время таких продуктов ограниченно. В принципе это все уже есть в Microsoft Designer или Canva, просто не так ловко и не так прицельно в рекламные картинки.
Думаю, все это появится во "взрослых" софтах. Прежде всего в Адобченко и Микрософте.
Но проблема в том, что Адобченко будет юзать свой FireFly, а Микрософт Dalle-2.
Никто из корпоратов не хочет связываться с серым полем авторских прав для Stable Diffusion.
Поэтому такие сервисы будут жить некоторое время.
https://app.flair.ai/

Ну и понятно, что все это можно делать в Automatic1111. Но надо искать и делать маски, плясать с коллажированием, продираться сквозь настройки контролнета. А тут все под рукой.

562 viewsAndrey Bezryadin, 17:13

Дайджест:

📹 ВИДЕО + АРТ 🎨

GANeRF: улучшение качества рендеринга NeRF сцен с помощью GAN сетей. Над подобным работает NeRFLiX, только без GAN.

Phygital+: больше настроек для Stable Diffusion Inpainting, Control Net и обучения своих моделей, 6 новых стилей, и персональный онбардинг.

Nvidia: представила text-2-3D модель ATT3D. В отличие от методов, требующих длительной оптимизации для каждого запроса, модель использует амортизированную оптимизацию, обучая модель на множестве промтов одновременно. Это позволяет распределить вычислительные мощности между набором запросов и сэкономить время и деньги. Кода пока нет.

BOOT: быстрый метод обучения генеративных моделей, который позволяет достичь высокого качества генерации изображений без использования реальных данных. Метод основан на предсказании траектории диффузии и бутстрэппинге. Кода пока нет.

Рабочая моделька поиграться с img-2-3D через Shap-E.

🤖 ЧАТЫ 🤖

LLM as Chat: сервис для чата с разными языковыми моделями обновился. Теперь показываются требования к VRAM и можно выбрать только те, на которые памяти хватит.

Cerebras: выпустили SlimPajama с 627B параметров — крупнейший набор данных для обучения моделей естественного языка. Он был создан путем очистки + удаления дубликатов из датасета RedPajama 1.21T, и с высоким качеством данных показывает хорошую эффективность вычислений для обучения моделей до 627 миллиардов токенов.

Hugging Face: обновили свой контейнер для инференса LLM.

Сравнение генерации текста на маленьком датасете с крупными моделями (GPT-4 175B).

GPTWorld: игра, в которой надо красной точкой забрать ключ и выбраться из лабиринта. Нужны навыки программирования, так что....

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

828 viewsAndrey Bezryadin, edited 11:17

This media is not supported in your browser

VIEW IN TELEGRAM

Похоже Modelscope стал лучше выдавать картинку.

Автор с помощью базовой модели сгенерировал 320x256 —> затем через vid2vid на 640x512 удалил водяной знак.

Реддит

751 viewsAndrey Bezryadin, 12:32

This media is not supported in your browser

VIEW IN TELEGRAM

Mind2Web — инструмент для автоматизации задач в интернете и поручения их выполнения AI-агентам.

В датасете Mind2Web представлены задачи, такие как поиск авиабилетов, бронирование, поиск информации, взаимодействие с элементами веб-страниц и многое другое. В общей сложности 2 350 задач с 137 веб-сайтов, охватывающих 31 сферу деятельности. Для каждой задачи предоставляется описание задачи, последовательность действий для ее выполнения, снимки веб-страниц (включая HTML-код, DOM-снимки, изображения, файлы HAR и трассировки взаимодействия) и другая соответствующая информация.

Можно посмотреть как запись на видео процесса выполнения задачи, так и додетально каждый шаг (raw trace).

P.S. Не нашел как применить к твиттеру, телеге, да и чётких инструкций как натренить для своих нужд, но в целом интересно.

Сайт

844 viewsAndrey Bezryadin, 13:31