Psy Eyes
6.79K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Stability AI заходят в анимацию.

Выпустили SDK (software development kit) для генерации локально через веб-интерфейс или в Colab. Для генерации можно выбрать любую модель, включая Stable Diffusion 2 и SDXL. Длительность не ограничена.

Вариант генерации:
* Text-2-animation: генерация видео по только по текстовому промту
* Text+image: генерация на основе промта и реф картинки
* Input video + text input: генерация на основе промта и реф видео

Важное: для генерации нужно подключение к серверам Stable Diffusion, то есть нужен их API. Его можно достать зарегавшись в DreamStudio.

Генерации платные. При стандартном значении (512x512, 30 шагов) с использованием модели Stable Diffusion v1.5 анимация, состоящая из 100 кадров (около 8 с), использует 37,5 кредитов. Если поставить разрешение 1024x1024, то цена за операцию будет 0.23 кредита ($0.0023), а в режиме 3D рендера 0.696 кредита ($0.00696).

Анонс
Установка
Гайд по анимации
Colab
Media is too big
VIEW IN TELEGRAM
StableSR — апскейлинг изображений с помощью диффузии. Показывает четкие результаты с малом количеством артифактов. И нет, Stable тут не имеет отношение к Stability AI (они недавно выпустили свой апскейлер).

Используется модуль "обёртки", который позволяет балансировать качество и достоверность восстановленных изображений, контролируя соотношение между ними. Если конкретнее, то он обрабатывает признаки низкого разрешения (кубики, артефакты) и признаки, полученные из обученных диффузных моделей, для генерации элементов высокого разрешения.

P.S. Как реклама 4к телеков самсунг 10 лет назад, только в реале.

Сайт
Гитхаб
Anthropic: расширили контекстное окно Claude до 100к токенов, что примерно 75 тыс. слов или 6 часов аудио. Теперь можно скармливать книжки/отчёты по 250 страниц или целые кодовые базы с гитхаба. Можно и дропать подкасты для суммаризации и ответов чатом.

На сайте можно запросить ранний доступ.

Подробное видео
Дайджест:

📹 ВИДЕО + АРТ 🎨

HumanRF: применение NeRF для запечатления людей в движении.

RAC: получение из видео с животным его 3D меша и скелета.

Relightly: реконструкция лица в 3D по одному фото для работы с освещением.

🎸 ЗВУК 🎸

Whisper JAX: теперь доступен в качестве endpoint для перевода речи в текст.

🤖 ЧАТЫ 🤖

Открытый лидерборд языковых моделей.

Арена для языковых моделей, у которой тоже есть свой лидерборд. Можно наглядно сравнить LLM'ки.

InstructBLIP: новая мультимодалка для чатов с картинками. Говорят показывает результаты лучше Llava и GPT-4. Под капотом Vicuna на 7B и 13B.

VideoChat: новый чат с видео. Судя по скриншотам может определить, что происходит на определенной секунде и меняется ли положение камеры. Но при тесте на своём видео годных результатов пока не увидел.

DeepFloyd IF поженили с RLHF датасетом Pick-a-Pick, чтобы одна модель генерила картинки, а другая по клику выбирала лучшие на основе ранее полученного человеческого фидбэка. Потенциально можно скрестить с агентами-трансформерами, но вот из 10 раз, что я потестил ни одну из выбранных нейронкой, я бы сам не выбрал.

Hugging Face: добавили ассистентов для больших языковых моделей. Маленькие модели (шустрые) генерируют ответ, а большие валидируют его. На тестах модель на 66B стала шустрее в 3 раза. Плюс, расшарили код интерфейса HuggingChat.

WikiWeb2M: датасет на основе википедии, который содержит полные страницы, подписи к картинкам, HTML код, и метаданные.

Датасеты, которые по одному вопросу определят человек с тобой разговаривает или бот.... Ну по крайне мере пока нейронка через AI-агента не скормит себе этот датасет.

QLoRa: Чуваки организовали способ зафайнтюнить 65B модель на одной видюхе (48 Гб). Поддерживаются все модели Hugging Face. Записаться в бета-тест.

SimilarWeb: из-за ChatGPT и CoPilot трафик Stack Overflow в марте упал на 13,9% по сравнению с февралем, а в апреле — на 17,7% по сравнению с мартом.
Будем тестить. Кто уже опробовал как впечатления?

Если вы еще не в бете подавайте заявки с разных акков. Авось с какого-нибудь проскочите

app.wonderdynamics.com
На следующей неделе все пользователи ChatGPT Plus получат доступ к веб-браузеру и плагинам, коих 70+ штук.

У кого уже есть подписка?

https://help.openai.com/en/articles/6825453-chatgpt-release-notes
A1111 обновился до версии 1.2.0

* На запуске больше не нужно ждать пока модели загрузятся
* Torch обновился до v 2.0.1
* и другие мелочи

https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/10328
На классные мини-игры наткнулся по наводке @cgevent 🤟🏻

В первой перед тобой Гендальф и тебе нужно вписать такой промт, который заставит его выдать тебе пароль для прохода на следующий уровень. Всего их 7. You shall pass!

Напоминает хакатон по промтингу, который сейчас идёт. Там тоже семь уровней, только общий призовой пул $37k.

Во второй тебе надо угадать какая из 4 картинок сгенерированная. И это ВАЩЕ НЕ ПРОСТО! Пробовали сегодня семьёй и большую часть времени мы не угадывали. Я потом отдельно тестил и с мобилы, и с 2к моника — даже вглядываясь не поймёшь где генерация, а азарт есть!

Го тестить!
У меня есть вопросы к тому как ChatGPT запрашивает данные через плагины... но пока он находит, что мне нужно у меня нет вопросов
Я был в полной уверенности, что сегодня воскресенье. Аплодисменты мне!

Дайджест:

📹 ВИДЕО + АРТ 🎨

Deforum: выпустили обновление, которое значительно исправляет когерентность цветов в A1111. Больше нет сероватых/дымных/туманных облаков, а цвета стали гораздо более живыми.

HACK (Head-And-neCK): модель для анатомически-точного реконструирования шеи и головы цифровых двойников.

Reference-only: метод генерации на ControlNet с высоким соответствием исходному изображению.

Ещё один SD плагин для Maya. Теперь от CG Monastery

🎸 ЗВУК 🎸

Google: открыли доступ к text-2-music модели MusicLM тем, кто ранее подавал заявки. Если что, её можно подать сейчас.

🤖 ЧАТЫ 🤖

OpenAI: доступ к плагинам и интернету уже начали выдавать владельцам плюсов. Вчера тестил весь день и это кайф!

Андрей Картпати: новый подход к обработке больших данных под названием MEGABYTE может помочь уйти от проблем с токенизацией. В основе разделение данных на мелкие патчи, где локальная модель обрабатывает каждый их них, а глобальная связывает всё воедино.

Рекуррентная нейронная сеть RWKV интегрировалась в библиотеку Transformers на HF.

Запускаем ламу 13B на 6ГБ видюхе.
Forwarded from shonenkov AI
This media is not supported in your browser
VIEW IN TELEGRAM
3D с DeepFloyd-IF выглядит неплохо, модель справилась с рендерингом и генерацией текста на кепке 👀

если вдруг кому-то интересно потыкать, то вот [GitHub с реализацией IF и 3D]

+ в комменты закинул еще несколько 3D анимаций

@shonenkovAI
Stability AI выпустили бету SDXL в дискорде для всех.

Чтобы генерить:
1) зайди в канал #bot с любым номером
2) вбей /dream promt: и дальше промт

Что значат кнопки:
🅰️Vote A: изображение слева лучше
🅱️Vote B: изображение справа лучше

✉️DM A и ✉️DM B: отправляем левое или правое изображение себе в личку (она же у тебя включена?)

🔁reDo: генерим другой варик по тому же промту

🎨reStyle: генерим полученные картинки в другом или случайном стиле: аниме, фотография, комикс, фэнтези

🖼reSize: генерим по тому же промту картинку случайного размера.

https://discord.gg/stablediffusion
SeViLA — нейронка, которая может распознать, что происходит на видео. Без субтитров, ChatGPT, регистрации и СМС.

1) Загружаешь видео
2) Задаёшь вопрос
3) Даёшь три варианта ответа
4) Video Frame я поставил 32 как в примерах, ибо не ясно что имеется ввиду
5) Keyframe это сколько кадров с указанным запросом надо найти

Из всего, что я тестил это первый пример, когда анализ видео сработал. Суммаризаторы на основе OpenAI требуют API и оно соответственно платное за каждый запрос. А эта вещь работает как в Gradio, так и локально можно крутить, если есть 12 ГБ видеопамяти. Початиться с видео нельзя, но на текущих скоростях, пока я это пишу, кто-то уже код такого решения заливает.

Демо