Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Чуваки сделали гаусианный AR рендер для iOS устройств с Metal на борту.

Твит
Гитхаб
будь бунтарём
Дайджест:

📹 ВИДЕО + АРТ 🎨

ProPainter обзавёлся колабом. Работает без веб-интерфейса... *воет по юзверьски*

DreamGaussian: гауссианная генерация 3D-модели занимает 1 минуту против 15 с нерфами. Однако опять нет интерфейса. * выступает дуэт Вой вдвоём*

GSGEN: тоже генерация 3D через гауссианы, и тоже без интерфейса. *группа Voi — переворот стола.mp3*

Простая замена фона через SDXL.

Выкатили демо для FreeU.

Microsoft: показала инструмент CCEdit для смены стиля видео с неплохой консистентностью. Вот только нет кода, и опенсорсный Render-a-Video намного лучше по качеству.

AnimeInBet: генерация промежуточных кадров между кейфреймами в аниме. Напоминает DragNUWA, только код открыт.

CarperAI, являющийся одним из проектов StabilityAI, представили DRLX (Diffusion Reinforcement learning), библиотеку для RLHF диффузионных моделей, которая может помочь с распределённой тренировкой и масштабирование инференса.

Phygital+: добавили легкую рестилизацию SDXL, цветокор, поддержку GPT-4, и другие ништяки.

CSM: добавили генерацию 3D моделей по тексту.

Scene Dreamer: появился код модели для генерации 3D миров по 2D изображению.

Демо InstFlow для быстрой генерации через SD в 1 шаг.

Модель для генерации видео на основе аудио и текстовой подсказки.

🎸 ЗВУК 🎸

Spotify: добавили переводы подкастов на другой язык с сохранением интонации. Работает через Whisper от OpenAI. Странно, что не сообразили своё решение.

🤖 ЧАТЫ 🤖

OpenAI: завезли в ChatGPT, а также GPT-4 возможность скармливать картинки и аудио. Нейронка может давать подсказки что делать и отвечать одним из нескольких голосов на выбор. Постепенно разворачивают это среди владельцев плюсов. Ещё ChatGPT теперь может искать информацию в интернете и его данные обновились до января 2022 года.

Open Interpreter: опенсорсная вариация Code Interpreter от OpenAI, которая работает локально с 100+ LLM.

DVLab: зафайнтюнили ламу-2 13В и 70В работать с 32К контекстом. Демо туть.

Тем временем запрещёнка сама презентовала ламу 2 с 32К контекстом, которая превосходит gpt-3.5-turbo-16k на тестах. Также анонсировала AI чат-бота интегрированного в их сервисы, языковую модель AnyMAL, которая может чатиться по картинкам, видео, аудио, итд. Плюс text-2-image модель Emu, которая может помимо картинок ваять стикеры.

Microsoft: выкатили обнову Windows 11 с AI-фичами, а также интегрировали Bing в упомянутого выше чат-бота запрещёнки.

Mistral: выпустили 7B модель, которая лучше ламы 2-13В на бенчмарках, хорошо умеет в код, обладает 8К контекстом и дружелюбной коммерческой лицензией. Сможешь поиграться на своей игровой видюхе.

Hugging Face Transformers теперь имеют поддержку Flash Attention 2, что значит можно файнтюнить и запускать модели вроде Falcon и ламы в 2 раза быстрее.

QA-LoRA: новый подход к созданию лор, с фокусом на балансе между свободной и квантизацией. Можно применить парой строчек кода.

Intel: выпустили библиотеку на питоне для эффективной квантизации моделей в формат FP8 после тренировки.

BlindChat: опенсорсная альтернатива ChatGPT с фокусом на приватности — работает локально в браузере, на первом запуске качается модель LaMini-Flan-T5-783M.

JAM: фреймворк для модульной совместной работы языковых и генеративных моделей.

DeepSpeed Ulysses: метод высокоэффективного и масштабируемого обучения LLM с чрезвычайно большим контекстом.

DeepSpeed-VisualChat: обучаем 70B языковые модели мультимодальности... нет оно не связано с проектом выше.

VideoDirectorGPT: модель делает подробные описания происходящего на видео. Кода пока нет.

Зато есть проект VidChapters-7M, в котором собран датасет из 817К свободных видео и 7М подписей к ним.

SCREWS: модульный фреймворк дающий LLM возможность вернуться к своему ответу, обдумать его и отвечать лучше в последствии.

ReConcile: круглый стол для LLM, где они могут обсудить шаг за шагом работу над тасками.

CodePlan: планируем и кодим репозитории с помощью LLM. Плюс исследование на тему кибербезопасности кода.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
За неделю сразу несколько text-2-video моделей вышли в поле зрения.

Replay от Genmo:
Может похвастаться качеством 720p в 30 к/с и высокой консистентностью картинки. Есть управление камерой и уровнем движения в кадре. Также имеются эффекты для контроля генерации масками, своего-рода как в Pika Labs (о чем в следующем посте). Негативного промта нет, так что лучше поподробнее прописать основной запрос. Вкинуть свою картинку как основу тоже нельзя. Есть инструмент Animate, но он для создания гифок и упразднён ибо вместо него Replay теперь. Зато на генерацию дают 100 fuel в день. Сколько это в крутках тяжело сказать, ибо помимо видео можно генерить картинки, гифки, текст, и 3D, а сводной таблицы или вообще упоминания стоимости генерации не видно.

LaVie
Фреймворк из text-2-video модели, инструмента для интерполирования кадров и консистентной картинки, а также апскейлера для повышения разрешения. Кода пока нет.

Show-1
Сочетает в себе пиксельную и латентную диффузионные модели для генерации видео по тексту. Пиксельная используется для создания видео с низким разрешением и сильной корреляцией между текстом и видео, а латентная увеличивает разрешение до высокого качества.
This media is not supported in your browser
VIEW IN TELEGRAM
Ах да, ещё AnimateDiff обзавёлся контролем камеры.

Гитхаб
Твит
Pika Labs внедрили фичу "encrypt" — можно в видео зашифровать текст или изображение. Они применяются как маски и их легче заметить, когда прищуришься.

Команда /encrypt_text зашифровывает в видео текст до 20 символов. Параметры к ней:

message: текст для шифрования.
prompt: описание видео, работает с другими параметрами.
image (необязательно): картинка на которой генерация будет основываться.
font (необязательно): шрифт зашифрованного текста, доступно 5 доступных вариантов (см. видео).
-w (необязательно): вес текста, чем большее значение, тем он заметнее (диапазон: от 0 до 2, по умолчанию 1).
-size (необязательно): размер шрифта (диапазон: от 50 до 100, по умолчанию 100).

Командой /encrypt_image, можно в видео зашифровать изображение (например, портрет, логотип, и т.д.) Параметры:

message: прикладываем изображение, которое нужно зашифровать.
prompt: описание видео, работает с другими параметрами.
image (необязательно): картинка на которой генерация будет основываться.
-w (необязательно): вес вшиваемого изображения, чем большее значение, тем он заметнее (диапазон: от 0 до 2, по умолчанию 1).
Media is too big
VIEW IN TELEGRAM
Пика-пика, котаны! Опробовал /encrypt_text от Pika Labs в сочетании с движениями камеры. Для фиксирования стиля использовал один и тот же сид (его видно в названии скачанной с дискорда генерации). Дальше собрал это всё в Davinci, а музыку сгенерил в Stable Audio.

message (вшиваемый текст): PSY EYES

промты для каждого движения камеры:

по часовой: top view of a cyberpunk city at night -seed XXXX -camera rotate cw

против часовой: top view of a cyberpunk city at night -seed XXXX -camera rotate ccw

приблизить: top view of a cyberpunk city at night -seed XXXX -camera zoom in

отдалить: top view of a cyberpunk city at night -seed XXXX -camera zoom out

влево: top view of a cyberpunk city at night -seed XXXX -camera pan left

вправо: top view of a cyberpunk city at night -seed XXXX -camera pan right

вверх: top view of a cyberpunk city at night -seed XXXX -camera pan up

вниз: top view of a cyberpunk city at night -seed XXXX -camera pan down

Для рекламных роликов, музыкальных видео, а скоро и футажей с дрона весьма интересная вещь.

Основные параметры в Pika Labs
Параметры для управления камерой
Параметры для вживления текста или изображения
StabilityAI выпустили языковую модель Stable LM 3B.

Она сделана с фокусом на мобильных устройствах, где будет потреблять мало ресурсов и обойдётся дешевле в обслуживании. Её можно зафайнтюнить на своих данных, чтобы она была экспертом в указанной области.

Натренирована на 1Т (триллионе) токенов в течение 4 эпох на 256 A100 и показывается себя лучше остальных в своём классе, плюс превосходит некоторые 7B модели. Контекст 4К, весит 5,5 Гб.

А ещё на днях вышла Mistral 7B, которая лучше ламы-2 13B на бенчмарках. То есть маленьких, но мощных и оптимизированных моделей становится всё больше.

Эмад ожидает увидеть рой таких экспертов на телефоне в следующем году.

Анонс
Модель на HF
Код
Технический отчёт
Дайджест:

📹 ВИДЕО + АРТ 🎨

ControlNet-XS: улучшенная версия ControlNet, которая использует 1% параметров базовой модели. Не от авторов оригинального ControlNet.

Morph Studio: добавили контроль камеры и повышенный фреймрейт до 30 к/с.

SD-XL LoRA Fusion: инструмент для слияния двух SDXL моделей.

LD-ZNet: сегментация реальных и сгенерированных картинок текстом.

SMPLer-X: перенос своих движений на цифрового аватара.

Climate NeRF: нерф с симуляцией погодных условий. Может работать на 3090.

Что будет если контроль кадра отдать визуализатору а-ля винамп.

Веб-интерфейс для удаления объектов на изображениях через SD. Основано на Lama Cleaner. Коль генерации в Firefly от адоба теперь платные, вполне вариант. Ещё на эту тему можно глянуть Gyre и удаление текстом.

🤖 ЧАТЫ 🤖

LocalPilot: запускаем GitHub Copilot локально на M2 Max.

Fireworks: платформа для упрощённого запуска и файнтюна опенсорсных моделей, добавили LangChain, через которых можно делать цепочки задач для AI.

Как зафайнтюнить Falcon 180B с помощью PEFT и DeepSpeed.

Доки:
* как натренировать своего чат-бота на основе ламы 2.
* проблема архитектуры CLIP, и предложение альтернативы в виде MetaCLIP.
* дополнительные токены на вводе ViT помогают разобраться с артефактами.
* даём LLMкам исправлять себя самостоятельно.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Ультра-детальные генерации, заходящие в поле гигапиксельной фотографии.

На первых двух видео авторы сгенерировали базу, а потом заапскейлили её 7 раз, получая в одном случае из 1600x800 разрешение 36432 X 18160, что равно 661.60 Мегапикселям. Вес такого изображения 1,22 Гб. Причём один из авторов таки пошёл дальше и запилил гигапиксельные арты на EazyZoom.

На третьем видео использован нерф — NeuRBF. Там 2D изображение переводится в 3D пространство, что позволяет делать сильное приближение. Благодаря встроенной коррекции ошибок, детальность не теряется и подход показывает себя лучше InstantNGP.

Реддит 1
Реддит 2
Media is too big
VIEW IN TELEGRAM
StreamingLLM — фреймворк для общения с языковыми моделями в режиме стриминга (когда тебе не вся информация сразу выдаётся, а по кусочку).

Например у GPT-4 есть ограничение в 50 сообщений, потом он теряет контекст и ему нужно его напоминать. Данный фреймворк решает эту проблему, работает с любой LLM без файнтюна, и позволяет выйти в в разговоре за 4 млн токенов (20+ млн символов). Но это именно в режиме диалога — скормить ему книжку пока не получится, ибо он возьмёт на вход только последние главы. Но это пока...

Код
This media is not supported in your browser
VIEW IN TELEGRAM
3DGS, они же сплаты (или гауссианы), на связи.

Для видео выше народ из Infinite-Realities использовал свою систему видеосканирования на RGB+W (здесь W означает белый светодиод), которая позволяет захватывать статические позы человека под разными шаблонами освещения, основанными на HDRI-зондах.

Затем гауссианы были натренированы, подрезаны, очищены и отрендерены с помощью модифицированной версии Sibr viewer от Inria.

Потом закинули отрендеренные кадры в After Effects, чтобы скомпоновать гауссианы обратно на изображения HDRI, которые использовались в установке RGB+W. Причём система позволяет генерировать сцены в разных вариантах освещения.

Дальше использовался плагин CamTrackAR для получения данных о движении с iPhone, чтобы имитировать реальный захват с рук.

Учитывая что через нерфы уже можно оцифровывать предметы и делать интерактив, например игры... ждём подобных вкусняшек на гауссианнах.