Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
3D Photo Inpainting — метод преобразования 2D изображения в 3D фото.

Изображение делится на слои, которые могут быть интерпретированы для генерации новых углов обзора. В таких частях кадра нейронка галлюцинирует цвет и глубину картинки, чтобы заполнить пустоту.

Сайт
Гитхаб
Демо
Дайджест:

📹 ВИДЕО + АРТ 🎨

ShapeClipper: генерация 3D-мешей по одной картинке.

🎸 ЗВУК 🎸

Демо MMS, инструмента для перевода на 1000+ языков. Есть перевод как голоса в текст, так и теста в голос. Плюс пост как зафайнтюнить модель, чтобы получать меньше ошибок.

🤖 ЧАТЫ 🤖

Опенсорсный проект Hugging Face попал в 100 самых влиятельных компаний по версии журнала TIME.

Deepmind: разработали модель BBF (Bigger, Better, Faster), который за 2 часа научился играть в игры Atari не хуже тестеров. Проекту нужно в 500 раз меньше данных для тренировки и его можно запустить на одном A100.

Chat2Code: модель для генерации кодовой базы, теперь в виде апы для MacOS.

DB-GPT: фреймворк для приватного общения с языковыми моделями, чтобы избежать утечек данных.
Ускоряем генерацию в SD с 4,5 минут —> до 14 сек

Я её уже упоминал на канале распределённую сеть Stable Horde, с помощью которой можно ускорить генерацию в Stable Diffusion в разы. Время показать её в действии. Особенно это зайдёт тем, у кого старое/слабое железо.

Что такое распределёнка — это сеть компьютеров по всему миру, которые могут делиться своими мощностями, чтобы ускорить генерацию контента. Когда вы нажимаете Generate ваш запрос по кусочкам разлетается на множество машин. Каждая из них будет обрабатывать свою часть картинки, а к вам придёт уже готовое изображение целиком.

Через Stable Horde можно генерить не только картинки, но и текст, голос, а также я думаю скоро сюда добавятся видео и музыка.

У проекта открытый исходный код, все репозитории можно посмотреть. В статистике на сайте видно, что он пользуется популярностью:

* Сгенерировано 65 млн изображений и 10 млн текстов
* Средняя скорость генераций 54 Мегапикселя/сек, а текста 674 токена/сек
* Обработано 843 Терапикселя

Сервис бесплатный, но генерация в порядке очереди. Чтобы ускорить процесс, просто регаетесь, берёте API ключ, вставляете его в автоматике во вкладке с настройками Stable Horde и вперёд.

Для генерации изображений через Stable Horde есть разные веб интерфейсы (остальные на сайте) и приложения как под Android, так и iOS (раз и два). Для генерации текста есть только веб-клиенты. Мне больше всего понравился Agnaistic как по количеству функций так и по интерфейсу.

Помимо этого для Stable Horde есть много инструментов. Боты:
* Telegram (раз и два)
* Discord
* Reddit
* итд.

Плагины ускоряющие генерации в:
* Photoshop (раз и два)
* Unreal
* Blender
* Automatic1111
* итд

Актуальные ссылки на всё смотрите на сайте Stable Horde.

1) И вот как раз про расширение для A1111 мы и поговорим. Для начала, поставим его. Это можно сделать зайдя в Extensions —> Available —> нажав Load from —> в поле поиска вбив Horde. Жмём Install напротив опции Stable Horde Client.

Если у вас хорошая видюха с 4+ Гб RAM вы можете поставить и Stable Horde Worker, чтобы помогать генерить другим людям. За это вам начисляются баллы в KUDOS. Так вы поддержите сообщество и получите приоритет в очереди на генерации.

2) Когда поставили, идите в Settings и перезагрузите интерфейс нажав Reload UI. У вас появятся две новые вкладки Stable Horde Interrogation и Stable Horde Settings. Первая нужна, чтобы получать из картинок по ссылкам в интернете промт, а вторая для настроек и конкретно указания API ключа.

3) Сам API ключ нужен, чтобы иметь приоритет при генерациях. Получить его можно зарегистрировавшись на сайте проекта. Причем регистрация заключается просто в указании Display Name, после чего отобразится API ключ, копируем его. Учтите, что сайт не хранит ваш API ключ и его лучше сохранить где-то отдельно, или залогиниться сначала аккаунтами Google, Discord, Github. Это важно для тех, кто хочет, чтобы KUDOS, начисленные за раздачу мощностей у них не пропадали.

4) Скопировав API ключ, идём в Stable Horde Settings и вставляем его в поле API key. Далее нажимаем Apply Settings.... и по сути всё, можно генерить.

Для этого идём в раздел txt2img и в Scripts выбираем Run on Stable Horde, а также целевую модель и эффекты для постобработки. На видео я сгенерил сначала локально на своей видюхе на ноуте GTX 1050 с 2 Гб VRAM без Stable Horde и на это ушло 4 м 33 сек, а потом через распределёнку.... и результат уже стал 14 сек. Разница почти в 20 раз!

Да оно будет прыгать от количества воркеров в сети, выбранной модели, настроек генерации, но это в любом случае буст и меньше необходимости покупать новое дорогостоящее железо. Чем больше будет воркеров, тем быстрее будут генерации. А с учетом того, что Microsoft, Nvidia, и AMD начали делать движения в сторону оптимизации для генераций (ONNX модели, DirectML, драйвера), а отец Stable Diffusion, Эмад Мостак, сказал на недавнем интервью, что вложил свои кровные в языковую модель, заточенную под кластеры, думаю эта тема будет развиваться.

YouTube обзор
Сайт Stable Horde
Расширение для A1111 (Client)
Расширение для A1111 (Worker)
Media is too big
VIEW IN TELEGRAM
Про метавселенную

На днях SDF Studio, фреймворк для 3D реконструкции локаций и объектов, который сделан на базе NeRFsudio интегрировали Neuralangelo — модель для конвертации масштабных двухмерных видео в трёхмерные NeRF сцены. SDF имеет унифицированную модульную структуру, благодаря чему можно внутри интерфейса переносить 3D реконструкцию между разными методами. Проект в опенсорсе, а добавление новых оптимизированных методов обработки визуальных данных позволит рендерить NeRF всё большему количеству людей. На видео Grid-guided NeRF.

Выступая на Positive Hack Days, я рассказывал какой будет настоящая метавселенная: фотореалистичная копия реальности, визуальный стиль которой можно переключать по щелчку, или наслаивать интерактивные элементы. И это будет пространство не для нас, а наших цифровых двойников, которым мы сможем передать через датасеты свои характеристики. Они будут выполнять наши поручения и фильтровать через себя весь контент/новости/спам и прочее, а нам рекомендовать, что посмотреть/послушать/купить и так далее. Потому что мы уже не успеваем следить за информацией вокруг, а они смогут быть везде сразу и всё успевать. С помощью цифровых двойников мы сможем сфокусироваться на важном для нас.

Например, после того как ты весь день занимался семьёй, творческими проектами, или пришёл домой с работы твой цифровой двойник предложит тебе посмотреть на голографическом экране или в VR шлеме концерт или фильм на котором он сегодня был. Можно и для терапии будет поговорить с ним как с зеркалом, где в отражении версия тебя, обладающая знаниями со всего мира.

И если взглянуть на тенденцию с конвертацией фоток/видео в 3D, обработкой городских локаций плюс субъектов в NeRF (включая динамические нерфы), ранние эксперименты с Free View Video (FVV), и распознаванием моушена на видео для лёгкой замены персонажей — то можно предположить, что дальше интерактив будет не с плоским контентом, а с его оцифрованными трёхмерными объектами. Даже Midjourney двигается в сторону "60 FPS fully volumetric 3D". (Ник постоянно...
... тусит в дискорде MJ на комьюнити созвонах, подгоняет инсайды, выдумывать эту инфу причин у него особо нет). Так что количество стилизаций "Во все тяжкие", "Гарри Поттера" и прочих будет увеличиваться, а визуальное качество их будет становиться лучше. Как 3D-рендер, с персонализацией вплоть до самостоятельного выбора позиции камеры, персонажа и диалога. Где лицами можно жонглировать через дипфейки, а голос пришить через TTS модели. Или подойти к этому через что-то вроде MetaHuman Animator.

И это автоматом не означает, что метаверс будет принадлежать Google/Apple/Nvidia/ и прочим ибо у них навалом данных.

1) Потому что, помимо данных у них и навалом обвязок регуляторами. Например, Google то и дело штрафуют на сотни миллионов долларов за нарушения в сборе и хранении информации о пользователях. Причём в некоторых юрисдикциях им даже не дают запустить фичи, потому что они не могут соблюсти требования. Если они не могут сохранно держать ваши персональные и финансовые данные часто сливая или продавая их налево, есть ли смысл доверять им своего цифрового двойника? Что они через него смогут узнать о вас/ каким левым людям дадут к нему доступ/ на каких документах поставят подпись или впишут дипфеком там где вас не было?

2) Облака не вывозят нагрузки. Даже ChatGPT со всем финансированием и ресурсами от Microsoft постоянно тупит и тормозит. А мы говорим про визуальные данные, которые тяжелее и хранить и обрабатывать. Тут ведь ещё не просто один раз сосканить комнату и сделать нерф на её основе как в Immersive View, нужно актуализировать данные (особенно для массовых мест). А если ещё наслоить сюда постоянно меняющиеся интерактивные элементы, смену визуальных стилей, AI-агентов которые будут в мете постоянно генерить контент вроде арта / видео/ музыки / 3D игр про AI-агента создающего 3D игру.... Здесь стоит вспомнить историю Boomy, через которых за 2 года сгенерировалось 14,5 миллионов треков, или 14% от всей записанной музыки в мире (глянул, уже ~16 млн треков, то есть +1,5 млн треков за 2 месяца). А таких проектов в ближайшие годы будут тысячи. Можно парировать, что бигтехи могут быстро нарастить компьют, но 52% полупроводниковых микросхем производит TSMC на Тайване и 18% Samsung в Южной Корее. Строить свои заводы в США и обучать людей это дорого и долго, да и экономические условия во времена краха банков и массовых увольнений в корпорациях не соблаговолят этому. Так, что велика вероятность, что они не смогут наращивать компьют нужными темпами.

Из-за давления регуляторов и узкого места в мощностях бигтехам придётся разворачивать проекты постепенно на ограниченной территории и аудитории... вот только это идёт в разрез со скоростями опенсорса. Прошло уже больше 9 месяцев как были анонсированы Imagen от гугла и Make-a-Video от запрещёнки.... где бы эти проекты сейчас ни были всем уже без разницы, потому что есть Zeroscope 2 XL, GEN-2, Potat1, модели с ControlNet на борту, и тд. Этот рынок никого не ждёт — если дверь закрыта, народ ломанётся в те что открыты.

А дальше просто будут нейронки, которым скармливаешь скриншот приложения, описываешь как оно работает, а нейронка тебе генерит его код, и ты можешь также чатом его персонализировать под себя....

Большие языковые и генеративные модели уже помещаются локально на одну видюху, телефон, запускаются прямо в браузере через WebGPU, и их можно даже ускорить через распределёнку вроде Stable Horde. Так что ваши приватные данные, цифровой двойник, сгенерированный контент, и мета-проекты могут не покидать ваше устройство.

Дело за визуализацией меты исходя из такого контекста, а также экономической моделью. И движ в эту сторону есть...

Интернет по своей природе децентрализован и построен на свободном программном обеспечении. Вероятно таким же будет и метаверс.
Чуть подробнее о голографическом экране с предыдущего поста — Looking Glass. Если в телефоне у нас 1 вид на контент, в VR шлеме 2 вида (по одному на каждый глаз), то в Looking Glass одновременно показывается до 100 видов одной трехмерной сцены, что даёт возможность смотреть контент большой компанией людей с разных углов и продолжать видеть объём — трехмерный опыт без VR шлема. Причем даже есть интерактив: с контентом можно взаимодействовать руками в воздухе или контроллером.

Из других ништяков: 3D художники могут презентовать гостям свои проекты в нативной трёхмерной форме и тестировать варианты креативов. Есть плагины для UE, Blender, Unity, WebXR, итд. Можно и уже существующий фото (и видео?) контент конвертировать в голограммы (через сайт платно, либо карту глубины самим делать). Даже есть отдельный раздел, где можно делиться голограммами, в один клик примерить чью-то голограмму у себя на экране, или встроить свою на любую страницу в интернете через embed.

Недавно я зашёл в бету Lifeforms. Это голограмма, с которой можно говорить голосом. Персонажа можно менять из списка или своего подгружать, а на обработке запросов зафайнтюненный GPT-4.

Я протестировал Uncle Rabbit и мне он своим характером и ответами понравился даже больше, чем просто GPT-4. Чувствовалось, что он отыгрывает роль. Скорость ответов бы пореще и мультиязычность, но в дискорде говорят через SDK можно подрубать локальные модели вроде ламы.

Пришиваем это к цифровому двойнику, групповым созвонам с коллегами, или просто общению с близкими. Затем добавляем возможность менять сеттинг (эльфийский лес, вечеринка в жерле вулкана, исследование инопланетной цивилизации, итд) и вот это уже намного ближе к метавселенной, с которой люди могут взаимодействовать ежедневно.

Проблема лишь в цене. $399 за портретную рамку ещё ок, но $3,000 за 32 дюймовый экран и $20,000 за 65 дюймов это цены очень далекие от массмаркета.

Хотя вот эта вещь ещё дороже...
Media is too big
VIEW IN TELEGRAM
В 2008 году, когда я только поступил в инст, мой первый доклад был о возможности выражать мысли из воображения в цифровое пространство. На тот момент через фМРТ можно было выразить только ч/б изображение 8х8 пикселей. Ближайшим к потребительскому уровню Нейро-Компьютерным Интерфейсом (НКИ) тогда был Emotiv, который успешно дожил и до наших дней. Их устройство работает как портативная ЭЭГ, и позволяет мысленно управлять подключенными предметами в физическом и цифровом пространствах, помогает в принятии решений на основе мозговой активности, и есть примеры выражения музыки.

С тех пор мы уже можем значительно больше. Из последних проектов, что попадались на глаза:

* Через фМРТ можно приблизительно считать лицо человека, о котором думаем. Или прочесть мысли после прослушанного подкаста.
* С помощью НКИ, можно помочь озвучивучить внутренний диалог или выйти в интернет и общаться со всем миром.
* MindEye: на основе снимков активности мозга с помощью Stable Diffusion можно получить кадры из воображения в высокой точностью. Проект может замапить данные с фМРТ мультимодально, причём даже есть код.
* MinD-Vis: тоже работает на основе диффузии, и тоже есть код. Плюс другое исследование тоже на основе SD и высоким качеством изображений.
* CEBRA: декодируем сигналы мозга мыши в реальном времени, чтобы воссоздать ч/б фильм 60-х годов, который она видела и какие эмоции испытала.
* MinD-Video (расширение MinD-Vis): с помощью фМРТ и диффузии генерим видео из мыслей. Причём семплы на видео в посте ограничены по длине, fps, и разрешению, так как сгенерированы на RTX 3090. Но через MinD-Video можно генерить и длинные видео со скорость 30 fps большего разрешения.

Так что скоро сможем из воображения напрямую кино, музыку и тд. выражать на компьютер или прямо в сеть. А мозг будет восприниматься как ещё один носитель — ментальный.

И уже не будет такого, что кто-то решает какой фильм будет сниматься а какой нет, какой трек пойдёт в массы а какой нет. Пришла в голову идея — сразу её воплотил и поделился с миром.
Дайджест новостей пока я писал посты выше. Ключевые новости выпущу отдельными постами:

📹 ВИДЕО + АРТ 🎨

Hugging Face: выпустили свой генератор QR-кодов. Эти легче считываются.

HyperReel: создаём высококачественные видео со свободной точкой обзора (FVV).

MDFdiffusion: генерим панорамы по тексту. Напоминает SyncDiffusion, но последний вроде лучше по качеству.

DragGAN: демо и код проекта, где можно просто мышкой менять изображение.

Orthogonal Finetuning (OFT): новый метод файнтюна диффузионных моделей, который помогает улучшить качество и скорость генерации изображений из текста.

PoseDiffusion: используем диффузию для анализа лучшего положения камеры.

Unity: выпустит Muse, AI-инструментарий для разработчиков игр, через который не зная кода можно будет делать 3D игры.

MobileSAM: легковесная версия SAM для сегментации. На одном GPU показывает около 12 мс на изображение: 8 мс на кодирование и 4 мс на декодирование маски.

PlaygroundAI: выпустили инструмент Mixed Image Editing в котором можно генерить изображения, редактировать их инпейнтом или текстом. На рекламном видеохорошо понимается контекст. Как оно вреале, посмотрим.

OpenMask3D: сегментация 3D объектов с открытым словарём в помощь AI-агентам.

Kosmos-2: мультимодальная большая языковая модель (MLLM), которая позволяет воспринимать описания объектов и связывать текст с визуальным миром.

Restart: новый алгоритм для генеративных моделей, который улучшает баланс между скоростью и качеством, превосходя другие методы и ускоряя процесс в 10 раз на CIFAR-10 и в 2 раза на ImageNet.

MotionGPT: модель на связке текста и моушена. Можно попросить показать как сделать бэкфлип, описать движения персонажа, или предсказать следующий шаг... Осталось посадить её перед монитором следить за курсом на бирже.

Blended-NeRF: редактирование объектов в NeRF. Кода пока нет.

DreamEditor: тоже редактирование NeRF и тоже кода нет.

🎸 ЗВУК 🎸

AudioPaLM: переводим голосовое общение между коллегами, разговаривающими на разных языках. Маркетинг и IT отделы таки найдут общий язык? Кода нет, так что не узнаем.

Нашелся способ через Whisper в один шаг сразу переводить генерируемый текст, минуя распознавание речи.

3D Speaker: датасет для распознавания речи в зависимости от контекста вроде расстояния, записываемого устройства, итд.

🤖 ЧАТЫ 🤖

Stability AI: выпустили V2 версию OpenFlamingo, своей мультимодальной модели, которая позволяет чатиться с изображеними, видео, и тексом. Она на 80% производительней предыдущей версии, имеет поддержку распределённых вычислений, и менее ограничительна в плане лицензий, чем лама.

MozaicML: запустили чат с моделью MPT-30B, обученной на 1Т токенов. Есть коммерческая лицензия.

Пилим собственные плагины для ChatGPT с помощью Gradio.

Hugging Face:
* добавили аренду облачного хранилища с поминутной оплатой
* пришили генерацию временных меток к Whisper, а также перескакивание внутри видео по ключевым словам
* а через фильтр Transformers.js можно в поиске найти, которые можно запустить прямо в браузере

LMFlow: простой инструмент для файнтюна LLM.

Salesforce: представили XGen-7B, новую 7B LLM натренированную на 1.5T токенов. Говорят генерит код и текст лучше MPT, Falcon, LLaMA, и OpenLLaMA.

CLIPA-v2: это улучшенная модель CLIP, которая достигает точности 81,1% на ImageNet без обучения с учителем при бюджете в $10,000, превосходя предыдущую лучшую модель CLIP и сокращая вычислительные затраты на ~39X.

Расширение контекста больших языковых моделей с помощью позиционной интерполяции.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
DynIBaR — нейронный рендеринг динамических сцен. Модель может взять обычное 2D видео и дать ему 3D объём.

Что нам это даёт:
* возможность менять положение камеры на уже снятом видео,
* смешать точку фокуса в кадре
* делать анимацию движения камеры
* стабилизировать картинку
* ваять стерео 3D
* и, возможно, играть с освещением

Сайт
Код

PS: хотел сделать пост об этом 2 недели назад, но тогда кода не было. Хорошо, что релизнули.
This media is not supported in your browser
VIEW IN TELEGRAM
Zeroscope 2 XL — модель для генерации видео по тексту на основе Modelscope, но без водяного знака.

Обучена со смещенным шумом на 9 923 клипах и 29 769 помеченных кадрах с фремрейтом 24 к/с и разрешением 1024x576.

Работает на связке двух моделей: базовая генерит 576x320 (zeroscope_v2_576w), а другая апскейлит до 1024x576 (zeroscope_v2_XL). Только так можно получить хорошую картинку как на видео выше, ибо просто базовый генератор выдаёт среднее качество. Поэтому после того как в базе сгенерите основу в 576x320 отправьте его в апскейлер, чтобы получить 1024x576. Как вариант, базовое видео ещё можно сгенерить из картинки здесь.

Это можно сделать и в колабе: когда всё прогрузится перейдите по ссылке на webui и в расширении text2video переключитесь на vid2vid. Гайд от автора.

Если не хотите копаться ни с чем, можете воспользоваться Replicate — тут просто пишешь промт, нажимаешь внизу Submit и получаешь видео. Вот гайд.

Гитхаб автора со всеми коллабами
StabilityAI выпустили SDXL 0.9

Новый SDXL работает на связке базовой модели, которая генерит картинку, и рефайнера, который улучшает её.

Базовая модель обладает 3.5B параметров, и переключается в 6,6B параметров в режиме тандема (когда обе модели работают над итоговой картинкой). Для сравнения бета имела 3,1B параметров и использовала только базовую модель.

Для запуска потребуется видеокарта как минимум с 8 ГБ VRAM плюс 16 ГБ оперативки. На генерируемых картинках ставится невидимый водяной знак, и он не тот же, что в предыдущих версиях.

Релиз версии 1.0 запланирован на середину июля. На гитхабе код базовой модели и рефайнера. Веса доступны по запросу.

Можете попробовать SDXL бесплатно уже сейчас в Nightcafe. Если авторизоваться или выполнить другие таски вам дадут халявные кредиты на генерации. А если сгенерированное опубликовать, то ещё кредитов насыпят. Например, эту картинку с киберпанк котаном я там сгенерировал. Там нет negative promt поэтому есть артефакты. Вот ещё пара примеров: раз и два. Промт: cat in the cyberpunk city

Анонс
Гитхаб
Nightcafe
Midjourney обновилась до версии 5.2

Помимо мелочей тут и там, добавили фичу Zoom Out, и быстро переняли на себя хайп вокруг Generative Fill. Она хорошо считывает контекст и добавляет деталей при отдалении картинки с каждой итерацией.

Чтобы ей воспользоваться надо сначала увеличить картинку через кнопку Upscale, а затем нажать Zoom х1,5 или х2 чтобы отдалить её в соответствующее количество раз. Есть ещё Custom zoom для установки отдаления вручную.

Народ очень быстро сложил 2 + 2 и от генерации картинок перешел к склейке их в видео. Зачастую получается весьма годно.

Хотя для пользователей SD тут ничего нового, Infinite Zoom в A1111 уже давно живёт и развивается.

PS: если смотреть долго в центр отдаляющегося видео, то когда оно остановится, реальность перед глазами будет немного пульсировать, словно приближаться. Это оптический эффект.