Psy Eyes

Чуть подробнее о голографическом экране с предыдущего поста — Looking Glass. Если в телефоне у нас 1 вид на контент, в VR шлеме 2 вида (по одному на каждый глаз), то в Looking Glass одновременно показывается до 100 видов одной трехмерной сцены, что даёт возможность смотреть контент большой компанией людей с разных углов и продолжать видеть объём — трехмерный опыт без VR шлема. Причем даже есть интерактив: с контентом можно взаимодействовать руками в воздухе или контроллером.

Из других ништяков: 3D художники могут презентовать гостям свои проекты в нативной трёхмерной форме и тестировать варианты креативов. Есть плагины для UE, Blender, Unity, WebXR, итд. Можно и уже существующий фото (и видео?) контент конвертировать в голограммы (через сайт платно, либо карту глубины самим делать). Даже есть отдельный раздел, где можно делиться голограммами, в один клик примерить чью-то голограмму у себя на экране, или встроить свою на любую страницу в интернете через embed.

Недавно я зашёл в бету Lifeforms. Это голограмма, с которой можно говорить голосом. Персонажа можно менять из списка или своего подгружать, а на обработке запросов зафайнтюненный GPT-4.

Я протестировал Uncle Rabbit и мне он своим характером и ответами понравился даже больше, чем просто GPT-4. Чувствовалось, что он отыгрывает роль. Скорость ответов бы пореще и мультиязычность, но в дискорде говорят через SDK можно подрубать локальные модели вроде ламы.

Пришиваем это к цифровому двойнику, групповым созвонам с коллегами, или просто общению с близкими. Затем добавляем возможность менять сеттинг (эльфийский лес, вечеринка в жерле вулкана, исследование инопланетной цивилизации, итд) и вот это уже намного ближе к метавселенной, с которой люди могут взаимодействовать ежедневно.

Проблема лишь в цене. $399 за портретную рамку ещё ок, но $3,000 за 32 дюймовый экран и $20,000 за 65 дюймов это цены очень далекие от массмаркета.

Хотя вот эта вещь ещё дороже...

1K viewsAndrey Bezryadin, 17:10

В 2008 году, когда я только поступил в инст, мой первый доклад был о возможности выражать мысли из воображения в цифровое пространство. На тот момент через фМРТ можно было выразить только ч/б изображение 8х8 пикселей. Ближайшим к потребительскому уровню Нейро-Компьютерным Интерфейсом (НКИ) тогда был Emotiv, который успешно дожил и до наших дней. Их устройство работает как портативная ЭЭГ, и позволяет мысленно управлять подключенными предметами в физическом и цифровом пространствах, помогает в принятии решений на основе мозговой активности, и есть примеры выражения музыки.

С тех пор мы уже можем значительно больше. Из последних проектов, что попадались на глаза:

* Через фМРТ можно приблизительно считать лицо человека, о котором думаем. Или прочесть мысли после прослушанного подкаста.
* С помощью НКИ, можно помочь озвучивучить внутренний диалог или выйти в интернет и общаться со всем миром.
* MindEye: на основе снимков активности мозга с помощью Stable Diffusion можно получить кадры из воображения в высокой точностью. Проект может замапить данные с фМРТ мультимодально, причём даже есть код.
* MinD-Vis: тоже работает на основе диффузии, и тоже есть код. Плюс другое исследование тоже на основе SD и высоким качеством изображений.
* CEBRA: декодируем сигналы мозга мыши в реальном времени, чтобы воссоздать ч/б фильм 60-х годов, который она видела и какие эмоции испытала.
* MinD-Video (расширение MinD-Vis): с помощью фМРТ и диффузии генерим видео из мыслей. Причём семплы на видео в посте ограничены по длине, fps, и разрешению, так как сгенерированы на RTX 3090. Но через MinD-Video можно генерить и длинные видео со скорость 30 fps большего разрешения.

Так что скоро сможем из воображения напрямую кино, музыку и тд. выражать на компьютер или прямо в сеть. А мозг будет восприниматься как ещё один носитель — ментальный.

И уже не будет такого, что кто-то решает какой фильм будет сниматься а какой нет, какой трек пойдёт в массы а какой нет. Пришла в голову идея — сразу её воплотил и поделился с миром.

1.31K viewsAndrey Bezryadin, edited 01:53

Psy Eyes

817 viewsAndrey Bezryadin, edited 13:08

Psy Eyes

Дайджест новостей пока я писал посты выше. Ключевые новости выпущу отдельными постами:

📹 ВИДЕО + АРТ 🎨

Hugging Face: выпустили свой генератор QR-кодов. Эти легче считываются.

HyperReel: создаём высококачественные видео со свободной точкой обзора (FVV).

MDFdiffusion: генерим панорамы по тексту. Напоминает SyncDiffusion, но последний вроде лучше по качеству.

DragGAN: демо и код проекта, где можно просто мышкой менять изображение.

Orthogonal Finetuning (OFT): новый метод файнтюна диффузионных моделей, который помогает улучшить качество и скорость генерации изображений из текста.

PoseDiffusion: используем диффузию для анализа лучшего положения камеры.

Unity: выпустит Muse, AI-инструментарий для разработчиков игр, через который не зная кода можно будет делать 3D игры.

MobileSAM: легковесная версия SAM для сегментации. На одном GPU показывает около 12 мс на изображение: 8 мс на кодирование и 4 мс на декодирование маски.

PlaygroundAI: выпустили инструмент Mixed Image Editing в котором можно генерить изображения, редактировать их инпейнтом или текстом. На рекламном видеохорошо понимается контекст. Как оно вреале, посмотрим.

OpenMask3D: сегментация 3D объектов с открытым словарём в помощь AI-агентам.

Kosmos-2: мультимодальная большая языковая модель (MLLM), которая позволяет воспринимать описания объектов и связывать текст с визуальным миром.

Restart: новый алгоритм для генеративных моделей, который улучшает баланс между скоростью и качеством, превосходя другие методы и ускоряя процесс в 10 раз на CIFAR-10 и в 2 раза на ImageNet.

MotionGPT: модель на связке текста и моушена. Можно попросить показать как сделать бэкфлип, описать движения персонажа, или предсказать следующий шаг... Осталось посадить её перед монитором следить за курсом на бирже.

Blended-NeRF: редактирование объектов в NeRF. Кода пока нет.

DreamEditor: тоже редактирование NeRF и тоже кода нет.

🎸 ЗВУК 🎸

AudioPaLM: переводим голосовое общение между коллегами, разговаривающими на разных языках. Маркетинг и IT отделы таки найдут общий язык? Кода нет, так что не узнаем.

Нашелся способ через Whisper в один шаг сразу переводить генерируемый текст, минуя распознавание речи.

3D Speaker: датасет для распознавания речи в зависимости от контекста вроде расстояния, записываемого устройства, итд.

🤖 ЧАТЫ 🤖

Stability AI: выпустили V2 версию OpenFlamingo, своей мультимодальной модели, которая позволяет чатиться с изображеними, видео, и тексом. Она на 80% производительней предыдущей версии, имеет поддержку распределённых вычислений, и менее ограничительна в плане лицензий, чем лама.

MozaicML: запустили чат с моделью MPT-30B, обученной на 1Т токенов. Есть коммерческая лицензия.

Пилим собственные плагины для ChatGPT с помощью Gradio.

Hugging Face:
* добавили аренду облачного хранилища с поминутной оплатой
* пришили генерацию временных меток к Whisper, а также перескакивание внутри видео по ключевым словам
* а через фильтр Transformers.js можно в поиске найти, которые можно запустить прямо в браузере

LMFlow: простой инструмент для файнтюна LLM.

Salesforce: представили XGen-7B, новую 7B LLM натренированную на 1.5T токенов. Говорят генерит код и текст лучше MPT, Falcon, LLaMA, и OpenLLaMA.

CLIPA-v2: это улучшенная модель CLIP, которая достигает точности 81,1% на ImageNet без обучения с учителем при бюджете в $10,000, превосходя предыдущую лучшую модель CLIP и сокращая вычислительные затраты на ~39X.

Расширение контекста больших языковых моделей с помощью позиционной интерполяции.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

977 viewsAndrey Bezryadin, edited 13:08

Psy Eyes

1:40

This media is not supported in your browser

VIEW IN TELEGRAM

DynIBaR — нейронный рендеринг динамических сцен. Модель может взять обычное 2D видео и дать ему 3D объём.

Что нам это даёт:
* возможность менять положение камеры на уже снятом видео,
* смешать точку фокуса в кадре
* делать анимацию движения камеры
* стабилизировать картинку
* ваять стерео 3D
* и, возможно, играть с освещением

Сайт
Код

PS: хотел сделать пост об этом 2 недели назад, но тогда кода не было. Хорошо, что релизнули.

1.16K viewsAndrey Bezryadin, edited 14:01

Psy Eyes

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Zeroscope 2 XL — модель для генерации видео по тексту на основе Modelscope, но без водяного знака.

Обучена со смещенным шумом на 9 923 клипах и 29 769 помеченных кадрах с фремрейтом 24 к/с и разрешением 1024x576.

Работает на связке двух моделей: базовая генерит 576x320 (zeroscope_v2_576w), а другая апскейлит до 1024x576 (zeroscope_v2_XL). Только так можно получить хорошую картинку как на видео выше, ибо просто базовый генератор выдаёт среднее качество. Поэтому после того как в базе сгенерите основу в 576x320 отправьте его в апскейлер, чтобы получить 1024x576. Как вариант, базовое видео ещё можно сгенерить из картинки здесь.

Это можно сделать и в колабе: когда всё прогрузится перейдите по ссылке на webui и в расширении text2video переключитесь на vid2vid. Гайд от автора.

Если не хотите копаться ни с чем, можете воспользоваться Replicate — тут просто пишешь промт, нажимаешь внизу Submit и получаешь видео. Вот гайд.

Гитхаб автора со всеми коллабами

1.02K viewsAndrey Bezryadin, edited 16:20

Psy Eyes

StabilityAI выпустили SDXL 0.9

Новый SDXL работает на связке базовой модели, которая генерит картинку, и рефайнера, который улучшает её.

Базовая модель обладает 3.5B параметров, и переключается в 6,6B параметров в режиме тандема (когда обе модели работают над итоговой картинкой). Для сравнения бета имела 3,1B параметров и использовала только базовую модель.

Для запуска потребуется видеокарта как минимум с 8 ГБ VRAM плюс 16 ГБ оперативки. На генерируемых картинках ставится невидимый водяной знак, и он не тот же, что в предыдущих версиях.

Релиз версии 1.0 запланирован на середину июля. На гитхабе код базовой модели и рефайнера. Веса доступны по запросу.

Можете попробовать SDXL бесплатно уже сейчас в Nightcafe. Если авторизоваться или выполнить другие таски вам дадут халявные кредиты на генерации. А если сгенерированное опубликовать, то ещё кредитов насыпят. Например, эту картинку с киберпанк котаном я там сгенерировал. Там нет negative promt поэтому есть артефакты. Вот ещё пара примеров: раз и два. Промт:

cat in the cyberpunk city

Анонс
Гитхаб
Nightcafe

822 viewsAndrey Bezryadin, 17:48

Psy Eyes

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

0:57

This media is not supported in your browser

VIEW IN TELEGRAM

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

Midjourney обновилась до версии 5.2

Помимо мелочей тут и там, добавили фичу Zoom Out, и быстро переняли на себя хайп вокруг Generative Fill. Она хорошо считывает контекст и добавляет деталей при отдалении картинки с каждой итерацией.

Чтобы ей воспользоваться надо сначала увеличить картинку через кнопку Upscale, а затем нажать Zoom х1,5 или х2 чтобы отдалить её в соответствующее количество раз. Есть ещё Custom zoom для установки отдаления вручную.

Народ очень быстро сложил 2 + 2 и от генерации картинок перешел к склейке их в видео. Зачастую получается весьма годно.

Хотя для пользователей SD тут ничего нового, Infinite Zoom в A1111 уже давно живёт и развивается.

PS: если смотреть долго в центр отдаляющегося видео, то когда оно остановится, реальность перед глазами будет немного пульсировать, словно приближаться. Это оптический эффект.

915 viewsAndrey Bezryadin, 19:38

Psy Eyes

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

Runway добавили превью к GEN-2 генерациям на сайте и iOS приложении. Теперь хотя бы можно предсказать результат и выбрать в какую сторону режиссировать. Генерации всё также платные, а вот превью халявные и их можно крутить промтами сколько нравится.

786 viewsAndrey Bezryadin, 19:54

Psy Eyes

1:02

This media is not supported in your browser

VIEW IN TELEGRAM

Wonder Studio теперь открыт для всех.

Но бесплатного тарифного плана теперь нет, пусть они и планируют найти способ его реализовать. Всё потому что содержать 25 ML моделей и рендерить на GPU в облаках дорого. Разработчики работают над ускорением работы моделей, так как это позволит им снизить затраты и дать больше минут для рендеринга в месяц.

Появится отдельный тариф AI MoCap, в котором под рендеринг можно будет отдать 40 хронометража.

PS Все файлы и проекты, которые у вас были на WD теперь удалены.

1.61K viewsAndrey Bezryadin, edited 20:25

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Обучение NPC с помощью AI задач, которым его не учили, с сохранением их в памяти.

MobileSAM: вышло демо шустрого сегментатора на SAM.

Intel: расширение для ускорения библиотеки Transformers на CPU. Оно 37 раз быстрее ONNX Runtime и 345 раз быстрее PyTorch на процессорах Xeon.

One-2-3-45: метод преобразует любое изображение в 3D-модель всего за 45 секунд. Он создает множество видов из одного изображения, а затем преобразует их в 3D-пространство, обеспечивая быстрое и качественное воссоздание 3D-форм. Кода пока нет.

CSM: тоже разрабатывают img-2-3D плюс vid-2-3D. Кода тоже пока нет, но есть вейтлист.

🤖 ЧАТЫ 🤖

StabilityAI: появилось демо OpenFlamingo 9B через которое можно початиться с картинками и видео в формате gif.

Adobe: представили модель LLaVAR, основанную на модели LLaVA. Она обучена на 422 тыс. результатов распознавания сканов датасета LIAON. В итоге модель помогает LLaVA на 20% лучше считывать текстовые данные на картинках.

Как развернуть своего чатбота на Hugging Face.

LLM As Chatbot: добавили вчера упомянутый XGen-7B от Salesforce.

Bigcodek: датасет The Stack из 546 млн строк кода на 300 языках программирования общим размером 6 ТБ. Инфа о лицензиях пришита к датапоинтам.

OBELISC: датасет интрент-масштаба с 141 млн пар текст-картинка взятых с Common Crawl, 353 млн изображений и 115 млрд. текстовых токенов.

IBM: выпустили модуль NeuralFuse, который улучшает точность глубоких нейронных сетей при работе на низком напряжении, снижая энергопотребление. Он преобразует входные данные, делая их устойчивыми к ошибкам, и может улучшить точность на 57%, снижая энергию на 24%.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

770 viewsAndrey Bezryadin, edited 13:58

About

Blog

Apps

Platform