Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Чуть подробнее о голографическом экране с предыдущего поста — Looking Glass. Если в телефоне у нас 1 вид на контент, в VR шлеме 2 вида (по одному на каждый глаз), то в Looking Glass одновременно показывается до 100 видов одной трехмерной сцены, что даёт возможность смотреть контент большой компанией людей с разных углов и продолжать видеть объём — трехмерный опыт без VR шлема. Причем даже есть интерактив: с контентом можно взаимодействовать руками в воздухе или контроллером.

Из других ништяков: 3D художники могут презентовать гостям свои проекты в нативной трёхмерной форме и тестировать варианты креативов. Есть плагины для UE, Blender, Unity, WebXR, итд. Можно и уже существующий фото (и видео?) контент конвертировать в голограммы (через сайт платно, либо карту глубины самим делать). Даже есть отдельный раздел, где можно делиться голограммами, в один клик примерить чью-то голограмму у себя на экране, или встроить свою на любую страницу в интернете через embed.

Недавно я зашёл в бету Lifeforms. Это голограмма, с которой можно говорить голосом. Персонажа можно менять из списка или своего подгружать, а на обработке запросов зафайнтюненный GPT-4.

Я протестировал Uncle Rabbit и мне он своим характером и ответами понравился даже больше, чем просто GPT-4. Чувствовалось, что он отыгрывает роль. Скорость ответов бы пореще и мультиязычность, но в дискорде говорят через SDK можно подрубать локальные модели вроде ламы.

Пришиваем это к цифровому двойнику, групповым созвонам с коллегами, или просто общению с близкими. Затем добавляем возможность менять сеттинг (эльфийский лес, вечеринка в жерле вулкана, исследование инопланетной цивилизации, итд) и вот это уже намного ближе к метавселенной, с которой люди могут взаимодействовать ежедневно.

Проблема лишь в цене. $399 за портретную рамку ещё ок, но $3,000 за 32 дюймовый экран и $20,000 за 65 дюймов это цены очень далекие от массмаркета.

Хотя вот эта вещь ещё дороже...
Media is too big
VIEW IN TELEGRAM
В 2008 году, когда я только поступил в инст, мой первый доклад был о возможности выражать мысли из воображения в цифровое пространство. На тот момент через фМРТ можно было выразить только ч/б изображение 8х8 пикселей. Ближайшим к потребительскому уровню Нейро-Компьютерным Интерфейсом (НКИ) тогда был Emotiv, который успешно дожил и до наших дней. Их устройство работает как портативная ЭЭГ, и позволяет мысленно управлять подключенными предметами в физическом и цифровом пространствах, помогает в принятии решений на основе мозговой активности, и есть примеры выражения музыки.

С тех пор мы уже можем значительно больше. Из последних проектов, что попадались на глаза:

* Через фМРТ можно приблизительно считать лицо человека, о котором думаем. Или прочесть мысли после прослушанного подкаста.
* С помощью НКИ, можно помочь озвучивучить внутренний диалог или выйти в интернет и общаться со всем миром.
* MindEye: на основе снимков активности мозга с помощью Stable Diffusion можно получить кадры из воображения в высокой точностью. Проект может замапить данные с фМРТ мультимодально, причём даже есть код.
* MinD-Vis: тоже работает на основе диффузии, и тоже есть код. Плюс другое исследование тоже на основе SD и высоким качеством изображений.
* CEBRA: декодируем сигналы мозга мыши в реальном времени, чтобы воссоздать ч/б фильм 60-х годов, который она видела и какие эмоции испытала.
* MinD-Video (расширение MinD-Vis): с помощью фМРТ и диффузии генерим видео из мыслей. Причём семплы на видео в посте ограничены по длине, fps, и разрешению, так как сгенерированы на RTX 3090. Но через MinD-Video можно генерить и длинные видео со скорость 30 fps большего разрешения.

Так что скоро сможем из воображения напрямую кино, музыку и тд. выражать на компьютер или прямо в сеть. А мозг будет восприниматься как ещё один носитель — ментальный.

И уже не будет такого, что кто-то решает какой фильм будет сниматься а какой нет, какой трек пойдёт в массы а какой нет. Пришла в голову идея — сразу её воплотил и поделился с миром.
Дайджест новостей пока я писал посты выше. Ключевые новости выпущу отдельными постами:

📹 ВИДЕО + АРТ 🎨

Hugging Face: выпустили свой генератор QR-кодов. Эти легче считываются.

HyperReel: создаём высококачественные видео со свободной точкой обзора (FVV).

MDFdiffusion: генерим панорамы по тексту. Напоминает SyncDiffusion, но последний вроде лучше по качеству.

DragGAN: демо и код проекта, где можно просто мышкой менять изображение.

Orthogonal Finetuning (OFT): новый метод файнтюна диффузионных моделей, который помогает улучшить качество и скорость генерации изображений из текста.

PoseDiffusion: используем диффузию для анализа лучшего положения камеры.

Unity: выпустит Muse, AI-инструментарий для разработчиков игр, через который не зная кода можно будет делать 3D игры.

MobileSAM: легковесная версия SAM для сегментации. На одном GPU показывает около 12 мс на изображение: 8 мс на кодирование и 4 мс на декодирование маски.

PlaygroundAI: выпустили инструмент Mixed Image Editing в котором можно генерить изображения, редактировать их инпейнтом или текстом. На рекламном видеохорошо понимается контекст. Как оно вреале, посмотрим.

OpenMask3D: сегментация 3D объектов с открытым словарём в помощь AI-агентам.

Kosmos-2: мультимодальная большая языковая модель (MLLM), которая позволяет воспринимать описания объектов и связывать текст с визуальным миром.

Restart: новый алгоритм для генеративных моделей, который улучшает баланс между скоростью и качеством, превосходя другие методы и ускоряя процесс в 10 раз на CIFAR-10 и в 2 раза на ImageNet.

MotionGPT: модель на связке текста и моушена. Можно попросить показать как сделать бэкфлип, описать движения персонажа, или предсказать следующий шаг... Осталось посадить её перед монитором следить за курсом на бирже.

Blended-NeRF: редактирование объектов в NeRF. Кода пока нет.

DreamEditor: тоже редактирование NeRF и тоже кода нет.

🎸 ЗВУК 🎸

AudioPaLM: переводим голосовое общение между коллегами, разговаривающими на разных языках. Маркетинг и IT отделы таки найдут общий язык? Кода нет, так что не узнаем.

Нашелся способ через Whisper в один шаг сразу переводить генерируемый текст, минуя распознавание речи.

3D Speaker: датасет для распознавания речи в зависимости от контекста вроде расстояния, записываемого устройства, итд.

🤖 ЧАТЫ 🤖

Stability AI: выпустили V2 версию OpenFlamingo, своей мультимодальной модели, которая позволяет чатиться с изображеними, видео, и тексом. Она на 80% производительней предыдущей версии, имеет поддержку распределённых вычислений, и менее ограничительна в плане лицензий, чем лама.

MozaicML: запустили чат с моделью MPT-30B, обученной на 1Т токенов. Есть коммерческая лицензия.

Пилим собственные плагины для ChatGPT с помощью Gradio.

Hugging Face:
* добавили аренду облачного хранилища с поминутной оплатой
* пришили генерацию временных меток к Whisper, а также перескакивание внутри видео по ключевым словам
* а через фильтр Transformers.js можно в поиске найти, которые можно запустить прямо в браузере

LMFlow: простой инструмент для файнтюна LLM.

Salesforce: представили XGen-7B, новую 7B LLM натренированную на 1.5T токенов. Говорят генерит код и текст лучше MPT, Falcon, LLaMA, и OpenLLaMA.

CLIPA-v2: это улучшенная модель CLIP, которая достигает точности 81,1% на ImageNet без обучения с учителем при бюджете в $10,000, превосходя предыдущую лучшую модель CLIP и сокращая вычислительные затраты на ~39X.

Расширение контекста больших языковых моделей с помощью позиционной интерполяции.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
DynIBaR — нейронный рендеринг динамических сцен. Модель может взять обычное 2D видео и дать ему 3D объём.

Что нам это даёт:
* возможность менять положение камеры на уже снятом видео,
* смешать точку фокуса в кадре
* делать анимацию движения камеры
* стабилизировать картинку
* ваять стерео 3D
* и, возможно, играть с освещением

Сайт
Код

PS: хотел сделать пост об этом 2 недели назад, но тогда кода не было. Хорошо, что релизнули.
This media is not supported in your browser
VIEW IN TELEGRAM
Zeroscope 2 XL — модель для генерации видео по тексту на основе Modelscope, но без водяного знака.

Обучена со смещенным шумом на 9 923 клипах и 29 769 помеченных кадрах с фремрейтом 24 к/с и разрешением 1024x576.

Работает на связке двух моделей: базовая генерит 576x320 (zeroscope_v2_576w), а другая апскейлит до 1024x576 (zeroscope_v2_XL). Только так можно получить хорошую картинку как на видео выше, ибо просто базовый генератор выдаёт среднее качество. Поэтому после того как в базе сгенерите основу в 576x320 отправьте его в апскейлер, чтобы получить 1024x576. Как вариант, базовое видео ещё можно сгенерить из картинки здесь.

Это можно сделать и в колабе: когда всё прогрузится перейдите по ссылке на webui и в расширении text2video переключитесь на vid2vid. Гайд от автора.

Если не хотите копаться ни с чем, можете воспользоваться Replicate — тут просто пишешь промт, нажимаешь внизу Submit и получаешь видео. Вот гайд.

Гитхаб автора со всеми коллабами
StabilityAI выпустили SDXL 0.9

Новый SDXL работает на связке базовой модели, которая генерит картинку, и рефайнера, который улучшает её.

Базовая модель обладает 3.5B параметров, и переключается в 6,6B параметров в режиме тандема (когда обе модели работают над итоговой картинкой). Для сравнения бета имела 3,1B параметров и использовала только базовую модель.

Для запуска потребуется видеокарта как минимум с 8 ГБ VRAM плюс 16 ГБ оперативки. На генерируемых картинках ставится невидимый водяной знак, и он не тот же, что в предыдущих версиях.

Релиз версии 1.0 запланирован на середину июля. На гитхабе код базовой модели и рефайнера. Веса доступны по запросу.

Можете попробовать SDXL бесплатно уже сейчас в Nightcafe. Если авторизоваться или выполнить другие таски вам дадут халявные кредиты на генерации. А если сгенерированное опубликовать, то ещё кредитов насыпят. Например, эту картинку с киберпанк котаном я там сгенерировал. Там нет negative promt поэтому есть артефакты. Вот ещё пара примеров: раз и два. Промт: cat in the cyberpunk city

Анонс
Гитхаб
Nightcafe
Midjourney обновилась до версии 5.2

Помимо мелочей тут и там, добавили фичу Zoom Out, и быстро переняли на себя хайп вокруг Generative Fill. Она хорошо считывает контекст и добавляет деталей при отдалении картинки с каждой итерацией.

Чтобы ей воспользоваться надо сначала увеличить картинку через кнопку Upscale, а затем нажать Zoom х1,5 или х2 чтобы отдалить её в соответствующее количество раз. Есть ещё Custom zoom для установки отдаления вручную.

Народ очень быстро сложил 2 + 2 и от генерации картинок перешел к склейке их в видео. Зачастую получается весьма годно.

Хотя для пользователей SD тут ничего нового, Infinite Zoom в A1111 уже давно живёт и развивается.

PS: если смотреть долго в центр отдаляющегося видео, то когда оно остановится, реальность перед глазами будет немного пульсировать, словно приближаться. Это оптический эффект.
This media is not supported in your browser
VIEW IN TELEGRAM
Runway добавили превью к GEN-2 генерациям на сайте и iOS приложении. Теперь хотя бы можно предсказать результат и выбрать в какую сторону режиссировать. Генерации всё также платные, а вот превью халявные и их можно крутить промтами сколько нравится.
This media is not supported in your browser
VIEW IN TELEGRAM
Wonder Studio теперь открыт для всех.

Но бесплатного тарифного плана теперь нет, пусть они и планируют найти способ его реализовать. Всё потому что содержать 25 ML моделей и рендерить на GPU в облаках дорого. Разработчики работают над ускорением работы моделей, так как это позволит им снизить затраты и дать больше минут для рендеринга в месяц.

Появится отдельный тариф AI MoCap, в котором под рендеринг можно будет отдать 40 хронометража.

PS Все файлы и проекты, которые у вас были на WD теперь удалены.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Обучение NPC с помощью AI задач, которым его не учили, с сохранением их в памяти.

MobileSAM: вышло демо шустрого сегментатора на SAM.

Intel: расширение для ускорения библиотеки Transformers на CPU. Оно 37 раз быстрее ONNX Runtime и 345 раз быстрее PyTorch на процессорах Xeon.

One-2-3-45: метод преобразует любое изображение в 3D-модель всего за 45 секунд. Он создает множество видов из одного изображения, а затем преобразует их в 3D-пространство, обеспечивая быстрое и качественное воссоздание 3D-форм. Кода пока нет.

CSM: тоже разрабатывают img-2-3D плюс vid-2-3D. Кода тоже пока нет, но есть вейтлист.

🤖 ЧАТЫ 🤖

StabilityAI: появилось демо OpenFlamingo 9B через которое можно початиться с картинками и видео в формате gif.

Adobe: представили модель LLaVAR, основанную на модели LLaVA. Она обучена на 422 тыс. результатов распознавания сканов датасета LIAON. В итоге модель помогает LLaVA на 20% лучше считывать текстовые данные на картинках.

Как развернуть своего чатбота на Hugging Face.

LLM As Chatbot: добавили вчера упомянутый XGen-7B от Salesforce.

Bigcodek: датасет The Stack из 546 млн строк кода на 300 языках программирования общим размером 6 ТБ. Инфа о лицензиях пришита к датапоинтам.

OBELISC: датасет интрент-масштаба с 141 млн пар текст-картинка взятых с Common Crawl, 353 млн изображений и 115 млрд. текстовых токенов.

IBM: выпустили модуль NeuralFuse, который улучшает точность глубоких нейронных сетей при работе на низком напряжении, снижая энергопотребление. Он преобразует входные данные, делая их устойчивыми к ошибкам, и может улучшить точность на 57%, снижая энергию на 24%.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM