Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Stability выпустили модель Cascade (она же Würstchen v3), которая быстро генерит в высоком разрешении и из коробки умеет в текст на изображении. Есть поддержка контролнета и лор.

Построена на архитектуре Würstchen. В латентном пространстве сжимает в 42 раза изображения размером 1024x1024 до 24x24, а на выходе разжимает без потери качества.

Гайд по установке в пару кликов через Pinokio.

Демо (хаггинг)
Демо (коллаб)
Анонс с деталями
Модель
Гитхаб
Ещё от Stability: они на прошлой неделе по-тихому выпустили SVD v 1.1 для анимации изображений. Я ждал какого-то официального анонса, но видимо дальше ждать нет смысла.

Обновлённая версия зафайнтюнена генерить на скорости 25 к/с в разрешении 1024х576. Повысилась детализация видео, его консистентность и плавность движения камеры. На выходе получаются результаты в несколько секунд. Можно сделать упор на быстрый монтаж как в Шторме (твиттер автора), а можно на медитатив, как с Ёжиком в тумане.

Тут плотное сравнение v1 с обновлённой версией.

Можно гонять в ComfyUI, а можно в Forge, или ENFUGUE.

Модель на хаггинге
Подробнее про SVD
OpenAI показали видео генератор Sora.

Качество картинки не сравнимо лучше, чем у Pika, Runway, и SVD. Про остальные варианты даже говорить нет смысла.

Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.

Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.

Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.

Когда релиз неизвестно.

Больше примеров на странице анонса и в твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.
Дайджест:

📹 ВИДЕО + АРТ 🎨

Dashtoon: генерим и публикуем комиксы.

Tldraw: интерфейс обзавёлся русским языком и ещё по мелочи изменения в UI/UX.

LGM: используем гауссианы для создания 3D моделей из картинки, текста, или оных вместе взятых. Есть установка через Pinokio.

3DTopia: модель для генерации 3D, работающая в 2 этапа: создание чернового меша и полировки (refinement).

threefiner: улучшатель сгенерированных 3D мешей.

DreamMatcher: улучшаем консистентность генерируемых изображений на основе рефа.

Unity: в коллабе со Stability работают над Holo-gen, генератором PBR изображений на основе 3D геометрии и текстового промта.

Adobe: генерим изображения с пошаговым предугадыванием движения в кадре.

Гауссианы теперь нативно поддерживаются в Gradio. Кратко как собрать своё AI-приложение с 3D.

ByteDance: анимируем в Boximator картинки через выделение объектов.

V-JEPA: обученная на видео модель, которая понимает происходящее в кадре и может заполнять пробелы за маской.

Magic-Me: генератор видео с целевым лицом, похожий на InstantID, который для картинок.

🎸 ЗВУК 🎸

В Audacity появилась поддержка AI-плагинов для генерации музыки, смены её стиля, и выделения стэмов.

Stability: выпустили инструменты лежащие в основе Stable Audio. Ещё сделали страницу с демками.

Редактирование аудио с помощью текста.

🤖 ЧАТЫ 🤖

SPIN: нейронка генерит тренировочные данные и сама себя файнтюнит.

OpenAI
: у ChatGPT теперь есть память, и его знания переносятся между чатами.

Сравниваем чаты по визуалу (VLM) через WildVision Arena.

Вышел Mistral Next . Можно сравнить тут бок-об-бок с Mixtral и другими моделями.

Gradio: появился компонент Gradio Notebook для возможности делиться своими AI-сборками в интерактивном режиме схожим с Google Colab.

GPT для нахождения и чата по бумагам на Arxiv.

Масштабируем контекстное окно LLM до 128К .

Яндекс: добавили в браузер выжимку длинных видео на русском и другие AI-фичи.
Google: не успели толком раскрыть выпущенную Ultra, как уже анонсировали Pro 1.5 с 1 млн токенов, чего должно хватить на обработку 1 часа видео, 11 часов аудио, 30к строк кода или 700к слов.

Virl: AI-агенты, которые видят окружающий мир через карты гугла, могут подсказывать куда сходить, и выполнять другие задания.

Fast-LLM: инструмент на основе Rust для запуска LLM на маке.

UForm
: VLM модель на пол-литра 0,5B для работы на мобилках.

Исследование:
* OpenMoE — исследование MoE архитектуры с предложением, что можно улучшить.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Нода для работы с 3D в ComfyUI.

Поддерживает гауссианы, нерфы, и другие алгоритмы. Говорят на 3080 генерация методом 3DTopia/LGM занимает 30 сек, а через Triplane Gaussian Transformers 10 сек. Превью показывается с помощью gsplat.js и three.js.

https://github.com/MrForExample/ComfyUI-3D-Pack
Улучшенные гауссианы - GES (Generalized Exponential Splatting).

Теперь получить 3D из фото/видео можно с большей детализацией, вдвое меньшим объёмом памяти и на 39% быстрее. Авторы пишут, что для результатов как в пейпере нужно 24 гига видеопамяти, но вполне возможно для ваших нужд понадобится меньше. И опенсорсные волшебники найдут способ сделать все еще менее прожорливым.

https://abdullahamdi.com/ges/
Если вас удивляет, что очень мало новостей по развитию нейросетей в музыке. Ответ цифрами:

3 мейджор лейбла
75 процентов музыки в их владении
100 млн треков на стримингах
Тысячи юристов ждут любой ошибки
Многомиллионные штрафы за нарушения в сфере авторского права

Мейджоры не упустят свою часть пирога и полюбому уже пилят инструменты для AI-монетизации их каталогов. Другое дело как быстро мы что-то увидим. Ожидать скорости от индустрии, опирающейся в 2024 году на понятие "механическое роялти" из середины прошлого века, не приходится.

Но легальный способ всё ускорить есть... и даже не один.
Музыкальная пауза

Ко мне тут на днях братан пригонял и включил нейрокавер Металлики на Анну Асти. Я прям ощутил рывок в качестве обработки голоса. Ну и ребята, стоящие за аранжировкой, молодцы.
https://youtu.be/rRtuPUHEPqQ?si=OQdPUEEnRoaRSy-l

Есть ещё такая версия. Мотив по попсовее и рифы по тяжелее, мне тоже нравится. Репчик еще убрать бы, а то он не удался.
https://youtu.be/GriBtVqYxJc?si=m0hdK1nLbVhbEYFD

Делитесь нейрокаверами, которые вам зашли или вы сами сделали.
Forwarded from Neurogen
Оказывается, за пару дней до анонса Google их модели на 1 млн токенов, вышла open-source модель с таким же контекстным окном.

Large World Model имеет 2 варианта: обычный и мультимодальный, то есть кроме текста она принимает и изображения и видео. В основе лежит дообученная Llama-2 7B.

Из особенностей, о которых говорят разработчики:

- LWM может ответить на вопросы о видео на YouTube продолжительностью более 1 часа.
- LWM обеспечивает высокую точность в контекстном окне 1M и превосходит GPT-4V и Gemini Pro.
- LWM генерирует изображения на основе текстовых подсказок в режиме авторегрессии.
- LWM генерирует видео на основе текстовых подсказок в авторегрессионном режиме.
- LWM может ответить на вопросы об изображениях.

Для желающих запустить и протестировать модель у себя локально, основная модель, а также ее вариации на 32, 128, 256 и 512 тысяч токенов доступны на Huigging Face

Тут уже доступны квантованные варианты текстовой версии модели на 1 млн токенов в GGUF формате.

AWQ вариант
GPTQ варинт