Psy Eyes – Telegram

Psy Eyes

6.8K subscribers

1.43K photos

1.57K videos

5 files

1.55K links

Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.

Download Telegram

About

Blog

Apps

Platform

6.8K subscribers

Stability выпустили модель Cascade (она же Würstchen v3), которая быстро генерит в высоком разрешении и из коробки умеет в текст на изображении. Есть поддержка контролнета и лор.

Построена на архитектуре Würstchen. В латентном пространстве сжимает в 42 раза изображения размером 1024x1024 до 24x24, а на выходе разжимает без потери качества.

Гайд по установке в пару кликов через Pinokio.

Демо (хаггинг)
Демо (коллаб)
Анонс с деталями
Модель
Гитхаб

2.02K viewsAndrey Bezryadin, 15:35

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Ещё от Stability: они на прошлой неделе по-тихому выпустили SVD v 1.1 для анимации изображений. Я ждал какого-то официального анонса, но видимо дальше ждать нет смысла.

Обновлённая версия зафайнтюнена генерить на скорости 25 к/с в разрешении 1024х576. Повысилась детализация видео, его консистентность и плавность движения камеры. На выходе получаются результаты в несколько секунд. Можно сделать упор на быстрый монтаж как в Шторме (твиттер автора), а можно на медитатив, как с Ёжиком в тумане.

Тут плотное сравнение v1 с обновлённой версией.

Можно гонять в ComfyUI, а можно в Forge, или ENFUGUE.

Модель на хаггинге
Подробнее про SVD

2.11K viewsAndrey Bezryadin, 16:41

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

Media is too big

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI показали видео генератор Sora.

Качество картинки не сравнимо лучше, чем у Pika, Runway, и SVD. Про остальные варианты даже говорить нет смысла.

Модель умеет генерить из текста или изображения видео в высоком разрешении длинной в 1 минуту, может выдавать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Sora способна продолжать и уже существующие видосы. Также она понимает не только то, что пользователь запрашивает в подсказке, но и то, как эти вещи существуют в физическом мире.

Из примеров видно, что у Sora хорошее (пусть и не идеальное) понимание физики. Если в Runway на старте Gen-2 ты ощущал, что для модели все объекты в кадре словно вырезаны из бумаги и она просто двигает их по плоскости, не понимая пространство, то с Sora ты видишь, что она умеет в объём и осознаёт как объекты и их окружение должны перемещаться в кадре и взаимодействовать. Сюда же входит работа с освещением и отражениями.

Отдельно отмечу генерацию casual контента, типа съёмка с мобильной камеры вида из окна поезда. То, что у модели сходу реалистично получается такое выдавать это очень серьёзный показатель.

Когда релиз неизвестно.

Больше примеров на странице анонса и в твиттере Сэма, где он выборочно генерит промты, что люди ему пишут.

2.56K viewsAndrey Bezryadin, 12:39

Дайджест:

📹 ВИДЕО + АРТ 🎨

Dashtoon: генерим и публикуем комиксы.

Tldraw: интерфейс обзавёлся русским языком и ещё по мелочи изменения в UI/UX.

LGM: используем гауссианы для создания 3D моделей из картинки, текста, или оных вместе взятых. Есть установка через Pinokio.

3DTopia: модель для генерации 3D, работающая в 2 этапа: создание чернового меша и полировки (refinement).

threefiner: улучшатель сгенерированных 3D мешей.

DreamMatcher: улучшаем консистентность генерируемых изображений на основе рефа.

Unity: в коллабе со Stability работают над Holo-gen, генератором PBR изображений на основе 3D геометрии и текстового промта.

Adobe: генерим изображения с пошаговым предугадыванием движения в кадре.

Гауссианы теперь нативно поддерживаются в Gradio. Кратко как собрать своё AI-приложение с 3D.

ByteDance: анимируем в Boximator картинки через выделение объектов.

V-JEPA: обученная на видео модель, которая понимает происходящее в кадре и может заполнять пробелы за маской.

Magic-Me: генератор видео с целевым лицом, похожий на InstantID, который для картинок.

🎸 ЗВУК 🎸

В Audacity появилась поддержка AI-плагинов для генерации музыки, смены её стиля, и выделения стэмов.

Stability: выпустили инструменты лежащие в основе Stable Audio. Ещё сделали страницу с демками.

Редактирование аудио с помощью текста.

🤖 ЧАТЫ 🤖

SPIN: нейронка генерит тренировочные данные и сама себя файнтюнит.

OpenAI: у ChatGPT теперь есть память, и его знания переносятся между чатами.

Сравниваем чаты по визуалу (VLM) через WildVision Arena.

Вышел Mistral Next . Можно сравнить тут бок-об-бок с Mixtral и другими моделями.

Gradio: появился компонент Gradio Notebook для возможности делиться своими AI-сборками в интерактивном режиме схожим с Google Colab.

GPT для нахождения и чата по бумагам на Arxiv.

Масштабируем контекстное окно LLM до 128К .

Яндекс: добавили в браузер выжимку длинных видео на русском и другие AI-фичи.

1.46K viewsAndrey Bezryadin, edited 06:42

Google: не успели толком раскрыть выпущенную Ultra, как уже анонсировали Pro 1.5 с 1 млн токенов, чего должно хватить на обработку 1 часа видео, 11 часов аудио, 30к строк кода или 700к слов.

Virl: AI-агенты, которые видят окружающий мир через карты гугла, могут подсказывать куда сходить, и выполнять другие задания.

Fast-LLM: инструмент на основе Rust для запуска LLM на маке.

UForm: VLM модель на ~~пол-литра~~ 0,5B для работы на мобилках.

Исследование:
* OpenMoE — исследование MoE архитектуры с предложением, что можно улучшить.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

1.47K viewsAndrey Bezryadin, edited 06:42

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Нода для работы с 3D в ComfyUI.

Поддерживает гауссианы, нерфы, и другие алгоритмы. Говорят на 3080 генерация методом 3DTopia/LGM занимает 30 сек, а через Triplane Gaussian Transformers 10 сек. Превью показывается с помощью gsplat.js и three.js.

https://github.com/MrForExample/ComfyUI-3D-Pack

1.78K viewsAndrey Bezryadin, 08:39

Улучшенные гауссианы - GES (Generalized Exponential Splatting).

Теперь получить 3D из фото/видео можно с большей детализацией, вдвое меньшим объёмом памяти и на 39% быстрее. Авторы пишут, что для результатов как в пейпере нужно 24 гига видеопамяти, но вполне возможно для ваших нужд понадобится меньше. И опенсорсные волшебники найдут способ сделать все еще менее прожорливым.

https://abdullahamdi.com/ges/

1.6K viewsAndrey Bezryadin, 09:14

Если вас удивляет, что очень мало новостей по развитию нейросетей в музыке. Ответ цифрами:

3 мейджор лейбла
75 процентов музыки в их владении
100 млн треков на стримингах
Тысячи юристов ждут любой ошибки
Многомиллионные штрафы за нарушения в сфере авторского права

Мейджоры не упустят свою часть пирога и полюбому уже пилят инструменты для AI-монетизации их каталогов. Другое дело как быстро мы что-то увидим. Ожидать скорости от индустрии, опирающейся в 2024 году на понятие "механическое роялти" из середины прошлого века, не приходится.

Но легальный способ всё ускорить есть... и даже не один.

1.64K viewsAndrey Bezryadin, edited 10:35

METALLICA & ANNA ASTI — ЦАРИЦА (ФУЛЛ// ПОЛНАЯ ВЕРСИЯ // COVER BY НЕЙРОХИТ) METALLICA — ЦАРИЦА

METALLICA — ЦАРИЦА
‼️ВНИМАНИЮ АВТОРОВ‼️
Если Вы являетесь автором трека и его распространение ущемляет Ваши авторские права, просим Вас связаться с нами в Telegram (@,tomchakowski) , мы тут же удалим материал.
Авторы трека: vk.com/neyrohitclub

Музыкальная пауза

Ко мне тут на днях братан пригонял и включил нейрокавер Металлики на Анну Асти. Я прям ощутил рывок в качестве обработки голоса. Ну и ребята, стоящие за аранжировкой, молодцы.
https://youtu.be/rRtuPUHEPqQ?si=OQdPUEEnRoaRSy-l

Есть ещё такая версия. Мотив по попсовее и рифы по тяжелее, мне тоже нравится. Репчик еще убрать бы, а то он не удался.
https://youtu.be/GriBtVqYxJc?si=m0hdK1nLbVhbEYFD

Делитесь нейрокаверами, которые вам зашли или вы сами сделали.

2.03K viewsAndrey Bezryadin, 11:56

Forwarded from Neurogen

Оказывается, за пару дней до анонса Google их модели на 1 млн токенов, вышла open-source модель с таким же контекстным окном.

Large World Model имеет 2 варианта: обычный и мультимодальный, то есть кроме текста она принимает и изображения и видео. В основе лежит дообученная Llama-2 7B.

Из особенностей, о которых говорят разработчики:

- LWM может ответить на вопросы о видео на YouTube продолжительностью более 1 часа.
- LWM обеспечивает высокую точность в контекстном окне 1M и превосходит GPT-4V и Gemini Pro.
- LWM генерирует изображения на основе текстовых подсказок в режиме авторегрессии.
- LWM генерирует видео на основе текстовых подсказок в авторегрессионном режиме.
- LWM может ответить на вопросы об изображениях.

Для желающих запустить и протестировать модель у себя локально, основная модель, а также ее вариации на 32, 128, 256 и 512 тысяч токенов доступны на Huigging Face

Тут уже доступны квантованные варианты текстовой версии модели на 1 млн токенов в GGUF формате.

AWQ вариант
GPTQ варинт

2.05K viewsAndrey Bezryadin, 15:27