Psy Eyes
6.8K subscribers
1.43K photos
1.56K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Новое в сплатах:

PlayCanvas: в версии v 0.19.2 теперь можно редактировать много вещей внутри одной сцены. Также поменялся порядок загрузки сплатов, и объекты вне поля зрения камеры больше не рендерятся, что значительно увеличило производительность. Появилась установка SuperSplat как PWA для запуска с панели задач на винде и ассоциирования .ply фалов с софтом. Плюс обновления и исправления в рендере через WebGPU и другие мелочи.

В релиз входит пак эффектов, схожий с плагином Irrealix для After Effects, но тут не требуется знаний.

Покрутить сцену со статуей из видео можно тут, а отредактировать её самому здесь.

NerfStudio
: выпустили свой движок для рендера сплатов gsplat 1.0. Требования к памяти значительно снизились, а скорость трени где-то ускорилась в разы. При этом можно рендерить огромные сцены. Лицензия Apache 2.0, в то время как у родной 3DGS от Inria разрешено только некоммерческое использование.

Сам софт NerfStudio обновился до v 1.1.2. Интегрировали AbsGS, улучшающий детализацию сцен, при этом экономя память. Появилась поддержка интерфейса Gradio. Добавили новые методы SIGNeRF, OpenNeRF, и NeRFtoGSandBack для реконструкции 3D, а также RealityCapture под бесплатной лицензией, но не для России. Плюс много мелких улучшений.

3DGS-Deblur: проект, устраняющий в сцене блюр и эффект плавающего затвора, делая картинку более чёткой и стабильной.

StopThePop: тоже улучшатель, только с фокусом на избавлении от фликера.

AtomGS: обработка визуала в два захода на одной 4090, для получения сплатов с неплохой детализацией.
Собираю новый комп. Остальные железные потроха подъедут в скором времени.

Будет теперь на чём локально тестить жирные модельки.

Кстати ещё раз спасибо всем за донаты на ДР. Все пошли в дело.

Для тех, кто закинул как соберу комп попробую раскатать инференс и скинуть ссылку в личку, чтобы вы на ней погенерили.

Всех обнял!
Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.

Nijijourney
: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.

Kling: новый мощный китайский генератор видео. Хорошее качество картинки и понимание окружающего пространства.

Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.

Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.

Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.

Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.

Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.

DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.

Lumina: нейронка для генерации в разных модальностях (изображения, музыка).

Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.

🎸 ЗВУК 🎸

Udio: выпустили Audio Promting, инструмент для генерации на основе аудио от пользователя. Конкурент Audio Input от Suno.

Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.

See-2-Sound: скармливаем видео и получаем звуковые эффекты.

🤖 ЧАТЫ 🤖

HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.

LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.

Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.

Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.

Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.

Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.

Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.

FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.

Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.

Как сделать свой чат по PDF на основе Mistral.

Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.

VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.

MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.

Конвертор PDF в датасет.

3D-Grand: VLM для чата по 3D локациям.

Magpie: генерация высококачественных данных для алаймента LLM.

Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
С релиза Stable Diffusion 3 прошло пару дней. Время осмотреться.

В опенсорс ушла 2B версия Medium, а крупные Large и Ultra остались в облаке и их можно пощупать через чат-бота Stable Assistant.

Улучшилось понимание промта, проработка деталей/цвета/освещения, рендер надписей.

При этом требования к железу умеренные: может влезть на 8 Гб VRAM. Stability заколлабили с Nvidia, чтобы ускорить на RTX видюхах с TensorRT генерацию на 50%. Про AMD тоже не забыли, но не указали для каких пользовательских девайсов сделали оптимизацию.

Есть некоммерческая исследовательская лицензия, коммерческая в виде подписки за $20, и отдельная для компаний.

Первые отзывы говорят, что не все так радужно с качеством генерации. Особенно людей. А с файнтюном есть проблемы. В том числе из-за лицензии. В ряде случаев SDXL или лоры SD 1.5 все еще привлекательнее.

Посмотрим как будут развиваться события.

Анонс

Демо раз и два
Хаггинг
Оптимизированая TensorRT-версия
Comfy

Инструкция по установке
Luma выпустили свой генератор видео Dream Machine и это просто отвал башки!

На вход может идти текст отдельно, либо в связке с картинкой. Чисто на основе промта вполне может получиться годный результат, но второй вариант предпочтительнее, ибо так у модели есть опорные кадры. Можно даже делать длинные видосы, если использовать скриншот из конца предыдущей генерации.

При включённой галочке Enhanced Promt модель сама понимает что на картинке и от вас требуется только описать действие. Если кажется, что генерация уводится не туда, попробуйте описать экшн детальнее. Либо снять галочку, но тогда надо будет описать и то, что на картинке и то, что должно произойти: чем больше подробностей о движении камеры, действии в сцене, и том как выглядят объекты + фон, тем лучше. Luma предоставили гайд как подойти к промту и генерации в целом.

На выходе получаются видео в относительно высоком разрешении, длиной 5 секунд и фреймрейтом 24 к/с. За пару дней до этого вышел китайский Kling, в котором тоже годное качество, но у Luma нет вейтлиста и результаты значительно лучше. Кипение минимальное, а текст/надписи держатся под любым углом и не превращаются в кашу. Чувствуется, что есть понимание пространства, физики объектов и освещения а-ля Sora. Картинка кинематографичная, с плавными движениями камеры и моушн блюром.

Для анимированных обложек, или коротких зацикленных рекламных видосов в соцсетях уже можно использовать с двух ног.

Потом подъедут крутилки для контроля кадра, а там глядишь и доживём до генерации в стиле NUWA с получением длинных видео, просто описывая ключевые моменты.

Надо ещё будет поиграться со значениями фокуса, диафрагмы, итд, а может и даже с характеристиками из мира 3D, коль ноги у модели именно оттуда растут.

Я ещё в прошлом году заметил, что среди text-2-video моделей начался движ в сторону трёхмерного пространства для генерации объектов с учётом окружения и разнесения их на слои. Вполне возможно сегодняшние 3D стартапы (Polycam, Meshy, итд), особенно работающие со сплатами или нерфами, завтра будут генерить видео. Даже Midjourney тяготеют к генерации видосов и 3D.

На бесплатном акке 30 генераций в месяц, подписка от $30 за 180 генераций.

Го генерить котаны!

Dream Machine
Гайд от Luma
This media is not supported in your browser
VIEW IN TELEGRAM
Первые тесты впечатляют. И, несмотря на то, что нейронка многое добавляет от себя, это всё равно выглядит интересно. Но нужен контроль.
This media is not supported in your browser
VIEW IN TELEGRAM
Пробуем покрутиться на 360. Заметил, что если скормить PNG с прозрачным фоном камера сговорчивее идёт на новые углы обзора.

Из одной картинки пропорции понимает пожалуй лучше, чем Meshy. При этом надпись отлично сохраняется как ни крути.
У меня есть несколько промтов, на которых я всё тестирую. И Omost наиболее близок к тому, что я представляю. Учтено всё: и общая композиция, и летающие машины (которые другие text-2-image модели не вписывают), и город похож именно на киберпанковый, а не современный.

Если до этого не пробовали Omost: в ней используется LLM для композиции генерируемого изображения с помощью Python. Сначала вкидываем промт и кликаем Submit. Получив код, нажимаем Render и ловим картинку.

Всё таки насколько крут Illyasviel. Создал ControlNet, Forge, Fooocus, IC-Light и продолжает пилить инновационные плюхи типа Omost, которые удивляют своими подходами. Cделал для сообщества чуть ли не больше, чем сами Stability.

Промт для картинки в обоих случаях:
a cat looking at a cyberpunk city from the edge of the roof at night with flying cars, view from behind, very high detail

Luma + Fooocus: a camera orbit around a cat

Luma + Omost: промт такой же как для картинки