Psy Eyes

Новое в сплатах:

PlayCanvas: в версии v 0.19.2 теперь можно редактировать много вещей внутри одной сцены. Также поменялся порядок загрузки сплатов, и объекты вне поля зрения камеры больше не рендерятся, что значительно увеличило производительность. Появилась установка SuperSplat как PWA для запуска с панели задач на винде и ассоциирования .ply фалов с софтом. Плюс обновления и исправления в рендере через WebGPU и другие мелочи.

В релиз входит пак эффектов, схожий с плагином Irrealix для After Effects, но тут не требуется знаний.

Покрутить сцену со статуей из видео можно тут, а отредактировать её самому здесь.

NerfStudio: выпустили свой движок для рендера сплатов gsplat 1.0. Требования к памяти значительно снизились, а скорость трени где-то ускорилась в разы. При этом можно рендерить огромные сцены. Лицензия Apache 2.0, в то время как у родной 3DGS от Inria разрешено только некоммерческое использование.

Сам софт NerfStudio обновился до v 1.1.2. Интегрировали AbsGS, улучшающий детализацию сцен, при этом экономя память. Появилась поддержка интерфейса Gradio. Добавили новые методы SIGNeRF, OpenNeRF, и NeRFtoGSandBack для реконструкции 3D, а также RealityCapture под бесплатной лицензией, но не для России. Плюс много мелких улучшений.

3DGS-Deblur: проект, устраняющий в сцене блюр и эффект плавающего затвора, делая картинку более чёткой и стабильной.

StopThePop: тоже улучшатель, только с фокусом на избавлении от фликера.

AtomGS: обработка визуала в два захода на одной 4090, для получения сплатов с неплохой детализацией.

2.71K viewsAndrey Bezryadin, 16:33

Psy Eyes

Собираю новый комп. Остальные железные потроха подъедут в скором времени.

Будет теперь на чём локально тестить жирные модельки.

Кстати ещё раз спасибо всем за донаты на ДР. Все пошли в дело.

Для тех, кто закинул как соберу комп попробую раскатать инференс и скинуть ссылку в личку, чтобы вы на ней погенерили.

Всех обнял!

1.9K viewsAndrey Bezryadin, 18:11

Psy Eyes

1.46K viewsAndrey Bezryadin, 10:56

Psy Eyes

Неделька выдалась жаркая. Основное пойдёт отдельными постами, а пока дайджест:

📹 ВИДЕО + АРТ 🎨

Midjourney: добавили на сайт персонализацию генераций. Модель будет больше делать изображений в соответствии с вашим вкусом и меньше давать отсебятины.

Nijijourney: у этого генератора аниме-картинок улучшилась детализация и рендер текста/иероглифов.

Kling: новый мощный китайский генератор видео. Хорошее качество картинки и понимание окружающего пространства.

Pika: обновили image-2-video модель. Улучшилось качество и стабильность генерируемого видео.

Neurogen: в дипфейкере RopeMod v 2.2 улучшилась производительность и появилась настройка точек отслеживания лица.

Phygital+: обновили Face Swap. Генерация стала реалистичнее и точнее.

Real3D: шустрый генератор 3D. Но качество уступает Meshy, CRM, и другим.

Unique3D: тоже генерация 3D объектов. Результаты получше, чем у модели выше.

DreamGaussian4D: получаем из картинки движущуюся 4D сцену на основе сплатов.

Lumina: нейронка для генерации в разных модальностях (изображения, музыка).

Flash Diffusion: модель дистиллированная из Pixart-A для быстрого создания картинок 1024х1024 в 4 шага. Анонс.

🎸 ЗВУК 🎸

Udio: выпустили Audio Promting, инструмент для генерации на основе аудио от пользователя. Конкурент Audio Input от Suno.

Stability: выложили Stable Audio в открытый доступ, через который можно генерить звуковые эффекты и семплы длиной до 47 секунд. Версию для генерации музыки они оставили доступной по своей подписке. Демо и локальная установка через Pinokio.

See-2-Sound: скармливаем видео и получаем звуковые эффекты.

🤖 ЧАТЫ 🤖

HuggingFace: добавили новые AI-приложения для локального запуска больших языковых моделей (LLM) через Use this model.

LaVague: фреймворк для создания промтом AI-агентов, которые могут выполнять задания в интернете.

Mobile Agent: в версии V2 этого мобильного AI-агента, улучшилось взаимодействие с приложениями на телефоне, а также планирование цепочки задач.

Chat with MLX: интерфейс для локальной работы c разными LLM в формате MLX для маков.

Qwen: выпустили LLM версии V2 в размерах от 0.5B до 72B, контекстом 128к у некоторых вариантов, и натаскали её на 27 языках, коде, и математике.

Apple: провели презу WWDC 2024, на которой анонсировали Apple Intelligence способный генерить текст, картинки, и помогать в повседневных задачах. А также интеграцию с ChatGPT.

Yandex: выпустили YaFSDP для ускорения обучения LLM и сокращения расходов на GPU.

FastEmbed: в версию v 0.3 добавили поддержку новых эмбеддингов.

Nvidia: выпустили мощную LLM Nemotron-4-340B, натренированную на 9 трлн. токенов текста на 50+ языках и коде. Контекст 4к. Локально не погонять, слишком большая.

Как сделать свой чат по PDF на основе Mistral.

Карпаты выпустил гайд по тренироваки GPT-2 модели с нуля.

VideoLlama 2: новая визуальная языковая модель (VLM) для чата по картинкам и видео.

MotionLLM: тоже VLM, но с фокусом на понимании поведения человека в кадре.

Конвертор PDF в датасет.

3D-Grand: VLM для чата по 3D локациям.

Magpie: генерация высококачественных данных для алаймента LLM.

Как сделать своё AI-приложение для выжимки YouTube видосов на основе Gradio, Groq, и Replit.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post