Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

Улучшаем качество генерации видео с помощью метода FreeInit. Можно применить к любой диффузионной модели без дополнительной тренировки. От авторов FreeU.

Google: анонсировал Imagen 2, доступный только через их облачный API Vertex.

GlitchBench: модель для распознавания гличей в играх.

KreaAI: инструмент для генерации в реальном времени перешел в открытую бету.

HOSNeRF: таки появился код FVV-модели (Free View Video), для создания видео, где можно свободно вертеть камерой.

MotionDirector: демо фреймворка для генерации видео с желаемыми движениями камеры и персонажей.

ECLIPSE: улучшаем эффективность приоров T2I моделей из семейства UnCLIP.

PatchFusion: появилось демо апскейлера по картам глубины.

Nuvo: текстурирование 3D объектов, полученных из нерфов или гаусианов.

SyncDiffusion: релизнулся код этого генератора панорам.

HeyGen: добавили перевод в один клик, пруфридинг на основе приложенных сабов, перевод нескольких спикеров, ссылки на ютуб/гугл облако. Последние 3 фичи для корпоративных клиентов.

Desco: распознавание и аннотирование объектов на изображения.

EdgeSAM: тоже распознавание, но по клику.

SAD: сегментация 3D объектов.

🎸 ЗВУК 🎸

CreateOS: открыли запись в бету на Trinity, их инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.

🤖 ЧАТЫ 🤖

В библиотеку Transformers, добавлена Mixtral, Bakllava, SeamlessM4T, поддержка GPU от AMD, и не только.

EAGLE: ускорение декодирования LLM за счёт компрессии.

Deci: зарелизили DeciLM-7B, модельку показывающую себя лучше, чем Mistral 7B.

Google: выкатили API для Gemini, хотя их модель попала в просак ибо люди в интернете пришли к выводу, что видео с демонстрацией было фейковым.

Microsoft: выпустили модельку Phi-2 c 2.7B параметрами, обходящая на бенчах 13B модели.

Также они релизнули Promtbase — сборник ресурсов и скриптов по промтингу.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post