Psy Eyes

В телегу наконец-то завезли просмотр статистики каналов и чатов с десктопа. Боже как долго я этого ждал!

1.81K viewsAndrey Bezryadin, 23:36

1.39K viewsAndrey Bezryadin, 13:59

Дайджест:

📹 ВИДЕО + АРТ 🎨

FreeU: получил обновление, которое улучшает работу со структурой и появилась поддержка SDXL. Тут можно сравнить с и без FreeU.

StableFast: колаб для быстрой генерации в SD. Пожалуй, не такой быстрой как на TPU, но всё же.

Latent Consistency Model: ещё моделька для быстрой генерации.

NijiJourney: выпустили мобильную апу на Android и iOS.

Nvidia: выпустили драйвер + тулзу TensorRT ускоряющую в разы генерацию в SD 1.5 и 2.1 (SDXL подъедет позже). Расширение для A1111 в наличии.

Intel: тоже релизнули инструмент OpenVINO, ускоряющий генерации в A1111, если у вас видеокарта Intel Arc.

Show-1: демо опенсорсной text-2-video модели.

VideoCrafter1: тоже появилось демо.

SplatVFX: можно поиграться с гауссианами в Unity.

3D-GPT: процедурная генерация 3D окружения по тексту.

Phygital+: добавили поддержку ControlNet XL, автоматическую маску, и другие плюшки.

Music-2-image: генерим картинку на основе музыки.

SadTalker: расширенное демо модели для липсинка.

Adobe: на конференции Adobe Max сделали множество интересных анонсов касательно редактирования видео, генерации векторных изображений, дубляжа, итд.

🎸 ЗВУК 🎸

Universal подали в суд на Anthropic за то, что те в результатах генерации выдают тексты песен без разрешения авторов и лицензирования.

Лидерборд моделей по распознаванию речи. Мне кажется тут далеко не всё, хотя бы потому что тут нет XTTS. Но коль он открытый можно попросить добавить.

PlayHT: выпустили версию 2 Turbo очень быстрой генерации голоса по тексту (меньше 300 мс).

SALMONN: берем на вход музыку или другое аудио, чтобы чатиться по нему.

LAION: выпустили модель CLARA для генерирования речи с учётом эмоций и других звуковых особенностей.

В апдейте Gradio v4 будет обновлённый музыкальный плеер.

🤖 ЧАТЫ 🤖

AutoMix: фреймворк для коллаба между маленькими и большими языковыми моделями при решении задач.

OpenAgents: AI-агенты для решения задач в вебе, работе с данными, и плагинами. Нужен API от OpenAI.

PrivateGPT: чатимся с AI локально в своём браузере. Приватные данные данные не покидают ваш комп.

Голосовой чат с Mistral 7B.

Flappy: библиотека, помогающая ускорить разработку AI-приложений.

Microsoft: демо AI-агентов Autogen. Нужен API от OpenAI.

H2O: фреймворк для развертывания и тестирования опенсорсных LLM.

Zephyr 7B: чат зафайнтюненный на Mistral.

Ensemble-Instruct: создаём инструкции для генерации с помощью коллаба маленьких LM экспертов. Подход показывает себя лучше работы с крупной нефайнтюненой моделью.

Sotopia.world: AI-агенты, которые заточены на решение сложных социальных задач.

AgentVerse: эти AI-агенты обновились и для выдачи задания нужно лишь сделать текстовый конфиг файл. Также появилось демо.

Intel: выпустили фреймворк для ускорения работы llama.cpp на процессорах Intel Xeon Scalable.

SEED-LLama: демо чата по картинкам (VLM).

V3Det: датасет для визуального распознавания объектов.

Метод улучшения генерации 3D через по-пиксельный градиентный клиппинг.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post