Psy Eyes

И немного Валгаллы с викингами во времена Рагнарёка.

2.3K views20:20

This media is not supported in your browser

Как я и реквестировал, Mochi скрестили с FasterCache и ускорили генерацию с 320 сек до 184 сек на 848х480 при длительности в 163 кадра. Это на 4 А100. Посмотрим как быстро как дела будут на 4090.

Также FasterCache работает с CogVideoX-5B, который тоже стремительно разрастается, и ускорение здесь с 206 сек до 126 сек на 480p видео в 48 кадров.

Сайт
Гитхаб

1.7K views09:45

Psy Eyes

Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)

This media is not supported in your browser

VIEW IN TELEGRAM

AutoVFX: Да простит меня Даня, но щас вот за VFX. Не чокаясь.

Это очень забавная работа китайских студентов из Иллинойса.
Но это прям полноценная попытка сделать однокнопочный Гудини или Майю. Вместе с Нюком до кучи.

Замысел на миллион - загружаете видео и голосом говорите, каких эффектов навалить и как приподвзорвать объекты в сцене.

И оно такое - апажалста.

Я сначала дам цитату, а потом разберу работу, уж больно лихие амбиции (в духе этого канала)

"Мы представляем AutoVFX, фреймворк, который автоматически создает реалистичные и динамичные VFX-видео из одного видео и инструкций на естественном языке. Используя нейро-3Д-моделирование сцены, генерацию кода на основе LLM и физическую симуляцию, AutoVFX способен обеспечить физически корректные, фотореалистичные эффекты, которыми можно управлять непосредственно с помощью инструкций на естественном языке."

Каково?

Поглядите примеры тут:
https://haoyuhsu.github.io/autovfx-website/

А теперь пробежимся, из какого опен-сорса и палок они собирают эту монструозную конструкцию.

Gaussian Splatting submodules
diff-gaussian-rasterization
segmentation & tracking modules
Grounded-Segment-Anything and GroundingDINO
recognize-anything
lighting estimation modules
PyTorch3D
Trimesh
Tracking-Anything-with-DEVA
По дороге ставится Блендор!
We use BakedSDF implemented in SDFStudio for surface reconstruction. Please make sure to use our custom SDFStudio for reproducibility. We recommend to create an extra environemnt for this part since CUDA 11.3 has been tested on this repo.

Это больше похоже, конечно, на эксперимент и дипломную работу, но безумство и отвага меня восхищают.
Почитайте их Гитхаб, это прям дерзко:
https://github.com/haoyuhsu/autovfx

@cgevent

1.3K views10:45

Psy Eyes

0:33

This media is not supported in your browser

Alibaba: выпустили выпустили мощную модель для кодинга — Qwen 2.5 Coder 32B.

На бенчах показывает себя лучше других опенсорсных и сопоставима по результатам с GPT-4o.

Поддержка уже вшита в LMStudio, OpenWebUI + Ollama, и HuggingChat. Можно гонять версии под нужное количество VRAM вашей видюхи: модельный ряд включает в себя версии в размерах от 0.5B до 32B (Q4_K_M квант 32B весит 20 ГБ и влезает в 4090) и контекстом от 32К до 128К (можно кормить книжки). Есть онлайн демо с Artifacts. Такое же можно получить в интерфейсе OpenWebUI. Ещё можно прицепить к редактору кода Cursor.

Анонс
Веса модели
Демо (хаггинг)
Демо (hugging.chat)
Гитхаб

2.0K views18:07

Psy Eyes

Я хз как вам, но как по мне мучать ллм вопросом кем тебе приходится тот или иной родственник намного практичнее, чем "сколько будет 2 + 2,1?"

Никогда в этом не шарил, математика и то кажется проще.

Пока правильно ответили только Qwen 2.5, Command-R, Gemma 2.

2.2K views18:38

Psy Eyes

Дайджест:

📹 ВИДЕО + АРТ 🎨

PostShot: появилась интеграция с UE 5.4 для редактирования в нём сплатов, исправили баги при тренировке сцен и импорте/экспорте файлов, и другие улучшения.

Runway: расширили генерацию видео до 20 сек. Плюс обновили API, добавив доступ к контролю камеры Turbo.

Neurogen: появилась оптимизированная версия дипфейкера DeepFaceLab, а также FaceFusion 3.1.

Recraft: обновили свой генератор картинок до V3 и вышли в топ text-2-image моделей, обогнав Flux, MJ, Ideogram, и всех остальных. Можно бесплатно опробовать у них на сайте. Также есть версия, которая затюнена выдавать SVG.

BFL: релизнули Flux 1.1 Pro Ulta для генерации изображений в 4MP и RAW версию с имитацией "обычных фото". Доступно только по API.

Bytedance: выпустили SeeEdit для стайлтрансфера картинки с высокой точностью.

Nvidia: дропнули Llama Mesh для генерации 3D мешей по текстовому описанию с помощью LLM, плюс чата и редактирования.

DimensionX: опенсорсное создание видео с контролем камеры на основе одного изображения. На данный момент движение есть влево и вверх. Работает в связке с CogVideoX.

MagicQuill: онлайн редактирование изображение рисованием и промтом. Напоминает Invoke.

PyramidFlow: ещё один открытый видеогенератор с поддержкой Img2Video. Теперь с кадрами на основе Flux. На выходе видео 768p длиной в 10 сек. Установка через Pinokio.

Bria: обновлённый удалятор фона RMBG-2. Хорошо работает со сложной композицией, есть пакетная обработка, и можно кормить картинки как с компа, так и по ссылкам. Установка через Pinokio.

InstantX: выкатили апскейлер изображений InstantIR. Есть восстановление с точным следованием рефу или по "своему видению" (creative restoration). Установка в Pinokio.

Также они опубликовали метод более точного следования промту в t2i без тренировки + ещё одна работа на эту тему (спс @JohnDoe171).

CogVideoX: выпустили версию v 1.5 своего генератора видео с 5B параметрами. Тесты.

Vidu: обновили видеогенератор до V 1.5. Подняли качество генераций, улучшили следование промту, добавили консистентную работу с персонажами.

Добавление текста на задний фон с его настройкой.

🎸 ЗВУК 🎸

DeepL: представили Voice режим для перевода голоса в текст для бизнес сегмента.

SI: выпустили Hertz-dev, генератор речи (TTS) работающий в audio-2-audio с маленькой задержкой. Может выдавать как слова за одно человека, так и за двоих.

Hallucinator: моделька на основе Hertz выше для продолжения слов в загруженном аудио семпле.

e2f5: появилась возможность делать генерацию речи на основе фантюнов e2f5 от других людей через выбор Custom модели для инференса. На русском не видно пока тюнов.

Веб-интерфейс для работы с разными опенсорсными TTS.

🤖 ЧАТЫ 🤖

Alibaba: рвёт и мечет и после своего опенсорсного кодера, выпустили Turbo — языковую модель (LLM) с контекстом 1 млн токенов. Можно скормить книг 10, или 150 часов транскрибации речи, или 30к строк кода. Демо. API дешевле GPT-4o-mini.

Llama 3.2-11B, умеющая из коробки чатиться по визуалу, вышла в тираж и доступна в Ollama через OpenWebUI. Нужно минимум 8ГБ VRAM.

Mistral: выпустили Pixtral Large, визуальную языковую модель (VLM) для чата по визуалу, которая на бенчах лучше других открытых и закрытых, но размером 124B и её не погонять дома в отличие от Ламы 3.2-11B. Онлайн демо.

MinerU: конвертер PDF файлов в текст с markdown форматированием или JSON.

Google: выкатили Gemini-Exp-1114 и он попал в топ лидерборда LLM. Можно погонять на арене.

OpenAI: дропнули приложение ChatGPT на Windows.

Anthropic: с помощью Computer Use можно дать Claude выполнять задания на компе через API. Плюс тулза от сообщества для этого на Win/Mac... Microsoft Recall ты ли это?

AnyChat: в онлайн чат, где есть последние модели Qwen, Claude итд, добавили DeepSeek v2.5. Некоторые можно потестить бесплатно.

Cinnamon: выпустили Kotaemon, фреймворк, который пользователи могут использовать для чата по докам, а разрабы как шаблон для RAG.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

3.5K views22:17

Psy Eyes

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

BlockadeLabs: добавили в BlendBox возможность загружать картинки как слои и генерить в режиме коллажа без промта.

До этого там была только генерация слоёв без фона из текста... Как в LayerDiffuse.

Сайт

1.6K views09:42

Psy Eyes

Forwarded from Denis Sexy IT 🤖

Выкатили на всех нашу WorldModel Colorization V1, как она работает я напишу чуть позже, но вот пара советов:

— Если цвета вам кажутся неудачными, то можете просто заново поставить колоризацию фото, цвета будут каждый раз разные

— WorldModel Colorization V1 настолько мелкие детали иногда красит, что способна убрать эффект красных фото — который очень тяжело чинится

— Специально тренировали модель, чтобы она работала с любимы видами повреждений фотографий — приложил пару примеров где она различает цвета, хотя я бы не смог заметить объекты

— Если есть на счету кредиты, можете указать сколько версий картинок должно приходить (до 3х)

— Платная фича: за раз можно покрасить 100 фотографий

— Бесплатно генерируется с вотермаркой и лимитами

Планы:

— Через какое-то время можно будет промптом указать какие цвета лучше использовать

— Эта наша первая версия диффузионного колоризатора, мы знаем как его сделать и в разы лучше и точнее, но прежде чем инвестировать в него дальше мы посмотрим насколько он понравится и сколько будет денег приносить, так как тренировки стоят нам денег и это все еще предстоит окупать

Хорошего time-traveling, путник!

Ссылка:
https://neural.love/photo-colorization

778 views10:42

About

Blog

Apps

Platform