Machinelearning

🌟

Tencent HY-WU: динамические LoRA для редактирования изображений.

Tencent HY опубликовала первую часть серии работ под названием HY-WU (Weight Unleashing). Суть метода в отказе от стандартной парадигмы адаптации, при которой модель получает один фиксированный набор весов для всех задач.

Специальная модель-генератор синтезирует LoRA отдельно под каждый входной пример прямо во время инференса, без дополнительной оптимизации на тест-тайме.

Проблема, которую решает HY-WU, хорошо знакома всем, кто работал с дообучением: когда задачи противоречат друг другу (например, "размыть" против "убрать размытие" или "состарить лицо" против "восстановить"), общий адаптер вынужден идти на компромисс.

Градиенты конфликтуют, и результат оказывается хуже, чем если бы задачи обучались раздельно.

Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.

HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель.

Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров.

🟡

Тесты и результаты

Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны.

🟢В попарном human evaluation (GSB) HY-WU выигрывает у всех топовых open-source редакторов с большим отрывом: 67–78% против Step1X, Qwen, LongCat и FLUX;

🟢Среди закрытых систем модель обошла Seedream 4.5 (55.6%) и GPT Image 1.5 (55.5%).

🟠Единственные, кто пока впереди - Nano Banana 2 и Nano Banana Pro.

Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели.

Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.

Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах:

🟢сравнить функциональную память с retrieval-подходами и понять, когда каждый из них уместен;

🟢разработать протоколы онлайн-обучения, при которых модель усваивает новые задачи без деградации на старых;

🟢исследовать масштабирование модели-генератора отдельно от базовой модели.

Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора.

Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает.

Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM.

📌Лицензирование: Tencent Hunyuan Community License.

🟡

Страница проекта

🟡

Prompt Handbook (китайский)

🟡

Модель

🟡

Техотчет

🖥

Github

@ai_machinelearning_big_data

#AI #ML #ImageEdit #HYWU #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM