Ace Studio в коллабе со StepFun обновили генератор музыки ACE-Step до версии 1.5.
Порог входа уронили до минимума: младшая модель требует меньше 6 ГБ видеопамяти, а, в зависимости от настроек think mode, генерация может занять от 2 до 10 секунд - это уже уровень коммерческих решений.
Разработчики собрали гибрид из языковой модели, которая превращает промпт в чертеж композиции: расписывает структуру, придумывает лирику и метаданные и DiT, который отвечает за звук. Логическое ядро всей этой системы базируется на Qwen3.
ACE-Step v1.5 может генерировать треки длиной от 10 секунд до 10 минут, причем до 8 штук одновременно. В базе больше 1000 инструментов, а тексты песен система понимает на 50 языках.
Авторы подготовили целый набор моделей под разный объем VRAM:
При запуске, ACE-Step v1.5 автоматически выбирает подходящую под железо модель и параметры. Подробную информацию по конфигурациям можно найти тут.
ACE-Step умеет гораздо больше, чем просто превращать текст в мелодию. Можно дать ей пример аудио, чтобы скопировать стиль, делать каверы, исправлять куски уже готовых треков или генерировать аккомпанемент к вокалу.
Самая интересная функция - возможность создавать LoRA. Чтобы скормить модели свой стиль, достаточно всего 8 треков. На 30-й серии RTX с 12 ГБ памяти этот процесс займет около часа.
С деплоем все в порядке, разработчики подготовили портабельную сборку, а для ComfyUI уже написали все необходимые ноды и воркфлоу.
@ai_machinelearning_big_data
#AI #ML #Text2Music #AceStudio #StepFun
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤47👍22⚡8🔥7😁1🦄1