Machinelearning

⚡️ Aria: открытая мультимодальная модель на основе MoE

Rhymes AI опубликовала Aria — первую в мире открытую MMLM, основанную на Mixture-of-Experts. Aria способна обрабатывать текст, изображения, видео и код одновременно, не требуя отдельных настроек для каждого типа данных.

Модель отличается высокой производительностью при обработке мультимодальных и языковых данных, включая изображения различных размеров и соотношений сторон.

Aria использует 3,9 млрд. активных параметров из 25 млрд. общих и обладает длинным контекстным окном в 64 тыс. токенов, что позволяет ей эффективно обрабатывать большие объемы данных, например, создавать аннотации к видео из 256 кадров за 10 секунд.

MoE-архитектура Aria состоит из 66 экспертов. Каждый эксперт структурно идентичен FFN в трансформере. Входной токен направляется только к подмножеству экспертов в каждом слое, это позволяет эффективно распределить вычислительные потребности модели.

ARIA отличается от предыдущих мультимодальных моделей MoE тем, что она обучается с нуля с использованием универсальных экспертов, а не специализированных для каждой модальности.

Обучение ARIA проходило на 6.4 трлн. языковых и 400 млрд. токенах в 4 этапа:

🟢На первых двух обучаются декодеры MoE и ViT на наборах текстовых данных и наборах смеси тект-инображение-видео;

🟢На третьем этапе модель проходит обучение на длинных мультимодальных последовательностях для расширения контекстного окна;

🟢На последнем этапе выполняется дообучение на наборе данных вопрос-ответ для улучшения способности VQA и выполнению инструкций.

ARIA протестирована бенчмарках MMMU, MathVista, DocVQA, ChartQA, TextVQA, MMBench-1.1, EgoSchema, LongVideoBench, VideoMME, MMLU, MATH, ARC Challenge и HumanEval (задачи понимания кода).

Результаты тестирования показывают, что ARIA превосходит открытые модели Pixtral-12B и Llama3.2-11B и демонстрирует конкурентоспособные результаты по сравнению с проприетарными моделями GPT-4o и Gemini-1.5.

⚠️ Так как Aria имеет 25.3 млрд. общих параметров, они могут быть загружены в один A100 (80GB) с точностью bfloat16.

▶️ Разработчики в репозитории на Github подготовили инструкции инференса в Transformers, альтернативный вариант в среде vLLM, ноутбуки различных режимов (с одним и несколькими изображениями, многостраничным PDF и видео) в разных средах, туториалы по подготовке кастомного датасета для обучения, файнтюну с LoRA и Full parameter.

📌Лицензирование : Apache 2.0 License.

🟡

Страница проекта

🟡

Модель

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #MoE #Aria #RhymesAI

Please open Telegram to view this post