Машинное обучение digest

🌟 Jamba 1.5: Семейство моделей на архитектуре SSM-Transformer с большим контекстным окном.

AI21 Labs опубликовала в открытом доступе семейство моделей Jamba 1.5. Модели позиционированы для использования в бизнесе для задач анализа документов, рабочих процессов RAG, поддержки клиентов и обладают возможностями вызова функций, структурированного вывода (JSON) и генерации текстовых данных.

Семейство демонстрирует хорошую управляемость в длительном контексте, скорость и качество. Это первый кейс успешного масштабирования не трансформерной модели до уровня качества топовых открытых моделей.

Архитектура Jamba состоит из гибридного сочетания Transformers и Mamba, что позволило создать модели, которые требуют меньший объем VRAM, чем трансформерные аналоги и могут обрабатывать контексты длиной до 140 тысяч токенов на одном GPU в квантованной версии.

Чтобы сделать модели удобными в использовании, была разработана новая техника квантования ExpertsInt8. Она квантует только веса, которые являются частью слоев MoE, и сохраняет их в формате INT8.
ExpertsInt8 быстрее других методов квантования, не требует калибровки и дает возможность использования BF16 для хранения больших активаций и позволяет загружать Large модель на одном узле из 8 GPU.

Jamba 1.5 Large:

🟠total params - 399B;
🟠active non-embedding params - 94B;
🟠context - 256К.

Jamba 1.5 Mini:

🟢total params - 52B;
🟢active non-embedding params - 12B;
🟢context - 256К;
🟢Int8 context - 140К.

Запуск моделей возможен на платформах AI21 Studio, Google Cloud, Azure, Hugging Face, NVIDIA NIM.
Протестировать возможности обеих моделей можно онлайн в сервисе AI21 Studio .
Доступен вход с Gmail и Github, на бесплатный тестовый период дается 10$ на три месяца при тарификации:

🟠Jamba 1.5 Large - 2 $ / 8$ Input / Output за 1 млн токенов.
🟠Jamba 1.5 Mini - 0.2 $ / 0.4$ Input / Output за 1 млн токенов.

📌Лицензирование: Jamba Open Model License

🟢Бесплатно для некоммерческих проектов и личного использования
🟠Бесплатно для коммерческого использования при годовом доходе до 50 млн USD, если больше - заключение отдельного договора.

🟡

Страница проекта

🟡

Набор моделей

🟡

Demo

@ai_machinelearning_big_data

#AI #Jamba #LLM #ML #SSM

Please open Telegram to view this post