Data Science by ODS.ai 🦜
44.8K subscribers
786 photos
85 videos
7 files
1.86K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Forwarded from Machinelearning
🌟 ZAYA1: первая MoE-модель, полностью обученная на стеке AMD.

Есть устойчивое мнение, что серьезное обучение нейросетей возможно только на чипах одной известной компании.

В Zyphra решили доказать обратное, и, в сотрудничестве с AMD и IBM провели эксперимент, который на практике доказал, что есть альтернатива.

Стартап опубликовал техотчет и результат - модель ZAYA1. Это первая модель архитектуры MoE, обученная полностью на платформе AMD.

Сеттинг проекта был действительно "красным": графические процессоры AMD Instinct, сетевые интерфейсы AMD Pensando и программный стек ROCm.

ZAYA1 получилась довольно интересной. У неё 8.3 млрд. общих параметров, из которых активных всего 800 миллионов.

Несмотря на компактность, в тестах она выглядит бодро. В ризонинге, математике и программирование ZAYA1 обошла Llama-3-8B и OLMoE. А по общим показателям встала в один ряд с Qwen3-4B и гугловской Gemma3-12B.

Обучение проходило на кластере IBM Cloud, где модель переварила 14 трлн. токенов. Но дело не только в железе, в папйплайне использовали архитектурные инновации:

🟢Новый механизм внимания - Compressed Convolutional Attention. Он использует свертки внутри блока внимания, это снизило нагрузку на вычисления и память.

🟢Переделали маршрутизатор MoE. Вместо стандартного линейного роутера, ZAYA1 использует сложную последовательность операций, что заставляет "экспертов" внутри нейросети специализироваться гораздо лучше.

🟢Residual Scaling. Добавили обучаемые скалярные гейты в остаточный стрим на выходы каждого блока, чтобы модель контролировала степень забывания.


⚠️ Для запуска инференса потребуется ветка zaya форка transformers из репозитория Zyphra.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #MoE #Zyphra
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥7👍3🥰1🎉1🙏1