MAMBA для начинающих: Нейронка, которая лучше и быстрее, чем Трансформеры
Мамба — архитектура нейронной сети, конкурирующая с трансформерами.
Основываясь на улучшенных рекуррентных нейронных сетях (RNN), Мамба использует линейные функции, позволяющие эффективно обрабатывать большие объёмы данных с минимальными вычислительными затратами.
Разработка показала интересные результаты даже на моделях с несколькими миллиардами параметров.
Мамба способна работать с более крупными контекстами при меньшем объеме расчетов, чем трансформеры, что делает её особенно ценной для задач, требующих обработки большого массива информации.
Проблемы с исчезающими градиентами, характерные для RNN, в Мамбе решаются через инициализацию весов и настройку параметров угла и магнитуды.
Интересный подход. Есть, правда, проблемы с распараллеливанием, но для общего развития ролик полезный.
#CNN, #RNN, #Mamba
-------
@tsingular
Мамба — архитектура нейронной сети, конкурирующая с трансформерами.
Основываясь на улучшенных рекуррентных нейронных сетях (RNN), Мамба использует линейные функции, позволяющие эффективно обрабатывать большие объёмы данных с минимальными вычислительными затратами.
Разработка показала интересные результаты даже на моделях с несколькими миллиардами параметров.
Мамба способна работать с более крупными контекстами при меньшем объеме расчетов, чем трансформеры, что делает её особенно ценной для задач, требующих обработки большого массива информации.
Проблемы с исчезающими градиентами, характерные для RNN, в Мамбе решаются через инициализацию весов и настройку параметров угла и магнитуды.
Интересный подход. Есть, правда, проблемы с распараллеливанием, но для общего развития ролик полезный.
#CNN, #RNN, #Mamba
-------
@tsingular
Архитектуры ИИ агентов для рассуждений и планирования: обзор
Рассмотрены одно- и многоагентные архитектуры ИИ, их преимущества и ограничения.
Ключевые компоненты агентов: персона, роль, набор инструментов.
Методы улучшения рассуждения и планирования: ReAct, RAISE, Reflexion, AutoGPT+P, LATS.
Параллельное выполнение задач в многоагентных системах.
Рассмотрены проблемы групповых бесед и обмена информацией между агентами.
Влияние ролей и динамических команд агентов.
Ограничения: сложность логики, галлюцинации, локальные минимумы.
Актуальные задачи: всесторонние оценки, применимость, смягчение предубеждений.
Интересный обзор архитектур по работе с мультиагентными системами.
#AgentArchitectures #ReinforcementLearning #MultiAgentSystems
Рассмотрены одно- и многоагентные архитектуры ИИ, их преимущества и ограничения.
Ключевые компоненты агентов: персона, роль, набор инструментов.
Методы улучшения рассуждения и планирования: ReAct, RAISE, Reflexion, AutoGPT+P, LATS.
Параллельное выполнение задач в многоагентных системах.
Рассмотрены проблемы групповых бесед и обмена информацией между агентами.
Влияние ролей и динамических команд агентов.
Ограничения: сложность логики, галлюцинации, локальные минимумы.
Актуальные задачи: всесторонние оценки, применимость, смягчение предубеждений.
Интересный обзор архитектур по работе с мультиагентными системами.
#AgentArchitectures #ReinforcementLearning #MultiAgentSystems
KAN - новая архитектура нейросетей на основе теоремы Колмогорова-Арнольда
KAN (Kolmogorov-Arnold Networks) - альтернатива многослойным перцептронам. 🧠💡
Ключевые особенности KAN:
- Функции активации на ребрах, а не нейронах
- Основана на теореме Колмогорова-Арнольда об аппроксимации функций
- Вместо весов обучаются функции на ребрах, в нейронах - их суммирование
- Для обучения функций используются сплайны 📈
- Масштабируется за счет композиции матриц обучаемых функций на каждом слое
Авторы разработали библиотеку pykan для работы с KAN. 🐍🔧
Потенциально, это может перевернуть глубокое обучение. Ждем бенчмарков! 🤯📊
#KAN #NeuralNetworks #MachineLearning
-------
@tsingular
KAN (Kolmogorov-Arnold Networks) - альтернатива многослойным перцептронам. 🧠💡
Ключевые особенности KAN:
- Функции активации на ребрах, а не нейронах
- Основана на теореме Колмогорова-Арнольда об аппроксимации функций
- Вместо весов обучаются функции на ребрах, в нейронах - их суммирование
- Для обучения функций используются сплайны 📈
- Масштабируется за счет композиции матриц обучаемых функций на каждом слое
Авторы разработали библиотеку pykan для работы с KAN. 🐍🔧
Потенциально, это может перевернуть глубокое обучение. Ждем бенчмарков! 🤯📊
#KAN #NeuralNetworks #MachineLearning
-------
@tsingular
👍3
Регулярно спрашивают,- что почитать, где поучиться этим вашим ИИ.
Ну нет ничего проще и бесплатнее, чем курс HuggingFace на русском языке.
Курс научит основам обработки естественного языка (NLP) с использованием таких библиотек, как:
- 🤗 Transformers
- 🤗 Datasets
- 🤗 Accelerate
- 🤗 Tokenizers
А также работе с репозиторием Hugging Face Hub.
Материалы курса включают теорию, практические упражнения и блокноты Jupyter с кодом.
#HuggingFace #NLPcourse #transformers
------
@tsingular
Ну нет ничего проще и бесплатнее, чем курс HuggingFace на русском языке.
Курс научит основам обработки естественного языка (NLP) с использованием таких библиотек, как:
- 🤗 Transformers
- 🤗 Datasets
- 🤗 Accelerate
- 🤗 Tokenizers
А также работе с репозиторием Hugging Face Hub.
Материалы курса включают теорию, практические упражнения и блокноты Jupyter с кодом.
#HuggingFace #NLPcourse #transformers
------
@tsingular
✍3🤗1
OpenBioLLM-70B: прорыв в сфере биомедицинского ИИ
Компания Saama AI Labs представила открытую языковую модель OpenBioLLM-70B, специализированную на биомедицинской тематике.
Основана на Llama-3-70B-Instruct и зафайнтюнена на Custom Medical Instruct dataset (который выложат попозже), модель превосходит в специализированных тестах GPT-4, Gemini и Med-PaLM.
Она эффективно анализирует сложные клинические записи, извлекает ключевую информацию и генерирует структурированные резюме.
OpenBioLLM-70B распознает медицинские концепты, классифицирует документы и обеспечивает конфиденциальность данных.
Однако, несмотря на впечатляющие результаты, модель пока не рекомендуется применять в клинической практике без дополнительного тестирования.
Ну раз уж многие врачи и так уже ходят к ИИ за консультацией, пусть уже ходят к специализированным нейронкам что-ли.
#OpenBioLLM #SaamaAILabs #BiomedicineAI
-------
@tsingular
Компания Saama AI Labs представила открытую языковую модель OpenBioLLM-70B, специализированную на биомедицинской тематике.
Основана на Llama-3-70B-Instruct и зафайнтюнена на Custom Medical Instruct dataset (который выложат попозже), модель превосходит в специализированных тестах GPT-4, Gemini и Med-PaLM.
Она эффективно анализирует сложные клинические записи, извлекает ключевую информацию и генерирует структурированные резюме.
OpenBioLLM-70B распознает медицинские концепты, классифицирует документы и обеспечивает конфиденциальность данных.
Однако, несмотря на впечатляющие результаты, модель пока не рекомендуется применять в клинической практике без дополнительного тестирования.
Ну раз уж многие врачи и так уже ходят к ИИ за консультацией, пусть уже ходят к специализированным нейронкам что-ли.
#OpenBioLLM #SaamaAILabs #BiomedicineAI
-------
@tsingular
👍2
Amazon представил новую модель для векторного эмбеддинга Titan V2
Новая версия модели оптимизирована под наиболее распространенные кейсы, такие как RAG, мультиязычные задачи и встраивание кода.
V2 гораздо быстрее V1 (логично), но, что интересно на порядок дешевле.
2 цента за 1 млн токенов
Модель обучена на более чем 100 языках и показывает неплохие результаты на бенчмарках MTEB (SFR -one love все-равно).
Максимальная размерность вектора - 1024 (такое)...
Всем ли подойдет, - не понятно, нужно тестировать. Хотелось бы 4096.
#Amazon #TitanEmbeddings #NLP
-------
@tsingular
Новая версия модели оптимизирована под наиболее распространенные кейсы, такие как RAG, мультиязычные задачи и встраивание кода.
V2 гораздо быстрее V1 (логично), но, что интересно на порядок дешевле.
2 цента за 1 млн токенов
Модель обучена на более чем 100 языках и показывает неплохие результаты на бенчмарках MTEB (SFR -one love все-равно).
Максимальная размерность вектора - 1024 (такое)...
Всем ли подойдет, - не понятно, нужно тестировать. Хотелось бы 4096.
#Amazon #TitanEmbeddings #NLP
-------
@tsingular
Оракл, тем временем, просто выпустил новую базу со встроенной векторизацией и векторным поиском.
т.е. все эти полезные для ИИ упражнения будут исполняться фоном, без необходимости установки отдельной базы.
когда уже в MySQL добавят.
#Oracle #Database23ai
———
@tsingular
т.е. все эти полезные для ИИ упражнения будут исполняться фоном, без необходимости установки отдельной базы.
когда уже в MySQL добавят.
#Oracle #Database23ai
———
@tsingular
🔥2👍1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Новый алгоритм MaxDiff RL ускоряет и улучшает обучение роботов
Ученые из Северо-Западного инженерного института (США) создали алгоритм ИИ MaxDiff RL, позволяющий роботам быстрее и надежнее обучаться новым навыкам с первой попытки.
Традиционное машинное обучение хорошо работает для бестелесных ИИ-систем вроде языковых моделей, но не подходит для физической среды, как у роботов. MaxDiff RL решает эту проблему, обеспечивая сбор качественных данных роботами в движении.
Ключевая идея - побуждать роботов исследовать среду максимально случайно, собирая разнообразный опыт. Такая "спроектированная случайность" улучшает качество данных.
Алгоритм подходит для разных задач робототехники, от мобильных роботов до стационарных манипуляторов.
Ученые считают, он позволит повысить надежность принятия решений умными роботами.
#MaxDiffRL #robotics #NorthwesternEngineering
Ученые из Северо-Западного инженерного института (США) создали алгоритм ИИ MaxDiff RL, позволяющий роботам быстрее и надежнее обучаться новым навыкам с первой попытки.
Традиционное машинное обучение хорошо работает для бестелесных ИИ-систем вроде языковых моделей, но не подходит для физической среды, как у роботов. MaxDiff RL решает эту проблему, обеспечивая сбор качественных данных роботами в движении.
Ключевая идея - побуждать роботов исследовать среду максимально случайно, собирая разнообразный опыт. Такая "спроектированная случайность" улучшает качество данных.
Алгоритм подходит для разных задач робототехники, от мобильных роботов до стационарных манипуляторов.
Ученые считают, он позволит повысить надежность принятия решений умными роботами.
#MaxDiffRL #robotics #NorthwesternEngineering
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
Очередной день, очередное издевательство над роботом – в этот раз пинают компаньона для хайкинга, судя по окружению
Этот лицо не скрыл – ошибка кожаного, роботы потом спросят😘
Этот лицо не скрыл – ошибка кожаного, роботы потом спросят
Please open Telegram to view this post
VIEW IN TELEGRAM
😢2
Office 95: троянский конь в стане бюрократов
1995й год. Компьютерра:
в условиях разгоревшейся полемики Office 95 оказывается не просто новым программным продуктом, но и своего рода "троянским конем", призванным привлечь под знамена Windows 95 как можно большее количество пользователей.
300 лет тому назад. :)
#Microsoft
———
@tsingular
1995й год. Компьютерра:
в условиях разгоревшейся полемики Office 95 оказывается не просто новым программным продуктом, но и своего рода "троянским конем", призванным привлечь под знамена Windows 95 как можно большее количество пользователей.
30
#Microsoft
———
@tsingular
гайд от Google по использованию ГенИИ в реагировании на инциденты ИБ
Интересный гайд от Google Online Security с примерами о том как генеративный ИИ помогает командам безопасности быстрее реагировать на инциденты.
ИИ-модели обучаются на исторических данных об инцидентах, автоматизируют задачи, анализируют большие объемы данных и повышают производительность команд.
Они также генерируют отчеты и документацию по инцидентам для ускорения работы в целом.
Нового не так много, но может быть полезно для быстрого понимания примеров использования.
Тем более там и промпты и оценки по экономии времени
#GoogleSecurity #IncidentResponse #GenerativeAI
-------
@tsingular
Интересный гайд от Google Online Security с примерами о том как генеративный ИИ помогает командам безопасности быстрее реагировать на инциденты.
ИИ-модели обучаются на исторических данных об инцидентах, автоматизируют задачи, анализируют большие объемы данных и повышают производительность команд.
Они также генерируют отчеты и документацию по инцидентам для ускорения работы в целом.
Нового не так много, но может быть полезно для быстрого понимания примеров использования.
Тем более там и промпты и оценки по экономии времени
#GoogleSecurity #IncidentResponse #GenerativeAI
-------
@tsingular
ИИ как космический посланник для общения с инопланетянами
Андрей Карпати предлагает использовать LLM, вроде ChatGPT, для общения с внеземными цивилизациями.
Карпати разрабатывает библиотеку llm.c на C для быстрого и простого обучения LLM. Успехи очень даже!
Первый этап - адаптация кода под строгие стандарты безопасности космической отрасли, например, "10 правил безопасного кода" NASA.
Второй этап - использование сертифицированной безопасной LLM как "посланника ИИ" в космосе, подобно Посланию Аресибо и Золотой записи Вояджера.
Идея - упаковать обученный LLM в двоичный файл, который сможет "просыпаться" и взаимодействовать с любыми инопланетными технологиями, способными его расшифровать. 👽
Инопланетяне: Пролетаем мимо, эта планета населена чатботами. :)
#KarpathyAI #LLM #SpaceCommunication
-------
@tsingular
Андрей Карпати предлагает использовать LLM, вроде ChatGPT, для общения с внеземными цивилизациями.
Карпати разрабатывает библиотеку llm.c на C для быстрого и простого обучения LLM. Успехи очень даже!
Первый этап - адаптация кода под строгие стандарты безопасности космической отрасли, например, "10 правил безопасного кода" NASA.
Второй этап - использование сертифицированной безопасной LLM как "посланника ИИ" в космосе, подобно Посланию Аресибо и Золотой записи Вояджера.
Идея - упаковать обученный LLM в двоичный файл, который сможет "просыпаться" и взаимодействовать с любыми инопланетными технологиями, способными его расшифровать. 👽
Инопланетяне: Пролетаем мимо, эта планета населена чатботами. :)
#KarpathyAI #LLM #SpaceCommunication
-------
@tsingular
❤1
Отличная статья от Дмитрия Гуреева о векторном поиске:
https://habr.com/ru/articles/812431/
Разбор тестов нескольких вариантов с примерами.
Читаем, учимся, применяем :)
#embeddings #habr
———
@tsingular
https://habr.com/ru/articles/812431/
Разбор тестов нескольких вариантов с примерами.
Читаем, учимся, применяем :)
#embeddings #habr
———
@tsingular
Хабр
«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large
Введение В прошлых обзорах я исследовал, как различные большие языковые модели (LLM) и эмбеддинги влияют на качество ответов по юридическим документам. Основные тесты включали различные модели для...
🤩2
Гемамба: LLM с видеоэнкодером от TensorSense на базе Мамбы
Команда TensorSense выпустила Гемамбу мультимодальную языковую модель (VLM) с видеоэнкодером на базе Мамбы.
Ключевые особенности Гемамбы:
- Уникальный дизайн архитектуры, созданный командой TensorSense
- Возможность загружать очень длинные видео при небольших вычислительных ресурсах
- Открывает дверь для применения ЛЛМ в компьютерном зрении с бОльшей скоростью.
это первая альфа-версия, представляющая больше интерес для исследователей.
Код для обучения и оценки модели доступен в GitHub.
Интересный релиз. Следим.
#TensorSense #Gemamba #VLM
-------
@tsingular
Команда TensorSense выпустила Гемамбу мультимодальную языковую модель (VLM) с видеоэнкодером на базе Мамбы.
Ключевые особенности Гемамбы:
- Уникальный дизайн архитектуры, созданный командой TensorSense
- Возможность загружать очень длинные видео при небольших вычислительных ресурсах
- Открывает дверь для применения ЛЛМ в компьютерном зрении с бОльшей скоростью.
это первая альфа-версия, представляющая больше интерес для исследователей.
Код для обучения и оценки модели доступен в GitHub.
Интересный релиз. Следим.
#TensorSense #Gemamba #VLM
-------
@tsingular
2_-_Investigation_Assistant.gif
12.6 MB
Google Security Operations: мощь ИИ для SecOps
Google выпустила единую платформу Google Security Operations для обнаружения угроз, расследования и реагирования на базе ИИ и исследований.
Google Threat Intelligence автоматически генерирует правила обнаружения для новых угроз, а так же предлагает:
- управление поверхностью атаки
- защиту от цифровых рисков
- анализ индикаторов компрометации
- экспертизу специалистов
Gemini ускоряет выявление новых угроз, анализируя малварь и автоматизируя рутинные задачи.
Он поддерживает до 1 млн токенов для реверс-инжиниринга вредоносов.
Добавлены новые правила от экспертов Google и Mandiant для облака, конечных точек и поведения юзеров.
Investigation Assistant ищет контекст, анализирует тактики злоумышленников и дает рекомендации.
Playbook Assistant помогает с настройкой и сценариями реагирования.
Автоматическое извлечение ключевых значений из логов упрощает расследования и написание правил.
Запущено решение Google SecOps CyberShield для госорганизаций.
#GoogleCloud #Mandiant #GoogleSecOps
-------
@tsingular
Google выпустила единую платформу Google Security Operations для обнаружения угроз, расследования и реагирования на базе ИИ и исследований.
Google Threat Intelligence автоматически генерирует правила обнаружения для новых угроз, а так же предлагает:
- управление поверхностью атаки
- защиту от цифровых рисков
- анализ индикаторов компрометации
- экспертизу специалистов
Gemini ускоряет выявление новых угроз, анализируя малварь и автоматизируя рутинные задачи.
Он поддерживает до 1 млн токенов для реверс-инжиниринга вредоносов.
Добавлены новые правила от экспертов Google и Mandiant для облака, конечных точек и поведения юзеров.
Investigation Assistant ищет контекст, анализирует тактики злоумышленников и дает рекомендации.
Playbook Assistant помогает с настройкой и сценариями реагирования.
Автоматическое извлечение ключевых значений из логов упрощает расследования и написание правил.
Запущено решение Google SecOps CyberShield для госорганизаций.
#GoogleCloud #Mandiant #GoogleSecOps
-------
@tsingular
Stack Overflow и OpenAI интегрируются
Цель - интегрировать проверенные технические знания Stack Overflow в популярные языковые модели OpenAI.
OpenAI получит доступ к данным Stack Overflow через OverflowAPI.
Информация из Stack Overflow будет напрямую отображаться в ChatGPT.
Пользователи получат доступ к достоверным, точным и высокотехническим знаниям и коду.
Коллаборация поможет OpenAI улучшить пользовательский опыт на обеих платформах.
Первые интеграции ожидаются в первой половине 2024 года.
Но если все будут получать ответы в chatGPT - Stackoverflow перестанет пополняться... тупик, получается.
Ну или Stackoverflow начнёт пополнятся кодом от GPT.
#StackOverflow #OpenAI
———
@tsingular
Цель - интегрировать проверенные технические знания Stack Overflow в популярные языковые модели OpenAI.
OpenAI получит доступ к данным Stack Overflow через OverflowAPI.
Информация из Stack Overflow будет напрямую отображаться в ChatGPT.
Пользователи получат доступ к достоверным, точным и высокотехническим знаниям и коду.
Коллаборация поможет OpenAI улучшить пользовательский опыт на обеих платформах.
Первые интеграции ожидаются в первой половине 2024 года.
Но если все будут получать ответы в chatGPT - Stackoverflow перестанет пополняться... тупик, получается.
Ну или Stackoverflow начнёт пополнятся кодом от GPT.
#StackOverflow #OpenAI
———
@tsingular
Forwarded from Midov trip (Islam Midov)
Самая яркая картинка объясняющая взлет Nvidia до стратосферы, и перевернутая структура прибыльности GenAI индустрии
Nvidia добежало до #3 мире по капитализации, $2.3T. Цена акции с выпуска chatgpt 30.11.22 г. выросла в 5.5х раз. Ни одна компания не создавала столько стоимости своим акционерам так быстро.
As Is
Есть очень логичное объяснение этому - текущая структура gen-ai рынка. (оригинал статьи тут, много интересных наблюдений)
Производители полупроводников/чипов забрали ~80% выручки, которую сгенерировала технология.
+Структура рынка практически монополистична на уровне чипов и на этом этапе развития рынка - Nvidia занимает ~95%.
С учетом валовой маржи в 85%, Nvidia забирает почти весь объем маржи на рынке.
To Be
По прогнозу, уровень приложений (openai, etc) и инфраструктуры (azure etc) должен постепенно забрать основную часть создаваемой стоимости.
Я скорее согласен, все же технологии, в т.ч. чипы, дешевеют быстро. Долгосрочно, иногда очень долгосрочно, решает близость к конечному клиенту и способность решить его задачи.
Но зуб я бы не давал и пут-опционы на nvidia не покупал:)
Nvidia добежало до #3 мире по капитализации, $2.3T. Цена акции с выпуска chatgpt 30.11.22 г. выросла в 5.5х раз. Ни одна компания не создавала столько стоимости своим акционерам так быстро.
As Is
Есть очень логичное объяснение этому - текущая структура gen-ai рынка. (оригинал статьи тут, много интересных наблюдений)
Производители полупроводников/чипов забрали ~80% выручки, которую сгенерировала технология.
+Структура рынка практически монополистична на уровне чипов и на этом этапе развития рынка - Nvidia занимает ~95%.
С учетом валовой маржи в 85%, Nvidia забирает почти весь объем маржи на рынке.
To Be
По прогнозу, уровень приложений (openai, etc) и инфраструктуры (azure etc) должен постепенно забрать основную часть создаваемой стоимости.
Я скорее согласен, все же технологии, в т.ч. чипы, дешевеют быстро. Долгосрочно, иногда очень долгосрочно, решает близость к конечному клиенту и способность решить его задачи.
Но зуб я бы не давал и пут-опционы на nvidia не покупал:)
Интервью с Brad Lightcap COO OpenAI о том, чего ожидать в ближайшие 12 месяцев:
- сегодняшние ИИ системы будут выглядеть смехотворно плохими по сравнению с тем, что нас ждёт
- ChatGPT не является моделью долгосрочного взаимодействия.
- модели способные на исполнение сложных задач
- как отличный товарищ работающий с тобой в команде
- переход к вербальным интерфейсам и не только, мультимодальность
https://milkeninstitute.org/panel/15625/part-1-conversation-openai-coo-brad-lightcap
#OpenAI #Lightcap
———
@tsingular
- сегодняшние ИИ системы будут выглядеть смехотворно плохими по сравнению с тем, что нас ждёт
- ChatGPT не является моделью долгосрочного взаимодействия.
- модели способные на исполнение сложных задач
- как отличный товарищ работающий с тобой в команде
- переход к вербальным интерфейсам и не только, мультимодальность
https://milkeninstitute.org/panel/15625/part-1-conversation-openai-coo-brad-lightcap
#OpenAI #Lightcap
———
@tsingular
Vimeo
Part 1: A Conversation with OpenAI COO Brad Lightcap
This is "Part 1: A Conversation with OpenAI COO Brad Lightcap" by Milken Institute on Vimeo, the home for high quality videos and the people who love them.
Forwarded from эйай ньюз
Deepseek V2: топ за свои деньги
Что-то в опенсорс в последнее время попадает прям поток MoE моделей, вот и DeepSeek V2 из них. 236B параметров, из которых 21B - активных. По качеству - между Mixtral 8x22B и LLaMa 3 70B, но при этом в 2-4 раза дешевле этих моделей у самых дешёвых провайдеров, всего лишь 14 центов за млн токенов инпута и 28 за млн токенов на выход. Лицензия модели MIT, так что до конца недели будет штук пять разных провайдеров дешевле этого.
Главная особенность - Multi-Head Latent Attention (MLA). От обычного Multi-Head Attention (MHA) он отличается механизмом сжатия KV Cache, где он хранится как низкоранговая матрица, откуда и куда проецируется когда его нужно использовать или обновить. Из экспериментов, по качеству это работает лучше MHA, при этом используя в 4 раза памяти чем обычные Grouped Query Attention конфиги. Из нюансов - авторам пришлось изобрести новый вариант RoPE чтобы это всё заработало, так как обычный RoPE такого количества линейных проекций туда и назад переживать решительно отказывается. Если честно, я не совсем понимаю почему это работает и почему нету абляций для dense моделей, но интересно как это будет сочетаться с квантизацией KV кэша.
Размер контекста - 128k. Тренировали это всё на 8 триллионах токенов в течении 1.5 миллиона часов на H800 (китайская версия H100). Это уровень компьюта тренировки LLaMa 3 8B и примерно в 3 раза больше чем у Snowflake Arctic.
У модели 162 эксперта, из которых 2 перманентно активные, а из остальных 160-ти на каждый токен выбирается 6. Хочу отметить что эксперты там крайне маленькие – у каждого размерность всего 1536.
Соотношение цены и качества прекрасное, если все подтвердится на ChatBot Arena.
Из минусов — размер. В BF16 для локального инференса нужно 8x A100 с 80GB VRAM. Вся надежда на квантизацию.
Демка
Пейпер
Базовая модель
Чат версия
@ai_newz
Что-то в опенсорс в последнее время попадает прям поток MoE моделей, вот и DeepSeek V2 из них. 236B параметров, из которых 21B - активных. По качеству - между Mixtral 8x22B и LLaMa 3 70B, но при этом в 2-4 раза дешевле этих моделей у самых дешёвых провайдеров, всего лишь 14 центов за млн токенов инпута и 28 за млн токенов на выход. Лицензия модели MIT, так что до конца недели будет штук пять разных провайдеров дешевле этого.
Главная особенность - Multi-Head Latent Attention (MLA). От обычного Multi-Head Attention (MHA) он отличается механизмом сжатия KV Cache, где он хранится как низкоранговая матрица, откуда и куда проецируется когда его нужно использовать или обновить. Из экспериментов, по качеству это работает лучше MHA, при этом используя в 4 раза памяти чем обычные Grouped Query Attention конфиги. Из нюансов - авторам пришлось изобрести новый вариант RoPE чтобы это всё заработало, так как обычный RoPE такого количества линейных проекций туда и назад переживать решительно отказывается. Если честно, я не совсем понимаю почему это работает и почему нету абляций для dense моделей, но интересно как это будет сочетаться с квантизацией KV кэша.
Размер контекста - 128k. Тренировали это всё на 8 триллионах токенов в течении 1.5 миллиона часов на H800 (китайская версия H100). Это уровень компьюта тренировки LLaMa 3 8B и примерно в 3 раза больше чем у Snowflake Arctic.
У модели 162 эксперта, из которых 2 перманентно активные, а из остальных 160-ти на каждый токен выбирается 6. Хочу отметить что эксперты там крайне маленькие – у каждого размерность всего 1536.
Соотношение цены и качества прекрасное, если все подтвердится на ChatBot Arena.
Из минусов — размер. В BF16 для локального инференса нужно 8x A100 с 80GB VRAM. Вся надежда на квантизацию.
Демка
Пейпер
Базовая модель
Чат версия
@ai_newz