Forwarded from Machinelearning
🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
Forwarded from Machinelearning
Llama 3.1 - набор предварительно обученных и настроенных по инструкции генеративных моделей размером 8B, 70B и 405B (текст в тексте/текст на выходе). Модели Llama 3.1 с инструкциями (8B, 70B, 405B) оптимизированы для использования в многоязычных диалогах и превосходят многие из доступных моделей с открытым исходным кодом и закрытых моделей для чатов в распространенных отраслевых тестах.
Llama 3.1 - это авторегрессивная языковая модель, использующая оптимизированную архитектуру трансформаторов. В настроенных версиях используются контролируемая тонкая настройка (SFT) и обучение с подкреплением и обратной связью (RLHF) для согласования с предпочтениями человека в отношении полезности и безопасности.
Pretrained:
Meta-Llama-3.1-8B
Meta-Llama-3.1-70B
Meta-Llama-3.1-405B
Meta-Llama-3.1-405B-MP16
Meta-Llama-3.1-405B-FP8
Fine-tuned:
Meta-Llama-3.1-8B-Instruct
Meta-Llama-3.1-70B-Instruct
Meta-Llama-3.1-405B-Instruct
Meta-Llama-3.1-405B-Instruct-MP16
Meta-Llama-3.1-405B-Instruct-FP8
Llama-Guard-3-8B
Llama-Guard-3-8B-INT8
Llama-Guard-2-8B
Llama-Guard-8B
Prompt-Guard-86MЭти веса можно запустить только на нескольких нодах с использованием pipelined parallel инференса. Минимально требуется 2 ноды с 8 GPU.
@ai_machinelearning_big_data
#AI #Llama3.1 #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Q-GaLore: алгоритм обучения и файнтюна LLM с экономией памяти.
Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:
🟢 адаптивного обновления подпространств (увеличение интервала между операциями SVD и, как следствие, сокращение их числа на 60%);
🟢 квантовании весов и матриц в проекции (хранение весов модели в INT8, использовании 4-битных матриц проекции и применение стохастического округления для аппроксимации траектории обучения с высокой точностью)
🟢 применении метода fused backward operation в совокупности с 8-битным оптимизатором Adam.
Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.
▶️ Локальный запуск:
Пример конфига для претрейга LLaMa на с4 датасете
Пример конфига для претрейна LLaMA-7B на 16 GB VRAM
▪Лицензирование: Apache-2.0
▪Arxiv
▪Video from Open AGI Summit
▪Github [ Stars: 3.4K | Issues: 122 | Forks: 274]
@ai_machinelearning_big_data
#AI #FineTuning #LLM #QGalore #ML
Q-GaLore - набор методик, который значительно оптимизирует использование памяти при сохранении высокой производительности за счет техник, полученных в результате наблюдения за поведением стабилизации слоев и устойчивости матриц проекции к квантованию:
Совокупность этих техник позволяет проводить полнопараметрическое обучение при меньших затратах памяти, например, обучение модели LLaMA-7B с нуля на одном NVIDIA RTX 4060 Ti с использованием всего 16 ГБ памяти.
# # Install via conda
conda env create - f environment.yml
# or Install Q-GaLore optimizer and experiment dependencies
# install from pip
pip install q-galore-torch
# or install from source:
git clone https://github.com/VITA-Group/Q-GaLore.git
cd Q-GaLore
pip install -e
pip install -r exp_requirements.txt
Пример конфига для претрейга LLaMa на с4 датасете
Пример конфига для претрейна LLaMA-7B на 16 GB VRAM
▪Лицензирование: Apache-2.0
▪Arxiv
▪Video from Open AGI Summit
▪Github [ Stars: 3.4K | Issues: 122 | Forks: 274]
@ai_machinelearning_big_data
#AI #FineTuning #LLM #QGalore #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
💥Релиз Qwen2.5-1M!
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН токенов 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@ai_machinelearning_big_data
#qwen #opensource #ml #llm
Теперь модель поддерживает контекст длиной 1 МИЛЛИОН ТОКЕН токенов 🔥
⭐️ Доступны 2 модели: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M.
Доступен подробный технический отчет о серии Qwen2.5-1M! 📊
📖 Технический отчет: https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
📄 Блог: https://qwenlm.github.io/blog/qwen2.5-1m/
🚀 Потестировать можно здесь: https://chat.qwenlm.ai
🤗 Huggingface: https://huggingface.co/collections/Qwen/qwen25-1m-679325716327ec07860530ba
▪ Modelscope: https://modelscope.cn/collections/Qwen25-1M-d6cf9fd33f0a40
@ai_machinelearning_big_data
#qwen #opensource #ml #llm
Forwarded from Machinelearning
Alibaba релизнули еще одну модель: Qwen2.5-Max
- MoE
- предварительно обученная на масштабных датасетах и пост-обученная с помощью SFT и RLHF
- превосходит DeepSeek V3 на бенчмарках: Arena Hard, LiveBench, LiveCodeBench, GPQA-Diamond
- Может генерить видео, картинки, поддерживает поиск в интернете.
📖 Релиз: https://qwenlm.github.io/blog/qwen2.5-max/
💬 Chat: https://chat.qwenlm.ai (choose Qwen2.5-Max as the model)
⚙️ API: https://alibabacloud.com/help/en/model-studio/getting-started/first-api-call-to-qwen?spm=a2c63.p38356.help-menu-2400256.d_0_1_0.1f6574a72ddbKE
🤗 HF: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
#Qwen #ml #llm #Alibaba #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Вот все, что вам нужно знать.
- Мулльтимодальная модель, превосходит GPT 4.5 в нескольких бенчмарках всего за 1% от цены GPT 4.5
- OpenAI GPT 4.5 - Input: $75 / 1M токенов, Output: $150 / 1M токенов;
- ERNIE 4.5 - Input: $0.55 / 1M токенов, Output: $2,20 / 1M токенов
- Ризонинг модель с мультимодальными возможностями, спроизводительностью на уровне с DeepSeek R1, но в два раза дешевле.
Чатбот с искусственным интеллектом ERNIE Bot доступен бесплатно для всех пользователей.
Обе модели доступны в свободном доступе ERNIE Bot на его официальном сайте: https://yiyan.baidu.com.
#ernie #ai #llm #Baidu
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM