Как запускать LLM локально
Три наиболее популярных способа запускать LLM локально:
- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие
Требования к железу: минимум 16 Gb RAM и наличие GPU.
Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.
Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.
LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.
Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm
Три наиболее популярных способа запускать LLM локально:
- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие
Требования к железу: минимум 16 Gb RAM и наличие GPU.
Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.
Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.
LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.
Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm
🔥2
Несколько раз слышал тезис, что разработка LLM приложений на базе RAG архитектуры не является подмножеством ML разработки. Я с этим не согласен:
- Как и в классических ML задачах, ключом к качественным результатам в RAG системах являются данные, их структурирование, предобработка;
- Решение является эвристическим, а не детерминированным и оценка результата использует классические DS метрики - accuracy, precision, F1, MRR;
- Улучшение результата часто достигается через оптимизацию гипер-параметров;
- Сложно что-то улучшать в решении, не понимая основ математики и алгоритмов.
В то же время работа с LLM и вся RAG архитектура это всего лишь еще один дополнительный слой / сервис в приложении, зачастую состоящем из большого количества различных сервисов. Нужно учитывать это при планировании проектов и найме команды.
#LLM #RAG #PM
- Как и в классических ML задачах, ключом к качественным результатам в RAG системах являются данные, их структурирование, предобработка;
- Решение является эвристическим, а не детерминированным и оценка результата использует классические DS метрики - accuracy, precision, F1, MRR;
- Улучшение результата часто достигается через оптимизацию гипер-параметров;
- Сложно что-то улучшать в решении, не понимая основ математики и алгоритмов.
В то же время работа с LLM и вся RAG архитектура это всего лишь еще один дополнительный слой / сервис в приложении, зачастую состоящем из большого количества различных сервисов. Нужно учитывать это при планировании проектов и найме команды.
#LLM #RAG #PM