Как запускать LLM локально
Три наиболее популярных способа запускать LLM локально:
- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие
Требования к железу: минимум 16 Gb RAM и наличие GPU.
Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.
Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.
LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.
Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm
Три наиболее популярных способа запускать LLM локально:
- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие
Требования к железу: минимум 16 Gb RAM и наличие GPU.
Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.
Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.
LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.
Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm
🔥2
Протестировал mindy.com, недавно поднявший seed раунд на $6M. Сервис позволяет общаться с AI ассистентом через почту.
Асинхронный формат общения должен позволять качественнее проанализировать запрос пользователя прогнав его через CoT, multi-agent reasoning и другие время затратные подходы.
На моих запросах качество результатов оказалось на уровне perplexity.ai или чуть хуже. Из приятных плюшек, можно настроить аналог Google Alerts с суммаризацией по теме запроса. А также напоминания. Вероятно, сервис продолжит активно развиваться и вскоре у него появятся новые интересные фичи.
#startup #productivity
Асинхронный формат общения должен позволять качественнее проанализировать запрос пользователя прогнав его через CoT, multi-agent reasoning и другие время затратные подходы.
На моих запросах качество результатов оказалось на уровне perplexity.ai или чуть хуже. Из приятных плюшек, можно настроить аналог Google Alerts с суммаризацией по теме запроса. А также напоминания. Вероятно, сервис продолжит активно развиваться и вскоре у него появятся новые интересные фичи.
#startup #productivity
Статья The Era of 1-bit LLMs:
All Large Language Models are in 1.58 Bits (link) имеет все шансы стать такой же революционной как Attention is all you need. Авторы придумали как реализовать алгоритм 1.5-битной {-1, 0, 1} квантизации без потерии качества (одинаковая перплексия). Это позволяет сократить память для запуска 70B модели (LLAMA-2) в 7 раз при снижении потребления энергии в 41 раз. Статья закладывает фундамент для разработки нового специализированного желаза для тренировки и запуска LLM.
All Large Language Models are in 1.58 Bits (link) имеет все шансы стать такой же революционной как Attention is all you need. Авторы придумали как реализовать алгоритм 1.5-битной {-1, 0, 1} квантизации без потерии качества (одинаковая перплексия). Это позволяет сократить память для запуска 70B модели (LLAMA-2) в 7 раз при снижении потребления энергии в 41 раз. Статья закладывает фундамент для разработки нового специализированного желаза для тренировки и запуска LLM.
xAI (компания Маска) опубликовал модель Grok на Github под Apache2.0 license:
https://github.com/xai-org/grok
https://github.com/xai-org/grok
https://habr.com/ru/articles/774844/ - одна из самых полных обзорных статей по старту карьеры в AI / ML с большим количеством полезных ссылок на материалы и последовательным планом
Хабр
Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить
Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы , и, наконец, выполняю свое...
Полезная таблица на HF с сравнением наиболее популярных LLM и подборка графиков. Очень удобно выбирать по соотношению цена/качество и сравнивать разных провайдеров.
Несколько раз слышал тезис, что разработка LLM приложений на базе RAG архитектуры не является подмножеством ML разработки. Я с этим не согласен:
- Как и в классических ML задачах, ключом к качественным результатам в RAG системах являются данные, их структурирование, предобработка;
- Решение является эвристическим, а не детерминированным и оценка результата использует классические DS метрики - accuracy, precision, F1, MRR;
- Улучшение результата часто достигается через оптимизацию гипер-параметров;
- Сложно что-то улучшать в решении, не понимая основ математики и алгоритмов.
В то же время работа с LLM и вся RAG архитектура это всего лишь еще один дополнительный слой / сервис в приложении, зачастую состоящем из большого количества различных сервисов. Нужно учитывать это при планировании проектов и найме команды.
#LLM #RAG #PM
- Как и в классических ML задачах, ключом к качественным результатам в RAG системах являются данные, их структурирование, предобработка;
- Решение является эвристическим, а не детерминированным и оценка результата использует классические DS метрики - accuracy, precision, F1, MRR;
- Улучшение результата часто достигается через оптимизацию гипер-параметров;
- Сложно что-то улучшать в решении, не понимая основ математики и алгоритмов.
В то же время работа с LLM и вся RAG архитектура это всего лишь еще один дополнительный слой / сервис в приложении, зачастую состоящем из большого количества различных сервисов. Нужно учитывать это при планировании проектов и найме команды.
#LLM #RAG #PM
Мои впечатления об участии в организации AI хакатона (25-30 участников, задачки с LLM):
- организация хакатона требует хороших проджект менеджерских навыков,
- на подготовку небольшого хакатона нужно закладывать около 150-200 человеко-часов на подготовку задач, призов, инфраструктуры и т.д.
- для AI хакатонов задачи могут иногда определяться имеющейся инфраструктурой и наличием публично доступных данных,
- участники хакатона могут предлагать очень интересные, абсолютно нетривиальные решения задачи,
- мне понравился уровень подготовки участников в хакатоне, и это может быть отличной возможностью нанять в команду классных ребят.
- организация хакатона требует хороших проджект менеджерских навыков,
- на подготовку небольшого хакатона нужно закладывать около 150-200 человеко-часов на подготовку задач, призов, инфраструктуры и т.д.
- для AI хакатонов задачи могут иногда определяться имеющейся инфраструктурой и наличием публично доступных данных,
- участники хакатона могут предлагать очень интересные, абсолютно нетривиальные решения задачи,
- мне понравился уровень подготовки участников в хакатоне, и это может быть отличной возможностью нанять в команду классных ребят.
🔥5
The Information утверждает, что OpenAI рассматривает вариант повышения стоимости ежемесячной подписки для новейших моделей вплоть до 2000$. Стоит ли ожидать совершенно новый уровень качества работы следующего поколения моделей, если OpenAI видят такую высокую ценность для конечных пользователей 🤔
The Information
OpenAI Considers Higher Priced Subscriptions to its Chatbot AI; Preview of The Information’s AI Summit
How much would you be willing to pay for ChatGPT every month? $50? $75? How about $200 or $2,000?That’s the question facing OpenAI, whose executives we hear have discussed high-priced subscriptions for upcoming large language models, such as OpenAI’s reasoning…
Категоризация AI средств по автоматизации программирования по уровню автономности и интересная подборка тулов. Статья на eng
🔥5
Вышла модель GPT-4.5.
Для обычных пользователей ChatGPT больше похоже на инкрементальное улучшение, но для программирования и задач, не терпимых к галлюцинациям, прирост в метриках очень ощутим. Ценник на API вырос в 15-30 раз.
Ссылка на пресс-релиз: https://openai.com/index/introducing-gpt-4-5/
Для обычных пользователей ChatGPT больше похоже на инкрементальное улучшение, но для программирования и задач, не терпимых к галлюцинациям, прирост в метриках очень ощутим. Ценник на API вырос в 15-30 раз.
Ссылка на пресс-релиз: https://openai.com/index/introducing-gpt-4-5/
Openai
Introducing GPT-4.5
We’re releasing a research preview of GPT‑4.5—our largest and best model for chat yet. GPT‑4.5 is a step forward in scaling up pre-training and post-training.
Я решил попробовать составить бизнес-план для стартапа, используя современные ИИ ассистенты (ChatGPT, Grok, DeepSeek, Claude и Perplexity) с функциями DeepResearch, Thinking и Internet Browsing.
Выводы на основе сравнения по одной задачи:
- Сложилось впечатление, что каждый из сервисов может быть лучше остальных для какого-то спектра задач, поэтому есть смысл тестировать наиболее нетривиальные вопросы в каждом из них.
- Общий уровень ответов оказался довольно высоким. Даже самый худший из результатов был значительно лучше моих ожиданий.
- Задавать вопросы про бизнес лучше по-английски. Качество ответов на русском было заметно хуже.
- Из бесплатных сервисов мне больше всего понравился ответ Claude3.7. Ответ был самым креативным, проработанным и при этом компактным. Задумался о покупке Claude Pro версии.
- ChatGPT DeepResearch предоставил самый исчерпывающий ответ с хорошей глубиной анализа. Тем не менее, мне не понравилось отсутствие таблиц и графиков в ответе. Также отсутствовала креативная составляющая.
Выводы на основе сравнения по одной задачи:
- Сложилось впечатление, что каждый из сервисов может быть лучше остальных для какого-то спектра задач, поэтому есть смысл тестировать наиболее нетривиальные вопросы в каждом из них.
- Общий уровень ответов оказался довольно высоким. Даже самый худший из результатов был значительно лучше моих ожиданий.
- Задавать вопросы про бизнес лучше по-английски. Качество ответов на русском было заметно хуже.
- Из бесплатных сервисов мне больше всего понравился ответ Claude3.7. Ответ был самым креативным, проработанным и при этом компактным. Задумался о покупке Claude Pro версии.
- ChatGPT DeepResearch предоставил самый исчерпывающий ответ с хорошей глубиной анализа. Тем не менее, мне не понравилось отсутствие таблиц и графиков в ответе. Также отсутствовала креативная составляющая.
❤3
Channel name was changed to «Max about AI, Engineering and Leadership»
Редко пишу отзывы на книги, но не могу не поделиться впечатлениями о книге «Венчурное мышление», написанной Ильёй Стребулаевым и Алексом Дангом.
• Несмотря на название, книга ориентирована на широкую аудиторию, а не только на предпринимателей и инвесторов. Если вы раньше не сталкивались с миром венчура и стартапов, вам, скорее всего, будет очень интересно прочитать истории громких успехов и провалов последних двадцати лет.
• Книга очень точно описывает слабые места корпоративной среды многих enterprise-компаний.
• В VC mindset предлагается совершенно новый, чуждый многим корпоративным менеджерам взгляд на вещи. Примерами таких идей являются значимость успеха и незначительность провалов, а также отсутствие необходимости приходить к единому консенсусу при принятии решений.
• В книге нет простых решений, как внедрить предложенные концепции на практике, потому что каждая компания уникальна по-своему. В то же время она даёт отличный повод для рефлексии и предлагает новые варианты стратегии развития.
• Рекомендую всем D-, VP- и C-level менеджерам, а также инженерам уровня principal и выше.
Ссылка на книгу
• Несмотря на название, книга ориентирована на широкую аудиторию, а не только на предпринимателей и инвесторов. Если вы раньше не сталкивались с миром венчура и стартапов, вам, скорее всего, будет очень интересно прочитать истории громких успехов и провалов последних двадцати лет.
• Книга очень точно описывает слабые места корпоративной среды многих enterprise-компаний.
• В VC mindset предлагается совершенно новый, чуждый многим корпоративным менеджерам взгляд на вещи. Примерами таких идей являются значимость успеха и незначительность провалов, а также отсутствие необходимости приходить к единому консенсусу при принятии решений.
• В книге нет простых решений, как внедрить предложенные концепции на практике, потому что каждая компания уникальна по-своему. В то же время она даёт отличный повод для рефлексии и предлагает новые варианты стратегии развития.
• Рекомендую всем D-, VP- и C-level менеджерам, а также инженерам уровня principal и выше.
Ссылка на книгу
👍8
Channel name was changed to «Max about AI, Engineering and Startups»
Vibe Coding
Я попробовал 5 тулов для AI генерации кода (Cursor, Windsurf, V0, Trae, Lovable) и основные AI чат ассистенты (ChatGPT, Claude, Grok, Gemini). Скоро напишу детальный обзор и сравнение. Сейчас же хочу рассказать про Trae.
Trae - это IDE на основе VS Code, разработанное ByteDance (создатель TikTok). Основной его плюс - он бесплатный при относительно сопоставимом функционале с Cursor и Windsurf. Если вы уже пользуетесь платными аналогами, то смысла переходить на Trae - нет, он находится на более раннем этапе разработки. Но для первого опыта vibe coding - это отличный вариант (как и бесплатный триал у Cursor).
PS: не могу не напомнить, что у продуктов ByteDance были нарекания по поводу data privacy (например). Для работы с конфиденциальным кодом, я бы Trae использовать не стал.
Я попробовал 5 тулов для AI генерации кода (Cursor, Windsurf, V0, Trae, Lovable) и основные AI чат ассистенты (ChatGPT, Claude, Grok, Gemini). Скоро напишу детальный обзор и сравнение. Сейчас же хочу рассказать про Trae.
Trae - это IDE на основе VS Code, разработанное ByteDance (создатель TikTok). Основной его плюс - он бесплатный при относительно сопоставимом функционале с Cursor и Windsurf. Если вы уже пользуетесь платными аналогами, то смысла переходить на Trae - нет, он находится на более раннем этапе разработки. Но для первого опыта vibe coding - это отличный вариант (как и бесплатный триал у Cursor).
PS: не могу не напомнить, что у продуктов ByteDance были нарекания по поводу data privacy (например). Для работы с конфиденциальным кодом, я бы Trae использовать не стал.
❤7
О канале
Авторский канал про ИИ, разработку и стартапы от Head of AI & Product Engineering.
Пишу полезно и кратко. Делюсь возможностями, лайфхаками, личным опытом, ресёрчем и рефлексией.
Фокусируюсь в канале на возможностях, которые дает ИИ в разработке, стартаперстве, менеджменте. Буду делиться опытом и полезностями.
Веду канал для структурирования своих мыслей как сайд проект для других активностей.
Обо мне
Меня зовут Максим. У меня 20 лет опыта в программировании, 12 лет в руководстве разработкой. Мои бывшие роли: Principal Engineer, Solution Architect, Product Manager, Lead Engineering Manager. Сейчас я Head of AI & Product Engineering в одном из доменов крупной FinTech компании.
Ищу идеи для новых проектов и собственного стартапа. Текущий фокус — применение ML & AI в OpsTech, Software Engineering и DevTools.
Авторский канал про ИИ, разработку и стартапы от Head of AI & Product Engineering.
Пишу полезно и кратко. Делюсь возможностями, лайфхаками, личным опытом, ресёрчем и рефлексией.
Фокусируюсь в канале на возможностях, которые дает ИИ в разработке, стартаперстве, менеджменте. Буду делиться опытом и полезностями.
Веду канал для структурирования своих мыслей как сайд проект для других активностей.
Обо мне
Меня зовут Максим. У меня 20 лет опыта в программировании, 12 лет в руководстве разработкой. Мои бывшие роли: Principal Engineer, Solution Architect, Product Manager, Lead Engineering Manager. Сейчас я Head of AI & Product Engineering в одном из доменов крупной FinTech компании.
Ищу идеи для новых проектов и собственного стартапа. Текущий фокус — применение ML & AI в OpsTech, Software Engineering и DevTools.
❤11👍7👏3💩1
