Max: AI, Engineering and Startups
4.63K subscribers
9 photos
1 video
1 file
37 links
Авторский канал про ИИ, разработку и стартапы от Head of AI & Product Engineering.
Стараюсь писать полезно и кратко. Делюсь возможностями, лайфхаками, личным опытом, ресёрчем и рефлексией.
Фидбек, советы, предложения: MaxAboutAI@gmail.com
Download Telegram
Channel name was changed to «Max about AI»
Новый релиз от OpenAI, на этот раз video-to-text model:
https://openai.com/sora
Вчера участвовал в конференции AI in Production от MLOps Community. Она бесплатная и проходит 2 дня: 15 февраля и 22 февраля. На неё по-прежнему можно зарегистрироваться по ссылке.

Мои впечатления:

Отличное разнообразие и очень хороший уровень докладов для бесплатной конференции с тремя стримами: инженерным, продуктовым и воркшопами;
Много докладов по релевантным мне темам (RAG, LLM evaluation, fine-tuning);
Крутое коммьюнити и много интересных спикеров и участников;
Возможность посмотреть запись докладов с прошлых эвентов в записи;
Не очень удобная таймзона;
Нет пометки сложности выступления — для опытных инженеров и продукт-менеджеров не всегда интересно слушать доклады для новичков.

Мне понравилось!
#conference
1
Как запускать LLM локально

Три наиболее популярных способа запускать LLM локально:

- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие

Требования к железу: минимум 16 Gb RAM и наличие GPU.

Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.

Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.

LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.

Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm
🔥2
Протестировал mindy.com, недавно поднявший seed раунд на $6M. Сервис позволяет общаться с AI ассистентом через почту.

Асинхронный формат общения должен позволять качественнее проанализировать запрос пользователя прогнав его через CoT, multi-agent reasoning и другие время затратные подходы.

На моих запросах качество результатов оказалось на уровне perplexity.ai или чуть хуже. Из приятных плюшек, можно настроить аналог Google Alerts с суммаризацией по теме запроса. А также напоминания. Вероятно, сервис продолжит активно развиваться и вскоре у него появятся новые интересные фичи.
#startup #productivity
Статья The Era of 1-bit LLMs:
All Large Language Models are in 1.58 Bits
(link) имеет все шансы стать такой же революционной как Attention is all you need. Авторы придумали как реализовать алгоритм 1.5-битной {-1, 0, 1} квантизации без потерии качества (одинаковая перплексия). Это позволяет сократить память для запуска 70B модели (LLAMA-2) в 7 раз при снижении потребления энергии в 41 раз. Статья закладывает фундамент для разработки нового специализированного желаза для тренировки и запуска LLM.
xAI (компания Маска) опубликовал модель Grok на Github под Apache2.0 license:
https://github.com/xai-org/grok
Полезная таблица на HF с сравнением наиболее популярных LLM и подборка графиков. Очень удобно выбирать по соотношению цена/качество и сравнивать разных провайдеров.
Несколько раз слышал тезис, что разработка LLM приложений на базе RAG архитектуры не является подмножеством ML разработки. Я с этим не согласен:
- Как и в классических ML задачах, ключом к качественным результатам в RAG системах являются данные, их структурирование, предобработка;
- Решение является эвристическим, а не детерминированным и оценка результата использует классические DS метрики - accuracy, precision, F1, MRR;
- Улучшение результата часто достигается через оптимизацию гипер-параметров;
- Сложно что-то улучшать в решении, не понимая основ математики и алгоритмов.

В то же время работа с LLM и вся RAG архитектура это всего лишь еще один дополнительный слой / сервис в приложении, зачастую состоящем из большого количества различных сервисов. Нужно учитывать это при планировании проектов и найме команды.
#LLM #RAG #PM
Мои впечатления об участии в организации AI хакатона (25-30 участников, задачки с LLM):

- организация хакатона требует хороших проджект менеджерских навыков,

- на подготовку небольшого хакатона нужно закладывать около 150-200 человеко-часов на подготовку задач, призов, инфраструктуры и т.д.

- для AI хакатонов задачи могут иногда определяться имеющейся инфраструктурой и наличием публично доступных данных,

- участники хакатона могут предлагать очень интересные, абсолютно нетривиальные решения задачи,

- мне понравился уровень подготовки участников в хакатоне, и это может быть отличной возможностью нанять в команду классных ребят.
🔥5
The Information утверждает, что OpenAI рассматривает вариант повышения стоимости ежемесячной подписки для новейших моделей вплоть до 2000$. Стоит ли ожидать совершенно новый уровень качества работы следующего поколения моделей, если OpenAI видят такую высокую ценность для конечных пользователей 🤔
Категоризация AI средств по автоматизации программирования по уровню автономности и интересная подборка тулов. Статья на eng
🔥5
Вышла модель GPT-4.5.

Для обычных пользователей ChatGPT больше похоже на инкрементальное улучшение, но для программирования и задач, не терпимых к галлюцинациям, прирост в метриках очень ощутим. Ценник на API вырос в 15-30 раз.

Ссылка на пресс-релиз: https://openai.com/index/introducing-gpt-4-5/
Я решил попробовать составить бизнес-план для стартапа, используя современные ИИ ассистенты (ChatGPT, Grok, DeepSeek, Claude и Perplexity) с функциями DeepResearch, Thinking и Internet Browsing.

Выводы на основе сравнения по одно
й задачи:
- Сложилось впечатление, что каждый из сервисов может быть лучше остальных для какого-то спектра задач, поэтому есть смысл тестировать наиболее нетривиальные вопросы в каждом из них.
- Общий уровень ответов оказался довольно высоким. Даже самый худший из результатов был значительно лучше моих ожиданий.
- Задавать вопросы про бизнес лучше по-английски. Качество ответов на русском было заметно хуже.
- Из бесплатных сервисов мне больше всего понравился ответ Claude3.7. Ответ был самым креативным, проработанным и при этом компактным. Задумался о покупке Claude Pro версии.
- ChatGPT DeepResearch предоставил самый исч
ерпывающий ответ с хорошей глубиной анализа. Тем не менее, мне не понравилось отсутствие таблиц и графиков в ответе. Также отсутствовала креативная составляющая.
3