Полезная таблица на HF с сравнением наиболее популярных LLM и подборка графиков. Очень удобно выбирать по соотношению цена/качество и сравнивать разных провайдеров.
Несколько раз слышал тезис, что разработка LLM приложений на базе RAG архитектуры не является подмножеством ML разработки. Я с этим не согласен:
- Как и в классических ML задачах, ключом к качественным результатам в RAG системах являются данные, их структурирование, предобработка;
- Решение является эвристическим, а не детерминированным и оценка результата использует классические DS метрики - accuracy, precision, F1, MRR;
- Улучшение результата часто достигается через оптимизацию гипер-параметров;
- Сложно что-то улучшать в решении, не понимая основ математики и алгоритмов.
В то же время работа с LLM и вся RAG архитектура это всего лишь еще один дополнительный слой / сервис в приложении, зачастую состоящем из большого количества различных сервисов. Нужно учитывать это при планировании проектов и найме команды.
#LLM #RAG #PM
- Как и в классических ML задачах, ключом к качественным результатам в RAG системах являются данные, их структурирование, предобработка;
- Решение является эвристическим, а не детерминированным и оценка результата использует классические DS метрики - accuracy, precision, F1, MRR;
- Улучшение результата часто достигается через оптимизацию гипер-параметров;
- Сложно что-то улучшать в решении, не понимая основ математики и алгоритмов.
В то же время работа с LLM и вся RAG архитектура это всего лишь еще один дополнительный слой / сервис в приложении, зачастую состоящем из большого количества различных сервисов. Нужно учитывать это при планировании проектов и найме команды.
#LLM #RAG #PM
Мои впечатления об участии в организации AI хакатона (25-30 участников, задачки с LLM):
- организация хакатона требует хороших проджект менеджерских навыков,
- на подготовку небольшого хакатона нужно закладывать около 150-200 человеко-часов на подготовку задач, призов, инфраструктуры и т.д.
- для AI хакатонов задачи могут иногда определяться имеющейся инфраструктурой и наличием публично доступных данных,
- участники хакатона могут предлагать очень интересные, абсолютно нетривиальные решения задачи,
- мне понравился уровень подготовки участников в хакатоне, и это может быть отличной возможностью нанять в команду классных ребят.
- организация хакатона требует хороших проджект менеджерских навыков,
- на подготовку небольшого хакатона нужно закладывать около 150-200 человеко-часов на подготовку задач, призов, инфраструктуры и т.д.
- для AI хакатонов задачи могут иногда определяться имеющейся инфраструктурой и наличием публично доступных данных,
- участники хакатона могут предлагать очень интересные, абсолютно нетривиальные решения задачи,
- мне понравился уровень подготовки участников в хакатоне, и это может быть отличной возможностью нанять в команду классных ребят.
🔥5
The Information утверждает, что OpenAI рассматривает вариант повышения стоимости ежемесячной подписки для новейших моделей вплоть до 2000$. Стоит ли ожидать совершенно новый уровень качества работы следующего поколения моделей, если OpenAI видят такую высокую ценность для конечных пользователей 🤔
The Information
OpenAI Considers Higher Priced Subscriptions to its Chatbot AI; Preview of The Information’s AI Summit
How much would you be willing to pay for ChatGPT every month? $50? $75? How about $200 or $2,000?That’s the question facing OpenAI, whose executives we hear have discussed high-priced subscriptions for upcoming large language models, such as OpenAI’s reasoning…
Категоризация AI средств по автоматизации программирования по уровню автономности и интересная подборка тулов. Статья на eng
🔥5
Вышла модель GPT-4.5.
Для обычных пользователей ChatGPT больше похоже на инкрементальное улучшение, но для программирования и задач, не терпимых к галлюцинациям, прирост в метриках очень ощутим. Ценник на API вырос в 15-30 раз.
Ссылка на пресс-релиз: https://openai.com/index/introducing-gpt-4-5/
Для обычных пользователей ChatGPT больше похоже на инкрементальное улучшение, но для программирования и задач, не терпимых к галлюцинациям, прирост в метриках очень ощутим. Ценник на API вырос в 15-30 раз.
Ссылка на пресс-релиз: https://openai.com/index/introducing-gpt-4-5/
Openai
Introducing GPT-4.5
We’re releasing a research preview of GPT‑4.5—our largest and best model for chat yet. GPT‑4.5 is a step forward in scaling up pre-training and post-training.
Я решил попробовать составить бизнес-план для стартапа, используя современные ИИ ассистенты (ChatGPT, Grok, DeepSeek, Claude и Perplexity) с функциями DeepResearch, Thinking и Internet Browsing.
Выводы на основе сравнения по одной задачи:
- Сложилось впечатление, что каждый из сервисов может быть лучше остальных для какого-то спектра задач, поэтому есть смысл тестировать наиболее нетривиальные вопросы в каждом из них.
- Общий уровень ответов оказался довольно высоким. Даже самый худший из результатов был значительно лучше моих ожиданий.
- Задавать вопросы про бизнес лучше по-английски. Качество ответов на русском было заметно хуже.
- Из бесплатных сервисов мне больше всего понравился ответ Claude3.7. Ответ был самым креативным, проработанным и при этом компактным. Задумался о покупке Claude Pro версии.
- ChatGPT DeepResearch предоставил самый исчерпывающий ответ с хорошей глубиной анализа. Тем не менее, мне не понравилось отсутствие таблиц и графиков в ответе. Также отсутствовала креативная составляющая.
Выводы на основе сравнения по одной задачи:
- Сложилось впечатление, что каждый из сервисов может быть лучше остальных для какого-то спектра задач, поэтому есть смысл тестировать наиболее нетривиальные вопросы в каждом из них.
- Общий уровень ответов оказался довольно высоким. Даже самый худший из результатов был значительно лучше моих ожиданий.
- Задавать вопросы про бизнес лучше по-английски. Качество ответов на русском было заметно хуже.
- Из бесплатных сервисов мне больше всего понравился ответ Claude3.7. Ответ был самым креативным, проработанным и при этом компактным. Задумался о покупке Claude Pro версии.
- ChatGPT DeepResearch предоставил самый исчерпывающий ответ с хорошей глубиной анализа. Тем не менее, мне не понравилось отсутствие таблиц и графиков в ответе. Также отсутствовала креативная составляющая.
❤3
Channel name was changed to «Max about AI, Engineering and Leadership»
Редко пишу отзывы на книги, но не могу не поделиться впечатлениями о книге «Венчурное мышление», написанной Ильёй Стребулаевым и Алексом Дангом.
• Несмотря на название, книга ориентирована на широкую аудиторию, а не только на предпринимателей и инвесторов. Если вы раньше не сталкивались с миром венчура и стартапов, вам, скорее всего, будет очень интересно прочитать истории громких успехов и провалов последних двадцати лет.
• Книга очень точно описывает слабые места корпоративной среды многих enterprise-компаний.
• В VC mindset предлагается совершенно новый, чуждый многим корпоративным менеджерам взгляд на вещи. Примерами таких идей являются значимость успеха и незначительность провалов, а также отсутствие необходимости приходить к единому консенсусу при принятии решений.
• В книге нет простых решений, как внедрить предложенные концепции на практике, потому что каждая компания уникальна по-своему. В то же время она даёт отличный повод для рефлексии и предлагает новые варианты стратегии развития.
• Рекомендую всем D-, VP- и C-level менеджерам, а также инженерам уровня principal и выше.
Ссылка на книгу
• Несмотря на название, книга ориентирована на широкую аудиторию, а не только на предпринимателей и инвесторов. Если вы раньше не сталкивались с миром венчура и стартапов, вам, скорее всего, будет очень интересно прочитать истории громких успехов и провалов последних двадцати лет.
• Книга очень точно описывает слабые места корпоративной среды многих enterprise-компаний.
• В VC mindset предлагается совершенно новый, чуждый многим корпоративным менеджерам взгляд на вещи. Примерами таких идей являются значимость успеха и незначительность провалов, а также отсутствие необходимости приходить к единому консенсусу при принятии решений.
• В книге нет простых решений, как внедрить предложенные концепции на практике, потому что каждая компания уникальна по-своему. В то же время она даёт отличный повод для рефлексии и предлагает новые варианты стратегии развития.
• Рекомендую всем D-, VP- и C-level менеджерам, а также инженерам уровня principal и выше.
Ссылка на книгу
👍8
Channel name was changed to «Max about AI, Engineering and Startups»
Vibe Coding
Я попробовал 5 тулов для AI генерации кода (Cursor, Windsurf, V0, Trae, Lovable) и основные AI чат ассистенты (ChatGPT, Claude, Grok, Gemini). Скоро напишу детальный обзор и сравнение. Сейчас же хочу рассказать про Trae.
Trae - это IDE на основе VS Code, разработанное ByteDance (создатель TikTok). Основной его плюс - он бесплатный при относительно сопоставимом функционале с Cursor и Windsurf. Если вы уже пользуетесь платными аналогами, то смысла переходить на Trae - нет, он находится на более раннем этапе разработки. Но для первого опыта vibe coding - это отличный вариант (как и бесплатный триал у Cursor).
PS: не могу не напомнить, что у продуктов ByteDance были нарекания по поводу data privacy (например). Для работы с конфиденциальным кодом, я бы Trae использовать не стал.
Я попробовал 5 тулов для AI генерации кода (Cursor, Windsurf, V0, Trae, Lovable) и основные AI чат ассистенты (ChatGPT, Claude, Grok, Gemini). Скоро напишу детальный обзор и сравнение. Сейчас же хочу рассказать про Trae.
Trae - это IDE на основе VS Code, разработанное ByteDance (создатель TikTok). Основной его плюс - он бесплатный при относительно сопоставимом функционале с Cursor и Windsurf. Если вы уже пользуетесь платными аналогами, то смысла переходить на Trae - нет, он находится на более раннем этапе разработки. Но для первого опыта vibe coding - это отличный вариант (как и бесплатный триал у Cursor).
PS: не могу не напомнить, что у продуктов ByteDance были нарекания по поводу data privacy (например). Для работы с конфиденциальным кодом, я бы Trae использовать не стал.
❤7
О канале
Авторский канал про ИИ, разработку и стартапы от Head of AI & Product Engineering.
Пишу полезно и кратко. Делюсь возможностями, лайфхаками, личным опытом, ресёрчем и рефлексией.
Фокусируюсь в канале на возможностях, которые дает ИИ в разработке, стартаперстве, менеджменте. Буду делиться опытом и полезностями.
Веду канал для структурирования своих мыслей как сайд проект для других активностей.
Обо мне
Меня зовут Максим. У меня 20 лет опыта в программировании, 12 лет в руководстве разработкой. Мои бывшие роли: Principal Engineer, Solution Architect, Product Manager, Lead Engineering Manager. Сейчас я Head of AI & Product Engineering в одном из доменов крупной FinTech компании.
Ищу идеи для новых проектов и собственного стартапа. Текущий фокус — применение ML & AI в OpsTech, Software Engineering и DevTools.
Авторский канал про ИИ, разработку и стартапы от Head of AI & Product Engineering.
Пишу полезно и кратко. Делюсь возможностями, лайфхаками, личным опытом, ресёрчем и рефлексией.
Фокусируюсь в канале на возможностях, которые дает ИИ в разработке, стартаперстве, менеджменте. Буду делиться опытом и полезностями.
Веду канал для структурирования своих мыслей как сайд проект для других активностей.
Обо мне
Меня зовут Максим. У меня 20 лет опыта в программировании, 12 лет в руководстве разработкой. Мои бывшие роли: Principal Engineer, Solution Architect, Product Manager, Lead Engineering Manager. Сейчас я Head of AI & Product Engineering в одном из доменов крупной FinTech компании.
Ищу идеи для новых проектов и собственного стартапа. Текущий фокус — применение ML & AI в OpsTech, Software Engineering и DevTools.
❤11👍6👏2💩1
Max: AI, Engineering and Startups pinned «О канале Авторский канал про ИИ, разработку и стартапы от Head of AI & Product Engineering. Пишу полезно и кратко. Делюсь возможностями, лайфхаками, личным опытом, ресёрчем и рефлексией. Фокусируюсь в канале на возможностях, которые дает ИИ в разработке…»
Отличный источник курсов по AI как для широкой аудитории так и для ML инженеров: Open AI Academy
Примеры их курсов и эвентов:
- AI for Older Adults: Introduction to AI
- Automate Knowledge Graphs for RAG: Building GraphRAG with OpenAI API
- Introduction to ChatGPT Edu: Your AI-Powered Academic Companion
- Organization and Automation: Managing Time and Tasks with AI
- AI Career Prep: Resumes and Interviews
И еще много всего интересного.
Примеры их курсов и эвентов:
- AI for Older Adults: Introduction to AI
- Automate Knowledge Graphs for RAG: Building GraphRAG with OpenAI API
- Introduction to ChatGPT Edu: Your AI-Powered Academic Companion
- Organization and Automation: Managing Time and Tasks with AI
- AI Career Prep: Resumes and Interviews
И еще много всего интересного.
👍11
Current state of AI coding tools and vibe coding
О чем речь?
AI Сoding - генерация кода с помощью LLM. Vibe Сoding - AI coding без детального код ревью, по-умолчанию принимая предложенные изменения. AI Сoding появился в 2021 году и стал экспоненциально набирать популярность в 2024 году после появления новых LLM, лучше обученных на коде(GPT-4o, Sonnet3.5), и IDE с встроенными AI агентами (Cursor, Windsurf). В последнем батче Y Combinator 95% кода для четверти стартапов было cгенерировано (новость).
Я потестил 8 инструментов (из 70+ найденных), мои выводы:
- AI Сoding намного лучше чем пару лет назад.
- Я повайб-кодил на двух пет проектах - буст производительности в разы. Как отметил мой коллега: ощущение, будто на тебя работают сразу 5 джунов.
- Существует 5 уровней автономности и 5 типов инструментов (framework, CLI, Plugin, IDE, SaaS), каждый из которых предназначен для своих задач.
- Инструментов для AI Coding очень много: за месяц я собрал в табличку больше 70 проектов.
- Есть как минимум несколько LLM, хорошо генерирующих код (Gemini2.5-pro, Sonnet3.7, GPT-4o, GPT-o3-mini, DeepSeek-v3).
- При разработке все еще регулярно встречаются проблемы неразрешимые без человека.
- Для эффективного использования AI Coding инструментов нужно научиться ими пользоваться и следовать best practices.
- Новые инструменты позволяют сосредоточить фокус на продукте вместо разработки кода.
- AI Сoding не самое дешевое удовольствие, если заниматься этим фуллтайм.
Vibe Сoding - временный хайп?
Нет, AI Coding с нами навсегда, как когда-то высокоуровневые языки программирования заметно вытеснили низкоуровневые. Люди, использующие новые инструменты, благодаря большей продуктивности, будут заменять людей, которые не умеют ими пользоваться.
Что c этим делать?
Кратко на этот вопрос не ответить. Я продолжу серию статей про AI Сoding и расскажу подробнее про уровни автономности, существующие решения и возможные сценарии будущего.
Поделитесь с друзьями вдруг им тоже будет интересно.
#ai_coding @max_about_ai
О чем речь?
AI Сoding - генерация кода с помощью LLM. Vibe Сoding - AI coding без детального код ревью, по-умолчанию принимая предложенные изменения. AI Сoding появился в 2021 году и стал экспоненциально набирать популярность в 2024 году после появления новых LLM, лучше обученных на коде(GPT-4o, Sonnet3.5), и IDE с встроенными AI агентами (Cursor, Windsurf). В последнем батче Y Combinator 95% кода для четверти стартапов было cгенерировано (новость).
Я потестил 8 инструментов (из 70+ найденных), мои выводы:
- AI Сoding намного лучше чем пару лет назад.
- Я повайб-кодил на двух пет проектах - буст производительности в разы. Как отметил мой коллега: ощущение, будто на тебя работают сразу 5 джунов.
- Существует 5 уровней автономности и 5 типов инструментов (framework, CLI, Plugin, IDE, SaaS), каждый из которых предназначен для своих задач.
- Инструментов для AI Coding очень много: за месяц я собрал в табличку больше 70 проектов.
- Есть как минимум несколько LLM, хорошо генерирующих код (Gemini2.5-pro, Sonnet3.7, GPT-4o, GPT-o3-mini, DeepSeek-v3).
- При разработке все еще регулярно встречаются проблемы неразрешимые без человека.
- Для эффективного использования AI Coding инструментов нужно научиться ими пользоваться и следовать best practices.
- Новые инструменты позволяют сосредоточить фокус на продукте вместо разработки кода.
- AI Сoding не самое дешевое удовольствие, если заниматься этим фуллтайм.
Vibe Сoding - временный хайп?
Нет, AI Coding с нами навсегда, как когда-то высокоуровневые языки программирования заметно вытеснили низкоуровневые. Люди, использующие новые инструменты, благодаря большей продуктивности, будут заменять людей, которые не умеют ими пользоваться.
Что c этим делать?
Кратко на этот вопрос не ответить. Я продолжу серию статей про AI Сoding и расскажу подробнее про уровни автономности, существующие решения и возможные сценарии будущего.
Поделитесь с друзьями вдруг им тоже будет интересно.
#ai_coding @max_about_ai
🔥8👍5❤2
Google зарелизил Agent2Agent (A2A) протокол для взаимодействия агентов.
Кажется, что MCP уже стал де-факто стандартом для взаимодействия агентов, но на самом деле это не так. MCP - это протокол взаимодействия с инструментами (ресурсами), и он не предназначен для координации агентов между собой. A2A, напротив, является протоколом взаимодействия между агентами. Пример архитектуры решения, использующего оба этих протокола, можно посмотреть на диаграмме ниже.
Если объяснять совсем простыми словами:
MCP - это аналог того как люди взаимодействуют с компьютером и другими предметами.
A2A - это аналог того как люди общаются друг с другом.
И взаимодействие со средой и координация действий важны для успешной работы людей.
Если для решения простой задачи, вам нужно задействовать одного агента, то достаточно MCP. Но если вы строите сложную систему, аналог, любого реального рабочего процессу, то вам обязательно понадобиться A2A или другой аналог координации агентов.
До релиза Google, уже существовало несколько протоколов координации агентов: ANP(Agent Network Protocol), FIPA-ACL (Foundation for Intelligent Physical Agents – ACL), OPAN (Open Protocol for AI Networking). Тем не менее, ни один из них даже близко не приблизился по популярности к MCP. Сможет ли это сделать A2A нам еще предстоит узнать, но кажется, что A2A лишен тех фундаментальных проблем, которые были у его предшественников.
Ознакомиться с каждым из протоколов можно по ссылкам:
MCP: blogpost, documentation
A2A: blogpost, documentation
В будущих постах я расскажу подробнее про каждый из протоколов.
@max_about_ai
Кажется, что MCP уже стал де-факто стандартом для взаимодействия агентов, но на самом деле это не так. MCP - это протокол взаимодействия с инструментами (ресурсами), и он не предназначен для координации агентов между собой. A2A, напротив, является протоколом взаимодействия между агентами. Пример архитектуры решения, использующего оба этих протокола, можно посмотреть на диаграмме ниже.
Если объяснять совсем простыми словами:
MCP - это аналог того как люди взаимодействуют с компьютером и другими предметами.
A2A - это аналог того как люди общаются друг с другом.
И взаимодействие со средой и координация действий важны для успешной работы людей.
Если для решения простой задачи, вам нужно задействовать одного агента, то достаточно MCP. Но если вы строите сложную систему, аналог, любого реального рабочего процессу, то вам обязательно понадобиться A2A или другой аналог координации агентов.
До релиза Google, уже существовало несколько протоколов координации агентов: ANP(Agent Network Protocol), FIPA-ACL (Foundation for Intelligent Physical Agents – ACL), OPAN (Open Protocol for AI Networking). Тем не менее, ни один из них даже близко не приблизился по популярности к MCP. Сможет ли это сделать A2A нам еще предстоит узнать, но кажется, что A2A лишен тех фундаментальных проблем, которые были у его предшественников.
Ознакомиться с каждым из протоколов можно по ссылкам:
MCP: blogpost, documentation
A2A: blogpost, documentation
В будущих постах я расскажу подробнее про каждый из протоколов.
@max_about_ai
👍5🔥2
Как вайб кодить с Figma
О чем речь: Что такое вайб кодинг я рассказал здесь. Сервис Figma - де-факто стандарт для дизайна UI, UX, сайтов и даже презентаций. Многие дизайнеры и продукт-менеджеры используют именно его при работе над внешним видом продуктов. Если не пробовали - рекомендую.
Возможность: С появлением протокола MCP и vibe coding появилась возможность создавать дизайн по промпту (MCP Cursor to Figma plugin) и создать приложение по созданному дизайну и промпту (Builder.io Figma plugin c интеграцией в Lovable или MCP Server для AI IDE, например, Cursor). Cам полноценно потестить пока не успел, но отзывы очень позитивные.
@max_about_ai
О чем речь: Что такое вайб кодинг я рассказал здесь. Сервис Figma - де-факто стандарт для дизайна UI, UX, сайтов и даже презентаций. Многие дизайнеры и продукт-менеджеры используют именно его при работе над внешним видом продуктов. Если не пробовали - рекомендую.
Возможность: С появлением протокола MCP и vibe coding появилась возможность создавать дизайн по промпту (MCP Cursor to Figma plugin) и создать приложение по созданному дизайну и промпту (Builder.io Figma plugin c интеграцией в Lovable или MCP Server для AI IDE, например, Cursor). Cам полноценно потестить пока не успел, но отзывы очень позитивные.
@max_about_ai
🔥5👌3👍2