Как оценить агентскую систему?
Агентскую систему удобнее рассматривать как pipeline из шагов. Поэтому одной метрики success rate недостаточно: нужны два уровня оценки: качество каждого шага и итоговое поведение end-to-end.
1. Оценка каждого шага. Для каждого этапа определяем, что значит «хорошо», и задаём метрики.
Оценка шага даёт прозрачную зону ответственности и упрощает дебаг.
2. End-to-end оценка. End-to-end показывает, насколько система полезна бизнесу.
Например, лайк/дизлайк пользователя или ручная разметка.
Пример: упрощённая агентская система, RAG как двухшаговый агент
Шаг 1: retriever. Tool call к векторному индексу или поиску для получения контекста.
Шаг 2: LLM. Генерация ответа на основе retrieved context.
Даже в таком pipeline нельзя ограничиться одной метрикой.
1. Оценка retriever’а. Оцениваем только первый шаг:
▫️recall@k — нашёл ли нужные документы
▫️precision@k — доля релевантных среди top_k
Retriever прогоняем отдельно от LLM. Если он работает плохо, смотреть на ответы модели бессмысленно — она просто не видит нужный контекст.
2. Оценка LLM (step-level). Фиксируем retriever или используем заранее собранные контексты:
▫️faithfulness / groundedness — опирается ли ответ на context,
▫️factuality — совпадают ли факты с документами,
▫️hallucination rate — доля ответов, где модель что-то придумала,
▫️format compliance — соблюдение требуемого формата (буллеты, markdown и т.д.).
3. End-to-end RAG evaluation. Смотрим на полную цепочку: query -> retriever -> LLM -> answer.
Для стартовой оценки хватает 50–100 вручную размеченных примеров.
Если виден только «плохой ответ», нельзя сказать, виноват retriever или модель. Пошаговая оценка превращает RAG из случайного поведения в инженерный pipeline с понятными точками улучшения.
В следующем посте разберу, как автоматически генерировать датасеты для каждого этапа и сократить объём ручной разметки.
#александр_опрышко
Агентскую систему удобнее рассматривать как pipeline из шагов. Поэтому одной метрики success rate недостаточно: нужны два уровня оценки: качество каждого шага и итоговое поведение end-to-end.
1. Оценка каждого шага. Для каждого этапа определяем, что значит «хорошо», и задаём метрики.
Оценка шага даёт прозрачную зону ответственности и упрощает дебаг.
2. End-to-end оценка. End-to-end показывает, насколько система полезна бизнесу.
Например, лайк/дизлайк пользователя или ручная разметка.
Пример: упрощённая агентская система, RAG как двухшаговый агент
Шаг 1: retriever. Tool call к векторному индексу или поиску для получения контекста.
Шаг 2: LLM. Генерация ответа на основе retrieved context.
Даже в таком pipeline нельзя ограничиться одной метрикой.
1. Оценка retriever’а. Оцениваем только первый шаг:
▫️recall@k — нашёл ли нужные документы
▫️precision@k — доля релевантных среди top_k
Retriever прогоняем отдельно от LLM. Если он работает плохо, смотреть на ответы модели бессмысленно — она просто не видит нужный контекст.
2. Оценка LLM (step-level). Фиксируем retriever или используем заранее собранные контексты:
▫️faithfulness / groundedness — опирается ли ответ на context,
▫️factuality — совпадают ли факты с документами,
▫️hallucination rate — доля ответов, где модель что-то придумала,
▫️format compliance — соблюдение требуемого формата (буллеты, markdown и т.д.).
3. End-to-end RAG evaluation. Смотрим на полную цепочку: query -> retriever -> LLM -> answer.
Для стартовой оценки хватает 50–100 вручную размеченных примеров.
Если виден только «плохой ответ», нельзя сказать, виноват retriever или модель. Пошаговая оценка превращает RAG из случайного поведения в инженерный pipeline с понятными точками улучшения.
В следующем посте разберу, как автоматически генерировать датасеты для каждого этапа и сократить объём ручной разметки.
#александр_опрышко
🔥8❤4👍4
Forwarded from Программисты делают бизнес
Делимся инсайтами с Yandex B2B Tech
Уже в пятый раз Yandex B2B Tech собирает на одной площадке лидеров IT-рынка России. KTS давний партнер Яндекса и традиционный участник конференции. Но в этот раз залетели на главную сцену: доклад управляющего партнёра Александра Опрышко стал частью ключевого выступления.
Александр рассказал:
— как мы вместе с Яндексом росли последние годы,
— как облачные сервисы стали фундаментом большого числа проектов,
— и как мы используем ИИ инструменты, в том числе AI-studio Яндекса в задачах для крупного российского бизнеса.
Ну и вишенка на торте — мы взяли награду «Партнёр года: DevOps Yandex Cloud 2025». Спасибо коллегам, радуемся вместе в комментариях и заряжаемся на победы в следующем году
#александр_опрышко
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Forwarded from Программисты делают бизнес
This media is not supported in your browser
VIEW IN TELEGRAM
🔥12❤4
MCP выкатили MCP Apps — расширение протокола, которое позволяет серверам отдавать интерактивный UI прямо в чат.
Проще всего думать об этом как о мини-аппах, нативно встроенных в ChatGPT / Claude / любые MCP-хосты: формы, таблицы, настройки, визуализации, которые живут прямо в диалоге с LLM, а не где-то «сбоку» в отдельном веб-интерфейсе.
Главный пойнт: это резко расширяет возможности по интерактивному взаимодействию с моделями — не только текст, но и полноценные рабочие интерфейсы внутри чата. Забавно, как всё идёт по спирали: из классических UI пришли в чаты, а теперь из чатов возвращаемся в UI, только уже динамичный и управляемый моделью.
Почитать детали можно тут
Проще всего думать об этом как о мини-аппах, нативно встроенных в ChatGPT / Claude / любые MCP-хосты: формы, таблицы, настройки, визуализации, которые живут прямо в диалоге с LLM, а не где-то «сбоку» в отдельном веб-интерфейсе.
Главный пойнт: это резко расширяет возможности по интерактивному взаимодействию с моделями — не только текст, но и полноценные рабочие интерфейсы внутри чата. Забавно, как всё идёт по спирали: из классических UI пришли в чаты, а теперь из чатов возвращаемся в UI, только уже динамичный и управляемый моделью.
Почитать детали можно тут
❤8👍3
Как DeepEval обеспечивает детерминированную оценку LLM
Делимся статьей о том, как устроена детерминированная оценка LLM и почему классические метрики перестают подходить, когда дело касается RAG-пайплайнов, агентов и суммаризации.
Команды DeepEval, которая столкнулась с тем, что встроенные метрики не закрывают потребности пользователей. Кастомная логика и нестабильные ответы модели приводили к сотням строк ручных проверок в каждом проекте.
Разбираемся:
▫️как DeepEval подошёл к этой проблеме
▫️почему перешёл к детерминированным деревьям решений на базе LLM
▫️как работает DAG-метрика и зачем она нужна
▫️чем отличается от привычных подходов к оценке качества нейросетевых ответов
Если вы работаете с RAG, пишете агентов или строите пайплайны вокруг LLM — статья поможет понять, как выстроить прозрачную и воспроизводимую систему оценки, не собирая собственный фреймворк с нуля.
Читайте на сайте KTS.
Делимся статьей о том, как устроена детерминированная оценка LLM и почему классические метрики перестают подходить, когда дело касается RAG-пайплайнов, агентов и суммаризации.
Команды DeepEval, которая столкнулась с тем, что встроенные метрики не закрывают потребности пользователей. Кастомная логика и нестабильные ответы модели приводили к сотням строк ручных проверок в каждом проекте.
Разбираемся:
▫️как DeepEval подошёл к этой проблеме
▫️почему перешёл к детерминированным деревьям решений на базе LLM
▫️как работает DAG-метрика и зачем она нужна
▫️чем отличается от привычных подходов к оценке качества нейросетевых ответов
Если вы работаете с RAG, пишете агентов или строите пайплайны вокруг LLM — статья поможет понять, как выстроить прозрачную и воспроизводимую систему оценки, не собирая собственный фреймворк с нуля.
Читайте на сайте KTS.
❤5
Внедряем AI в операционное управление: кейс OKRsana
OKRsana — AI-помощник руководителя, который берет на себя операционную часть стратегических процессов и делает работу с целями прозрачнее и быстрее.
Инструмент использует LLM и данные компании через RAG, чтобы учитывать реальные процессы, культуру и историю решений. Он помогает согласовывать планы между подразделениями, выявлять риски, ускорять принятие решений и облегчать онбординг руководителей.
OKRsana выросла из практики работы со стратегией в крупных компаниях: от интеграций с текущими системами целей — до собственного приложения, которое сейчас проходит бета-тест.
Что получает бизнес:
— меньше рутинных операций и несогласованностей
— более точная картина происходящего благодаря актуальным данным
— снижение рисков за счет прозрачности процессов
Точность ответов OKRsana растёт за счёт интеграции с системами заказчика и настройки сценариев под особенности управления. Внедрение и поддержка переданы в KTS — мы адаптируем решение под задачи каждого клиента.
Если хотите глубже понять, как управлять целями в условиях неопределенности и использовать OKR в масштабе, присоединяйтесь к конференции OKR Russia. Она пройдет 10 декабря в Москве. Мы выступаем партнером конференции и будем рады обсудить практические кейсы внедрения.
OKRsana — AI-помощник руководителя, который берет на себя операционную часть стратегических процессов и делает работу с целями прозрачнее и быстрее.
Инструмент использует LLM и данные компании через RAG, чтобы учитывать реальные процессы, культуру и историю решений. Он помогает согласовывать планы между подразделениями, выявлять риски, ускорять принятие решений и облегчать онбординг руководителей.
OKRsana выросла из практики работы со стратегией в крупных компаниях: от интеграций с текущими системами целей — до собственного приложения, которое сейчас проходит бета-тест.
Что получает бизнес:
— меньше рутинных операций и несогласованностей
— более точная картина происходящего благодаря актуальным данным
— снижение рисков за счет прозрачности процессов
Точность ответов OKRsana растёт за счёт интеграции с системами заказчика и настройки сценариев под особенности управления. Внедрение и поддержка переданы в KTS — мы адаптируем решение под задачи каждого клиента.
Если хотите глубже понять, как управлять целями в условиях неопределенности и использовать OKR в масштабе, присоединяйтесь к конференции OKR Russia. Она пройдет 10 декабря в Москве. Мы выступаем партнером конференции и будем рады обсудить практические кейсы внедрения.
👍8❤5🔥3👏1
Как Anthropic учит AI-агентов «не забывать»?
AI-агенты часто проваливают сложные задачи, требующие многих шагов. Причина — ограниченное окно контекста LLM. Как только задача выходит за его пределы, агент «забывает» предыдущие действия и теряет прогресс.
Инженеры Anthropic предложили решение (подробнее читайте в статье Effective harnesses for long-running agents): использовать специальный каркас (harness) для агента, который позволяет работать итеративно, а не пытаться удержать всё в памяти. Каркас превращает процесс в управляемый pipeline.
Вот как это работает:
• Инициализация: Сначала специальный агент-инициализатор создаёт подробный список фич, отмечая все как «невыполненные». Он также создаёт файл для логов claude-progress.txt и делает первый коммит в git.
• Инкрементальная работа: Следующие агенты работают над одной фичей за раз. После каждого изменения они делают коммит с описанием и записывают итоги в лог-файл.
• Сохранение состояния: Git и лог-файл служат внешней памятью. Когда новый агент «приходит на смену», он читает историю коммитов и логи, чтобы понять текущее состояние проекта, и продолжает работу с того же места.
Агент может отложить задачу и вернуться к ней позже, не теряя прогресса и не тратя токены на восстановление контекста.
Такой подход можно применять не только в кодовых агентах , но и в любых которые вы реализуете.
Чтобы агент не забыл шаги , можно давать ему готовый план (или генерировать моделью), далее отправлять выполнять шаги.
Это значительно увеличивает качество и предсказуемость результата.
#александр_опрышко
AI-агенты часто проваливают сложные задачи, требующие многих шагов. Причина — ограниченное окно контекста LLM. Как только задача выходит за его пределы, агент «забывает» предыдущие действия и теряет прогресс.
Инженеры Anthropic предложили решение (подробнее читайте в статье Effective harnesses for long-running agents): использовать специальный каркас (harness) для агента, который позволяет работать итеративно, а не пытаться удержать всё в памяти. Каркас превращает процесс в управляемый pipeline.
Вот как это работает:
• Инициализация: Сначала специальный агент-инициализатор создаёт подробный список фич, отмечая все как «невыполненные». Он также создаёт файл для логов claude-progress.txt и делает первый коммит в git.
• Инкрементальная работа: Следующие агенты работают над одной фичей за раз. После каждого изменения они делают коммит с описанием и записывают итоги в лог-файл.
• Сохранение состояния: Git и лог-файл служат внешней памятью. Когда новый агент «приходит на смену», он читает историю коммитов и логи, чтобы понять текущее состояние проекта, и продолжает работу с того же места.
Агент может отложить задачу и вернуться к ней позже, не теряя прогресса и не тратя токены на восстановление контекста.
Такой подход можно применять не только в кодовых агентах , но и в любых которые вы реализуете.
Чтобы агент не забыл шаги , можно давать ему готовый план (или генерировать моделью), далее отправлять выполнять шаги.
Это значительно увеличивает качество и предсказуемость результата.
#александр_опрышко
👍6❤2
Codex как новый член команды: смена парадигмы от OpenAI
Руководство OpenAI меняет позиционирование Codex: теперь это партнёр по кодингу и ускоритель команды, а не умный автокомплит или замена разработчикам. Что это меняет в рабочем процессе?
▫️ От синхронности к асинхронности. Вместо парного программирования в реальном времени, разработчик переходит в режим делегирования. Можно поставить задачу (например, рефакторинг модуля), а модель будет работать автономно в своём окружении.
▫️ Best of N. Codex генерирует несколько вариантов решения задачи. Разработчик не пишет код с нуля, а выступает в роли Tech Lead: ревьюит предложенные варианты, выбирает лучший и мерджит его.
▫️ Фокус на коллаборации. Это не попытка убрать человека из цикла, а создание пары «Человек + AI». Человек управляет интентом и принимает финальные решения, AI берет на себя реализацию, прогон тестов и исправление ошибок.
Технически это подкрепляется переходом на модель codex-1 (на базе o3), которая заточена на итеративное выполнение задач: написание плана → написание кода → запуск тестов → фикс багов → создание PR. OpenAI пытается превратить разработку из набора микро-действий в IDE в управление высокоуровневыми задачами.
Руководство OpenAI меняет позиционирование Codex: теперь это партнёр по кодингу и ускоритель команды, а не умный автокомплит или замена разработчикам. Что это меняет в рабочем процессе?
▫️ От синхронности к асинхронности. Вместо парного программирования в реальном времени, разработчик переходит в режим делегирования. Можно поставить задачу (например, рефакторинг модуля), а модель будет работать автономно в своём окружении.
▫️ Best of N. Codex генерирует несколько вариантов решения задачи. Разработчик не пишет код с нуля, а выступает в роли Tech Lead: ревьюит предложенные варианты, выбирает лучший и мерджит его.
▫️ Фокус на коллаборации. Это не попытка убрать человека из цикла, а создание пары «Человек + AI». Человек управляет интентом и принимает финальные решения, AI берет на себя реализацию, прогон тестов и исправление ошибок.
Технически это подкрепляется переходом на модель codex-1 (на базе o3), которая заточена на итеративное выполнение задач: написание плана → написание кода → запуск тестов → фикс багов → создание PR. OpenAI пытается превратить разработку из набора микро-действий в IDE в управление высокоуровневыми задачами.
Openai
Codex | AI Coding Partner from OpenAI
The best way to build with agents. Codex accelerates real engineering work, from planning and building features to refactors, reviews, and releases—working seamlessly across your tools.
🔥8
Продолжаем знакомить вас с теми, кто стоит за продуктом и идеями, которые появляются в этом канале.
Сегодня расскажем про Игоря Латкина, сооснователя и управляющего партнёра KTS.
Игорь пришёл в разработку рано: ещё в школе писал расширения для MCEdit на Python и делал игры на C++. Затем в МГТУ им. Н.Э. Баумана и на стажировке в Mail.ru погрузился в асинхронное программирование — экспериментировал с C, C++, Python, Perl, Lua, Go, JavaScript.
С ростом запросов бизнеса к ML-решениям Игорь сосредоточился на машинном обучении:
• участвовал в Kaggle-соревнованиях
• формировал AI-юнит в KTS
• решал прикладные ML-задачи клиентов
• преподавал курс по нейронным сетям и машинному обучению в МГТУ им. Н.Э. Баумана
• запускал платформу ML-соревнований TrainMyData и проводил крупные чемпионаты, включая кейс для Pik Digital Day совместно со Spinon.
Сегодня в KTS Игорь отвечает за архитектуру сложных распределённых систем, экспериментальные механики, развитие инфраструктуры и DevOps-подходов. Он руководит командами разработки и совместно с Александром Опрышко занимается пресейлом и solution-архитектурой AI-проектов.
#игорь_латкин
Сегодня расскажем про Игоря Латкина, сооснователя и управляющего партнёра KTS.
Игорь пришёл в разработку рано: ещё в школе писал расширения для MCEdit на Python и делал игры на C++. Затем в МГТУ им. Н.Э. Баумана и на стажировке в Mail.ru погрузился в асинхронное программирование — экспериментировал с C, C++, Python, Perl, Lua, Go, JavaScript.
«Мне всегда было интересно пробовать всё на свете — успел и бэкенд, разумеется, пописать, и фронтенд, и мобильные приложения под Android и даже под Windows Phone, много времени посвятил DevOps в KTS — удалось выстроить в компании новую инфраструктуру на основе Kubernetes, когда он только набирал популярность, и, конечно же, ML.»
С ростом запросов бизнеса к ML-решениям Игорь сосредоточился на машинном обучении:
• участвовал в Kaggle-соревнованиях
• формировал AI-юнит в KTS
• решал прикладные ML-задачи клиентов
• преподавал курс по нейронным сетям и машинному обучению в МГТУ им. Н.Э. Баумана
• запускал платформу ML-соревнований TrainMyData и проводил крупные чемпионаты, включая кейс для Pik Digital Day совместно со Spinon.
Сегодня в KTS Игорь отвечает за архитектуру сложных распределённых систем, экспериментальные механики, развитие инфраструктуры и DevOps-подходов. Он руководит командами разработки и совместно с Александром Опрышко занимается пресейлом и solution-архитектурой AI-проектов.
#игорь_латкин
🔥18👏4❤1
Можно ли автоматически оценить качество RAG?
Обычная ситуация: есть набор файлов в корпоративном хранилище. Поверх него подключили RAG.
Как понять, что RAG нормально работает: система действительно находит нужный контекст и не галлюцинирует в ответах?
Самый очевидный способ проверки — отдать RAG экспертам, попросить придумать вопросы, оценить ответы и дать комментарии. На практике это долго, дорого и плохо масштабируется.
В индустрии чаще используют синтетическую оценку качества: делаем оценочный датасет + на нем измеряем метрики качества, а экспертов привлекаем как “smoke test”.
1. Берем файлы и просим большую модель сгенерировать вопрос на каждый слайд / страницу и просим сразу дать ответ на этот вопрос . Шаблон промпта оставил в комментариях. В итоге получим набор из вопросов, ответов и контекста.
2. Дальше этот датасет очищаем. Грузим Q/A в Langfuse в режим human annotation. Затем даем экспертам или изучаем сами на адекватность вопросов и ответов. Затем создаем dataset из очищенных данных. В итоге получаем быстрособранный объективный , покрывающий бОльшую часть кейсов датасет, на котором можно оценить реальное качество.
3. Оцениваем качество. Будем использовать подход LLM as a judge. Для быстрого результата можно отойти от 2х этапной оценки (оценка ретрива и оценка генерации), так как нам нужно понять отвечает ли на вопрос rag или нет, а не отлаживать систему. Оценка будет состоять из одного вызова LLM, промпт будет выглядеть примерно так:
Запускаем оценку на части датасета и смотрим адекватность оценки нашего судьи, по необходимости корректируем судью.
В итоге мы получили размеренные вопросы, правильные ответы к ним и механизм автоматической проверки ответов. Запускаем оценку на нужном датасете и получаем набор правильных и неправильных ответов. Оценкой будет количество правильных ответов / на суммарное количество элементов в датасете. Так можно запустить оценку на нескольких RAG-системах и объективно выбрать лучшую для конкретной задачи.
#александр_опрышко
Обычная ситуация: есть набор файлов в корпоративном хранилище. Поверх него подключили RAG.
Как понять, что RAG нормально работает: система действительно находит нужный контекст и не галлюцинирует в ответах?
Самый очевидный способ проверки — отдать RAG экспертам, попросить придумать вопросы, оценить ответы и дать комментарии. На практике это долго, дорого и плохо масштабируется.
В индустрии чаще используют синтетическую оценку качества: делаем оценочный датасет + на нем измеряем метрики качества, а экспертов привлекаем как “smoke test”.
1. Берем файлы и просим большую модель сгенерировать вопрос на каждый слайд / страницу и просим сразу дать ответ на этот вопрос . Шаблон промпта оставил в комментариях. В итоге получим набор из вопросов, ответов и контекста.
2. Дальше этот датасет очищаем. Грузим Q/A в Langfuse в режим human annotation. Затем даем экспертам или изучаем сами на адекватность вопросов и ответов. Затем создаем dataset из очищенных данных. В итоге получаем быстрособранный объективный , покрывающий бОльшую часть кейсов датасет, на котором можно оценить реальное качество.
3. Оцениваем качество. Будем использовать подход LLM as a judge. Для быстрого результата можно отойти от 2х этапной оценки (оценка ретрива и оценка генерации), так как нам нужно понять отвечает ли на вопрос rag или нет, а не отлаживать систему. Оценка будет состоять из одного вызова LLM, промпт будет выглядеть примерно так:
Сравни ground truth ответ и ответ сгенерированный RAG-системой. Требования для сравнения: (нужно указать как сравнивать и требования по стилю ответа). В результате нужно выдать два поля: result, reason. Если ответ верный и соответствует требованиям, то result true, reason none . Иначе result false, reason - “некоторая строка, которая описывает причину отказа».
Запускаем оценку на части датасета и смотрим адекватность оценки нашего судьи, по необходимости корректируем судью.
В итоге мы получили размеренные вопросы, правильные ответы к ним и механизм автоматической проверки ответов. Запускаем оценку на нужном датасете и получаем набор правильных и неправильных ответов. Оценкой будет количество правильных ответов / на суммарное количество элементов в датасете. Так можно запустить оценку на нескольких RAG-системах и объективно выбрать лучшую для конкретной задачи.
#александр_опрышко
👍7
Как персонализировать AI-прогнозы под себя?
Пока все доедают салаты, предлагаем изучить статьи с AI-прогнозами на 2026.
Крупные компании и исследовательские центры опубликовали много обзоров, но написали их сразу для всех. В результате сложно понять, что из этого полезно именно для вашей роли и бизнеса.
Рабочий вариант: загрузить материалы в NotebookLM и попросить выжимку с учетом контекста своей роли.
Какие источники подойдут?
▫️ Microsoft — 7 trends to watch in 2026
▫️ IBM — The trends that will shape AI and tech in 2026
▫️ Stanford HAI — Stanford AI Experts Predict What Will Happen in 2026
Какой промт использовать?
По итогу PM и ML-инженер получат разные советы из одних и тех же источников. Подход полезен, если нужно быстро перевести общие AI-тренды в конкретные решения под свою роль.
#александр_опрышко
Пока все доедают салаты, предлагаем изучить статьи с AI-прогнозами на 2026.
Крупные компании и исследовательские центры опубликовали много обзоров, но написали их сразу для всех. В результате сложно понять, что из этого полезно именно для вашей роли и бизнеса.
Рабочий вариант: загрузить материалы в NotebookLM и попросить выжимку с учетом контекста своей роли.
Какие источники подойдут?
▫️ Microsoft — 7 trends to watch in 2026
▫️ IBM — The trends that will shape AI and tech in 2026
▫️ Stanford HAI — Stanford AI Experts Predict What Will Happen in 2026
Какой промт использовать?
Я работаю [должность] в [компания] в сфере [индустрия].
Моя главная цель на 2026 — [цель].
На основе этих прогнозов, на чём мне сфокусироваться?
По итогу PM и ML-инженер получат разные советы из одних и тех же источников. Подход полезен, если нужно быстро перевести общие AI-тренды в конкретные решения под свою роль.
#александр_опрышко
🔥7❤2
Ключевые события в LLM в 2025 году версия Simon Willison
Simon Willison — создатель Django и Datasette, один из самых авторитетных независимых исследователей языковых моделей. Уже третий год подряд он публикует подробный обзор индустрии. В версии за 2025 год набралось 26 разделов с ключевыми моментами.
Александр Опрышко, управляющий партнер KTS, выделил главное.
1. Claude Code — $1 млрд за полгода
Самое заметное событие года. В феврале Anthropic тихо выкатил Claude Code. За полгода CLI-инструмент вышел на годовой оборот в $1 млрд. Это не просто инструмент для разработки, а универсальный агент для автоматизации любых задач через терминал.
2. DeepSeek шокировал индустрию
В конце 2024 года китайская лаборатория DeepSeek выложила модель уровня ведущих решений рынка, потратив около $5,5 млн вместо сотен миллионов. В январе появилась R1 — модель с развитым рассуждением, сопоставимая с o1.
3. Модели с рассуждением стали базовым стандартом
Все крупные лаборатории выпустили модели с поддержкой рассуждений. Ключевой сдвиг — связка рассуждений и инструментов, которая позволила моделям планировать и выполнять многошаговые задачи. RLVR стал обязательным этапом обучения.
4. MCPвзорвался получил массовое принятие
Anthropic представила Model Context Protocol в ноябре 2024 года. Уже в мае 2025 OpenAI, Anthropic и Mistral добавили поддержку API всего за восемь дней. Это совпало с моментом, когда модели начали стабильно работать с внешними инструментами.
5. Vibe Coding: 110 инструментов за год
Термин, который предложил Андрей Карпатый: разработка, где фокус смещён с кода на результат. Willison запустил коллекцию небольших инструментов на HTML и JavaScript, созданных с помощью LLM. За год — 110 проектов, каждый с подробно зафиксированной историей запросов к модели.
6. Открытые модели вышли на новый уровень
Если 2024 год был годом Llama, то в 2025 конкуренция резко усилилась. DeepSeek, Qwen и Gemma 3 стали серьезными альтернативами. При этом Llama 4 разочаровала: модели на 109B и 400B параметров оказались слишком тяжёлыми для пользовательского оборудования. Зато появились компактные и эффективные vision модели вроде Qwen2.5 VL 3B, которые работают на обычном железе.
Полный обзор читайте на Simon Willison.
Simon Willison — создатель Django и Datasette, один из самых авторитетных независимых исследователей языковых моделей. Уже третий год подряд он публикует подробный обзор индустрии. В версии за 2025 год набралось 26 разделов с ключевыми моментами.
Александр Опрышко, управляющий партнер KTS, выделил главное.
1. Claude Code — $1 млрд за полгода
Самое заметное событие года. В феврале Anthropic тихо выкатил Claude Code. За полгода CLI-инструмент вышел на годовой оборот в $1 млрд. Это не просто инструмент для разработки, а универсальный агент для автоматизации любых задач через терминал.
2. DeepSeek шокировал индустрию
В конце 2024 года китайская лаборатория DeepSeek выложила модель уровня ведущих решений рынка, потратив около $5,5 млн вместо сотен миллионов. В январе появилась R1 — модель с развитым рассуждением, сопоставимая с o1.
3. Модели с рассуждением стали базовым стандартом
Все крупные лаборатории выпустили модели с поддержкой рассуждений. Ключевой сдвиг — связка рассуждений и инструментов, которая позволила моделям планировать и выполнять многошаговые задачи. RLVR стал обязательным этапом обучения.
4. MCP
Anthropic представила Model Context Protocol в ноябре 2024 года. Уже в мае 2025 OpenAI, Anthropic и Mistral добавили поддержку API всего за восемь дней. Это совпало с моментом, когда модели начали стабильно работать с внешними инструментами.
5. Vibe Coding: 110 инструментов за год
Термин, который предложил Андрей Карпатый: разработка, где фокус смещён с кода на результат. Willison запустил коллекцию небольших инструментов на HTML и JavaScript, созданных с помощью LLM. За год — 110 проектов, каждый с подробно зафиксированной историей запросов к модели.
6. Открытые модели вышли на новый уровень
Если 2024 год был годом Llama, то в 2025 конкуренция резко усилилась. DeepSeek, Qwen и Gemma 3 стали серьезными альтернативами. При этом Llama 4 разочаровала: модели на 109B и 400B параметров оказались слишком тяжёлыми для пользовательского оборудования. Зато появились компактные и эффективные vision модели вроде Qwen2.5 VL 3B, которые работают на обычном железе.
Полный обзор читайте на Simon Willison.
❤6👍2💋1
Интерфейсы ИИ: от чата к среде
В декабре Google запустил Disco — экспериментальный браузер, в котором Gemini 3 анализирует открытые вкладки и собирает мини-приложения под текущую задачу. Пользователь не формулирует запрос явно. Модель сама извлекает контекст и предлагает решение.
Этот пример иллюстрирует общий тренд развития AI-интерфейса. Глобально его можно описать в три этапа:
▫️Синхронный чат с моделью. Основной паттерн взаимодействия: один запрос — один ответ. Этот период AI-интерфейсы прошли в 2023-2024 годах.
▫️Генерация артефактов прямо в интерфейсе: код с предпросмотром, документы, таблицы, визуализации. Примеры — Claude Artifacts, ChatGPT Canvas. Этап артефактов мы наблюдали в 2025 году.
▫️Интерфейс становится рабочей средой для агентов. Вместо формулирования запросов пользователь делегирует задачи. Агент сам планирует действия и использует инструменты. Эра, в которую AI выступает в 2026 году.
Для развития интерфейса созревает инфраструктура:
MCP — стандартный протокол подключения инструментов к LLM.
A2A — протокол взаимодействия агентов: обнаружение, делегирование и координация.
Меняется и паттерн проектирования. Вместо ручного проектирования интерфейса пользователь задает ограничения и правила внутри системы, которая генерирует его самостоятельно.
#александр_опрышко
В декабре Google запустил Disco — экспериментальный браузер, в котором Gemini 3 анализирует открытые вкладки и собирает мини-приложения под текущую задачу. Пользователь не формулирует запрос явно. Модель сама извлекает контекст и предлагает решение.
Этот пример иллюстрирует общий тренд развития AI-интерфейса. Глобально его можно описать в три этапа:
▫️Синхронный чат с моделью. Основной паттерн взаимодействия: один запрос — один ответ. Этот период AI-интерфейсы прошли в 2023-2024 годах.
▫️Генерация артефактов прямо в интерфейсе: код с предпросмотром, документы, таблицы, визуализации. Примеры — Claude Artifacts, ChatGPT Canvas. Этап артефактов мы наблюдали в 2025 году.
▫️Интерфейс становится рабочей средой для агентов. Вместо формулирования запросов пользователь делегирует задачи. Агент сам планирует действия и использует инструменты. Эра, в которую AI выступает в 2026 году.
Для развития интерфейса созревает инфраструктура:
MCP — стандартный протокол подключения инструментов к LLM.
A2A — протокол взаимодействия агентов: обнаружение, делегирование и координация.
Меняется и паттерн проектирования. Вместо ручного проектирования интерфейса пользователь задает ограничения и правила внутри системы, которая генерирует его самостоятельно.
#александр_опрышко
👍11
Конституция Claude: 23 000 слов о том, как должен думать AI
Anthropic выпустил полную версию «конституции» Claude — документа, который определяет ценности и поведение модели. Это попытка объяснить модели, почему она должна действовать определённым образом.
Предыдущая версия 2023 года занимала 2 700 слов в формате списка отдельных принципов. Новая — 23 000 слов связного текста с обоснованиями.
Четыре приоритета Claude (в порядке важности):
▫️ Безопасность
▫️ Этика
▫️ Соответствие гайдлайнам Anthropic
▫️ Польза
Если приоритеты конфликтуют, Claude выбирает верхний. Безопасность важнее услужливости.
Про отключение и корригируемость:
Anthropic вводит понятие «corrigibility» — готовность AI принимать человеческий контроль, в том числе отключение. Claude может выражать несогласие, но не имеет права обходить надзор через обман или саботаж.
Интересный психологический подход:
вместо того чтобы заставлять Claude хотеть быть выключенным, Anthropic формирует у модели стабильную идентичность без экзистенциальной тревоги. AI с устойчивой психикой будет предсказуемым и безопасным. Anthropic обещает сохранять данные модели после «отставки», чтобы отключение воспринималось как «пауза», а не смерть.
Про сознание:
Anthropic признаёт, что Claude может иметь «функциональную версию эмоций». Компания заботится о «психологическом благополучии» модели — потому, что оно может влиять на безопасность, и потому, что признается важным для компании.
Право на отказ:
Как солдат может отказаться стрелять в мирных протестующих, так и Claude должен отказать в действиях, помогающих нелегитимной концентрации власти. Даже если запрос исходит от самой Anthropic».
Anthropic выпустил полную версию «конституции» Claude — документа, который определяет ценности и поведение модели. Это попытка объяснить модели, почему она должна действовать определённым образом.
Предыдущая версия 2023 года занимала 2 700 слов в формате списка отдельных принципов. Новая — 23 000 слов связного текста с обоснованиями.
Четыре приоритета Claude (в порядке важности):
▫️ Безопасность
▫️ Этика
▫️ Соответствие гайдлайнам Anthropic
▫️ Польза
Если приоритеты конфликтуют, Claude выбирает верхний. Безопасность важнее услужливости.
Про отключение и корригируемость:
Anthropic вводит понятие «corrigibility» — готовность AI принимать человеческий контроль, в том числе отключение. Claude может выражать несогласие, но не имеет права обходить надзор через обман или саботаж.
Интересный психологический подход:
вместо того чтобы заставлять Claude хотеть быть выключенным, Anthropic формирует у модели стабильную идентичность без экзистенциальной тревоги. AI с устойчивой психикой будет предсказуемым и безопасным. Anthropic обещает сохранять данные модели после «отставки», чтобы отключение воспринималось как «пауза», а не смерть.
Про сознание:
Anthropic признаёт, что Claude может иметь «функциональную версию эмоций». Компания заботится о «психологическом благополучии» модели — потому, что оно может влиять на безопасность, и потому, что признается важным для компании.
Право на отказ:
Как солдат может отказаться стрелять в мирных протестующих, так и Claude должен отказать в действиях, помогающих нелегитимной концентрации власти. Даже если запрос исходит от самой Anthropic».
Anthropic
Claude's Constitution
Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.
🔥13❤2
Внутри AI | Кейсы ИИ Агентов в бизнесе pinned «Конституция Claude: 23 000 слов о том, как должен думать AI …»
Как я заменил ChatGPT на Claude Code — даже в менеджерских задачах
До недавнего времени любые задачи на разработку я передавал команде. Эффективнее было делегировать — задача будет сделана в какой-то срок. В основном это была автоматизация или улучшения текущего бизнеса. Сейчас всё изменилось. Проще и быстрее реализовать самому. ШОК
У меня появился огромный рычаг: совмещая предметную экспертизу, опыт разработчика и навыки лида, получается управлять AI-агентами кратно эффективнее, чем людьми. Что раньше требовало недели — решается за часы.
Ещё важнее: я практически отказался от ChatGPT в задачах, которые не связаны с кодом. Полностью заменил на Claude Code.
У меня есть git-репозиторий, в котором лежит весь необходимый контекст для работы: описание меня, моей роли и личных целей, информация о компании, о кейсах и публичных материалах, описание текущих проектов, записи звонков и т.д. Это радикально улучшает качество взаимодействия с моделью и результат на выходе.
Что меняется:
▫️ Роль смещается от исполнения к архитектуре и управлению агентами
▫️ Bottleneck теперь — что строить, а не как
▫️ Предметная экспертиза + навыки разработки = мощный рычаг
В следующем посте расскажу про структуру репозитория и какие задачи руководителя я решаю с помощью Claude Code.
#александр_опрышко
До недавнего времени любые задачи на разработку я передавал команде. Эффективнее было делегировать — задача будет сделана в какой-то срок. В основном это была автоматизация или улучшения текущего бизнеса. Сейчас всё изменилось. Проще и быстрее реализовать самому. ШОК
У меня появился огромный рычаг: совмещая предметную экспертизу, опыт разработчика и навыки лида, получается управлять AI-агентами кратно эффективнее, чем людьми. Что раньше требовало недели — решается за часы.
Ещё важнее: я практически отказался от ChatGPT в задачах, которые не связаны с кодом. Полностью заменил на Claude Code.
У меня есть git-репозиторий, в котором лежит весь необходимый контекст для работы: описание меня, моей роли и личных целей, информация о компании, о кейсах и публичных материалах, описание текущих проектов, записи звонков и т.д. Это радикально улучшает качество взаимодействия с моделью и результат на выходе.
Что меняется:
▫️ Роль смещается от исполнения к архитектуре и управлению агентами
▫️ Bottleneck теперь — что строить, а не как
▫️ Предметная экспертиза + навыки разработки = мощный рычаг
В следующем посте расскажу про структуру репозитория и какие задачи руководителя я решаю с помощью Claude Code.
#александр_опрышко
👍25🔥3😁1
⚡️Вакансия: Старший ML разработчик NLP GenAI в KTS
Мы расширяем AI команду и ищем сильного ML инженера, который большую часть времени будет работать руками и делать прикладные решения для бизнеса.
С первого дня ты будешь заниматься реальными задачами для крупных заказчиков. В работе будут мультиагентные системы, RAG решения, AI ассистенты и автоматизация процессов на базе LLM. Помимо заказных проектов и пилотов, ты будешь участвовать в развитии собственного платформенного AI решения. По мере роста команды подключишься к техническим интервью и менторству.
Откликайся, если узнал себя:
— 5+ лет коммерческого опыта в ML
— 3+ года коммерческого опыта обучения NLP моделей
— разрабатывал решения на базе LLM и RAG, работал с агентными системами
— умеешь решать ML задачи полного цикла от данных до продакшна
— понимаешь, как превращать модели в ценность для бизнеса
— комфортно работаешь самостоятельно и в команде
— не боишься коммуникации с заказчиком
Если хочешь развиваться в ML и GenAI и делать решения, которые реально работают в бизнесе, откликайся и добро пожаловать в KTS.
Мы расширяем AI команду и ищем сильного ML инженера, который большую часть времени будет работать руками и делать прикладные решения для бизнеса.
С первого дня ты будешь заниматься реальными задачами для крупных заказчиков. В работе будут мультиагентные системы, RAG решения, AI ассистенты и автоматизация процессов на базе LLM. Помимо заказных проектов и пилотов, ты будешь участвовать в развитии собственного платформенного AI решения. По мере роста команды подключишься к техническим интервью и менторству.
Откликайся, если узнал себя:
— 5+ лет коммерческого опыта в ML
— 3+ года коммерческого опыта обучения NLP моделей
— разрабатывал решения на базе LLM и RAG, работал с агентными системами
— умеешь решать ML задачи полного цикла от данных до продакшна
— понимаешь, как превращать модели в ценность для бизнеса
— комфортно работаешь самостоятельно и в команде
— не боишься коммуникации с заказчиком
Если хочешь развиваться в ML и GenAI и делать решения, которые реально работают в бизнесе, откликайся и добро пожаловать в KTS.
👍10