Константин Доронин
3.9K subscribers
622 photos
313 videos
1 file
337 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
AI-инструменты – это отличный способ побороть проблему чистого листа.

То состояние, когда надо взяться за дело, особенно малоизвестное, и не знаешь, с чего начать.

Я за собой заметил, что почти любой проект в новой сфере начинаю с сеанса Deep Research. Который позволяет немного рассеять туман неизвестности.

Вообще, все AI-инструменты, которые я добавляю в свой набор, должны попадать, как минимум, под следующие критерии:

1. Возможность быстро начать. Когда инструмент для создания презентаций/сайтов/pdf-файлов/видео не требует от меня знаний о том, как именно он всё это создаёт. И я могу в режиме чата накидать первую рабочую версию, чтобы было с чего стартовать. Для решения проблемы чистого листа.

2. Наличие инструментов для контроля генерации. Освоив первый пункт, непременно нужна возможность поставить AI в жёсткие рамки, чтобы получить именно тот результат, что я ожидаю. Без этого все AI-генерации не более, чем баловство. Во многих инструментах на этом этапе достаточно хорошего понимания промпта.

3. Возможности для точечного редактирования полученного результата. Чем точнее я могу поправить то, что получил в результате первого и второго пунктов, тем лучше. Это inpaint в генерациях изображений или редактирование конкретного элемента на слайде презентации в Manus и gamma.app.

4. Стоимость. В меньшей степени, чем предыдущие пункты, но инструмент всё-таки должен оправдывать деньги, которые просит за использование.

Какие критерии при выборе AI-инструментов есть у вас? Какие из инструментов подошли лучше всего?
3🔥9👍43
Ленивый Manus.

Данное качество делает его плохим партнёром при работе над большими проектами.

Если дать ему линейную задачу из 20-30 этапов, то хорошо, если он хотя бы 10 этапов выполнит за одну итерацию.

После чего агент замирает и спрашивает "Дальше работать?".

Ухудшает ситуацию то, что он, работая дальше, может сломать что-то, что хорошо работало до этого.

Вишенка на торте – Manus часто пытается сделать задачу "для галочки".

Например, есть у него документ на 30-40 страниц, который необходимо перевести в рамках задачи. И очень высока вероятность, что он попробует перевести не страницы, одна за одной, а краткие выжимки, сформированные из того, что залетело агенту в контекст.

В совокупности, эти особенности приводят к избыточному использованию токенов. Потому что какие-то этапы задачи приходится запускать в работу заново.

Интересно, что эта "ленность" свойственна Claude, который живёт в чате у Anthropic. При этом от неё удалось избавиться ребятам из Cursor, AI-агент которых может быть даже слишком инициативным и проактивным.
1👍127🔥2
Общая схема при формировании системы правил для Cursor.

Disclaimer: схема – это слепок моего опыта на текущий момент. Со временем она может измениться и обрасти деталями.


Без лишних слов, сама схема:

1. Есть правило-навигатор. Оно описывает общий процесс того, как происходит выполнение задачи.

2. Процесс разбит на небольшие этапы. Чем они меньше – тем лучше.

3. Под каждый этап в процессе есть собственное правило (в отдельном mdc-файле), на которое ссылается навигатор. Достаточно указания имени файла с правилом, чтобы агент его использовал.

4. Внутри правила этапа детально описывается, что должен сделать агент, чтобы передать задачу на следующий этап. Если необходимо, предоставляем ему в пользование конкретные MCP-tools(здесь про то, что MCP-сервера надо писать под конкретную задачу самому).

5. В правиле-навигаторе также описываются уровни документации:

– Общая документация по проекту. Пока что это просто Mermaid-диаграмма с архитектурой системы (или помодульной архитектурой в случае большого проекта), а также текстовое описание всех её модулей в отдельных файлах. (данный пункт находится на стадии активного развития, поэтому, возможно, стоит его самостоятельно доработать)

– Временная документация. Используется в процессе решения конкретной задачи для того, чтобы организовать взаимодействие между этапами выполнения задачи. Также позволяет запустить задачу с любого этапа "на холодную" (без контекста у LLM).

– Документация непосредственно в коде. Система комментариев, которая позволяет LLM лучше ориентироваться в конкретном модуле/классе/методе.

Пишите, что думаете о схеме. Буду рад, если с вашей помощью она станет лучше 🙂
3🔥158👍7
По следам "Ленивого Manus".

Удивительно, что "полностью автономный и самостоятельный AI-агент" – это вроде как Manus, но доводить поставленную задачу до конца Cursor умеет куда как лучше.

Да, он тоже из-за избыточного контекста может начать немного путать факты, но это, как правило, минорные небольшие ошибки, которые в моменте можно поправить дополнительным запросом в Cursor.

И это в режиме без cursorrules. Если их добавить, то Cursor может уйти в достаточно продолжительное автономное плавание. Включающее самопроверки.

Завтра будет пост-сравнение этих систем в решении одинаковой задачи.

Кстати, заканчивается аттракцион невиданной щедрости от Manus. Генерация veo3-видео теперь стоит 600 токенов, а не 300. Поэтому в медиа сегодня фото вместо видео 🙂
2🔥117👍5👻1
Manus vs Cursor на одной и той же задаче.

Что была за задача? Не так давно Anthropic выложила документ "How Anthropic teams use Claude Code". Это целый набор практических кейсов реальной компании, хоть и без детальных разборов.

Я решил, что будет интересно перевести его на русский язык и разместить на специально-созданном для этого сайте.

Соответственно, три этапа:

1. Аккуратно перевести документ с английского на русский (опционально, предварительно разбив его на части).

2. Создать сайт для размещения информации из презентации.

3. Разместить информацию на сайте. В идеале – сопроводив его примерами.

Переведённый на русский PDF вы можете забрать в комментариях к этому посту.

Теперь обсудим, кто что смог.

Manus.

У него хорошо прописан промпт на создание приемлемого дизайна. Поэтому так часто хвастаются тем, что "да мне Manus этот сайт с одного сообщения создал". Если посмотреть на многие другие "универсальные AI-агенты", можно заметить, что далеко не у всех дизайн получается приятным.

Не может просто взять и перевести документ по страницам. Даже если в документе всего 23 страницы. Постоянно пытается что-то подсократить, подрезать или вовсе убрать. Ещё он несколько раз терял уже переведённые документы и пытался сгенерировать им замену.

Пожрал все токены, пытаясь пофиксить баги, гуляющие по кругу. К какому-то результату по итогу пришли, но оно точно не стоило 7000 токенов (можно было сделать 11 видео в Veo3, эх...).


Cursor.

Контроль за процессом. Детальный. Я понимаю, какие у меня файлы есть в работе, контролирую контекст. Это повышает качество результата в принципе.

Перевод. Разбили при помощи python-скрипта исходник на md-файлы, а потом их по одному (с моим тотальным контролем!) перевёл на русский. Потом ещё и перепроверил качество перевода с помощью ChatGPT o3.

У меня остались лимиты от подписки на Cursor и их точно хватит до момента сброса лимитов. А Manus тем временем просит $20 за 1900 токенов, так как съел всё подчистую.

А вот с дизайном без дополнительных правил и инструментов у Cursor, оказывается, проблемы. Либо я совсем отвык от работы с ним без кастомных Cursor rules. В общем, к какому-то подобию адекватного сайта я смог прийти, но у Manus чуть ли не с первой попытки был очень приятный дизайн (но контент хромал, да).

Считаю, что стоит поискать каких-то более продуктивных агентов на замену Manus. И при помощи Cursor rules реализовать собственные хорошо описанные сценарии. В том числе – для реализации приятного адаптивного дизайна.

Кстати, вот сайт, который сделал Manus (всё ещё не нравится мне с точки зрения качества). Контент я туда заливал из уже переведённых md-файлов от Cursor. Поэтому он более-менее соответствует оригиналу.
310🔥10👍5👏1
Тестируем новый Hailuo 02 от китайской Minimax.

У них был очень амбициозный трейлер (смотреть тут), в котором они активно хвастались тем, как модель круто генерирует сложные движения.

Подписка Standard за $10/месяц (с учётом текущей скидки 33%) даёт возможность генерировать видео в формате 1080p и длительностью 6 секунд. Чтобы генерировать 1080p/10s, нужно раскошелиться на $35/month (без скидки – $55!).

За $10 мы получаем 1000 кредитов, которых хватит на 12 генераций (по 80 кредитов за генерацию) 1080p/6s. Или на 40 генераций 768p/6s (по 25 кредитов за штуку).

Промпты генерировал через ChatGPT o3. Включаю инструмент для поиска и прошу использовать инструкции для составления промптов под конкретную модель. Интересно, что часть промпта ChatGPT сгенерировал на китайском 🙂

По-умолчанию Hailuo в своём интерфейсе включает улучшайзер промпта. Я его отключил, так как мне готовый "идеальный" промпт готовит ChatGPT. Вы можете сравнить двух канатоходцев и принять решение, отключать ли данную опцию. Босой канатоходец – это тот, которого улучшил Hailuo.

Большая часть приведённых генераций – это text-to-video. Анимированная сцена с пейзажем и танцующая мышь – image-to-video.

Как вам обновление от Hailuo? Как по мне, очень достойно. Хоть и приходится иногда повозиться с повторными генерациями, чтобы достичь впечатляющего результата.
1👍86🔥6
Mermaid-диаграмы, как стандарт визуального представления данных для LLM.

Сегодня, когда я искал баг в цепочке вызовов функций (спойлер: баг сидел и пялился в монитор, забыв включить отладку), Cursor прямо в чате нарисовал красивую диаграмму того, как классы и методы взаимодействуют между собой в моём модуле, а также какие интерфейсы внешних библиотек используются.

Оказывается, эта функциональность приехала в Cursor с версией 1.0.

Таким образом Cursor представил для себя информацию более наглядно. Потом прошёлся по методам в схеме и написал функцию для отладки логики.

Код самой диаграммы из Cursor можно скопировать, вставить, например, в ChatGPT и попросить нарисовать диаграмму. Любая современная LLM отлично понимает Mermaid и может с данным форматом взаимодействовать.

Вывод: если вы ещё не используете в своей работе с LLM Mermaid-диаграмы, то самое время начать 🙂
4🔥95👍3
Garbage in garbage out в ситуации с автономными AI-агентами.

Против пользователя может работать тот факт, что LLM созданы приятными и стремящимися угодить ему системами.

Из коробки они могут прощать оператору абсолютное невежество.

Яркий пример был с Qwen Deep Research. Который задавал уточняющие вопросы по исследованию, но в качестве ответа принимал вообще что угодно. И скорее шёл делать исследование.

Поэтому, чем важнее те данные, которые мы планируем получить от пользователя, тем дотошнее должен быть тот AI-агент-интервьюер. Усложняется задача ещё и тем, что агенту при этом желательно оставаться вежливым 🙂

Получается, что системы для "полностью автоматического создания <<чего_угодно>> при помощи AI" вынуждены балансировать между качеством конечного продукта и пользовательским опытом.

Иначе может получиться отзыв в духе:
Я тут за две минутки пришёл себе собственный Google наклепать, а ваша система докопалась до меня с вопросами, на которые я даже ответа не знаю…


Даже готовые промпты обычно искусственно ограничены количеством вопросов, которые они могут задать. Чтобы пользователь как можно меньше напрягал мозг и как можно быстрее перешёл к этапу "AI-магия".

Даже если в результате "магии" мы получим закончившуюся "ману" и не работающий проект.
1🔥96👍5
Activepieces – более лояльная к пользователю замена для n8n.

Лицензия n8n во многих кейсах запрещает использовать его в коммерческих целях.

Да, у n8n открытый исходный код. Но лицензия не позволяет использовать n8n в качестве системы автоматизации для платного Telegram-бота, например.

В попытках обнаружить вариант с более лояльной лицензией я наткнулся на проект https://www.activepieces.com/ .

Activepieces – это достаточно молодой (ему 2,5 года), но многообещающий проект для no-code-автоматизации.

Поскольку проект начал активно развиваться уже в эпоху AI-бума, то они с порога заявляют о своём фокусе на AI-агентах и их быстрой сборке.

На текущий момент в проекте доступно более 300 интеграций (как я пафосно назвал 301 интеграцию, да?) с различными сторонними сервисами. Все вместе они позволяют закрыть большую часть потребностей относительно no-code-разработки.

В случае, если чего-то всё-таки не хватает, Activepieces позволяет достаточно быстро навайбкодить создать собственный коннектор. Процесс создания подробно описан в документации.

Приятный современный интерфейс, похожий на другие no-code-системы. Мне показался даже немного лаконичнее, чем в n8n.

У Activepieces есть отличный API, позволяющий подключаться к серверу извне и управлять им. Это очень полезно, если вы хотите создавать flow автоматизации в режиме чата со своим AI-ассистентом, например. У n8n, в свою очередь, в API банально отсутствуют методы для работы с библиотекой узлов.

Лицензия MIT позволяет использовать инструмент в коммерческих целях без ограничений. Также существует платная подписка на Activepieces, дающая доступ к премиум-функциональности (у n8n есть аналогичная подписка).

Из минусов Activepieces могу отметить разве что их молодость. Что выражается в меньшем, чем у n8n комьюнити, поддерживающем проект.

Activepieces однозначно заслуживает того, чтобы дать ему шанс. Попробуйте. Начать с ним работу действительно очень просто.
49🔥6👍4🤔1
Media is too big
VIEW IN TELEGRAM
Для чего я вообще полез во всё это no-low-code-безумие?

Наличие заранее известного конечного набора компонентов и правил, по которым они могут взаимодействовать – это хорошая система ограничений, в которой AI может выдавать более качественный итоговый продукт.

То есть идея в том, чтобы подключить AI-агента к no-code-системе, выдать ему набор узлов и проверить, как он справится с тем, чтобы собирать цепочки автоматизации самостоятельно.

Сегодня я тестировал ещё один инструмент для low-code-автоматизации. Зовётся он Windmill.

Инструмент откровенно сложен в освоении. Чего стоит один только интерактивный туториал из 18 шагов при попытке создать новый Workflow.

Работает он, как правило, с автоматизацией взаимодействия нескольких уже написанных скриптов.

К чему это я?

Windmill сделали AI-агента для работы со своей системой "из коробки". Он может получать состояние текущей страницы, нажимать на кнопки в интерфейсе, настраивать любые компоненты.

Я так увлёкся процессом взаимодействия с AI-агентом, что у меня закончились кредиты на Openrouter.

Посмотрите на скринкасте. Всё, что я там показываю, было создано тем самым AI-агентом.

Однако я пока не могу доработать Workflow в рамках Windmill, потому что ещё разбираюсь с его интерфейсом и взаимодействиями между системами.

Если среди моих подписчиков есть люди, которые работают с Windmill на постоянной основе, поделитесь, пожалуйста, премудростями его укрощения в комментариях 🙂
3👍13🔥75
Про Agentic-AI и вызовы, которые несёт с собой его реализация.

Сперва определимся, в чём разница между Agentic-AI и AI-agent.

AI-агент, как и система агентов, отрабатывают некий процесс в качестве реакции на внешний раздражитель. Например, пишем запрос в чат и получаем от системы результат.

Agentic-AI – это автономная система, которая работает непрерывно, сама ставит себе цели и выполняет их, исходя из своих инструкций, инструментов и опыта работы с предыдущими похожими задачами.

Собственно, непрерывность работы, наличие памяти и обилие инструментов создают определённые сложности в реализации такой системы.

Как минимум, нужно предусмотреть:

1. Обилие ошибок, которые могут возникнуть из-за вероятностной природы работы LLM. Да и вообще в любой непрерывно-работающей программе ошибки могут внезапно возникать с течением времени.

2. Грамотно и всеобъемлюще составить для AI-агентов в системе промпты. Чтобы они могли существовать длительное время, постепенно развиваясь и улучшая качество работы системы.

3. Расход токенов. Так как, при плохо продуманной системе, весь бюджет может закончиться ещё до того, как система начнёт приносить пользу.

4. Работу с памятью и контекстом. Память даёт накопительный полезный эффект, а контекст поможет избежать деградации системы со временем.

5. Программную архитектуру. То, как в коде описаны все агенты и их взаимодействие с внешним миром и инструментами. Чтобы работа агентской системы не тратила лишнее время в простое или ожидании, пока закончится не самая важная операция.

Каждый из пунктов я планирую рассмотреть в отдельных постах с примерами. Тема, как вы понимаете, объёмная.
3👍8🔥74
Помните, я на годовщину блога просил чаще рассказывать друзьям и знакомым про авторские каналы, которые нравятся?

Мои мысли по этому поводу резонируют с тем, что заявляют организаторы "Конкурса авторских Telegram-каналов".

Я решил поучаствовать в конкурсе, потому что это способ познакомиться с другими авторами и, само собой, получить чуть больше внимания к моему блогу 🙂

Теперь меня там просят прислать 3-5 моих любимых постов. Они будут участвовать во всеобщем голосовании...

Здесь есть небольшая загвоздка. Как правило, мои любимые посты и те, которые нравятся вам, дорогие читатели, это далеко не всегда одно и то же.

А голосовать-то за мои посты буду не только я 🙂

Поэтому, я хочу обратиться к вам с просьбой: отправьте, пожалуйста, в комментарии к этому посту те материалы из блога, которые вам запомнились и понравились больше всего. Это сильно облегчит мне выбор.

Спасибо заранее всем, кто откликнется! 🙂

p.s.: Ах, да. Если вы желаете следить за тем, как протекает конкурс, то подписывайтесь на его официальный канал. Думаю, будет интересно.
411👍6🔥6🏆1
Please open Telegram to view this post
VIEW IN TELEGRAM
Собрал для вас лучшие посты канала. Помогите выбрать из них самые лучшие.

Я понял свою ошибку. Вчера был слишком открытый вопрос. Поэтому я и не получил на него ответов.

Сегодня предлагаю на суд лучшие посты с моего канала по версии NotebookLM. А также опрос, в котором вы можете проголосовать (с множественным выбором) за лучшие по вашему мнению.

Заодно у вас появится ещё один пост для репоста в "Избранное" 🙂

Итак, лучшие статьи моего канала по версии NotebookLM:

1. Как AI влияет на поисковый трафик и что с этим делать?

2. 10 полезных материалов про промптинг и AI-агентов от больших компаний, работающих в сфере AI

3. Что делать с DeepResearch-запросами, доступными в Perplexity с pro-подпиской?

4. Программисты больше никому не нужны!

5. Пост с тестированием модели Kling 2.1

6. Вашему бизнесу не нужен AI

7. 3 сервиса с AI для изучения английского языка

8. Про то, как бесплатный DeepSeek деньги зарабатывает

9. Как правильно составить запрос в Deep Research

10. Про безопасность MCP-серверов

Мне очень нравится каждый из этих постов. Поэтому, если какой-то из них вы пропустили – вам есть, что почитать 🙂

Проголосуйте, пожалуйста, в опросе ниже, какие из них достойны того, чтобы представлять канал на конкурсе.
4🔥43💘2
Please open Telegram to view this post
VIEW IN TELEGRAM
3
За последнюю неделю я получил два запроса о том, как всё-таки из Figma-дизайна получить HTML+CSS.

Поэтому я вернулся к своему проекту Figma MCP и сегодня занимался его обновлением.

Что сделал:

1. Исправил некоторые ошибки, которые мешали MCP-серверу запуститься.

2. Протестировал плагин за $14 от Claude 4 Opus и влил его в мастер.

3. Добавил новый метод, позволяющий получать полную структуру дочерних nodes у переданного node_id. При этом получают только их ID.

Метод нужен, потому что текущие методы вытаскивают из Figma все возможные параметры у всех дочерних node, что приводит либо к переполнению контекста LLM, либо к превышению лимитов на ответ у websocket-сервера. В общем, ничего полезного.

Какие планы на ближайшие дни:

1. Добавить метод, позволяющий сохранять в папку проекта изображения и иконки.

2. Написать Cursor rules для того, чтобы он корректно использовал все инструменты и на выходе выдавал pixel-perfect вёрстку. С подключением css препроцессоров/постпроцессоров и фреймворков.

3. Почистить проект от устаревших файлов, потому что они есть. Особенно в плагине для Figma.

Будет интересно в итоге сравнить сервер с конкурентами. Которые, похоже, живут в идеальном мире одноэкранных дизайнов на 10 элементов в сумме 🙂
2🔥10👍743