Константин Доронин

Ключевая функциональность CLI-coding-агентов от LLM-провайдеров.

Это – аутентификация через свой аккаунт и перенос лимитов без дополнительной платы за токены. Google сделал дополнительный шаг, отсыпав весьма щедрые ежедневные лимиты без подписки (о том, как оставить их бесплатными тут и тут)

Благодаря этому, OpenAI и Google могут себе позволить выпустить альфа-версии CLI-интрументов, которые тестируют об конечных пользователей. Да, они выпускают новые версии продуктов, порой, по 3-5 раз в неделю, но по количеству возможностей с Claude Code сравнятся ещё нескоро.

Производители AI IDE с отдельной подпиской не могут позволить себе такой роскоши. У них есть Cursor, который отъел весомую долю рынка по "праву первого", а также ещё с десяток сильных конкурентов.

Поэтому Amazon, выпуская Kiro Code, сильно переосмыслил AI-coding с точки зрения UX. А Kilo Code закидывал пользователей бесплатными долларами на счёт в Openrouter.

Всё это для того, чтобы хоть как-то отстроить себя от конкурентов. Потому что конкурентного преимущества "можете использовать подписку, за которую уже платите" у них нет.

Такие мысли приходят в процессе исследования Codex CLI. Думаю, совсем скоро будет полноценный обзор.

1❤14👍7🔥3

1K views16:05

Константин Доронин

Буквально пару дней назад потратил на fal.ai $30+ долларов на генерацию видео с veo3, а сегодня они выкатили снижение цен на использование данной модели.

Стоимость упала до 50%. Подробная информация о ценах от самих fal.ai – в медиа поста.

Так что, если планировали заняться генерацией veo3-видео через API, сейчас – лучшее время для этого 🔥

1🔥18👍2❤1🤯1

1.05K viewsedited 20:17

Константин Доронин

Сегодня боролся с наследием, которое было у меня в Figma MCP.

Изначально в качестве "базы" я брал тот самый нашумевший "Cursor Talk to Figma MCP", потому что у него была достаточно неплохая (на первый взгляд) реализация.

Целью было переделать "универсальный MCP" под тот, который будет заточен под конкретную задачу:

Делать из Figma-макета вёрстку в HTML+CSS с возможностью на лету адаптироваться под стек

Я выпилил из него 20 инструментов для дизайнера, а также переписал под более привычный для меня стек (с JS на Python). Плюс – сделал полный рефакторинг плагина для Figma, потому что хранение 2000+ строк JS-кода в одном файле пробуждает во мне вьетнамские флешбеки времён главенства jQuery. И, конечно же, добавил кастомных инструментов.

Какое наследие поборол в текущем обновлении:

1. Добавил в инструмент get_node_info больше информации о позиционировании элемента. Был очень удивлён, что этих параметров у исходного сервера не было. Теперь, лучше понимая расположение блоков на странице, MCP-сервер лажает куда меньше. Даже без специализированного пайплайна, заточенного под него.

2. Убрал вкладку "About" из плагина для Figma. Там красовалась информация об авторе плагина "Cursor Talk to Figma MCP". Я не против его упомянуть, но как базу и источник вдохновения для моего решения. А не как основного автора 🙂

3. Дочистил следы 20 не используемых инструментов. Стало меньше кода с сохранением всей функциональности – мой любимый тип изменений в коде.

Пока что онбординг у меня есть только в файле Readme. Но если склонировать себе репозиторий и попросить Cursor поднять Figma MCP, то он непременно справится. Пробуйте! ❤️

2❤14🔥7👍5😁1

1.14K views20:42

Константин Доронин

О проблеме большинства MCP-серверов.

Представьте себе ситуацию: вам нужно построить дом. Вы решили сделать это самостоятельно и пошли изучать на YouTube премудрости этого занятия.

В первом же ролике вам предлагают крутейший набор из 500 инструментов, с которыми можно построить самый лучший дом по минимальной цене.

Приходит заказ, вы раскладываете инструменты на столе... И что? Как с ними обращаться, чтобы получился тот самый дом?

Эти инструменты, разбросанные на столе – типичный MCP-сервер. Разработчики наделали инструментов по принципу "Чем больше – тем лучше", но почему-то никто не подумал, а как пользователь будет инструментами работать?

Получается, что гораздо лучше иметь молоток и инструкцию "Возьми в руки молоток и гвоздь, вбей гвоздь в доску", чем целый набор разнообразных инструментов, которые непонятно для чего нужны.

Можно сказать «У каждого инструмента MCP-сервера есть описание. Мало что ли?». Да, мало. Груда не связанных между собой в единый пайплайн инструментов. А лишний десяток-другой инструментов ещё и контекст забьёт так, что AI-агент отупеет.

Пара хороших примеров организации MCP-серверов:

1. Backlog.md. У него есть MCP-сервер, а также отдельный агент для Claude Code, промпт для которого детально объясняет, как нужно работать с инструментами сервера.

2. Context7. Пример того самого молотка с гвоздями. Ровно два инструмента, с которыми AI-агент справляется без дополнительных инструкций. Так как с ним всё просто.

Возвращаясь к нашей метафоре:

Хороший MCP-сервер – это тот, у которого, помимо инструментов, есть схема того, как будет строиться дом, а также информация о перечне необходимых материалов.

1🔥17👍10❤2🤔1

901 views21:00

Константин Доронин

Сравнение генераторов изображений в задаче колоризации и улучшения старых фотографий.

В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:

Есть ли какие-то альтернативы Nano Banana для данной задачи? Возможно ли, что другие модели справляются лучше?

Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".

Более-менее приемлемые результаты выдают только:

1. Nano Banana от Google.

2. Новый Seedream 4.0 Edit от Bytedance.

3. ChatGPT 5 от OpenAI.

Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.

Взял универсальный простой промпт, один для всех моделей:

Colorize and restore this black-and-white photo with an authentic, period-correct look. Add natural, balanced colors (skin, hair, clothing, foliage, sky, wood, metal, stone). Gently increase clarity and dynamic range; remove dust/scratches and noise; sharpen edges lightly while preserving fine detail and subtle film grain.

CRITICAL — preserve all text exactly:
• Keep every letter, number, logo, sign, label, stamp, and handwriting unchanged.
• Do not invent, erase, retype, translate, or stylize any characters.
• Maintain original fonts, kerning, spacing, alignment, and shapes of glyphs.
• If any character is unclear, leave it as-is rather than guessing.

Keep original composition and geometry (no cropping/warping). Avoid oversaturation or modern color casts; aim for realistic, slightly muted tones with natural highlight roll-off and shadow detail. Output at original resolution or higher.

В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.

Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.

Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.

ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.

Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.

По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.

p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥

1🔥13❤7👍5

1.04K views19:58

Константин Доронин

Codex CLI от OpenAI – скаковая лошадь без седла.

Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.

Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!

Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.

Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.

У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.

Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.

Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.

Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.

Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.

Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.

Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.

21❤8🔥4👍2

1.34K views21:38

Константин Доронин

Принёс вам запись нашего эфира про эффективный AI Coding.

Если ещё не смотрели – welcome! Во время эфира я для себя нашёл несколько новых направлений для изучения.

Такой вам ответ на вопрос «Что посмотреть на выходных?» 🙂

YouTube

Вайб-кодинг, агенты, SDD и прочее про AI

http://xn--r1a.website/oestick - Коля
http://xn--r1a.website/gleb_pro_ai - Глеб
http://xn--r1a.website/the_ai_architect - Тимур
http://xn--r1a.website/ai_driven - Родион
http://xn--r1a.website/kdoronin_blog - Костя

Стрим в свободной форме. Разбираемся, как устроен сбор контекста в ИИ агентах и почему разрабатываем…

2🔥16❤5👍1🥴1

1.13K viewsedited 17:31

Константин Доронин

Про кейсы применения Graphiti.

Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.

Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.

Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.

Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.

При этом запустить пример достаточно просто:

1. Устанавливаем Graphiti по инструкции отсюда.

2. Запускаем MCP-сервер по этой инструкции.

3. Добавляем Cursor Rules от ребят из Zep.

Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥

2🔥18👍5❤3🎉1

1.44K views20:30

HeyGen Agent. Нас ждёт очередная волна сгенерированного видеоконтента.

Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.

Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.

Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.

Типы кадров, которые я встречал в генерациях:

1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.

2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.

3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.

4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.

Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.

Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:

Сделай видео, интересно обыгрывающее малоизвестный исторический факт

На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊

1🔥8❤4👍4

985 views18:20

About

Blog

Apps

Platform