Константин Доронин

Взаимодействие SAM и Nano Banana для большего контроля.

SAM – это Segment Anything Model. Позволяет создавать маску выбранного на изображении объекта.

Я взял эту версию с fal.ai. Там можно создавать маску как вокруг заданной точки, так и внутри выбранной области.

После того, как модель выдаст маску, идём в Nano Banana (я также использовал версию с fal.ai), загружаем маску первым изображением, а исходное изображение вторым.

Теперь по маске можно заменить объект на другой. Это часто работает точнее, чем передавать в Nano Banana "Третий цветочный горшок слева зелёного цвета".

Для замены подойдёт, например, вот такой промпт (вставьте название объекта вместо {OBJECT_DESCRIPTION}):

Use two inputs: Image 1 = mask, Image 2 = original photo. The mask is a binary PNG where the target region is pure white #FFFFFF and all other pixels are pure black #000000 (if the colors are inverted, automatically invert the interpretation so the black region is treated as the placement area). Insert {OBJECT_DESCRIPTION} entirely inside the black masked region and modify only pixels within that region; every pixel outside the mask must remain bit-for-bit identical to Image 2. The object must be fully contained by the mask (no bleed or overrun); scale and, if necessary, gently warp the object to fit the region while preserving realistic proportions, perspective, and scene lighting. Match color temperature, exposure, contrast, sharpness, noise/grain, and white balance to the surrounding context; if shadows or reflections are needed, confine them to the masked area. Snap the object to the visual center of the region unless otherwise specified, leaving a subtle 2–4 px inner margin; use high-quality anti-aliasing on the object boundary but do not feather beyond the mask edge. Do not add or alter any content outside the mask (no text, borders, stickers, watermarks, or background changes). Maintain the exact pixel dimensions, aspect ratio, and EXIF orientation of Image 2; output a single PNG of the edited image at the same resolution as Image 2.

Если вы предоставляете сервис для конечных пользователей, то увеличение надёжности модели с помощью переданной маски может сильно упростить жизнь.

Примеры использования данного приёма – в медиа поста.

2👍14❤7🔥3

1.07K views19:44

Константин Доронин

Kimi и его OK Computer.

Для меня Kimi с его инструментами всегда выглядел, как пародия на AI-сервис.

Я периодически заходил на него и проводил тесты с новыми инструментами. У меня в истории есть настолько кривые презентации "by Kimi", что я о них решил не писать.

Тем удивительнее для меня, что OK Computer от Kimi не просто работает (само по себе – чудо), но и делает это качественно.

OK Computer – это их собственный AI-Agent. Что-то вроде Manus или Perplexity Labs. По качеству до Manus, конечно, не дотягивает, но в сервисе есть 3 бесплатных "сессии", на которых можно понять, пригодится ли инструмент для ваших задач.

Если зайдёт, то есть план за $20/месяц, в котором, цитирую "Higher OK Computer quota". Точных цифр нигде не нашёл.

У Kimi OK Computer есть только один минус – он достаточно нетороплив в своей работе. По ощущениям, ждать результат работы приходится дольше, чем с другими AI-агентами. Похоже, что им не хватает мощностей.

Рассказать я о нём решил, потому что агент даёт "Больше, чем от него ожидают". А мне нравится такой подход в деятельности.

Посмотрите на этот проект, который был собран по промпту:

Сделай PWA App со 100 ПП-рецептами

Да, в нём проблёскивают типичные признаки "лени AI-агентов" в виде "ПП-рецепт #64" или повторяющихся картинок. Однако с промпта в одно предложение Kimi сделал работоспособное "Избранное" и даже калькулятор калорийности рецептов!

В общем, у Kimi появился интересный инструмент на пробу. Если ищете себе AI-агента для комплексных задач, то имеет смысл рассмотреть применение OK Computer хотя бы в рамках бесплатных трёх сессий.

2❤8👍6🔥2

1.05K viewsedited 18:45

Константин Доронин

Graphiti и скорость создания элементов в графе.

На одно добавление эпизода через Graphiti приходится несколько запросов в различные AI-API. Эмбеддинги создать, сущности выделить, описание для сущности написать. Всё это занимает время.

Поэтому добавление одного эпизода занимает, в среднем, 10-15 секунд.

И это обязательно стоит учитывать в ситуации, когда собираетесь добавить эпизоды массово или система, из которой они собираются, поставляет больше, чем 4-7 эпизодов в минуту на протяжении всего времени работы.

Кстати, чем "сложнее" ваш эпизод, тем больше времени займёт его добавление. Так как из него можно выделить больше сущностей, каждую из которых необходимо описать и с чем-то связать.

Спонсор этого поста – граф со скриншота, который уже имеет 481 ноду и 1300+ связей, а эпизоды загрузились только на 60% 🫠

2❤11🔥4👍3

1.1K views19:27

Константин Доронин

– OpenAI, дай списать?

– Хорошо, Anthropic. Только один в один не списывай...

– Ой, а кто это бьётся в истерике под лавкой?

– Это Cursor. Представляешь, он думал, что если первый пришёл, то это его место!

––––––––––––––––––––––––––

Расширение Claude Code для VS Code вчера серьёзно обновили. Теперь он определённо ближе к народу.

Особенно к той части "народа", что не очень любит глубоко разбираться с cli-инструментами.

Самое крутое – Anthropic, в отличие от OpenAI, принесли в своё расширение все доступные в cli-версии инструменты.

Сейчас Claude Code – это инструмент, не уступающий Cursor в плане UX/UI. При этом у Claude Code есть хуки, саб-агенты и возможность самостоятельно очищать контекст.

Большие игроки всё активнее отжимают себе рынок AI-Coding. Не зря разработчики Cursor так активизировались в релизе новых фич (привет, Cursor Browser!).

Что ж. Конкуренция – это хорошо. Позволяет многие инструменты использовать бесплатно (предоставил список тут).

А в медиа сегодня – скриншот того, как выглядит VS Code, который используют для тестирования различных AI-Coding Tools 🙂

1👍11🔥7❤4

1.05K views19:21

Константин Доронин

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Теперь нас всех ждёт наплыв AI-generated видео. Покруче, чем было в день "Всеобщей гиблификации интернета".

Вышла Sora2. Пока только по инвайтам и только в США/Канаде.

Самый простой путь попробовать самому:

1. Получаем инвайт

2. Включаем VPN США

3. Идём сюда

4. Активируем с помощью кода из инвайта Sora2

Единственная возможность, которой при таком раскладе не будет – это загрузить собственное "Камео". Что-то типа персональной LoRA с вашим лицом.

Для Cameo потребуется iOS-приложение, скачанное из американского AppStore. Путь тоже проходимый, но более замороченный, как по мне.

Sora 2 – разная на подписках за $20 и за $200. В генерациях за $20 бросается в глаза, что OpenAI не доливают вычислительных мощностей на генерацию. Она получается более смазанной и "шумной". Отличается от того, что показывали во всех промо-материалах.

А, да. Есть как text-to-video, так и image-to-video. Хорошо держит физику и сцену после смены кадров. Весьма кинематографично. И, похоже, что это очередной шаг к бесконечной автоматически-создаваемой ленте, награждающей микродозами дофамина...

Мой инвайт для Sora2 – в комментариях. Не забудьте включить VPN США перед тем, как заходить на сайт.

3❤13👍5🔥3

1.24K views18:34

Константин Доронин

Про то, как эффективно делиться своим Workflow для AI-разработки и почему это не так просто, как кажется.

Что нужно доработать в AI-Workflow, чтобы он принёс пользу не только своему создателю:

1. Реализовать сам Workflow. Так, чтобы он по понятному пути проводил пользователя из точки A в точку B.

2. Определить конкретные кейсы, в которых Workflow будет давать предсказуемо хороший результат. То есть протестировать не только на своих рабочих задачах, но и придумать другие кейсы, чтобы чётче определить границы эффективности Workflow.

3. Предусмотреть систему, которая будет готовить контекст для Workflow тем способом, который для него подходит. Потому что, без правильно сформированного контекста, любой AI Workflow может пойти по ложному пути и не принести результата.

4. Система оценки качества работы Workflow. Которая, без вмешательства пользователя, определит, является ли текущий результат необходимым и достаточным для того, чтобы отчитаться о завершении работы.

5. Определить, для каких LLM подходит AI Workflow. При появлении новых версий моделей, обязательно перепроверять, так ли хорош Workflow до сих пор. И, при необходимости, дорабатывать его.

В итоге, процесс подготовки очень похож на тот, который проходит разработчик, решивший свой "домашний скрипт" превратить в готовый продукт для массового пользователя. Приходится предусмотреть гораздо больше нюансов, чтобы конечный пользователь получил результат не хуже, чем тот, что может достичь с тем же инструментом разработчик.

А ещё часть задач, при наличии опыта во взаимодействии с AI-Coding, можно решать просто промптингом в чат. Тут на интуитивном уровне приходит понимание, как правильно сформировать контекст. А также яснее границы между тем, что удастся взять "с наскока" и ситуациями, когда в задачу придётся углубиться с тем или иным Workflow.

2🔥8❤5👍4

1.21K views19:58

Константин Доронин

Про GPT-5-Codex. Запоздалый мини-обзор.

Я написал на Gpt-5-Codex 3-5 небольших проектов. Также занимался добавлением фич и исправлением багов в достаточно большом проекте.

Он действительно хорош. При чём, как сама модель, так и организация тулсета в Codex CLI.

Если задача описана корректно и интерпретируется однозначно, то Gpt-5-Codex в подавляющем большинстве случаев её решит.

Он хорошо держит контекст и ориентируется в уже написанном коде. Не пытается запихнуть реализацию одной и той же функциональности в несколько разных мест проекта.

Но Codex не терпит от разработчика лени. Если решите, что "да он и так поймёт" и оставите задачу описанной не до конца – быть беде. Всё, что не было понято единственно-верным образом, будет обязательно понято не так. Модель настолько активно додумает, что потом останется только откатываться назад и переделывать всё заново.

В целом, Gpt-5-Codex вызывает очень положительные эмоции. Тем удивительнее, что новый Sonnet-4.5 ощущается, как максимально-минорный апдейт. Я даже не заметил влияния обновлений от Anthropic на мои повседневные задачи.

10👍15❤5🔥3

1.24K views21:00

Константин Доронин

Кейс от подписчицы Марии. На базе отзывов по товару, загруженных в Graphiti, формируем стратегию и roadmap развития бизнеса.

Под одним из предыдущих постов про Graphiti Мария написала о том, что было бы интересно глубже понять взаимодействие клиентов с товаром через аналитику отзывов.

Именно с этого началась мини-история с анализом отзывов к этому товару на WB.

Собрал при помощи парсинга все отзывы со страницы и упаковал их в JSON-файл. Чуть подробнее писал об этом тут.

Далее тремя итерациями пробовал загрузить их через Graphiti в графовую БД. Сперва разбил всё по сущностям и предзаполненным отношениям между ними, но быстро понял, что в этой системе (отзывы к товару) заданных заранее сущностей и связей слишком мало для того, чтобы описывать их вручную. Такой подход попросту не приносит пользы.

Итоговая модель достаточно наивна в реализации – берём всю информацию об отзыве и отправляем в виде эпизода в Graphiti. Система самостоятельно создаёт дополнительные сущности в случае необходимости.

В общей сложности, Graphiti создал 758 нод и 2126 связей между ними.

Далее через Cursor с подключенным MCP-сервером для доступа к Graphiti были созданы следующие 5 отчётов:

1. Анализ Клиентского Опыта.

2. Анализ Качества Продукта и Упаковки.

3. Анализ Клиентского Сервиса и Взаимодействия с Покупателями.

4. Временной Анализ и Эволюция Отзывов.

5. Анализ Сетевых Связей и Взаимоотношений в Экосистеме Отзывов.

Далее я подлил в задачу конкретных запросов от бизнеса.

К отчётам прибавились ещё три:

1. Стратегические Инсайты и Общие Рекомендации.

2. Дорожная Карта Развития Бизнеса.

3. Стратегия Запуска Новой Линейки Продуктов.

Сами отчёты закину в комментарии – можно будет ознакомиться и сделать выводы.

Теперь хочу проанализировать во времени систему с большим количеством типов сущностей и отношений между ними. Так как некоторые выводы, которые с помощью Graphiti удалось получить просто из отзывов, действительно приятно удивили.

Кстати, рубрика "Кейс от подписчика" живёт на нашем с вами взаимодействии. Если у вас есть кейс, связанный с AI, который вы бы хотели решить и разобрать – пишите об этом в комментариях или сразу мне в личные сообщения. Буду рад помочь с решением ❤️

2❤20👍10🔥2

1.61K views21:28

Константин Доронин

Уже решили, чем будете заниматься во вторник, 14 октября?

Мы с другими авторами телеграм-каналов про искусственный интеллект проводим конференцию!

Посвящена она использованию AI-инструментов в задачах разработки.

Все спикеры – практики в AI-coding. Поэтому конференция будет максимально-прикладной. С примерами и инструментами, которые вы сможете сразу применить в своих процессах.

Дата и время: 14 октября 2025 года, в 14:00 (мск).

Для участия – переходим по ссылке.

5🔥19👍11❤4

2.03K views18:12

Константин Доронин

Обновил скрипт для анализа видео через Google Gemini.

Что нового:

1. Модернизировал промпт для анализа, а также добавил отдельные инструкции для анализа 6 различных типов видео (лекция, обзор, совещание, презентация, туториал, базовый).

2. Добавил отдельный блок для определения ключевых кадров в видео. Эти кадры скрипт помещает в отдельную папку вместе с описанием.

3. Теперь итоговое описание видео сразу создаётся в Markdown.

4. Менеджмент промптов стал проще, так как все они теперь вынесены в отдельные xml-файлы, которые можно изменять под конкретные задачи.

5. Прочие мелкие улучшения.

Для демонстрации того, как работает новая система промптов – закинул в комментарии анализ сегодняшнего OpenAI DevDay, а также ключевые кадры из него. Кадры, к слову, система пока подбирает не идеально, так что есть ещё, над чем поработать.

Предыдущие посты по теме: раз, два.

2👍15🔥10❤5

1.75K views20:06

Константин Доронин