Константин Доронин
3.88K subscribers
622 photos
317 videos
1 file
338 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
Из старых чёрно-белых фотографий родного Омска получил очень атмосферные видео.

Что сделал:

1. На сайте https://pastvu.com/ выбрал период с 1965 по 1985 годы. Там фотографий уже достаточно много и они не сильно плохого качества.

2. Нашёл фотографии узнаваемых мест города.

3. С помощью Nano Banana сделал фотографиям колоризацию и немного подтянул по качеству.

4. Фотографии оживил через image-to-video Veo3 на fal.ai (я не скажу вам, что у меня есть купон на $30, но будут знаки...).

5. Промпт готовил с помощью ChatGPT5.

Минус, который бросается в глаза – на этапе улучшения через Nano Banana плывут многие надписи на русском.

Остальные шероховатости правятся промптом.
🔥2811👍8
Ключевая функциональность CLI-coding-агентов от LLM-провайдеров.

Это – аутентификация через свой аккаунт и перенос лимитов без дополнительной платы за токены. Google сделал дополнительный шаг, отсыпав весьма щедрые ежедневные лимиты без подписки (о том, как оставить их бесплатными тут и тут)

Благодаря этому, OpenAI и Google могут себе позволить выпустить альфа-версии CLI-интрументов, которые тестируют об конечных пользователей. Да, они выпускают новые версии продуктов, порой, по 3-5 раз в неделю, но по количеству возможностей с Claude Code сравнятся ещё нескоро.

Производители AI IDE с отдельной подпиской не могут позволить себе такой роскоши. У них есть Cursor, который отъел весомую долю рынка по "праву первого", а также ещё с десяток сильных конкурентов.

Поэтому Amazon, выпуская Kiro Code, сильно переосмыслил AI-coding с точки зрения UX. А Kilo Code закидывал пользователей бесплатными долларами на счёт в Openrouter.

Всё это для того, чтобы хоть как-то отстроить себя от конкурентов. Потому что конкурентного преимущества "можете использовать подписку, за которую уже платите" у них нет.

Такие мысли приходят в процессе исследования Codex CLI. Думаю, совсем скоро будет полноценный обзор.
114👍7🔥3
Буквально пару дней назад потратил на fal.ai $30+ долларов на генерацию видео с veo3, а сегодня они выкатили снижение цен на использование данной модели.

Стоимость упала до 50%. Подробная информация о ценах от самих fal.ai – в медиа поста.

Так что, если планировали заняться генерацией veo3-видео через API, сейчас – лучшее время для этого 🔥
1🔥18👍21🤯1
Сегодня боролся с наследием, которое было у меня в Figma MCP.

Изначально в качестве "базы" я брал тот самый нашумевший "Cursor Talk to Figma MCP", потому что у него была достаточно неплохая (на первый взгляд) реализация.

Целью было переделать "универсальный MCP" под тот, который будет заточен под конкретную задачу:

Делать из Figma-макета вёрстку в HTML+CSS с возможностью на лету адаптироваться под стек


Я выпилил из него 20 инструментов для дизайнера, а также переписал под более привычный для меня стек (с JS на Python). Плюс – сделал полный рефакторинг плагина для Figma, потому что хранение 2000+ строк JS-кода в одном файле пробуждает во мне вьетнамские флешбеки времён главенства jQuery. И, конечно же, добавил кастомных инструментов.

Какое наследие поборол в текущем обновлении:

1. Добавил в инструмент get_node_info больше информации о позиционировании элемента. Был очень удивлён, что этих параметров у исходного сервера не было. Теперь, лучше понимая расположение блоков на странице, MCP-сервер лажает куда меньше. Даже без специализированного пайплайна, заточенного под него.

2. Убрал вкладку "About" из плагина для Figma. Там красовалась информация об авторе плагина "Cursor Talk to Figma MCP". Я не против его упомянуть, но как базу и источник вдохновения для моего решения. А не как основного автора 🙂

3. Дочистил следы 20 не используемых инструментов. Стало меньше кода с сохранением всей функциональности – мой любимый тип изменений в коде.

Пока что онбординг у меня есть только в файле Readme. Но если склонировать себе репозиторий и попросить Cursor поднять Figma MCP, то он непременно справится. Пробуйте! ❤️
214🔥7👍5😁1
О проблеме большинства MCP-серверов.

Представьте себе ситуацию: вам нужно построить дом. Вы решили сделать это самостоятельно и пошли изучать на YouTube премудрости этого занятия.

В первом же ролике вам предлагают крутейший набор из 500 инструментов, с которыми можно построить самый лучший дом по минимальной цене.

Приходит заказ, вы раскладываете инструменты на столе... И что? Как с ними обращаться, чтобы получился тот самый дом?

Эти инструменты, разбросанные на столе – типичный MCP-сервер. Разработчики наделали инструментов по принципу "Чем больше – тем лучше", но почему-то никто не подумал, а как пользователь будет инструментами работать?

Получается, что гораздо лучше иметь молоток и инструкцию "Возьми в руки молоток и гвоздь, вбей гвоздь в доску", чем целый набор разнообразных инструментов, которые непонятно для чего нужны.

Можно сказать «У каждого инструмента MCP-сервера есть описание. Мало что ли?». Да, мало. Груда не связанных между собой в единый пайплайн инструментов. А лишний десяток-другой инструментов ещё и контекст забьёт так, что AI-агент отупеет.

Пара хороших примеров организации MCP-серверов:

1. Backlog.md. У него есть MCP-сервер, а также отдельный агент для Claude Code, промпт для которого детально объясняет, как нужно работать с инструментами сервера.

2. Context7. Пример того самого молотка с гвоздями. Ровно два инструмента, с которыми AI-агент справляется без дополнительных инструкций. Так как с ним всё просто.

Возвращаясь к нашей метафоре:

Хороший MCP-сервер – это тот, у которого, помимо инструментов, есть схема того, как будет строиться дом, а также информация о перечне необходимых материалов.
1🔥17👍102🤔1
Сравнение генераторов изображений в задаче колоризации и улучшения старых фотографий.

В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:

Есть ли какие-то альтернативы Nano Banana для данной задачи? Возможно ли, что другие модели справляются лучше?


Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".

Более-менее приемлемые результаты выдают только:

1. Nano Banana от Google.

2. Новый Seedream 4.0 Edit от Bytedance.

3. ChatGPT 5 от OpenAI.

Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.

Взял универсальный простой промпт, один для всех моделей:

Colorize and restore this black-and-white photo with an authentic, period-correct look. Add natural, balanced colors (skin, hair, clothing, foliage, sky, wood, metal, stone). Gently increase clarity and dynamic range; remove dust/scratches and noise; sharpen edges lightly while preserving fine detail and subtle film grain.

CRITICAL — preserve all text exactly:
• Keep every letter, number, logo, sign, label, stamp, and handwriting unchanged.
• Do not invent, erase, retype, translate, or stylize any characters.
• Maintain original fonts, kerning, spacing, alignment, and shapes of glyphs.
• If any character is unclear, leave it as-is rather than guessing.

Keep original composition and geometry (no cropping/warping). Avoid oversaturation or modern color casts; aim for realistic, slightly muted tones with natural highlight roll-off and shadow detail. Output at original resolution or higher.


В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.

Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.

Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.

ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.

Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.

По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.

p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
1🔥137👍5
Codex CLI от OpenAI – скаковая лошадь без седла.

Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.

Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!

Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.

Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.

У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.

Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.

Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.

Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.

Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.

Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.

Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
218🔥4👍2
Про кейсы применения Graphiti.

Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.

Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.

Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.

Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.

При этом запустить пример достаточно просто:

1. Устанавливаем Graphiti по инструкции отсюда.

2. Запускаем MCP-сервер по этой инструкции.

3. Добавляем Cursor Rules от ребят из Zep.

Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
2🔥18👍53🎉1