This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Из старых чёрно-белых фотографий родного Омска получил очень атмосферные видео.
Что сделал:
1. На сайте https://pastvu.com/ выбрал период с 1965 по 1985 годы. Там фотографий уже достаточно много и они не сильно плохого качества.
2. Нашёл фотографии узнаваемых мест города.
3. С помощью Nano Banana сделал фотографиям колоризацию и немного подтянул по качеству.
4. Фотографии оживил через image-to-video Veo3 на fal.ai(я не скажу вам, что у меня есть купон на $30, но будут знаки...) .
5. Промпт готовил с помощью ChatGPT5.
Минус, который бросается в глаза – на этапе улучшения через Nano Banana плывут многие надписи на русском.
Остальные шероховатости правятся промптом.
Что сделал:
1. На сайте https://pastvu.com/ выбрал период с 1965 по 1985 годы. Там фотографий уже достаточно много и они не сильно плохого качества.
2. Нашёл фотографии узнаваемых мест города.
3. С помощью Nano Banana сделал фотографиям колоризацию и немного подтянул по качеству.
4. Фотографии оживил через image-to-video Veo3 на fal.ai
5. Промпт готовил с помощью ChatGPT5.
Минус, который бросается в глаза – на этапе улучшения через Nano Banana плывут многие надписи на русском.
Остальные шероховатости правятся промптом.
🔥28❤11👍8
Ключевая функциональность CLI-coding-агентов от LLM-провайдеров.
Это – аутентификация через свой аккаунт и перенос лимитов без дополнительной платы за токены. Google сделал дополнительный шаг, отсыпав весьма щедрые ежедневные лимиты без подписки (о том, как оставить их бесплатными тут и тут)
Благодаря этому, OpenAI и Google могут себе позволить выпустить альфа-версии CLI-интрументов, которые тестируют об конечных пользователей. Да, они выпускают новые версии продуктов, порой, по 3-5 раз в неделю, но по количеству возможностей с Claude Code сравнятся ещё нескоро.
Производители AI IDE с отдельной подпиской не могут позволить себе такой роскоши. У них есть Cursor, который отъел весомую долю рынка по "праву первого", а также ещё с десяток сильных конкурентов.
Поэтому Amazon, выпуская Kiro Code, сильно переосмыслил AI-coding с точки зрения UX. А Kilo Code закидывал пользователей бесплатными долларами на счёт в Openrouter.
Всё это для того, чтобы хоть как-то отстроить себя от конкурентов. Потому что конкурентного преимущества "можете использовать подписку, за которую уже платите" у них нет.
Такие мысли приходят в процессе исследования Codex CLI. Думаю, совсем скоро будет полноценный обзор.
Это – аутентификация через свой аккаунт и перенос лимитов без дополнительной платы за токены. Google сделал дополнительный шаг, отсыпав весьма щедрые ежедневные лимиты без подписки (о том, как оставить их бесплатными тут и тут)
Благодаря этому, OpenAI и Google могут себе позволить выпустить альфа-версии CLI-интрументов, которые тестируют об конечных пользователей. Да, они выпускают новые версии продуктов, порой, по 3-5 раз в неделю, но по количеству возможностей с Claude Code сравнятся ещё нескоро.
Производители AI IDE с отдельной подпиской не могут позволить себе такой роскоши. У них есть Cursor, который отъел весомую долю рынка по "праву первого", а также ещё с десяток сильных конкурентов.
Поэтому Amazon, выпуская Kiro Code, сильно переосмыслил AI-coding с точки зрения UX. А Kilo Code закидывал пользователей бесплатными долларами на счёт в Openrouter.
Всё это для того, чтобы хоть как-то отстроить себя от конкурентов. Потому что конкурентного преимущества "можете использовать подписку, за которую уже платите" у них нет.
Такие мысли приходят в процессе исследования Codex CLI. Думаю, совсем скоро будет полноценный обзор.
1❤14👍7🔥3
Буквально пару дней назад потратил на fal.ai $30+ долларов на генерацию видео с veo3, а сегодня они выкатили снижение цен на использование данной модели.
Стоимость упала до 50%. Подробная информация о ценах от самих fal.ai – в медиа поста.
Так что, если планировали заняться генерацией veo3-видео через API, сейчас – лучшее время для этого 🔥
Стоимость упала до 50%. Подробная информация о ценах от самих fal.ai – в медиа поста.
Так что, если планировали заняться генерацией veo3-видео через API, сейчас – лучшее время для этого 🔥
1🔥18👍2❤1🤯1
Сегодня боролся с наследием, которое было у меня в Figma MCP.
Изначально в качестве "базы" я брал тот самый нашумевший "Cursor Talk to Figma MCP", потому что у него была достаточно неплохая (на первый взгляд) реализация.
Целью было переделать "универсальный MCP" под тот, который будет заточен под конкретную задачу:
Я выпилил из него 20 инструментов для дизайнера, а также переписал под более привычный для меня стек (с JS на Python). Плюс – сделал полный рефакторинг плагина для Figma, потому что хранение 2000+ строк JS-кода в одном файле пробуждает во мне вьетнамские флешбеки времён главенства jQuery. И, конечно же, добавил кастомных инструментов.
Какое наследие поборол в текущем обновлении:
1. Добавил в инструмент get_node_info больше информации о позиционировании элемента. Был очень удивлён, что этих параметров у исходного сервера не было. Теперь, лучше понимая расположение блоков на странице, MCP-сервер лажает куда меньше. Даже без специализированного пайплайна, заточенного под него.
2. Убрал вкладку "About" из плагина для Figma. Там красовалась информация об авторе плагина "Cursor Talk to Figma MCP". Я не против его упомянуть, но как базу и источник вдохновения для моего решения. А не как основного автора 🙂
3. Дочистил следы 20 не используемых инструментов. Стало меньше кода с сохранением всей функциональности – мой любимый тип изменений в коде.
Пока что онбординг у меня есть только в файле Readme. Но если склонировать себе репозиторий и попросить Cursor поднять Figma MCP, то он непременно справится. Пробуйте! ❤️
Изначально в качестве "базы" я брал тот самый нашумевший "Cursor Talk to Figma MCP", потому что у него была достаточно неплохая (на первый взгляд) реализация.
Целью было переделать "универсальный MCP" под тот, который будет заточен под конкретную задачу:
Делать из Figma-макета вёрстку в HTML+CSS с возможностью на лету адаптироваться под стек
Я выпилил из него 20 инструментов для дизайнера, а также переписал под более привычный для меня стек (с JS на Python). Плюс – сделал полный рефакторинг плагина для Figma, потому что хранение 2000+ строк JS-кода в одном файле пробуждает во мне вьетнамские флешбеки времён главенства jQuery. И, конечно же, добавил кастомных инструментов.
Какое наследие поборол в текущем обновлении:
1. Добавил в инструмент get_node_info больше информации о позиционировании элемента. Был очень удивлён, что этих параметров у исходного сервера не было. Теперь, лучше понимая расположение блоков на странице, MCP-сервер лажает куда меньше. Даже без специализированного пайплайна, заточенного под него.
2. Убрал вкладку "About" из плагина для Figma. Там красовалась информация об авторе плагина "Cursor Talk to Figma MCP". Я не против его упомянуть, но как базу и источник вдохновения для моего решения. А не как основного автора 🙂
3. Дочистил следы 20 не используемых инструментов. Стало меньше кода с сохранением всей функциональности – мой любимый тип изменений в коде.
Пока что онбординг у меня есть только в файле Readme. Но если склонировать себе репозиторий и попросить Cursor поднять Figma MCP, то он непременно справится. Пробуйте! ❤️
2❤14🔥7👍5😁1
О проблеме большинства MCP-серверов.
Представьте себе ситуацию: вам нужно построить дом. Вы решили сделать это самостоятельно и пошли изучать на YouTube премудрости этого занятия.
В первом же ролике вам предлагают крутейший набор из 500 инструментов, с которыми можно построить самый лучший дом по минимальной цене.
Приходит заказ, вы раскладываете инструменты на столе... И что? Как с ними обращаться, чтобы получился тот самый дом?
Эти инструменты, разбросанные на столе – типичный MCP-сервер. Разработчики наделали инструментов по принципу "Чем больше – тем лучше", но почему-то никто не подумал, а как пользователь будет инструментами работать?
Получается, что гораздо лучше иметь молоток и инструкцию "Возьми в руки молоток и гвоздь, вбей гвоздь в доску", чем целый набор разнообразных инструментов, которые непонятно для чего нужны.
Можно сказать «У каждого инструмента MCP-сервера есть описание. Мало что ли?». Да, мало. Груда не связанных между собой в единый пайплайн инструментов. А лишний десяток-другой инструментов ещё и контекст забьёт так, что AI-агент отупеет.
Пара хороших примеров организации MCP-серверов:
1. Backlog.md. У него есть MCP-сервер, а также отдельный агент для Claude Code, промпт для которого детально объясняет, как нужно работать с инструментами сервера.
2. Context7. Пример того самого молотка с гвоздями. Ровно два инструмента, с которыми AI-агент справляется без дополнительных инструкций. Так как с ним всё просто.
Возвращаясь к нашей метафоре:
Представьте себе ситуацию: вам нужно построить дом. Вы решили сделать это самостоятельно и пошли изучать на YouTube премудрости этого занятия.
В первом же ролике вам предлагают крутейший набор из 500 инструментов, с которыми можно построить самый лучший дом по минимальной цене.
Приходит заказ, вы раскладываете инструменты на столе... И что? Как с ними обращаться, чтобы получился тот самый дом?
Эти инструменты, разбросанные на столе – типичный MCP-сервер. Разработчики наделали инструментов по принципу "Чем больше – тем лучше", но почему-то никто не подумал, а как пользователь будет инструментами работать?
Получается, что гораздо лучше иметь молоток и инструкцию "Возьми в руки молоток и гвоздь, вбей гвоздь в доску", чем целый набор разнообразных инструментов, которые непонятно для чего нужны.
Можно сказать «У каждого инструмента MCP-сервера есть описание. Мало что ли?». Да, мало. Груда не связанных между собой в единый пайплайн инструментов. А лишний десяток-другой инструментов ещё и контекст забьёт так, что AI-агент отупеет.
Пара хороших примеров организации MCP-серверов:
1. Backlog.md. У него есть MCP-сервер, а также отдельный агент для Claude Code, промпт для которого детально объясняет, как нужно работать с инструментами сервера.
2. Context7. Пример того самого молотка с гвоздями. Ровно два инструмента, с которыми AI-агент справляется без дополнительных инструкций. Так как с ним всё просто.
Возвращаясь к нашей метафоре:
Хороший MCP-сервер – это тот, у которого, помимо инструментов, есть схема того, как будет строиться дом, а также информация о перечне необходимых материалов.
1🔥17👍10❤2🤔1
Сравнение генераторов изображений в задаче колоризации и улучшения старых фотографий.
В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:
Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".
Более-менее приемлемые результаты выдают только:
1. Nano Banana от Google.
2. Новый Seedream 4.0 Edit от Bytedance.
3. ChatGPT 5 от OpenAI.
Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.
Взял универсальный простой промпт, один для всех моделей:
В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.
Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.
Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.
ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.
Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.
По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.
p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:
Есть ли какие-то альтернативы Nano Banana для данной задачи? Возможно ли, что другие модели справляются лучше?
Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".
Более-менее приемлемые результаты выдают только:
1. Nano Banana от Google.
2. Новый Seedream 4.0 Edit от Bytedance.
3. ChatGPT 5 от OpenAI.
Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.
Взял универсальный простой промпт, один для всех моделей:
Colorize and restore this black-and-white photo with an authentic, period-correct look. Add natural, balanced colors (skin, hair, clothing, foliage, sky, wood, metal, stone). Gently increase clarity and dynamic range; remove dust/scratches and noise; sharpen edges lightly while preserving fine detail and subtle film grain.
CRITICAL — preserve all text exactly:
• Keep every letter, number, logo, sign, label, stamp, and handwriting unchanged.
• Do not invent, erase, retype, translate, or stylize any characters.
• Maintain original fonts, kerning, spacing, alignment, and shapes of glyphs.
• If any character is unclear, leave it as-is rather than guessing.
Keep original composition and geometry (no cropping/warping). Avoid oversaturation or modern color casts; aim for realistic, slightly muted tones with natural highlight roll-off and shadow detail. Output at original resolution or higher.
В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.
Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.
Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.
ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.
Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.
По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.
p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
1🔥13❤7👍5
Codex CLI от OpenAI – скаковая лошадь без седла.
Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.
Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!
Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.
Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.
У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.
Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.
Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.
Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.
Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.
Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.
Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.
Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!
Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.
Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.
У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.
Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.
Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.
Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.
Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.
Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.
Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
21❤8🔥4👍2
Принёс вам запись нашего эфира про эффективный AI Coding.
Если ещё не смотрели – welcome! Во время эфира я для себя нашёл несколько новых направлений для изучения.
Такой вам ответ на вопрос «Что посмотреть на выходных?» 🙂
Если ещё не смотрели – welcome! Во время эфира я для себя нашёл несколько новых направлений для изучения.
Такой вам ответ на вопрос «Что посмотреть на выходных?» 🙂
YouTube
Вайб-кодинг, агенты, SDD и прочее про AI
http://xn--r1a.website/oestick - Коля
http://xn--r1a.website/gleb_pro_ai - Глеб
http://xn--r1a.website/the_ai_architect - Тимур
http://xn--r1a.website/ai_driven - Родион
http://xn--r1a.website/kdoronin_blog - Костя
Стрим в свободной форме. Разбираемся, как устроен сбор контекста в ИИ агентах и почему разрабатываем…
http://xn--r1a.website/gleb_pro_ai - Глеб
http://xn--r1a.website/the_ai_architect - Тимур
http://xn--r1a.website/ai_driven - Родион
http://xn--r1a.website/kdoronin_blog - Костя
Стрим в свободной форме. Разбираемся, как устроен сбор контекста в ИИ агентах и почему разрабатываем…
2🔥16❤5👍1🥴1
Про кейсы применения Graphiti.
Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.
Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.
Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.
Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.
При этом запустить пример достаточно просто:
1. Устанавливаем Graphiti по инструкции отсюда.
2. Запускаем MCP-сервер по этой инструкции.
3. Добавляем Cursor Rules от ребят из Zep.
Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.
Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.
Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.
Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.
При этом запустить пример достаточно просто:
1. Устанавливаем Graphiti по инструкции отсюда.
2. Запускаем MCP-сервер по этой инструкции.
3. Добавляем Cursor Rules от ребят из Zep.
Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
2🔥18👍5❤3🎉1