Константин Доронин
3.86K subscribers
622 photos
313 videos
1 file
337 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
Сравнение генераторов изображений в задаче колоризации и улучшения старых фотографий.

В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:

Есть ли какие-то альтернативы Nano Banana для данной задачи? Возможно ли, что другие модели справляются лучше?


Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".

Более-менее приемлемые результаты выдают только:

1. Nano Banana от Google.

2. Новый Seedream 4.0 Edit от Bytedance.

3. ChatGPT 5 от OpenAI.

Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.

Взял универсальный простой промпт, один для всех моделей:

Colorize and restore this black-and-white photo with an authentic, period-correct look. Add natural, balanced colors (skin, hair, clothing, foliage, sky, wood, metal, stone). Gently increase clarity and dynamic range; remove dust/scratches and noise; sharpen edges lightly while preserving fine detail and subtle film grain.

CRITICAL — preserve all text exactly:
• Keep every letter, number, logo, sign, label, stamp, and handwriting unchanged.
• Do not invent, erase, retype, translate, or stylize any characters.
• Maintain original fonts, kerning, spacing, alignment, and shapes of glyphs.
• If any character is unclear, leave it as-is rather than guessing.

Keep original composition and geometry (no cropping/warping). Avoid oversaturation or modern color casts; aim for realistic, slightly muted tones with natural highlight roll-off and shadow detail. Output at original resolution or higher.


В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.

Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.

Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.

ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.

Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.

По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.

p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
1🔥137👍5
Codex CLI от OpenAI – скаковая лошадь без седла.

Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.

Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!

Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.

Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.

У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.

Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.

Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.

Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.

Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.

Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.

Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
218🔥4👍2
Про кейсы применения Graphiti.

Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.

Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.

Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.

Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.

При этом запустить пример достаточно просто:

1. Устанавливаем Graphiti по инструкции отсюда.

2. Запускаем MCP-сервер по этой инструкции.

3. Добавляем Cursor Rules от ребят из Zep.

Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
2🔥18👍53🎉1
HeyGen Agent. Нас ждёт очередная волна сгенерированного видеоконтента.

Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.

Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.

Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.

Типы кадров, которые я встречал в генерациях:

1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.

2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.

3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.

4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.

Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.

Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:

Сделай видео, интересно обыгрывающее малоизвестный исторический факт


На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊
1🔥84👍4
Как вкатиться в AI-Coding без платы за подписки и токены.

Мне очень нравится, когда вы задаёте мне вопросы. В комментариях на этом канале или даже в личные сообщения. Это позволяет посмотреть на вопросы, связанные с AI, под новым для меня углом.

Один из недавних запросов, которые я получил в ЛС:

Какие AI-Coding-инструменты можно использовать бесплатно?


Подготовил список из 7 таких инструментов, которыми можно пользоваться бесплатно. Какие-то можно использовать на постоянной основе, но с лимитами, а какие-то только один раз на старте.

Вот сам список:

1. Gemini CLI. Всё ещё дают свои бесплатные 1000 запросов в день. Если бы можно было оставить только один инструмент в списке, я бы оставил именно этот. Кстати, тут и тут пишу о том, как не дать Google снять с вас деньги за Gemini CLI.

2. Cursor. Помимо двух недель триального pro-режима, есть также полностью бесплатный тариф с ограничениями.

3. Windsurf. Когда-то был главным конкурентом Cursor. Сейчас у них есть бесплатный тариф, но очень скромный по сравнению с другими инструментами в списке.

4. Github Copilot. Даёт ограниченное количество запросов к AI на бесплатном тарифе.

5. Kiro Code. Очень приятный с точки зрения UX инструмент. Сейчас даёт 500 бесплатных кредитов на старте и заявляют на сайте бесплатный тарифный план.

6. Zed AI. Хороший редактор, предоставляющий бесплатный тариф с достаточно щедрыми лимитами.

7. Kilo Code (не путать с п.5). Есть возможность на старте получить до $25 на Openrouter, а там с умом их потратить (не используйте дорогие флагманские модели и денег хватит на более продолжительный срок).

Бонус: заведите себе аккаунт на Groq. Они дают щедрые бесплатные лимиты на многие интересные модели. Их можно подключить к AI-IDE и получить бесплатного AI-кодера.

Если полезно – ставьте 🔥 и делитесь с друзьями 🙂

Также делитесь в комментариях, какие ещё знаете способы писать код с помощью AI бесплатно.
3🔥368👍1
Недолго закрытая бета в HeyGen Agent продержалась.

Сегодня инструмент открыли для всех.

Заводите бесплатный аккаунт в HeyGen и тут у вас будет доступно 10 бесплатных генераций в месяц.

А на главной странице агента много интересных примеров того, что удалось с помощью HeyGen Agent создать и какие промпты для этого использовались. Имеет смысл на их основе генерировать собственные, чтобы получить лучший результат.

Все, кого заинтересовал этот пост, можете теперь попробовать HeyGen Agent самостоятельно!
2🔥76👍41
Warp – терминал из категории "Тебя я видел во сне"*.

Что вы представляете себе, когда слышите "AI-first terminal"?

Всё, что вы представили, скорее всего, уже есть у Warp. И даже больше. Это то приложение, вокруг которого можно выстроить всю работу разработчика или DevOps-специалиста.

Более того – он позволяет организовать работу в команде и передавать друг-другу workflow, доступы и даже Notebooks, позволяющие создать полноценную интерактивную документацию.

Само собой, внутри терминала у нас есть AI-агент, который может, в том числе, выполнять задачи AI-Coding. Также у Warp есть собственный редактор кода на случай, если потребуется поправить что-нибудь руками или изучить diff.

Мне понравилось его бережное отношение к контексту. Когда я в рамках одного открытого терминала/чата решил начать новую задачу, Warp мне сказал что-то вроде:

Вижу, ты с темы съезжаешь. Может старый контекст – того... Дропнем?


Продуманность в мелочах пронизывает весь пользовательский опыт. Я очень доволен Warp, как инструментом.

Про деньги. Базовый бесплатный тариф даёт 150 запросов к AI в месяц (что достаточно много в сравнении с конкурентами). Тариф за $18/месяц увеличивает количество запросов до 2500! Не хватает? С тарифом Pro в комплекте идёт 10000 запросов. Если я когда-нибудь доберусь в Warp до этого лимита – расскажу, как мне это удалось.

В скором времени опубликую кейсы с интеграцией Warp в мои рабочие задачи 🔥

*Помните, был такой журнал "Игромания"? В 00-х, когда я его активно читал, они публиковали сборки ПК для игр. Сборки разбивались по категориям. Самая "жирная" из них как раз называлась "Тебя я видел во сне". Жаль, что в 2019-м бумажная версия журнала перестала существовать.
2🔥227👍6
GPT-5-Codex. Слепой мастер.

Диалог:

– Привет, GPT-5-Codex, какие у тебя есть доступные MCP-сервера?

– Привет! Вообще никаких нет. О чём ты говоришь? Чист, как слеза!

– Хорошо. Тогда получи для меня информацию, используя Context7 MCP.

– *Получает информацию, используя MCP-tool*

– Ты только что использовал MCP-tool, но до этого сказал, что у тебя их нет. Как так?

– Первый раз вижу! Мне подкинули!.. Что ж... Раскусил ты меня. Есть у меня MCP-сервер Context7.

– Какие у тебя есть доступные MCP-сервера?

– Я знаю правильный ответ! Мне доступен MCP-сервер Context7! 🙂

– Ты уверен? Как ты проверил?

– Никак не проверил. Я тебе так верю!


Краткое объяснение, что тут вообще происходит:

У расширения Codex CLI для VS Code нет в интерфейсе упоминания MCP-серверов. Расширение максимально-аскетично с точки зрения представленных инструментов.

При этом, если настроить MCP-сервер через их глобальный config.toml-файл, он становится доступен в том числе для расширения VS Code. Которое, при этом, может использовать MCP-инструменты, но не может узнать, а какие из них, собственно, доступны.

Вот такая, получается, AI-шизофрения 🙂
2😁155👍2🔥1🤪1
Warp, как менеджер cli-инструментов для AI-Coding.

Первым делом поставим Tmux. Это инструмент, позволяющий запускать несколько сессий терминала параллельно и отслеживать их состояние из основного терминала. Также в виртуальный терминал можно передать ввод текста или нажатие клавиш.

При помощи Tmux можно во Warp создавать многосоставные задачи и распределять их на несколько cli-coding-агентов. Или выполнять одну задачу, переключаясь между "исполнителями", когда у них заканчиваются лимиты.

Давно хотел себе собрать систему с распределением и распараллеливанием задач между cli-инструментами. Именно с появлением Warp в моём арсенале эта задача наконец-то перешла в статус "In Progress".
2🔥87👍2
Media is too big
VIEW IN TELEGRAM
Gamma выкатили обновление 3.0. Manus напрягся...

Сегодня Gamma обновили свою платформу до третьей версии. И там определённо есть, на что посмотреть.

Ключевое обновление, которое меня заинтересовало – собственный AI-агент для создания презентаций. Воистину 2025-й – год агентов.

Я опробовал AI-агента на задаче обновления презентации, которую собирал для первого поста про Gamma.

Весь процесс редактирования можете посмотреть в прикреплённом скринкасте.

Что понравилось:

1. Скорость. Gamma и до этого славилась своей скоростью. AI-агент также делает правки очень быстро (привет тебе, Manus, обновляющий стиль презентации за 15 минут и 300 токенов).

2. Это полноценный AI-агент. С доступом к интернету. Откуда может собрать необходимую для презентации информацию.

3. Работа с файлами и изображениями в агенте. Можно закинуть таблицу, изображение, текстовый документ и попросить использовать информацию в презентации. Удобно.

4. Аккуратность. AI в Gamma стал меньше ошибаться и делать откровенно кривые элементы. Мелкие нестыковки всё ещё бывают, но теперь, вместе с AI-агентом, вносить правки удобнее.

5. Стоимость. Одно обращение к агенту стоит всего 10 кредитов. При том, что это может быть объёмный промпт со списком правок. Всё равно 10 кредитов. Это очень дёшево и позволяет использовать AI-агента без оглядки на то, сколько кредитов осталось.

6. Крутые новые диаграммы и другие интерактивные элементы. То, что позволит разбавить типовые Gamma-слайды.

Что не понравилось:

1. Всё ещё шаблонность, свойственная презентациям от Gamma. Чтобы сделать что-то своё и уникальное, придётся постараться. Это плата за скорость создания и редактирования презентаций.

2. У Gamma, в отличие от HeyGen, нет своей библиотеки ассетов. Поэтому все изображения, которые используются в презентациях, сгенерированные. Либо те, что пользователь загрузит самостоятельно.

3. Скачать из интернета картинку и вставить её в презентацию AI-агент также не способен. Видимо переживают за авторские права.

Вывод: обновление выглядит очень интересно. Gamma 3.0 объединяет "разумность" Manus и скорость Gamma 2.0. С текущим набором инструментов 100% можно сделать что-то, что будет выглядеть красиво даже с точки зрения дизайнеров. Но придётся постараться и подонимать AI-агента.

Презентацию, которая получилась в итоге у меня и AI-агента Gamma 3.0 закину в комментарии.
18👍6❤‍🔥3🔥3
Как ты используешь нейросети для жизни? Именно для жизни, а не для работы.

Такой вопрос мне задали на завершающем занятии практикума по AI-видео, о котором рассказывал тут.

В моменте, признаться, вопрос поставил меня в тупик. Это та ситуация, когда все ответы на вопрос тут же испаряются. Поэтому я вспомнил далеко не все ситуации, в которых мне помогает AI.

Сегодня собрал свои самые распространённые кейсы применения AI вне работы:

1. Я часто пишу себе микроскрипты, чтобы сделать то или иное действие. Как правило, связано это с видео или изображениями. Объединить, обрезать, снабдить watermark-ом и многое другое. До сих пор пользуюсь десктопным YouTube Downloader из этого поста.

2. Анализ и работа с прочитанными книгами. Сейчас я регулярно слушаю аудиокниги и часто мне нужно основные мысли из них сохранять для последующего использования. Тут я либо использую NotebookLM, либо разбиваю по главам исходный документ и более детально анализирую через AI IDE.

3. Первые шаги в освоении любой новой для меня сферы знаний – это всегда AI. Каждый месяц я трачу все свои лимиты на DeepResearch в ChatGPT. Он собирает мне детальные планы действий, подбирает материалы для обучения, отвечает на вопросы о самых новых исследованиях в интересующей сфере.

4. С помощью AI я открываю для себя новые, чаще всего локальные, бренды спортивной одежды. В классическом поиске всё обычно забито крупными компаниями, а мне, зачастую, нужно что-то специализированное либо по конкретным параметрам ("найди мне 5 трейлраннинг жилетов, которые вмещают от 15 до 25 литров содержимого").

5. Подбор специализированных сервисов. Это когда п.1 становится слишком громоздким и нужно найти способ решить задачу без написания большого сервиса "под себя".


По частоте использования для "не рабочих" задач у меня в топе ChatGPT5 Thinking с подключенным поиском в интернете. Либо Deep Research от него же.

Какие есть у вас интересные кейсы применения AI за пределами профессиональных задач? Делитесь в комментариях 🙂
1🔥128👍5🤔1
Стикерпак по фотографиям: просто используем Nano Banana.

Дваждый я уже подходил к задаче "генерация стикерпака":

1. В мае этого года пробовал разные модели в генерации стикеров по фотографии.

2. И сразу за этим попробовал для решения этой задачи использовал LoRA для Flux и добавление текста в Google AI Studio.

Теперь вышла Nano Banana от Google и задача схлопнулась в наличие фотографии и промпта для обработки.

Собственно, вот сам промпт:

Edit the uploaded photo of the person into a sticker in the {STYLE} look: preserve identity/expression; keep pose/clothing; remove background; flat colors (no photoreal), clean shapes; white 8–12px sticker outline with subtle shadow; background: choose a dark or saturated color that has strong contrast against white (≥4.5:1) and keeps the shadow clearly visible. Square 1024×1024 PNG. Add the caption “{CAPTION}” centered at the bottom in bold sans-serif with clean kerning. No other text/elements; no geometry or face distortions; output one image.


В него надо вставить текст для стикера на месте {CAPTION}, а также стиль рисовки вместо {STYLE}.

Вот список из нескольких стилей, которые можно попробовать:

1. Vector Clean Flat
2. Hand-Drawn Cel Animation
3. Saturday-Morning Cartoon
4. Comic Ink + Halftone
5. Webtoon Soft Cel
6. Gouache Poster Paint
7. Watercolor Line & Wash
8. Marker Sketch
9. Retro 90s Toon
10. Anime Key Art

Загружаем исходную фотографию вместе с заполненным промптом в AI Studio или Gemini App и получаем готовый стикер.

Нужно будет только фон убрать. Сделать это можно, например, тут. Adobe с задачей справляется достаточно хорошо. Для облегчения работы Background remover-а в промпт добавил генерацию на контрастном фоне. Иногда после удаления фона, изображение можно ещё чуть-чуть доработать в фотошопе (сырой результат можно увидеть во вложении к посту).

Есть только один минус – Google может плохо работать с текстами на русском языке. Как правило, он пропускает буквы в сложных словах и фразах. Поэтому для корректных фраз на русском может потребоваться больше итераций генерации.
1🔥174👍3❤‍🔥1
История про то, как важно контролировать AI-агентов или "Верните мне $25".

Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.

Процесс настолько "на вайбе", что если нет идеи для видео, то сервис и есть за тебя будет и сценарий может самостоятельно создать.

Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт (я не до конца понял, зачем нужен шаг со скриптом).

Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.

Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.

На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.

Полная вайб-режиссура, правда?

Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.

Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu (так я узнал, что за модель они используют для генерации видео).

Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.

Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".
1👍7🔥5😭43😁1