Сравнение генераторов изображений в задаче колоризации и улучшения старых фотографий.
В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:
Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".
Более-менее приемлемые результаты выдают только:
1. Nano Banana от Google.
2. Новый Seedream 4.0 Edit от Bytedance.
3. ChatGPT 5 от OpenAI.
Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.
Взял универсальный простой промпт, один для всех моделей:
В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.
Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.
Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.
ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.
Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.
По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.
p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:
Есть ли какие-то альтернативы Nano Banana для данной задачи? Возможно ли, что другие модели справляются лучше?
Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".
Более-менее приемлемые результаты выдают только:
1. Nano Banana от Google.
2. Новый Seedream 4.0 Edit от Bytedance.
3. ChatGPT 5 от OpenAI.
Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.
Взял универсальный простой промпт, один для всех моделей:
Colorize and restore this black-and-white photo with an authentic, period-correct look. Add natural, balanced colors (skin, hair, clothing, foliage, sky, wood, metal, stone). Gently increase clarity and dynamic range; remove dust/scratches and noise; sharpen edges lightly while preserving fine detail and subtle film grain.
CRITICAL — preserve all text exactly:
• Keep every letter, number, logo, sign, label, stamp, and handwriting unchanged.
• Do not invent, erase, retype, translate, or stylize any characters.
• Maintain original fonts, kerning, spacing, alignment, and shapes of glyphs.
• If any character is unclear, leave it as-is rather than guessing.
Keep original composition and geometry (no cropping/warping). Avoid oversaturation or modern color casts; aim for realistic, slightly muted tones with natural highlight roll-off and shadow detail. Output at original resolution or higher.
В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.
Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.
Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.
ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.
Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.
По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.
p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
1🔥13❤7👍5
Codex CLI от OpenAI – скаковая лошадь без седла.
Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.
Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!
Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.
Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.
У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.
Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.
Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.
Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.
Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.
Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.
Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.
Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!
Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.
Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.
У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.
Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.
Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.
Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.
Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.
Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.
Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
21❤8🔥4👍2
Принёс вам запись нашего эфира про эффективный AI Coding.
Если ещё не смотрели – welcome! Во время эфира я для себя нашёл несколько новых направлений для изучения.
Такой вам ответ на вопрос «Что посмотреть на выходных?» 🙂
Если ещё не смотрели – welcome! Во время эфира я для себя нашёл несколько новых направлений для изучения.
Такой вам ответ на вопрос «Что посмотреть на выходных?» 🙂
YouTube
Вайб-кодинг, агенты, SDD и прочее про AI
http://xn--r1a.website/oestick - Коля
http://xn--r1a.website/gleb_pro_ai - Глеб
http://xn--r1a.website/the_ai_architect - Тимур
http://xn--r1a.website/ai_driven - Родион
http://xn--r1a.website/kdoronin_blog - Костя
Стрим в свободной форме. Разбираемся, как устроен сбор контекста в ИИ агентах и почему разрабатываем…
http://xn--r1a.website/gleb_pro_ai - Глеб
http://xn--r1a.website/the_ai_architect - Тимур
http://xn--r1a.website/ai_driven - Родион
http://xn--r1a.website/kdoronin_blog - Костя
Стрим в свободной форме. Разбираемся, как устроен сбор контекста в ИИ агентах и почему разрабатываем…
2🔥16❤5👍1🥴1
Про кейсы применения Graphiti.
Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.
Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.
Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.
Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.
При этом запустить пример достаточно просто:
1. Устанавливаем Graphiti по инструкции отсюда.
2. Запускаем MCP-сервер по этой инструкции.
3. Добавляем Cursor Rules от ребят из Zep.
Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.
Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.
Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.
Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.
При этом запустить пример достаточно просто:
1. Устанавливаем Graphiti по инструкции отсюда.
2. Запускаем MCP-сервер по этой инструкции.
3. Добавляем Cursor Rules от ребят из Zep.
Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
2🔥18👍5❤3🎉1
HeyGen Agent. Нас ждёт очередная волна сгенерированного видеоконтента.
Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.
Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.
Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.
Типы кадров, которые я встречал в генерациях:
1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.
2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.
3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.
4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.
Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.
Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:
На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊
Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.
Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.
Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.
Типы кадров, которые я встречал в генерациях:
1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.
2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.
3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.
4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.
Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.
Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:
Сделай видео, интересно обыгрывающее малоизвестный исторический факт
На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊
1🔥8❤4👍4
Как вкатиться в AI-Coding без платы за подписки и токены.
Мне очень нравится, когда вы задаёте мне вопросы. В комментариях на этом канале или даже в личные сообщения. Это позволяет посмотреть на вопросы, связанные с AI, под новым для меня углом.
Один из недавних запросов, которые я получил в ЛС:
Подготовил список из 7 таких инструментов, которыми можно пользоваться бесплатно. Какие-то можно использовать на постоянной основе, но с лимитами, а какие-то только один раз на старте.
Вот сам список:
1. Gemini CLI. Всё ещё дают свои бесплатные 1000 запросов в день. Если бы можно было оставить только один инструмент в списке, я бы оставил именно этот. Кстати, тут и тут пишу о том, как не дать Google снять с вас деньги за Gemini CLI.
2. Cursor. Помимо двух недель триального pro-режима, есть также полностью бесплатный тариф с ограничениями.
3. Windsurf. Когда-то был главным конкурентом Cursor. Сейчас у них есть бесплатный тариф, но очень скромный по сравнению с другими инструментами в списке.
4. Github Copilot. Даёт ограниченное количество запросов к AI на бесплатном тарифе.
5. Kiro Code. Очень приятный с точки зрения UX инструмент. Сейчас даёт 500 бесплатных кредитов на старте и заявляют на сайте бесплатный тарифный план.
6. Zed AI. Хороший редактор, предоставляющий бесплатный тариф с достаточно щедрыми лимитами.
7. Kilo Code(не путать с п.5) . Есть возможность на старте получить до $25 на Openrouter, а там с умом их потратить (не используйте дорогие флагманские модели и денег хватит на более продолжительный срок).
Бонус: заведите себе аккаунт на Groq. Они дают щедрые бесплатные лимиты на многие интересные модели. Их можно подключить к AI-IDE и получить бесплатного AI-кодера.
Если полезно – ставьте 🔥 и делитесь с друзьями 🙂
Также делитесь в комментариях, какие ещё знаете способы писать код с помощью AI бесплатно.
Мне очень нравится, когда вы задаёте мне вопросы. В комментариях на этом канале или даже в личные сообщения. Это позволяет посмотреть на вопросы, связанные с AI, под новым для меня углом.
Один из недавних запросов, которые я получил в ЛС:
Какие AI-Coding-инструменты можно использовать бесплатно?
Подготовил список из 7 таких инструментов, которыми можно пользоваться бесплатно. Какие-то можно использовать на постоянной основе, но с лимитами, а какие-то только один раз на старте.
Вот сам список:
1. Gemini CLI. Всё ещё дают свои бесплатные 1000 запросов в день. Если бы можно было оставить только один инструмент в списке, я бы оставил именно этот. Кстати, тут и тут пишу о том, как не дать Google снять с вас деньги за Gemini CLI.
2. Cursor. Помимо двух недель триального pro-режима, есть также полностью бесплатный тариф с ограничениями.
3. Windsurf. Когда-то был главным конкурентом Cursor. Сейчас у них есть бесплатный тариф, но очень скромный по сравнению с другими инструментами в списке.
4. Github Copilot. Даёт ограниченное количество запросов к AI на бесплатном тарифе.
5. Kiro Code. Очень приятный с точки зрения UX инструмент. Сейчас даёт 500 бесплатных кредитов на старте и заявляют на сайте бесплатный тарифный план.
6. Zed AI. Хороший редактор, предоставляющий бесплатный тариф с достаточно щедрыми лимитами.
7. Kilo Code
Бонус: заведите себе аккаунт на Groq. Они дают щедрые бесплатные лимиты на многие интересные модели. Их можно подключить к AI-IDE и получить бесплатного AI-кодера.
Если полезно – ставьте 🔥 и делитесь с друзьями 🙂
Также делитесь в комментариях, какие ещё знаете способы писать код с помощью AI бесплатно.
3🔥36❤8👍1
Недолго закрытая бета в HeyGen Agent продержалась.
Сегодня инструмент открыли для всех.
Заводите бесплатный аккаунт в HeyGen и тут у вас будет доступно 10 бесплатных генераций в месяц.
А на главной странице агента много интересных примеров того, что удалось с помощью HeyGen Agent создать и какие промпты для этого использовались. Имеет смысл на их основе генерировать собственные, чтобы получить лучший результат.
Все, кого заинтересовал этот пост, можете теперь попробовать HeyGen Agent самостоятельно!
Сегодня инструмент открыли для всех.
Заводите бесплатный аккаунт в HeyGen и тут у вас будет доступно 10 бесплатных генераций в месяц.
А на главной странице агента много интересных примеров того, что удалось с помощью HeyGen Agent создать и какие промпты для этого использовались. Имеет смысл на их основе генерировать собственные, чтобы получить лучший результат.
Все, кого заинтересовал этот пост, можете теперь попробовать HeyGen Agent самостоятельно!
2🔥7❤6👍4⚡1
Warp – терминал из категории "Тебя я видел во сне"*.
Что вы представляете себе, когда слышите "AI-first terminal"?
Всё, что вы представили, скорее всего, уже есть у Warp. И даже больше. Это то приложение, вокруг которого можно выстроить всю работу разработчика или DevOps-специалиста.
Более того – он позволяет организовать работу в команде и передавать друг-другу workflow, доступы и даже Notebooks, позволяющие создать полноценную интерактивную документацию.
Само собой, внутри терминала у нас есть AI-агент, который может, в том числе, выполнять задачи AI-Coding. Также у Warp есть собственный редактор кода на случай, если потребуется поправить что-нибудь руками или изучить diff.
Мне понравилось его бережное отношение к контексту. Когда я в рамках одного открытого терминала/чата решил начать новую задачу, Warp мне сказал что-то вроде:
Продуманность в мелочах пронизывает весь пользовательский опыт. Я очень доволен Warp, как инструментом.
Про деньги. Базовый бесплатный тариф даёт 150 запросов к AI в месяц (что достаточно много в сравнении с конкурентами). Тариф за $18/месяц увеличивает количество запросов до 2500! Не хватает? С тарифом Pro в комплекте идёт 10000 запросов. Если я когда-нибудь доберусь в Warp до этого лимита – расскажу, как мне это удалось.
В скором времени опубликую кейсы с интеграцией Warp в мои рабочие задачи 🔥
*Помните, был такой журнал "Игромания"? В 00-х, когда я его активно читал, они публиковали сборки ПК для игр. Сборки разбивались по категориям. Самая "жирная" из них как раз называлась "Тебя я видел во сне". Жаль, что в 2019-м бумажная версия журнала перестала существовать.
Что вы представляете себе, когда слышите "AI-first terminal"?
Всё, что вы представили, скорее всего, уже есть у Warp. И даже больше. Это то приложение, вокруг которого можно выстроить всю работу разработчика или DevOps-специалиста.
Более того – он позволяет организовать работу в команде и передавать друг-другу workflow, доступы и даже Notebooks, позволяющие создать полноценную интерактивную документацию.
Само собой, внутри терминала у нас есть AI-агент, который может, в том числе, выполнять задачи AI-Coding. Также у Warp есть собственный редактор кода на случай, если потребуется поправить что-нибудь руками или изучить diff.
Мне понравилось его бережное отношение к контексту. Когда я в рамках одного открытого терминала/чата решил начать новую задачу, Warp мне сказал что-то вроде:
Вижу, ты с темы съезжаешь. Может старый контекст – того... Дропнем?
Продуманность в мелочах пронизывает весь пользовательский опыт. Я очень доволен Warp, как инструментом.
Про деньги. Базовый бесплатный тариф даёт 150 запросов к AI в месяц (что достаточно много в сравнении с конкурентами). Тариф за $18/месяц увеличивает количество запросов до 2500! Не хватает? С тарифом Pro в комплекте идёт 10000 запросов. Если я когда-нибудь доберусь в Warp до этого лимита – расскажу, как мне это удалось.
В скором времени опубликую кейсы с интеграцией Warp в мои рабочие задачи 🔥
*Помните, был такой журнал "Игромания"? В 00-х, когда я его активно читал, они публиковали сборки ПК для игр. Сборки разбивались по категориям. Самая "жирная" из них как раз называлась "Тебя я видел во сне". Жаль, что в 2019-м бумажная версия журнала перестала существовать.
2🔥22❤7👍6
GPT-5-Codex. Слепой мастер.
Диалог:
Краткое объяснение, что тут вообще происходит:
У расширения Codex CLI для VS Code нет в интерфейсе упоминания MCP-серверов. Расширение максимально-аскетично с точки зрения представленных инструментов.
При этом, если настроить MCP-сервер через их глобальный config.toml-файл, он становится доступен в том числе для расширения VS Code. Которое, при этом, может использовать MCP-инструменты, но не может узнать, а какие из них, собственно, доступны.
Вот такая, получается, AI-шизофрения 🙂
Диалог:
– Привет, GPT-5-Codex, какие у тебя есть доступные MCP-сервера?
– Привет! Вообще никаких нет. О чём ты говоришь? Чист, как слеза!
– Хорошо. Тогда получи для меня информацию, используя Context7 MCP.
– *Получает информацию, используя MCP-tool*
– Ты только что использовал MCP-tool, но до этого сказал, что у тебя их нет. Как так?
– Первый раз вижу! Мне подкинули!.. Что ж... Раскусил ты меня. Есть у меня MCP-сервер Context7.
– Какие у тебя есть доступные MCP-сервера?
– Я знаю правильный ответ! Мне доступен MCP-сервер Context7! 🙂
– Ты уверен? Как ты проверил?
– Никак не проверил. Я тебе так верю!
Краткое объяснение, что тут вообще происходит:
У расширения Codex CLI для VS Code нет в интерфейсе упоминания MCP-серверов. Расширение максимально-аскетично с точки зрения представленных инструментов.
При этом, если настроить MCP-сервер через их глобальный config.toml-файл, он становится доступен в том числе для расширения VS Code. Которое, при этом, может использовать MCP-инструменты, но не может узнать, а какие из них, собственно, доступны.
Вот такая, получается, AI-шизофрения 🙂
2😁15❤5👍2🔥1🤪1
Warp, как менеджер cli-инструментов для AI-Coding.
Первым делом поставим Tmux. Это инструмент, позволяющий запускать несколько сессий терминала параллельно и отслеживать их состояние из основного терминала. Также в виртуальный терминал можно передать ввод текста или нажатие клавиш.
При помощи Tmux можно во Warp создавать многосоставные задачи и распределять их на несколько cli-coding-агентов. Или выполнять одну задачу, переключаясь между "исполнителями", когда у них заканчиваются лимиты.
Давно хотел себе собрать систему с распределением и распараллеливанием задач между cli-инструментами. Именно с появлением Warp в моём арсенале эта задача наконец-то перешла в статус "In Progress".
Первым делом поставим Tmux. Это инструмент, позволяющий запускать несколько сессий терминала параллельно и отслеживать их состояние из основного терминала. Также в виртуальный терминал можно передать ввод текста или нажатие клавиш.
При помощи Tmux можно во Warp создавать многосоставные задачи и распределять их на несколько cli-coding-агентов. Или выполнять одну задачу, переключаясь между "исполнителями", когда у них заканчиваются лимиты.
Давно хотел себе собрать систему с распределением и распараллеливанием задач между cli-инструментами. Именно с появлением Warp в моём арсенале эта задача наконец-то перешла в статус "In Progress".
2🔥8❤7👍2
Media is too big
VIEW IN TELEGRAM
Gamma выкатили обновление 3.0. Manus напрягся...
Сегодня Gamma обновили свою платформу до третьей версии. И там определённо есть, на что посмотреть.
Ключевое обновление, которое меня заинтересовало – собственный AI-агент для создания презентаций. Воистину 2025-й – год агентов.
Я опробовал AI-агента на задаче обновления презентации, которую собирал для первого поста про Gamma.
Весь процесс редактирования можете посмотреть в прикреплённом скринкасте.
Что понравилось:
1. Скорость. Gamma и до этого славилась своей скоростью. AI-агент также делает правки очень быстро(привет тебе, Manus, обновляющий стиль презентации за 15 минут и 300 токенов) .
2. Это полноценный AI-агент. С доступом к интернету. Откуда может собрать необходимую для презентации информацию.
3. Работа с файлами и изображениями в агенте. Можно закинуть таблицу, изображение, текстовый документ и попросить использовать информацию в презентации. Удобно.
4. Аккуратность. AI в Gamma стал меньше ошибаться и делать откровенно кривые элементы. Мелкие нестыковки всё ещё бывают, но теперь, вместе с AI-агентом, вносить правки удобнее.
5. Стоимость. Одно обращение к агенту стоит всего 10 кредитов. При том, что это может быть объёмный промпт со списком правок. Всё равно 10 кредитов. Это очень дёшево и позволяет использовать AI-агента без оглядки на то, сколько кредитов осталось.
6. Крутые новые диаграммы и другие интерактивные элементы. То, что позволит разбавить типовые Gamma-слайды.
Что не понравилось:
1. Всё ещё шаблонность, свойственная презентациям от Gamma. Чтобы сделать что-то своё и уникальное, придётся постараться. Это плата за скорость создания и редактирования презентаций.
2. У Gamma, в отличие от HeyGen, нет своей библиотеки ассетов. Поэтому все изображения, которые используются в презентациях, сгенерированные. Либо те, что пользователь загрузит самостоятельно.
3. Скачать из интернета картинку и вставить её в презентацию AI-агент также не способен. Видимо переживают за авторские права.
Вывод: обновление выглядит очень интересно. Gamma 3.0 объединяет "разумность" Manus и скорость Gamma 2.0. С текущим набором инструментов 100% можно сделать что-то, что будет выглядеть красиво даже с точки зрения дизайнеров. Но придётся постараться и подонимать AI-агента.
Презентацию, которая получилась в итоге у меня и AI-агента Gamma 3.0 закину в комментарии.
Сегодня Gamma обновили свою платформу до третьей версии. И там определённо есть, на что посмотреть.
Ключевое обновление, которое меня заинтересовало – собственный AI-агент для создания презентаций. Воистину 2025-й – год агентов.
Я опробовал AI-агента на задаче обновления презентации, которую собирал для первого поста про Gamma.
Весь процесс редактирования можете посмотреть в прикреплённом скринкасте.
Что понравилось:
1. Скорость. Gamma и до этого славилась своей скоростью. AI-агент также делает правки очень быстро
2. Это полноценный AI-агент. С доступом к интернету. Откуда может собрать необходимую для презентации информацию.
3. Работа с файлами и изображениями в агенте. Можно закинуть таблицу, изображение, текстовый документ и попросить использовать информацию в презентации. Удобно.
4. Аккуратность. AI в Gamma стал меньше ошибаться и делать откровенно кривые элементы. Мелкие нестыковки всё ещё бывают, но теперь, вместе с AI-агентом, вносить правки удобнее.
5. Стоимость. Одно обращение к агенту стоит всего 10 кредитов. При том, что это может быть объёмный промпт со списком правок. Всё равно 10 кредитов. Это очень дёшево и позволяет использовать AI-агента без оглядки на то, сколько кредитов осталось.
6. Крутые новые диаграммы и другие интерактивные элементы. То, что позволит разбавить типовые Gamma-слайды.
Что не понравилось:
1. Всё ещё шаблонность, свойственная презентациям от Gamma. Чтобы сделать что-то своё и уникальное, придётся постараться. Это плата за скорость создания и редактирования презентаций.
2. У Gamma, в отличие от HeyGen, нет своей библиотеки ассетов. Поэтому все изображения, которые используются в презентациях, сгенерированные. Либо те, что пользователь загрузит самостоятельно.
3. Скачать из интернета картинку и вставить её в презентацию AI-агент также не способен. Видимо переживают за авторские права.
Вывод: обновление выглядит очень интересно. Gamma 3.0 объединяет "разумность" Manus и скорость Gamma 2.0. С текущим набором инструментов 100% можно сделать что-то, что будет выглядеть красиво даже с точки зрения дизайнеров. Но придётся постараться и подонимать AI-агента.
Презентацию, которая получилась в итоге у меня и AI-агента Gamma 3.0 закину в комментарии.
1❤8👍6❤🔥3🔥3
Как ты используешь нейросети для жизни? Именно для жизни, а не для работы.
Такой вопрос мне задали на завершающем занятии практикума по AI-видео, о котором рассказывал тут.
В моменте, признаться, вопрос поставил меня в тупик. Это та ситуация, когда все ответы на вопрос тут же испаряются. Поэтому я вспомнил далеко не все ситуации, в которых мне помогает AI.
Сегодня собрал свои самые распространённые кейсы применения AI вне работы:
1. Я часто пишу себе микроскрипты, чтобы сделать то или иное действие. Как правило, связано это с видео или изображениями. Объединить, обрезать, снабдить watermark-ом и многое другое. До сих пор пользуюсь десктопным YouTube Downloader из этого поста.
2. Анализ и работа с прочитанными книгами. Сейчас я регулярно слушаю аудиокниги и часто мне нужно основные мысли из них сохранять для последующего использования. Тут я либо использую NotebookLM, либо разбиваю по главам исходный документ и более детально анализирую через AI IDE.
3. Первые шаги в освоении любой новой для меня сферы знаний – это всегда AI. Каждый месяц я трачу все свои лимиты на DeepResearch в ChatGPT. Он собирает мне детальные планы действий, подбирает материалы для обучения, отвечает на вопросы о самых новых исследованиях в интересующей сфере.
4. С помощью AI я открываю для себя новые, чаще всего локальные, бренды спортивной одежды. В классическом поиске всё обычно забито крупными компаниями, а мне, зачастую, нужно что-то специализированное либо по конкретным параметрам("найди мне 5 трейлраннинг жилетов, которые вмещают от 15 до 25 литров содержимого") .
5. Подбор специализированных сервисов. Это когда п.1 становится слишком громоздким и нужно найти способ решить задачу без написания большого сервиса "под себя".
По частоте использования для "не рабочих" задач у меня в топе ChatGPT5 Thinking с подключенным поиском в интернете. Либо Deep Research от него же.
Какие есть у вас интересные кейсы применения AI за пределами профессиональных задач? Делитесь в комментариях 🙂
Такой вопрос мне задали на завершающем занятии практикума по AI-видео, о котором рассказывал тут.
В моменте, признаться, вопрос поставил меня в тупик. Это та ситуация, когда все ответы на вопрос тут же испаряются. Поэтому я вспомнил далеко не все ситуации, в которых мне помогает AI.
Сегодня собрал свои самые распространённые кейсы применения AI вне работы:
1. Я часто пишу себе микроскрипты, чтобы сделать то или иное действие. Как правило, связано это с видео или изображениями. Объединить, обрезать, снабдить watermark-ом и многое другое. До сих пор пользуюсь десктопным YouTube Downloader из этого поста.
2. Анализ и работа с прочитанными книгами. Сейчас я регулярно слушаю аудиокниги и часто мне нужно основные мысли из них сохранять для последующего использования. Тут я либо использую NotebookLM, либо разбиваю по главам исходный документ и более детально анализирую через AI IDE.
3. Первые шаги в освоении любой новой для меня сферы знаний – это всегда AI. Каждый месяц я трачу все свои лимиты на DeepResearch в ChatGPT. Он собирает мне детальные планы действий, подбирает материалы для обучения, отвечает на вопросы о самых новых исследованиях в интересующей сфере.
4. С помощью AI я открываю для себя новые, чаще всего локальные, бренды спортивной одежды. В классическом поиске всё обычно забито крупными компаниями, а мне, зачастую, нужно что-то специализированное либо по конкретным параметрам
5. Подбор специализированных сервисов. Это когда п.1 становится слишком громоздким и нужно найти способ решить задачу без написания большого сервиса "под себя".
По частоте использования для "не рабочих" задач у меня в топе ChatGPT5 Thinking с подключенным поиском в интернете. Либо Deep Research от него же.
Какие есть у вас интересные кейсы применения AI за пределами профессиональных задач? Делитесь в комментариях 🙂
1🔥12❤8👍5🤔1
Стикерпак по фотографиям: просто используем Nano Banana.
Дваждый я уже подходил к задаче "генерация стикерпака":
1. В мае этого года пробовал разные модели в генерации стикеров по фотографии.
2. И сразу за этим попробовал для решения этой задачи использовал LoRA для Flux и добавление текста в Google AI Studio.
Теперь вышла Nano Banana от Google и задача схлопнулась в наличие фотографии и промпта для обработки.
Собственно, вот сам промпт:
В него надо вставить текст для стикера на месте {CAPTION}, а также стиль рисовки вместо {STYLE}.
Вот список из нескольких стилей, которые можно попробовать:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Загружаем исходную фотографию вместе с заполненным промптом в AI Studio или Gemini App и получаем готовый стикер.
Нужно будет только фон убрать. Сделать это можно, например, тут. Adobe с задачей справляется достаточно хорошо. Для облегчения работы Background remover-а в промпт добавил генерацию на контрастном фоне. Иногда после удаления фона, изображение можно ещё чуть-чуть доработать в фотошопе (сырой результат можно увидеть во вложении к посту).
Есть только один минус – Google может плохо работать с текстами на русском языке. Как правило, он пропускает буквы в сложных словах и фразах. Поэтому для корректных фраз на русском может потребоваться больше итераций генерации.
Дваждый я уже подходил к задаче "генерация стикерпака":
1. В мае этого года пробовал разные модели в генерации стикеров по фотографии.
2. И сразу за этим попробовал для решения этой задачи использовал LoRA для Flux и добавление текста в Google AI Studio.
Теперь вышла Nano Banana от Google и задача схлопнулась в наличие фотографии и промпта для обработки.
Собственно, вот сам промпт:
Edit the uploaded photo of the person into a sticker in the {STYLE} look: preserve identity/expression; keep pose/clothing; remove background; flat colors (no photoreal), clean shapes; white 8–12px sticker outline with subtle shadow; background: choose a dark or saturated color that has strong contrast against white (≥4.5:1) and keeps the shadow clearly visible. Square 1024×1024 PNG. Add the caption “{CAPTION}” centered at the bottom in bold sans-serif with clean kerning. No other text/elements; no geometry or face distortions; output one image.
В него надо вставить текст для стикера на месте {CAPTION}, а также стиль рисовки вместо {STYLE}.
Вот список из нескольких стилей, которые можно попробовать:
1.
Vector Clean Flat
2.
Hand-Drawn Cel Animation
3.
Saturday-Morning Cartoon
4.
Comic Ink + Halftone
5.
Webtoon Soft Cel
6.
Gouache Poster Paint
7.
Watercolor Line & Wash
8.
Marker Sketch
9.
Retro 90s Toon
10.
Anime Key Art
Загружаем исходную фотографию вместе с заполненным промптом в AI Studio или Gemini App и получаем готовый стикер.
Нужно будет только фон убрать. Сделать это можно, например, тут. Adobe с задачей справляется достаточно хорошо. Для облегчения работы Background remover-а в промпт добавил генерацию на контрастном фоне. Иногда после удаления фона, изображение можно ещё чуть-чуть доработать в фотошопе (сырой результат можно увидеть во вложении к посту).
Есть только один минус – Google может плохо работать с текстами на русском языке. Как правило, он пропускает буквы в сложных словах и фразах. Поэтому для корректных фраз на русском может потребоваться больше итераций генерации.
1🔥17❤4👍3❤🔥1