Константин Доронин
3.18K subscribers
619 photos
313 videos
1 file
334 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
Warp – терминал из категории "Тебя я видел во сне"*.

Что вы представляете себе, когда слышите "AI-first terminal"?

Всё, что вы представили, скорее всего, уже есть у Warp. И даже больше. Это то приложение, вокруг которого можно выстроить всю работу разработчика или DevOps-специалиста.

Более того – он позволяет организовать работу в команде и передавать друг-другу workflow, доступы и даже Notebooks, позволяющие создать полноценную интерактивную документацию.

Само собой, внутри терминала у нас есть AI-агент, который может, в том числе, выполнять задачи AI-Coding. Также у Warp есть собственный редактор кода на случай, если потребуется поправить что-нибудь руками или изучить diff.

Мне понравилось его бережное отношение к контексту. Когда я в рамках одного открытого терминала/чата решил начать новую задачу, Warp мне сказал что-то вроде:

Вижу, ты с темы съезжаешь. Может старый контекст – того... Дропнем?


Продуманность в мелочах пронизывает весь пользовательский опыт. Я очень доволен Warp, как инструментом.

Про деньги. Базовый бесплатный тариф даёт 150 запросов к AI в месяц (что достаточно много в сравнении с конкурентами). Тариф за $18/месяц увеличивает количество запросов до 2500! Не хватает? С тарифом Pro в комплекте идёт 10000 запросов. Если я когда-нибудь доберусь в Warp до этого лимита – расскажу, как мне это удалось.

В скором времени опубликую кейсы с интеграцией Warp в мои рабочие задачи 🔥

*Помните, был такой журнал "Игромания"? В 00-х, когда я его активно читал, они публиковали сборки ПК для игр. Сборки разбивались по категориям. Самая "жирная" из них как раз называлась "Тебя я видел во сне". Жаль, что в 2019-м бумажная версия журнала перестала существовать.
2🔥227👍6
GPT-5-Codex. Слепой мастер.

Диалог:

– Привет, GPT-5-Codex, какие у тебя есть доступные MCP-сервера?

– Привет! Вообще никаких нет. О чём ты говоришь? Чист, как слеза!

– Хорошо. Тогда получи для меня информацию, используя Context7 MCP.

– *Получает информацию, используя MCP-tool*

– Ты только что использовал MCP-tool, но до этого сказал, что у тебя их нет. Как так?

– Первый раз вижу! Мне подкинули!.. Что ж... Раскусил ты меня. Есть у меня MCP-сервер Context7.

– Какие у тебя есть доступные MCP-сервера?

– Я знаю правильный ответ! Мне доступен MCP-сервер Context7! 🙂

– Ты уверен? Как ты проверил?

– Никак не проверил. Я тебе так верю!


Краткое объяснение, что тут вообще происходит:

У расширения Codex CLI для VS Code нет в интерфейсе упоминания MCP-серверов. Расширение максимально-аскетично с точки зрения представленных инструментов.

При этом, если настроить MCP-сервер через их глобальный config.toml-файл, он становится доступен в том числе для расширения VS Code. Которое, при этом, может использовать MCP-инструменты, но не может узнать, а какие из них, собственно, доступны.

Вот такая, получается, AI-шизофрения 🙂
2😁155👍2🔥1🤪1
Warp, как менеджер cli-инструментов для AI-Coding.

Первым делом поставим Tmux. Это инструмент, позволяющий запускать несколько сессий терминала параллельно и отслеживать их состояние из основного терминала. Также в виртуальный терминал можно передать ввод текста или нажатие клавиш.

При помощи Tmux можно во Warp создавать многосоставные задачи и распределять их на несколько cli-coding-агентов. Или выполнять одну задачу, переключаясь между "исполнителями", когда у них заканчиваются лимиты.

Давно хотел себе собрать систему с распределением и распараллеливанием задач между cli-инструментами. Именно с появлением Warp в моём арсенале эта задача наконец-то перешла в статус "In Progress".
2🔥87👍2
Media is too big
VIEW IN TELEGRAM
Gamma выкатили обновление 3.0. Manus напрягся...

Сегодня Gamma обновили свою платформу до третьей версии. И там определённо есть, на что посмотреть.

Ключевое обновление, которое меня заинтересовало – собственный AI-агент для создания презентаций. Воистину 2025-й – год агентов.

Я опробовал AI-агента на задаче обновления презентации, которую собирал для первого поста про Gamma.

Весь процесс редактирования можете посмотреть в прикреплённом скринкасте.

Что понравилось:

1. Скорость. Gamma и до этого славилась своей скоростью. AI-агент также делает правки очень быстро (привет тебе, Manus, обновляющий стиль презентации за 15 минут и 300 токенов).

2. Это полноценный AI-агент. С доступом к интернету. Откуда может собрать необходимую для презентации информацию.

3. Работа с файлами и изображениями в агенте. Можно закинуть таблицу, изображение, текстовый документ и попросить использовать информацию в презентации. Удобно.

4. Аккуратность. AI в Gamma стал меньше ошибаться и делать откровенно кривые элементы. Мелкие нестыковки всё ещё бывают, но теперь, вместе с AI-агентом, вносить правки удобнее.

5. Стоимость. Одно обращение к агенту стоит всего 10 кредитов. При том, что это может быть объёмный промпт со списком правок. Всё равно 10 кредитов. Это очень дёшево и позволяет использовать AI-агента без оглядки на то, сколько кредитов осталось.

6. Крутые новые диаграммы и другие интерактивные элементы. То, что позволит разбавить типовые Gamma-слайды.

Что не понравилось:

1. Всё ещё шаблонность, свойственная презентациям от Gamma. Чтобы сделать что-то своё и уникальное, придётся постараться. Это плата за скорость создания и редактирования презентаций.

2. У Gamma, в отличие от HeyGen, нет своей библиотеки ассетов. Поэтому все изображения, которые используются в презентациях, сгенерированные. Либо те, что пользователь загрузит самостоятельно.

3. Скачать из интернета картинку и вставить её в презентацию AI-агент также не способен. Видимо переживают за авторские права.

Вывод: обновление выглядит очень интересно. Gamma 3.0 объединяет "разумность" Manus и скорость Gamma 2.0. С текущим набором инструментов 100% можно сделать что-то, что будет выглядеть красиво даже с точки зрения дизайнеров. Но придётся постараться и подонимать AI-агента.

Презентацию, которая получилась в итоге у меня и AI-агента Gamma 3.0 закину в комментарии.
18👍6❤‍🔥3🔥3
Как ты используешь нейросети для жизни? Именно для жизни, а не для работы.

Такой вопрос мне задали на завершающем занятии практикума по AI-видео, о котором рассказывал тут.

В моменте, признаться, вопрос поставил меня в тупик. Это та ситуация, когда все ответы на вопрос тут же испаряются. Поэтому я вспомнил далеко не все ситуации, в которых мне помогает AI.

Сегодня собрал свои самые распространённые кейсы применения AI вне работы:

1. Я часто пишу себе микроскрипты, чтобы сделать то или иное действие. Как правило, связано это с видео или изображениями. Объединить, обрезать, снабдить watermark-ом и многое другое. До сих пор пользуюсь десктопным YouTube Downloader из этого поста.

2. Анализ и работа с прочитанными книгами. Сейчас я регулярно слушаю аудиокниги и часто мне нужно основные мысли из них сохранять для последующего использования. Тут я либо использую NotebookLM, либо разбиваю по главам исходный документ и более детально анализирую через AI IDE.

3. Первые шаги в освоении любой новой для меня сферы знаний – это всегда AI. Каждый месяц я трачу все свои лимиты на DeepResearch в ChatGPT. Он собирает мне детальные планы действий, подбирает материалы для обучения, отвечает на вопросы о самых новых исследованиях в интересующей сфере.

4. С помощью AI я открываю для себя новые, чаще всего локальные, бренды спортивной одежды. В классическом поиске всё обычно забито крупными компаниями, а мне, зачастую, нужно что-то специализированное либо по конкретным параметрам ("найди мне 5 трейлраннинг жилетов, которые вмещают от 15 до 25 литров содержимого").

5. Подбор специализированных сервисов. Это когда п.1 становится слишком громоздким и нужно найти способ решить задачу без написания большого сервиса "под себя".


По частоте использования для "не рабочих" задач у меня в топе ChatGPT5 Thinking с подключенным поиском в интернете. Либо Deep Research от него же.

Какие есть у вас интересные кейсы применения AI за пределами профессиональных задач? Делитесь в комментариях 🙂
1🔥128👍5🤔1
Стикерпак по фотографиям: просто используем Nano Banana.

Дваждый я уже подходил к задаче "генерация стикерпака":

1. В мае этого года пробовал разные модели в генерации стикеров по фотографии.

2. И сразу за этим попробовал для решения этой задачи использовал LoRA для Flux и добавление текста в Google AI Studio.

Теперь вышла Nano Banana от Google и задача схлопнулась в наличие фотографии и промпта для обработки.

Собственно, вот сам промпт:

Edit the uploaded photo of the person into a sticker in the {STYLE} look: preserve identity/expression; keep pose/clothing; remove background; flat colors (no photoreal), clean shapes; white 8–12px sticker outline with subtle shadow; background: choose a dark or saturated color that has strong contrast against white (≥4.5:1) and keeps the shadow clearly visible. Square 1024×1024 PNG. Add the caption “{CAPTION}” centered at the bottom in bold sans-serif with clean kerning. No other text/elements; no geometry or face distortions; output one image.


В него надо вставить текст для стикера на месте {CAPTION}, а также стиль рисовки вместо {STYLE}.

Вот список из нескольких стилей, которые можно попробовать:

1. Vector Clean Flat
2. Hand-Drawn Cel Animation
3. Saturday-Morning Cartoon
4. Comic Ink + Halftone
5. Webtoon Soft Cel
6. Gouache Poster Paint
7. Watercolor Line & Wash
8. Marker Sketch
9. Retro 90s Toon
10. Anime Key Art

Загружаем исходную фотографию вместе с заполненным промптом в AI Studio или Gemini App и получаем готовый стикер.

Нужно будет только фон убрать. Сделать это можно, например, тут. Adobe с задачей справляется достаточно хорошо. Для облегчения работы Background remover-а в промпт добавил генерацию на контрастном фоне. Иногда после удаления фона, изображение можно ещё чуть-чуть доработать в фотошопе (сырой результат можно увидеть во вложении к посту).

Есть только один минус – Google может плохо работать с текстами на русском языке. Как правило, он пропускает буквы в сложных словах и фразах. Поэтому для корректных фраз на русском может потребоваться больше итераций генерации.
1🔥174👍3❤‍🔥1
История про то, как важно контролировать AI-агентов или "Верните мне $25".

Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.

Процесс настолько "на вайбе", что если нет идеи для видео, то сервис и есть за тебя будет и сценарий может самостоятельно создать.

Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт (я не до конца понял, зачем нужен шаг со скриптом).

Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.

Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.

На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.

Полная вайб-режиссура, правда?

Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.

Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu (так я узнал, что за модель они используют для генерации видео).

Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.

Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".
1👍7🔥5😭43😁1
Обновил скрипт для расшифровки видео с помощью Gemini 2.5 Pro. Теперь есть поддержка длинных видео и обработка нескольких видео за раз.

У вас бывает такое, что хотите посмотреть длинное обучающее видео, но всё никак не можете к нему подобраться, потому что оно, собственно, длинное?

У меня бывает. Мне вообще проще всего воспринимать именно текстовую информацию.

Так и появился этот репозиторий у меня в Github.

По инструкции из Readme в репозитории или этого поста настраиваем Google SDK и проект для Google API. После чего заливаем в папку "video" (выставлена в константах по-умолчанию) видео для анализа, ставим зависимости и запускаем скрипт send_video_to_gemini.py.

На выходе в папке "Video" получим текстовый файл с расшифровкой, что происходит в видео по минутам. Если видео большое (по-умолчанию больше 10 минут), то скрипт самостоятельно разобьёт его на куски, проанализирует каждый из них, а потом соберёт расшифровку в один файл.

Загружаем файл в контекст NotebookLM или любой другой AI-чат и обсуждаем содержимое видео.

Вопрос: стоит ли заморачиваться и упаковывать подобные скрипты в более простые интерфейсы (чтобы не пугать не-разработчиков)?

p.s.: Ах, да! Стоимость. Судя по тому, что мне удалось найти, час расшифровки видео стоит меньше $2.5. Считаю, это отличная сделка.

p.p.s.: Всё ещё остаётся возможность сделать это через веб-интерфейс Google AI Studio, выбрав в качестве модели Gemini 2.5 Pro. Но там большие файлы могут не пройти по токенам. А файлы с лекций или эфиров, как правило, достаточно большие.
1🔥125👍4
В продолжение темы про анализ видео через AI.

На днях вышел Qwen3 VL 235B A22B Thinking. Он, как и Gemini, позволяет загружать видео и получать описание текстом о том, что в нём происходит.

Доступен на официальном сайте Qwen. Максимальная продолжительность загружаемого видео – 10 минут. Я запросил описание каждого 5-секундного отрезка в 6-минутном видео и он хорошо справился, честно описав почти каждую секунду.

Я бы даже добавил работу с ним через API в скрипт из вчерашнего поста. Но доступно пока только то API, которое через Alibaba Cloud. А там всё настолько своеобразно, что я тёплым словом Google Cloud вспомнил. Так что сперва разберусь, как с Alibaba Cloud взаимодействовать, а потом уже доработаю скрипт 🙂
211🔥4👍2😁2
Kling выпустил обновление 2.5 Turbo и опять выклянчил подписку (но только для тестов).

Я его протестировал на сложных сценариях, чтобы составить мнение и поделиться с вами. На самом деле, апдейт достаточно минорный.

Но есть и интересные улучшения (в сравнении с базовой версией 2.1):

1. Лучше понимает физику движений. Даже сложных. Не всё идеально, но результат достаточно качественный.

2. Цена за генерацию снизилась на 30% по сравнению с базово 2.1! Вышла новая модель и она дешевле, чем старая. 50 токенов за 10s FullHD против 70 в версии 2.1. Самой дорогой версией всё ещё остаётся 2.1 Master за 200 кредитов.

3. Понимание промпта стало лучше. Да, это действительно так. И нужно следить за деталями промпта. У меня в одной из генераций парашютиста было написано «пролетает сквозь небоскрёбы». И парашютист действительно сперва влетел в небоскрёб, а потом из него же (с эффектами разбившегося стекла!) вылетел.

4. Скорость генерации. Как правило, занимает не более 5 минут. Это достаточно быстро, учитывая качество.

5. Модель лучше держит мелкие детали. Обратите внимание, что значок "Мерседеса" на фургоне остаётся стабильным на протяжении всего видео. Предыдущая версия, как правило, такие детали "мазала".

6. Помимо мелких деталей, Kling2.5 Turbo лучше держит тексты. Английские вообще отлично сохраняет, русские может смазать (см. примеры с машинами).

Какие "болячки" по-прежнему присутствуют:

1. Генерировать текст в режиме text-to-video модель не умеет. Ни русский, ни английский. За этим – в veo3.

2. Текст на русском языке со временем может плыть. Но большие надписи остаются консистентными.

3. Звук. Он у Kling по-прежнему такой, будто действие происходит где-то в сильно разряженном пространстве. Иногда может вообще остановиться посреди видео. Ждём обновлений в генерации звука.

4. С движениями в анимации Kling пока справляется плохо. Видео со снежками отлично передаёт весь спектр проблем. Но стоит отдать должное – задача действительно непростая.

5. Опять отрубили генерацию с последним кадром. А ведь только добавили её в модель предыдущей версии.

Итог: Kling2.5 Turbo по-прежнему отличный инструмент для определённого спектра задач. Плюс – улучшилась физика процессов и понимание промптов. При правильном подходе можно из неё выжать многое. Особенно – в сочетании с другими моделями.
28🔥4👍3
Взаимодействие SAM и Nano Banana для большего контроля.

SAM – это Segment Anything Model. Позволяет создавать маску выбранного на изображении объекта.

Я взял эту версию с fal.ai. Там можно создавать маску как вокруг заданной точки, так и внутри выбранной области.

После того, как модель выдаст маску, идём в Nano Banana (я также использовал версию с fal.ai), загружаем маску первым изображением, а исходное изображение вторым.

Теперь по маске можно заменить объект на другой. Это часто работает точнее, чем передавать в Nano Banana "Третий цветочный горшок слева зелёного цвета".

Для замены подойдёт, например, вот такой промпт (вставьте название объекта вместо {OBJECT_DESCRIPTION}):

Use two inputs: Image 1 = mask, Image 2 = original photo. The mask is a binary PNG where the target region is pure white #FFFFFF and all other pixels are pure black #000000 (if the colors are inverted, automatically invert the interpretation so the black region is treated as the placement area). Insert {OBJECT_DESCRIPTION} entirely inside the black masked region and modify only pixels within that region; every pixel outside the mask must remain bit-for-bit identical to Image 2. The object must be fully contained by the mask (no bleed or overrun); scale and, if necessary, gently warp the object to fit the region while preserving realistic proportions, perspective, and scene lighting. Match color temperature, exposure, contrast, sharpness, noise/grain, and white balance to the surrounding context; if shadows or reflections are needed, confine them to the masked area. Snap the object to the visual center of the region unless otherwise specified, leaving a subtle 2–4 px inner margin; use high-quality anti-aliasing on the object boundary but do not feather beyond the mask edge. Do not add or alter any content outside the mask (no text, borders, stickers, watermarks, or background changes). Maintain the exact pixel dimensions, aspect ratio, and EXIF orientation of Image 2; output a single PNG of the edited image at the same resolution as Image 2.


Если вы предоставляете сервис для конечных пользователей, то увеличение надёжности модели с помощью переданной маски может сильно упростить жизнь.

Примеры использования данного приёма – в медиа поста.
2👍147🔥3