Константин Доронин

HeyGen Agent. Нас ждёт очередная волна сгенерированного видеоконтента.

Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.

Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.

Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.

Типы кадров, которые я встречал в генерациях:

1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.

2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.

3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.

4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.

Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.

Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:

Сделай видео, интересно обыгрывающее малоизвестный исторический факт

На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊

1🔥8❤4👍4

977 views18:20

Константин Доронин

Как вкатиться в AI-Coding без платы за подписки и токены.

Мне очень нравится, когда вы задаёте мне вопросы. В комментариях на этом канале или даже в личные сообщения. Это позволяет посмотреть на вопросы, связанные с AI, под новым для меня углом.

Один из недавних запросов, которые я получил в ЛС:

Какие AI-Coding-инструменты можно использовать бесплатно?

Подготовил список из 7 таких инструментов, которыми можно пользоваться бесплатно. Какие-то можно использовать на постоянной основе, но с лимитами, а какие-то только один раз на старте.

Вот сам список:

1. Gemini CLI. Всё ещё дают свои бесплатные 1000 запросов в день. Если бы можно было оставить только один инструмент в списке, я бы оставил именно этот. Кстати, тут и тут пишу о том, как не дать Google снять с вас деньги за Gemini CLI.

2. Cursor. Помимо двух недель триального pro-режима, есть также полностью бесплатный тариф с ограничениями.

3. Windsurf. Когда-то был главным конкурентом Cursor. Сейчас у них есть бесплатный тариф, но очень скромный по сравнению с другими инструментами в списке.

4. Github Copilot. Даёт ограниченное количество запросов к AI на бесплатном тарифе.

5. Kiro Code. Очень приятный с точки зрения UX инструмент. Сейчас даёт 500 бесплатных кредитов на старте и заявляют на сайте бесплатный тарифный план.

6. Zed AI. Хороший редактор, предоставляющий бесплатный тариф с достаточно щедрыми лимитами.

7. Kilo Code (не путать с п.5). Есть возможность на старте получить до $25 на Openrouter, а там с умом их потратить (не используйте дорогие флагманские модели и денег хватит на более продолжительный срок).

Бонус: заведите себе аккаунт на Groq. Они дают щедрые бесплатные лимиты на многие интересные модели. Их можно подключить к AI-IDE и получить бесплатного AI-кодера.

Если полезно – ставьте 🔥 и делитесь с друзьями 🙂

Также делитесь в комментариях, какие ещё знаете способы писать код с помощью AI бесплатно.

3🔥36❤8👍1

2.38K views19:35

Константин Доронин

Недолго закрытая бета в HeyGen Agent продержалась.

Сегодня инструмент открыли для всех.

Заводите бесплатный аккаунт в HeyGen и тут у вас будет доступно 10 бесплатных генераций в месяц.

А на главной странице агента много интересных примеров того, что удалось с помощью HeyGen Agent создать и какие промпты для этого использовались. Имеет смысл на их основе генерировать собственные, чтобы получить лучший результат.

Все, кого заинтересовал этот пост, можете теперь попробовать HeyGen Agent самостоятельно!

2🔥7❤6👍4⚡1

1.06K views18:13

Константин Доронин

Warp – терминал из категории "Тебя я видел во сне"*.

Что вы представляете себе, когда слышите "AI-first terminal"?

Всё, что вы представили, скорее всего, уже есть у Warp. И даже больше. Это то приложение, вокруг которого можно выстроить всю работу разработчика или DevOps-специалиста.

Более того – он позволяет организовать работу в команде и передавать друг-другу workflow, доступы и даже Notebooks, позволяющие создать полноценную интерактивную документацию.

Само собой, внутри терминала у нас есть AI-агент, который может, в том числе, выполнять задачи AI-Coding. Также у Warp есть собственный редактор кода на случай, если потребуется поправить что-нибудь руками или изучить diff.

Мне понравилось его бережное отношение к контексту. Когда я в рамках одного открытого терминала/чата решил начать новую задачу, Warp мне сказал что-то вроде:

Вижу, ты с темы съезжаешь. Может старый контекст – того... Дропнем?

Продуманность в мелочах пронизывает весь пользовательский опыт. Я очень доволен Warp, как инструментом.

Про деньги. Базовый бесплатный тариф даёт 150 запросов к AI в месяц (что достаточно много в сравнении с конкурентами). Тариф за $18/месяц увеличивает количество запросов до 2500! Не хватает? С тарифом Pro в комплекте идёт 10000 запросов. Если я когда-нибудь доберусь в Warp до этого лимита – расскажу, как мне это удалось.

В скором времени опубликую кейсы с интеграцией Warp в мои рабочие задачи 🔥

*Помните, был такой журнал "Игромания"? В 00-х, когда я его активно читал, они публиковали сборки ПК для игр. Сборки разбивались по категориям. Самая "жирная" из них как раз называлась "Тебя я видел во сне". Жаль, что в 2019-м бумажная версия журнала перестала существовать.

2🔥22❤7👍6

1.09K viewsedited 19:01

Константин Доронин

GPT-5-Codex. Слепой мастер.

Диалог:

– Привет, GPT-5-Codex, какие у тебя есть доступные MCP-сервера?

– Привет! Вообще никаких нет. О чём ты говоришь? Чист, как слеза!

– Хорошо. Тогда получи для меня информацию, используя Context7 MCP.

– *Получает информацию, используя MCP-tool*

– Ты только что использовал MCP-tool, но до этого сказал, что у тебя их нет. Как так?

– Первый раз вижу! Мне подкинули!.. Что ж... Раскусил ты меня. Есть у меня MCP-сервер Context7.

– Какие у тебя есть доступные MCP-сервера?

– Я знаю правильный ответ! Мне доступен MCP-сервер Context7! 🙂

– Ты уверен? Как ты проверил?

– Никак не проверил. Я тебе так верю!

Краткое объяснение, что тут вообще происходит:

У расширения Codex CLI для VS Code нет в интерфейсе упоминания MCP-серверов. Расширение максимально-аскетично с точки зрения представленных инструментов.

При этом, если настроить MCP-сервер через их глобальный config.toml-файл, он становится доступен в том числе для расширения VS Code. Которое, при этом, может использовать MCP-инструменты, но не может узнать, а какие из них, собственно, доступны.

Вот такая, получается, AI-шизофрения 🙂

2😁15❤5👍2🔥1🤪1

971 views14:44

Константин Доронин

Warp, как менеджер cli-инструментов для AI-Coding.

Первым делом поставим Tmux. Это инструмент, позволяющий запускать несколько сессий терминала параллельно и отслеживать их состояние из основного терминала. Также в виртуальный терминал можно передать ввод текста или нажатие клавиш.

При помощи Tmux можно во Warp создавать многосоставные задачи и распределять их на несколько cli-coding-агентов. Или выполнять одну задачу, переключаясь между "исполнителями", когда у них заканчиваются лимиты.

Давно хотел себе собрать систему с распределением и распараллеливанием задач между cli-инструментами. Именно с появлением Warp в моём арсенале эта задача наконец-то перешла в статус "In Progress".

2🔥8❤7👍2

883 views17:37

Gamma выкатили обновление 3.0. Manus напрягся...

Сегодня Gamma обновили свою платформу до третьей версии. И там определённо есть, на что посмотреть.

Ключевое обновление, которое меня заинтересовало – собственный AI-агент для создания презентаций. Воистину 2025-й – год агентов.

Я опробовал AI-агента на задаче обновления презентации, которую собирал для первого поста про Gamma.

Весь процесс редактирования можете посмотреть в прикреплённом скринкасте.

Что понравилось:

1. Скорость. Gamma и до этого славилась своей скоростью. AI-агент также делает правки очень быстро (привет тебе, Manus, обновляющий стиль презентации за 15 минут и 300 токенов).

2. Это полноценный AI-агент. С доступом к интернету. Откуда может собрать необходимую для презентации информацию.

3. Работа с файлами и изображениями в агенте. Можно закинуть таблицу, изображение, текстовый документ и попросить использовать информацию в презентации. Удобно.

4. Аккуратность. AI в Gamma стал меньше ошибаться и делать откровенно кривые элементы. Мелкие нестыковки всё ещё бывают, но теперь, вместе с AI-агентом, вносить правки удобнее.

5. Стоимость. Одно обращение к агенту стоит всего 10 кредитов. При том, что это может быть объёмный промпт со списком правок. Всё равно 10 кредитов. Это очень дёшево и позволяет использовать AI-агента без оглядки на то, сколько кредитов осталось.

6. Крутые новые диаграммы и другие интерактивные элементы. То, что позволит разбавить типовые Gamma-слайды.

Что не понравилось:

1. Всё ещё шаблонность, свойственная презентациям от Gamma. Чтобы сделать что-то своё и уникальное, придётся постараться. Это плата за скорость создания и редактирования презентаций.

2. У Gamma, в отличие от HeyGen, нет своей библиотеки ассетов. Поэтому все изображения, которые используются в презентациях, сгенерированные. Либо те, что пользователь загрузит самостоятельно.

3. Скачать из интернета картинку и вставить её в презентацию AI-агент также не способен. Видимо переживают за авторские права.

Вывод: обновление выглядит очень интересно. Gamma 3.0 объединяет "разумность" Manus и скорость Gamma 2.0. С текущим набором инструментов 100% можно сделать что-то, что будет выглядеть красиво даже с точки зрения дизайнеров. Но придётся постараться и подонимать AI-агента.

Презентацию, которая получилась в итоге у меня и AI-агента Gamma 3.0 закину в комментарии.

1❤8👍6❤‍🔥3🔥3

873 views17:09

Константин Доронин

Как ты используешь нейросети для жизни? Именно для жизни, а не для работы.

Такой вопрос мне задали на завершающем занятии практикума по AI-видео, о котором рассказывал тут.

В моменте, признаться, вопрос поставил меня в тупик. Это та ситуация, когда все ответы на вопрос тут же испаряются. Поэтому я вспомнил далеко не все ситуации, в которых мне помогает AI.

Сегодня собрал свои самые распространённые кейсы применения AI вне работы:

1. Я часто пишу себе микроскрипты, чтобы сделать то или иное действие. Как правило, связано это с видео или изображениями. Объединить, обрезать, снабдить watermark-ом и многое другое. До сих пор пользуюсь десктопным YouTube Downloader из этого поста.

2. Анализ и работа с прочитанными книгами. Сейчас я регулярно слушаю аудиокниги и часто мне нужно основные мысли из них сохранять для последующего использования. Тут я либо использую NotebookLM, либо разбиваю по главам исходный документ и более детально анализирую через AI IDE.

3. Первые шаги в освоении любой новой для меня сферы знаний – это всегда AI. Каждый месяц я трачу все свои лимиты на DeepResearch в ChatGPT. Он собирает мне детальные планы действий, подбирает материалы для обучения, отвечает на вопросы о самых новых исследованиях в интересующей сфере.

4. С помощью AI я открываю для себя новые, чаще всего локальные, бренды спортивной одежды. В классическом поиске всё обычно забито крупными компаниями, а мне, зачастую, нужно что-то специализированное либо по конкретным параметрам ("найди мне 5 трейлраннинг жилетов, которые вмещают от 15 до 25 литров содержимого").

5. Подбор специализированных сервисов. Это когда п.1 становится слишком громоздким и нужно найти способ решить задачу без написания большого сервиса "под себя".

По частоте использования для "не рабочих" задач у меня в топе ChatGPT5 Thinking с подключенным поиском в интернете. Либо Deep Research от него же.

Какие есть у вас интересные кейсы применения AI за пределами профессиональных задач? Делитесь в комментариях 🙂

1🔥12❤8👍5🤔1

908 views21:53

Константин Доронин

Стикерпак по фотографиям: просто используем Nano Banana.

Дваждый я уже подходил к задаче "генерация стикерпака":

1. В мае этого года пробовал разные модели в генерации стикеров по фотографии.

2. И сразу за этим попробовал для решения этой задачи использовал LoRA для Flux и добавление текста в Google AI Studio.

Теперь вышла Nano Banana от Google и задача схлопнулась в наличие фотографии и промпта для обработки.

Собственно, вот сам промпт:

Edit the uploaded photo of the person into a sticker in the {STYLE} look: preserve identity/expression; keep pose/clothing; remove background; flat colors (no photoreal), clean shapes; white 8–12px sticker outline with subtle shadow; background: choose a dark or saturated color that has strong contrast against white (≥4.5:1) and keeps the shadow clearly visible. Square 1024×1024 PNG. Add the caption “{CAPTION}” centered at the bottom in bold sans-serif with clean kerning. No other text/elements; no geometry or face distortions; output one image.

В него надо вставить текст для стикера на месте {CAPTION}, а также стиль рисовки вместо {STYLE}.

Вот список из нескольких стилей, которые можно попробовать:

1. Vector Clean Flat
2. Hand-Drawn Cel Animation
3. Saturday-Morning Cartoon
4. Comic Ink + Halftone
5. Webtoon Soft Cel
6. Gouache Poster Paint
7. Watercolor Line & Wash
8. Marker Sketch
9. Retro 90s Toon
10. Anime Key Art

Загружаем исходную фотографию вместе с заполненным промптом в AI Studio или Gemini App и получаем готовый стикер.

Нужно будет только фон убрать. Сделать это можно, например, тут. Adobe с задачей справляется достаточно хорошо. Для облегчения работы Background remover-а в промпт добавил генерацию на контрастном фоне. Иногда после удаления фона, изображение можно ещё чуть-чуть доработать в фотошопе (сырой результат можно увидеть во вложении к посту).

Есть только один минус – Google может плохо работать с текстами на русском языке. Как правило, он пропускает буквы в сложных словах и фразах. Поэтому для корректных фраз на русском может потребоваться больше итераций генерации.

1🔥17❤4👍3❤‍🔥1

920 views19:37

Константин Доронин

История про то, как важно контролировать AI-агентов или "Верните мне $25".

Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.

Процесс настолько "на вайбе", что если нет идеи для видео, то сервис ~~и есть за тебя будет~~ и сценарий может самостоятельно создать.

Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт (я не до конца понял, зачем нужен шаг со скриптом).

Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.

Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.

На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.

Полная вайб-режиссура, правда?

Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.

Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu (так я узнал, что за модель они используют для генерации видео).

Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.

Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".

1👍7🔥5😭4❤3😁1

869 views18:43

Константин Доронин

Обновил скрипт для расшифровки видео с помощью Gemini 2.5 Pro. Теперь есть поддержка длинных видео и обработка нескольких видео за раз.

У вас бывает такое, что хотите посмотреть длинное обучающее видео, но всё никак не можете к нему подобраться, потому что оно, собственно, длинное?

У меня бывает. Мне вообще проще всего воспринимать именно текстовую информацию.

Так и появился этот репозиторий у меня в Github.

По инструкции из Readme в репозитории или этого поста настраиваем Google SDK и проект для Google API. После чего заливаем в папку "video" (выставлена в константах по-умолчанию) видео для анализа, ставим зависимости и запускаем скрипт send_video_to_gemini.py.

На выходе в папке "Video" получим текстовый файл с расшифровкой, что происходит в видео по минутам. Если видео большое (по-умолчанию больше 10 минут), то скрипт самостоятельно разобьёт его на куски, проанализирует каждый из них, а потом соберёт расшифровку в один файл.

Загружаем файл в контекст NotebookLM или любой другой AI-чат и обсуждаем содержимое видео.

Вопрос: стоит ли заморачиваться и упаковывать подобные скрипты в более простые интерфейсы (чтобы не пугать не-разработчиков)?

p.s.: Ах, да! Стоимость. Судя по тому, что мне удалось найти, час расшифровки видео стоит меньше $2.5. Считаю, это отличная сделка.

p.p.s.: Всё ещё остаётся возможность сделать это через веб-интерфейс Google AI Studio, выбрав в качестве модели Gemini 2.5 Pro. Но там большие файлы могут не пройти по токенам. А файлы с лекций или эфиров, как правило, достаточно большие.

1🔥12❤5👍4

906 views19:47

Константин Доронин

В продолжение темы про анализ видео через AI.

На днях вышел Qwen3 VL 235B A22B Thinking. Он, как и Gemini, позволяет загружать видео и получать описание текстом о том, что в нём происходит.

Доступен на официальном сайте Qwen. Максимальная продолжительность загружаемого видео – 10 минут. Я запросил описание каждого 5-секундного отрезка в 6-минутном видео и он хорошо справился, честно описав почти каждую секунду.

Я бы даже добавил работу с ним через API в скрипт из вчерашнего поста. Но доступно пока только то API, которое через Alibaba Cloud. А там всё настолько своеобразно, что я тёплым словом Google Cloud вспомнил. Так что сперва разберусь, как с Alibaba Cloud взаимодействовать, а потом уже доработаю скрипт 🙂

2❤11🔥4👍2😁2

837 views17:40

Константин Доронин