Ключевая функциональность CLI-coding-агентов от LLM-провайдеров.
Это – аутентификация через свой аккаунт и перенос лимитов без дополнительной платы за токены. Google сделал дополнительный шаг, отсыпав весьма щедрые ежедневные лимиты без подписки (о том, как оставить их бесплатными тут и тут)
Благодаря этому, OpenAI и Google могут себе позволить выпустить альфа-версии CLI-интрументов, которые тестируют об конечных пользователей. Да, они выпускают новые версии продуктов, порой, по 3-5 раз в неделю, но по количеству возможностей с Claude Code сравнятся ещё нескоро.
Производители AI IDE с отдельной подпиской не могут позволить себе такой роскоши. У них есть Cursor, который отъел весомую долю рынка по "праву первого", а также ещё с десяток сильных конкурентов.
Поэтому Amazon, выпуская Kiro Code, сильно переосмыслил AI-coding с точки зрения UX. А Kilo Code закидывал пользователей бесплатными долларами на счёт в Openrouter.
Всё это для того, чтобы хоть как-то отстроить себя от конкурентов. Потому что конкурентного преимущества "можете использовать подписку, за которую уже платите" у них нет.
Такие мысли приходят в процессе исследования Codex CLI. Думаю, совсем скоро будет полноценный обзор.
Это – аутентификация через свой аккаунт и перенос лимитов без дополнительной платы за токены. Google сделал дополнительный шаг, отсыпав весьма щедрые ежедневные лимиты без подписки (о том, как оставить их бесплатными тут и тут)
Благодаря этому, OpenAI и Google могут себе позволить выпустить альфа-версии CLI-интрументов, которые тестируют об конечных пользователей. Да, они выпускают новые версии продуктов, порой, по 3-5 раз в неделю, но по количеству возможностей с Claude Code сравнятся ещё нескоро.
Производители AI IDE с отдельной подпиской не могут позволить себе такой роскоши. У них есть Cursor, который отъел весомую долю рынка по "праву первого", а также ещё с десяток сильных конкурентов.
Поэтому Amazon, выпуская Kiro Code, сильно переосмыслил AI-coding с точки зрения UX. А Kilo Code закидывал пользователей бесплатными долларами на счёт в Openrouter.
Всё это для того, чтобы хоть как-то отстроить себя от конкурентов. Потому что конкурентного преимущества "можете использовать подписку, за которую уже платите" у них нет.
Такие мысли приходят в процессе исследования Codex CLI. Думаю, совсем скоро будет полноценный обзор.
1❤14👍7🔥3
Буквально пару дней назад потратил на fal.ai $30+ долларов на генерацию видео с veo3, а сегодня они выкатили снижение цен на использование данной модели.
Стоимость упала до 50%. Подробная информация о ценах от самих fal.ai – в медиа поста.
Так что, если планировали заняться генерацией veo3-видео через API, сейчас – лучшее время для этого 🔥
Стоимость упала до 50%. Подробная информация о ценах от самих fal.ai – в медиа поста.
Так что, если планировали заняться генерацией veo3-видео через API, сейчас – лучшее время для этого 🔥
1🔥18👍2❤1🤯1
Сегодня боролся с наследием, которое было у меня в Figma MCP.
Изначально в качестве "базы" я брал тот самый нашумевший "Cursor Talk to Figma MCP", потому что у него была достаточно неплохая (на первый взгляд) реализация.
Целью было переделать "универсальный MCP" под тот, который будет заточен под конкретную задачу:
Я выпилил из него 20 инструментов для дизайнера, а также переписал под более привычный для меня стек (с JS на Python). Плюс – сделал полный рефакторинг плагина для Figma, потому что хранение 2000+ строк JS-кода в одном файле пробуждает во мне вьетнамские флешбеки времён главенства jQuery. И, конечно же, добавил кастомных инструментов.
Какое наследие поборол в текущем обновлении:
1. Добавил в инструмент get_node_info больше информации о позиционировании элемента. Был очень удивлён, что этих параметров у исходного сервера не было. Теперь, лучше понимая расположение блоков на странице, MCP-сервер лажает куда меньше. Даже без специализированного пайплайна, заточенного под него.
2. Убрал вкладку "About" из плагина для Figma. Там красовалась информация об авторе плагина "Cursor Talk to Figma MCP". Я не против его упомянуть, но как базу и источник вдохновения для моего решения. А не как основного автора 🙂
3. Дочистил следы 20 не используемых инструментов. Стало меньше кода с сохранением всей функциональности – мой любимый тип изменений в коде.
Пока что онбординг у меня есть только в файле Readme. Но если склонировать себе репозиторий и попросить Cursor поднять Figma MCP, то он непременно справится. Пробуйте! ❤️
Изначально в качестве "базы" я брал тот самый нашумевший "Cursor Talk to Figma MCP", потому что у него была достаточно неплохая (на первый взгляд) реализация.
Целью было переделать "универсальный MCP" под тот, который будет заточен под конкретную задачу:
Делать из Figma-макета вёрстку в HTML+CSS с возможностью на лету адаптироваться под стек
Я выпилил из него 20 инструментов для дизайнера, а также переписал под более привычный для меня стек (с JS на Python). Плюс – сделал полный рефакторинг плагина для Figma, потому что хранение 2000+ строк JS-кода в одном файле пробуждает во мне вьетнамские флешбеки времён главенства jQuery. И, конечно же, добавил кастомных инструментов.
Какое наследие поборол в текущем обновлении:
1. Добавил в инструмент get_node_info больше информации о позиционировании элемента. Был очень удивлён, что этих параметров у исходного сервера не было. Теперь, лучше понимая расположение блоков на странице, MCP-сервер лажает куда меньше. Даже без специализированного пайплайна, заточенного под него.
2. Убрал вкладку "About" из плагина для Figma. Там красовалась информация об авторе плагина "Cursor Talk to Figma MCP". Я не против его упомянуть, но как базу и источник вдохновения для моего решения. А не как основного автора 🙂
3. Дочистил следы 20 не используемых инструментов. Стало меньше кода с сохранением всей функциональности – мой любимый тип изменений в коде.
Пока что онбординг у меня есть только в файле Readme. Но если склонировать себе репозиторий и попросить Cursor поднять Figma MCP, то он непременно справится. Пробуйте! ❤️
2❤14🔥7👍5😁1
О проблеме большинства MCP-серверов.
Представьте себе ситуацию: вам нужно построить дом. Вы решили сделать это самостоятельно и пошли изучать на YouTube премудрости этого занятия.
В первом же ролике вам предлагают крутейший набор из 500 инструментов, с которыми можно построить самый лучший дом по минимальной цене.
Приходит заказ, вы раскладываете инструменты на столе... И что? Как с ними обращаться, чтобы получился тот самый дом?
Эти инструменты, разбросанные на столе – типичный MCP-сервер. Разработчики наделали инструментов по принципу "Чем больше – тем лучше", но почему-то никто не подумал, а как пользователь будет инструментами работать?
Получается, что гораздо лучше иметь молоток и инструкцию "Возьми в руки молоток и гвоздь, вбей гвоздь в доску", чем целый набор разнообразных инструментов, которые непонятно для чего нужны.
Можно сказать «У каждого инструмента MCP-сервера есть описание. Мало что ли?». Да, мало. Груда не связанных между собой в единый пайплайн инструментов. А лишний десяток-другой инструментов ещё и контекст забьёт так, что AI-агент отупеет.
Пара хороших примеров организации MCP-серверов:
1. Backlog.md. У него есть MCP-сервер, а также отдельный агент для Claude Code, промпт для которого детально объясняет, как нужно работать с инструментами сервера.
2. Context7. Пример того самого молотка с гвоздями. Ровно два инструмента, с которыми AI-агент справляется без дополнительных инструкций. Так как с ним всё просто.
Возвращаясь к нашей метафоре:
Представьте себе ситуацию: вам нужно построить дом. Вы решили сделать это самостоятельно и пошли изучать на YouTube премудрости этого занятия.
В первом же ролике вам предлагают крутейший набор из 500 инструментов, с которыми можно построить самый лучший дом по минимальной цене.
Приходит заказ, вы раскладываете инструменты на столе... И что? Как с ними обращаться, чтобы получился тот самый дом?
Эти инструменты, разбросанные на столе – типичный MCP-сервер. Разработчики наделали инструментов по принципу "Чем больше – тем лучше", но почему-то никто не подумал, а как пользователь будет инструментами работать?
Получается, что гораздо лучше иметь молоток и инструкцию "Возьми в руки молоток и гвоздь, вбей гвоздь в доску", чем целый набор разнообразных инструментов, которые непонятно для чего нужны.
Можно сказать «У каждого инструмента MCP-сервера есть описание. Мало что ли?». Да, мало. Груда не связанных между собой в единый пайплайн инструментов. А лишний десяток-другой инструментов ещё и контекст забьёт так, что AI-агент отупеет.
Пара хороших примеров организации MCP-серверов:
1. Backlog.md. У него есть MCP-сервер, а также отдельный агент для Claude Code, промпт для которого детально объясняет, как нужно работать с инструментами сервера.
2. Context7. Пример того самого молотка с гвоздями. Ровно два инструмента, с которыми AI-агент справляется без дополнительных инструкций. Так как с ним всё просто.
Возвращаясь к нашей метафоре:
Хороший MCP-сервер – это тот, у которого, помимо инструментов, есть схема того, как будет строиться дом, а также информация о перечне необходимых материалов.
1🔥17👍10❤2🤔1
Сравнение генераторов изображений в задаче колоризации и улучшения старых фотографий.
В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:
Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".
Более-менее приемлемые результаты выдают только:
1. Nano Banana от Google.
2. Новый Seedream 4.0 Edit от Bytedance.
3. ChatGPT 5 от OpenAI.
Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.
Взял универсальный простой промпт, один для всех моделей:
В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.
Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.
Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.
ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.
Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.
По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.
p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
В посте с колоризацией и "оживлением" старых фотографий Омска в комментариях резонно прозвучал вопрос:
Есть ли какие-то альтернативы Nano Banana для данной задачи? Возможно ли, что другие модели справляются лучше?
Я прошёлся по 5-7 различным моделям, которые обещают "аккуратное редактирование изображений".
Более-менее приемлемые результаты выдают только:
1. Nano Banana от Google.
2. Новый Seedream 4.0 Edit от Bytedance.
3. ChatGPT 5 от OpenAI.
Генерации в Nano Banana и Seedream делал через fal.ai. ChatGPT – через одноимённое приложение для MacOS.
Взял универсальный простой промпт, один для всех моделей:
Colorize and restore this black-and-white photo with an authentic, period-correct look. Add natural, balanced colors (skin, hair, clothing, foliage, sky, wood, metal, stone). Gently increase clarity and dynamic range; remove dust/scratches and noise; sharpen edges lightly while preserving fine detail and subtle film grain.
CRITICAL — preserve all text exactly:
• Keep every letter, number, logo, sign, label, stamp, and handwriting unchanged.
• Do not invent, erase, retype, translate, or stylize any characters.
• Maintain original fonts, kerning, spacing, alignment, and shapes of glyphs.
• If any character is unclear, leave it as-is rather than guessing.
Keep original composition and geometry (no cropping/warping). Avoid oversaturation or modern color casts; aim for realistic, slightly muted tones with natural highlight roll-off and shadow detail. Output at original resolution or higher.
В качестве исходников – 4 архивные фотографии. Все – чёрно-белые и с текстами на них.
Результаты можете увидеть в медиа поста, а также (что не влезло) – в комментариях.
Что ж. Лучшим выбором под эту задачу всё ещё остаётся Nano Banana. Большинство текстов сохраняет весьма качественно. Даже некоторые сложные и едва уловимые надписи поймал. Например, слово "имени" на фотографии с кинотеатром. Или на фотографии "Пролеткино" мелкие надписи успешно сохранил.
ChatGPT, как известно, перерисовывает изображение полностью. И с этой перерисовкой, по моему мнению, он начисто смывает атмосферу и настроение фотографии. Получаются очень плоские и постные картинки. Совсем не фотографии.
Seedream 4.0 позиционируют себя, как главного конкурента Nano Banana. Возможно, он неплохо справляется с изображениями хорошего качества. Его "default" соотношение сторон – это квадрат, а не соотношение сторон переданного для редактирования изображения. Это странно. Хотя, работая через API, подставить корректные соотношения сторон – не проблема. В любом случае, тексты у него "плывут" почти все, а на фотографиях – большое количество артефактов.
По итогу, я определился с первым местом в этом топе. А кому отдать второе и третье – так и не решил. Тут, как и с любыми инструментами, нужно подбирать тот, что лучше всего к задаче подходит. Для колоризации и улучшения фото лучший выбор – Nano Banana.
p.s.: для всех любителей AI-видео: Hailuo объявили неделю бесплатной генерации у них на сайте. Отличная возможность создать что-нибудь большое! 🔥
1🔥13❤7👍5
Codex CLI от OpenAI – скаковая лошадь без седла.
Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.
Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!
Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.
Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.
У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.
Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.
Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.
Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.
Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.
Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.
Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
Пару недель часть задач сгружал на Codex CLI, чтобы посмотреть, каково это – работать с данным инструментом. Делюсь наблюдениями.
Codex CLI – это AI-Coding-агент от OpenAI, который вышел 5 месяцев назад. За время, прошедшее с первого коммита, команда разработки выпустила 126 релизов. То есть они постоянно развиваются и обрастают функциональностью. Релизы почти каждый день!
Поэтому, данный обзор отражает ситуацию на текущий момент. В скором времени всё может измениться, надеюсь, в лучшую сторону.
Я считаю, что CLI-инструменты стоит сравнивать с Claude Code. Который, по моему мнению, обладает лучшим набором инструментов среди CLI-AI-Coding-Agent.
У Codex есть только базовая функциональность для CLI-инструмента: настройки, MCP-сервера, управление контекстом, выбор модели, запуск консольных команд, поиск в сети.
Кастомные команды, агенты, хуки, гибкие настройки для конкретного проекта (есть toml-файл, но он глобальный) пока что отсутствуют.
Вся документация по инструменту пока что существует только в формате md-файлов внутри github-проекта. Отдельно её пока не оформили.
Отдельно стоит отметить расширение для VS Code. Хоть там и нет поддержки команд из консоли, видно, что OpenAI пытаются замахнуться на конкуренцию с Cursor и иже с ними. С точки зрения интерфейса, Codex CLI выглядит интереснее, чем аналогичное VS Code-расширение для Claude Code. Но инструмент ещё в зачаточном состоянии и речь идёт, скорее, о перспективах развития.
Главный герой этого бала – ChatGPT 5, доступный в Codex CLI через веб-авторизацию с лимитами основной подписки. Тот самый скаковой жеребец, который вытягивает тестовую версию CLI-инструмента на несколько уровней выше. К сожалению, функциональности вокруг модели (того самого седла) пока недостаточно, чтобы заменить Claude Code.
Интересный момент: без явного указания на желаемую архитектуру решения, AI-агент от OpenAI склонен пихать весь код в один файл. Поэтому обязательно используем Agents.md файл и добавляем в него базовые инструкции для агента.
Вывод: Codex CLI – пока ещё достаточно сырое решение для AI Coding. За счёт того, что он даёт доступ к топовой модели в рамках $20-подписки, его имеет смысл добавить в свой пайплайн в качестве отдельного агента. Например, для написания спецификаций или совместной разработки архитектуры в формате диалога с AI-агентом.
21❤8🔥4👍2
Принёс вам запись нашего эфира про эффективный AI Coding.
Если ещё не смотрели – welcome! Во время эфира я для себя нашёл несколько новых направлений для изучения.
Такой вам ответ на вопрос «Что посмотреть на выходных?» 🙂
Если ещё не смотрели – welcome! Во время эфира я для себя нашёл несколько новых направлений для изучения.
Такой вам ответ на вопрос «Что посмотреть на выходных?» 🙂
YouTube
Вайб-кодинг, агенты, SDD и прочее про AI
http://xn--r1a.website/oestick - Коля
http://xn--r1a.website/gleb_pro_ai - Глеб
http://xn--r1a.website/the_ai_architect - Тимур
http://xn--r1a.website/ai_driven - Родион
http://xn--r1a.website/kdoronin_blog - Костя
Стрим в свободной форме. Разбираемся, как устроен сбор контекста в ИИ агентах и почему разрабатываем…
http://xn--r1a.website/gleb_pro_ai - Глеб
http://xn--r1a.website/the_ai_architect - Тимур
http://xn--r1a.website/ai_driven - Родион
http://xn--r1a.website/kdoronin_blog - Костя
Стрим в свободной форме. Разбираемся, как устроен сбор контекста в ИИ агентах и почему разрабатываем…
2🔥16❤5👍1🥴1
Про кейсы применения Graphiti.
Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.
Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.
Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.
Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.
При этом запустить пример достаточно просто:
1. Устанавливаем Graphiti по инструкции отсюда.
2. Запускаем MCP-сервер по этой инструкции.
3. Добавляем Cursor Rules от ребят из Zep.
Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
Изучаю практические кейсы, которые уже были реализованы с помощью Graphiti. Из-за того, что библиотека новая и ей всего год, примеров не так чтобы огромное количество.
Тем ценнее, что авторы Graphiti сами периодически подкидывают весьма интересные материалы для изучения.
Например, у них в блоге есть кейс о том, как реализовать память о программном проекте в качестве Graphiti-графа с помощью MCP Graphiti, подключенному к Cursor.
Фактически, в результате мы получаем память о проекте и всех изменениях, которые в нём происходили. С учётом связей между различными сущностями. Что позволяет Cursor-у в любой момент задать в граф вопрос в духе "Кто, зачем и когда добавил этот метод?" и получить на него ответ.
При этом запустить пример достаточно просто:
1. Устанавливаем Graphiti по инструкции отсюда.
2. Запускаем MCP-сервер по этой инструкции.
3. Добавляем Cursor Rules от ребят из Zep.
Готово! Вы восхитительны! Можно создавать новый проект, смотреть, как заполняется граф и дорабатывать решение под свои нужды 🔥
2🔥18👍5❤3🎉1
HeyGen Agent. Нас ждёт очередная волна сгенерированного видеоконтента.
Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.
Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.
Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.
Типы кадров, которые я встречал в генерациях:
1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.
2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.
3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.
4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.
Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.
Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:
На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊
Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.
Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.
Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.
Типы кадров, которые я встречал в генерациях:
1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.
2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.
3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.
4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.
Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.
Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:
Сделай видео, интересно обыгрывающее малоизвестный исторический факт
На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊
1🔥8❤4👍4