HeyGen Agent. Нас ждёт очередная волна сгенерированного видеоконтента.
Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.
Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.
Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.
Типы кадров, которые я встречал в генерациях:
1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.
2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.
3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.
4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.
Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.
Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:
На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊
Сегодня мне пришёл доступ к бете AI-агента для создания длинных видео от HeyGen.
Он генерирует полноценные ролики длиной до 60 секунд (в некоторых случаях может сгенерировать и более продолжительные). Умеет делать как горизонтальные, так и вертикальные видео.
Стоит отметить, что это не AI-generated видео, каким мы его привыкли видеть. HeyGen Agent, скорее, AI-монтажёр, который самостоятельно собирает видео из создаваемых им же кадров.
Типы кадров, которые я встречал в генерациях:
1. HeyGen-аватар, который произносит текст. По сути, это единственный по-настоящему AI-generated-контент. Остальные кадры, скорее, смонтированы при помощи AI.
2. Видео со стоков. Судя по всему, это видео из собственной библиотеки HeyGen.
3. Изображение из интернета. Это точно не сток, потому что в одном из видео есть изображение таблицы бух. учёта 🙂 Изображения кадрировать не умеет, поэтому очень часто добавляет горизонтальные изображения в вертикальное видео.
4. Что-то вроде интерактивного слайда для презентации. Этот тип кадров получается у HeyGen Agent хуже всего. Присмотритесь к кадрам такого типа в видео про AI.
Поверх любого кадра он помещает субтитры. Пока не нашёл, как их отключить.
Агент не станет следовать слово в слово предоставленному промпту. Но, как правило, детально-прописанный промпт позитивно влияет на качество результата. "Как правило", потому что видео про Эму было сгенерировано по банальному:
Сделай видео, интересно обыгрывающее малоизвестный исторический факт
На бесплатном тарифе в раннем доступе дают сгенерировать с помощью HeyGen Avatar всего 10 видео. И они тратятся очень быстро 😊
1🔥8❤4👍4
Как вкатиться в AI-Coding без платы за подписки и токены.
Мне очень нравится, когда вы задаёте мне вопросы. В комментариях на этом канале или даже в личные сообщения. Это позволяет посмотреть на вопросы, связанные с AI, под новым для меня углом.
Один из недавних запросов, которые я получил в ЛС:
Подготовил список из 7 таких инструментов, которыми можно пользоваться бесплатно. Какие-то можно использовать на постоянной основе, но с лимитами, а какие-то только один раз на старте.
Вот сам список:
1. Gemini CLI. Всё ещё дают свои бесплатные 1000 запросов в день. Если бы можно было оставить только один инструмент в списке, я бы оставил именно этот. Кстати, тут и тут пишу о том, как не дать Google снять с вас деньги за Gemini CLI.
2. Cursor. Помимо двух недель триального pro-режима, есть также полностью бесплатный тариф с ограничениями.
3. Windsurf. Когда-то был главным конкурентом Cursor. Сейчас у них есть бесплатный тариф, но очень скромный по сравнению с другими инструментами в списке.
4. Github Copilot. Даёт ограниченное количество запросов к AI на бесплатном тарифе.
5. Kiro Code. Очень приятный с точки зрения UX инструмент. Сейчас даёт 500 бесплатных кредитов на старте и заявляют на сайте бесплатный тарифный план.
6. Zed AI. Хороший редактор, предоставляющий бесплатный тариф с достаточно щедрыми лимитами.
7. Kilo Code(не путать с п.5) . Есть возможность на старте получить до $25 на Openrouter, а там с умом их потратить (не используйте дорогие флагманские модели и денег хватит на более продолжительный срок).
Бонус: заведите себе аккаунт на Groq. Они дают щедрые бесплатные лимиты на многие интересные модели. Их можно подключить к AI-IDE и получить бесплатного AI-кодера.
Если полезно – ставьте 🔥 и делитесь с друзьями 🙂
Также делитесь в комментариях, какие ещё знаете способы писать код с помощью AI бесплатно.
Мне очень нравится, когда вы задаёте мне вопросы. В комментариях на этом канале или даже в личные сообщения. Это позволяет посмотреть на вопросы, связанные с AI, под новым для меня углом.
Один из недавних запросов, которые я получил в ЛС:
Какие AI-Coding-инструменты можно использовать бесплатно?
Подготовил список из 7 таких инструментов, которыми можно пользоваться бесплатно. Какие-то можно использовать на постоянной основе, но с лимитами, а какие-то только один раз на старте.
Вот сам список:
1. Gemini CLI. Всё ещё дают свои бесплатные 1000 запросов в день. Если бы можно было оставить только один инструмент в списке, я бы оставил именно этот. Кстати, тут и тут пишу о том, как не дать Google снять с вас деньги за Gemini CLI.
2. Cursor. Помимо двух недель триального pro-режима, есть также полностью бесплатный тариф с ограничениями.
3. Windsurf. Когда-то был главным конкурентом Cursor. Сейчас у них есть бесплатный тариф, но очень скромный по сравнению с другими инструментами в списке.
4. Github Copilot. Даёт ограниченное количество запросов к AI на бесплатном тарифе.
5. Kiro Code. Очень приятный с точки зрения UX инструмент. Сейчас даёт 500 бесплатных кредитов на старте и заявляют на сайте бесплатный тарифный план.
6. Zed AI. Хороший редактор, предоставляющий бесплатный тариф с достаточно щедрыми лимитами.
7. Kilo Code
Бонус: заведите себе аккаунт на Groq. Они дают щедрые бесплатные лимиты на многие интересные модели. Их можно подключить к AI-IDE и получить бесплатного AI-кодера.
Если полезно – ставьте 🔥 и делитесь с друзьями 🙂
Также делитесь в комментариях, какие ещё знаете способы писать код с помощью AI бесплатно.
3🔥36❤8👍1
Недолго закрытая бета в HeyGen Agent продержалась.
Сегодня инструмент открыли для всех.
Заводите бесплатный аккаунт в HeyGen и тут у вас будет доступно 10 бесплатных генераций в месяц.
А на главной странице агента много интересных примеров того, что удалось с помощью HeyGen Agent создать и какие промпты для этого использовались. Имеет смысл на их основе генерировать собственные, чтобы получить лучший результат.
Все, кого заинтересовал этот пост, можете теперь попробовать HeyGen Agent самостоятельно!
Сегодня инструмент открыли для всех.
Заводите бесплатный аккаунт в HeyGen и тут у вас будет доступно 10 бесплатных генераций в месяц.
А на главной странице агента много интересных примеров того, что удалось с помощью HeyGen Agent создать и какие промпты для этого использовались. Имеет смысл на их основе генерировать собственные, чтобы получить лучший результат.
Все, кого заинтересовал этот пост, можете теперь попробовать HeyGen Agent самостоятельно!
2🔥7❤6👍4⚡1
Warp – терминал из категории "Тебя я видел во сне"*.
Что вы представляете себе, когда слышите "AI-first terminal"?
Всё, что вы представили, скорее всего, уже есть у Warp. И даже больше. Это то приложение, вокруг которого можно выстроить всю работу разработчика или DevOps-специалиста.
Более того – он позволяет организовать работу в команде и передавать друг-другу workflow, доступы и даже Notebooks, позволяющие создать полноценную интерактивную документацию.
Само собой, внутри терминала у нас есть AI-агент, который может, в том числе, выполнять задачи AI-Coding. Также у Warp есть собственный редактор кода на случай, если потребуется поправить что-нибудь руками или изучить diff.
Мне понравилось его бережное отношение к контексту. Когда я в рамках одного открытого терминала/чата решил начать новую задачу, Warp мне сказал что-то вроде:
Продуманность в мелочах пронизывает весь пользовательский опыт. Я очень доволен Warp, как инструментом.
Про деньги. Базовый бесплатный тариф даёт 150 запросов к AI в месяц (что достаточно много в сравнении с конкурентами). Тариф за $18/месяц увеличивает количество запросов до 2500! Не хватает? С тарифом Pro в комплекте идёт 10000 запросов. Если я когда-нибудь доберусь в Warp до этого лимита – расскажу, как мне это удалось.
В скором времени опубликую кейсы с интеграцией Warp в мои рабочие задачи 🔥
*Помните, был такой журнал "Игромания"? В 00-х, когда я его активно читал, они публиковали сборки ПК для игр. Сборки разбивались по категориям. Самая "жирная" из них как раз называлась "Тебя я видел во сне". Жаль, что в 2019-м бумажная версия журнала перестала существовать.
Что вы представляете себе, когда слышите "AI-first terminal"?
Всё, что вы представили, скорее всего, уже есть у Warp. И даже больше. Это то приложение, вокруг которого можно выстроить всю работу разработчика или DevOps-специалиста.
Более того – он позволяет организовать работу в команде и передавать друг-другу workflow, доступы и даже Notebooks, позволяющие создать полноценную интерактивную документацию.
Само собой, внутри терминала у нас есть AI-агент, который может, в том числе, выполнять задачи AI-Coding. Также у Warp есть собственный редактор кода на случай, если потребуется поправить что-нибудь руками или изучить diff.
Мне понравилось его бережное отношение к контексту. Когда я в рамках одного открытого терминала/чата решил начать новую задачу, Warp мне сказал что-то вроде:
Вижу, ты с темы съезжаешь. Может старый контекст – того... Дропнем?
Продуманность в мелочах пронизывает весь пользовательский опыт. Я очень доволен Warp, как инструментом.
Про деньги. Базовый бесплатный тариф даёт 150 запросов к AI в месяц (что достаточно много в сравнении с конкурентами). Тариф за $18/месяц увеличивает количество запросов до 2500! Не хватает? С тарифом Pro в комплекте идёт 10000 запросов. Если я когда-нибудь доберусь в Warp до этого лимита – расскажу, как мне это удалось.
В скором времени опубликую кейсы с интеграцией Warp в мои рабочие задачи 🔥
*Помните, был такой журнал "Игромания"? В 00-х, когда я его активно читал, они публиковали сборки ПК для игр. Сборки разбивались по категориям. Самая "жирная" из них как раз называлась "Тебя я видел во сне". Жаль, что в 2019-м бумажная версия журнала перестала существовать.
2🔥22❤7👍6
GPT-5-Codex. Слепой мастер.
Диалог:
Краткое объяснение, что тут вообще происходит:
У расширения Codex CLI для VS Code нет в интерфейсе упоминания MCP-серверов. Расширение максимально-аскетично с точки зрения представленных инструментов.
При этом, если настроить MCP-сервер через их глобальный config.toml-файл, он становится доступен в том числе для расширения VS Code. Которое, при этом, может использовать MCP-инструменты, но не может узнать, а какие из них, собственно, доступны.
Вот такая, получается, AI-шизофрения 🙂
Диалог:
– Привет, GPT-5-Codex, какие у тебя есть доступные MCP-сервера?
– Привет! Вообще никаких нет. О чём ты говоришь? Чист, как слеза!
– Хорошо. Тогда получи для меня информацию, используя Context7 MCP.
– *Получает информацию, используя MCP-tool*
– Ты только что использовал MCP-tool, но до этого сказал, что у тебя их нет. Как так?
– Первый раз вижу! Мне подкинули!.. Что ж... Раскусил ты меня. Есть у меня MCP-сервер Context7.
– Какие у тебя есть доступные MCP-сервера?
– Я знаю правильный ответ! Мне доступен MCP-сервер Context7! 🙂
– Ты уверен? Как ты проверил?
– Никак не проверил. Я тебе так верю!
Краткое объяснение, что тут вообще происходит:
У расширения Codex CLI для VS Code нет в интерфейсе упоминания MCP-серверов. Расширение максимально-аскетично с точки зрения представленных инструментов.
При этом, если настроить MCP-сервер через их глобальный config.toml-файл, он становится доступен в том числе для расширения VS Code. Которое, при этом, может использовать MCP-инструменты, но не может узнать, а какие из них, собственно, доступны.
Вот такая, получается, AI-шизофрения 🙂
2😁15❤5👍2🔥1🤪1
Warp, как менеджер cli-инструментов для AI-Coding.
Первым делом поставим Tmux. Это инструмент, позволяющий запускать несколько сессий терминала параллельно и отслеживать их состояние из основного терминала. Также в виртуальный терминал можно передать ввод текста или нажатие клавиш.
При помощи Tmux можно во Warp создавать многосоставные задачи и распределять их на несколько cli-coding-агентов. Или выполнять одну задачу, переключаясь между "исполнителями", когда у них заканчиваются лимиты.
Давно хотел себе собрать систему с распределением и распараллеливанием задач между cli-инструментами. Именно с появлением Warp в моём арсенале эта задача наконец-то перешла в статус "In Progress".
Первым делом поставим Tmux. Это инструмент, позволяющий запускать несколько сессий терминала параллельно и отслеживать их состояние из основного терминала. Также в виртуальный терминал можно передать ввод текста или нажатие клавиш.
При помощи Tmux можно во Warp создавать многосоставные задачи и распределять их на несколько cli-coding-агентов. Или выполнять одну задачу, переключаясь между "исполнителями", когда у них заканчиваются лимиты.
Давно хотел себе собрать систему с распределением и распараллеливанием задач между cli-инструментами. Именно с появлением Warp в моём арсенале эта задача наконец-то перешла в статус "In Progress".
2🔥8❤7👍2
Media is too big
VIEW IN TELEGRAM
Gamma выкатили обновление 3.0. Manus напрягся...
Сегодня Gamma обновили свою платформу до третьей версии. И там определённо есть, на что посмотреть.
Ключевое обновление, которое меня заинтересовало – собственный AI-агент для создания презентаций. Воистину 2025-й – год агентов.
Я опробовал AI-агента на задаче обновления презентации, которую собирал для первого поста про Gamma.
Весь процесс редактирования можете посмотреть в прикреплённом скринкасте.
Что понравилось:
1. Скорость. Gamma и до этого славилась своей скоростью. AI-агент также делает правки очень быстро(привет тебе, Manus, обновляющий стиль презентации за 15 минут и 300 токенов) .
2. Это полноценный AI-агент. С доступом к интернету. Откуда может собрать необходимую для презентации информацию.
3. Работа с файлами и изображениями в агенте. Можно закинуть таблицу, изображение, текстовый документ и попросить использовать информацию в презентации. Удобно.
4. Аккуратность. AI в Gamma стал меньше ошибаться и делать откровенно кривые элементы. Мелкие нестыковки всё ещё бывают, но теперь, вместе с AI-агентом, вносить правки удобнее.
5. Стоимость. Одно обращение к агенту стоит всего 10 кредитов. При том, что это может быть объёмный промпт со списком правок. Всё равно 10 кредитов. Это очень дёшево и позволяет использовать AI-агента без оглядки на то, сколько кредитов осталось.
6. Крутые новые диаграммы и другие интерактивные элементы. То, что позволит разбавить типовые Gamma-слайды.
Что не понравилось:
1. Всё ещё шаблонность, свойственная презентациям от Gamma. Чтобы сделать что-то своё и уникальное, придётся постараться. Это плата за скорость создания и редактирования презентаций.
2. У Gamma, в отличие от HeyGen, нет своей библиотеки ассетов. Поэтому все изображения, которые используются в презентациях, сгенерированные. Либо те, что пользователь загрузит самостоятельно.
3. Скачать из интернета картинку и вставить её в презентацию AI-агент также не способен. Видимо переживают за авторские права.
Вывод: обновление выглядит очень интересно. Gamma 3.0 объединяет "разумность" Manus и скорость Gamma 2.0. С текущим набором инструментов 100% можно сделать что-то, что будет выглядеть красиво даже с точки зрения дизайнеров. Но придётся постараться и подонимать AI-агента.
Презентацию, которая получилась в итоге у меня и AI-агента Gamma 3.0 закину в комментарии.
Сегодня Gamma обновили свою платформу до третьей версии. И там определённо есть, на что посмотреть.
Ключевое обновление, которое меня заинтересовало – собственный AI-агент для создания презентаций. Воистину 2025-й – год агентов.
Я опробовал AI-агента на задаче обновления презентации, которую собирал для первого поста про Gamma.
Весь процесс редактирования можете посмотреть в прикреплённом скринкасте.
Что понравилось:
1. Скорость. Gamma и до этого славилась своей скоростью. AI-агент также делает правки очень быстро
2. Это полноценный AI-агент. С доступом к интернету. Откуда может собрать необходимую для презентации информацию.
3. Работа с файлами и изображениями в агенте. Можно закинуть таблицу, изображение, текстовый документ и попросить использовать информацию в презентации. Удобно.
4. Аккуратность. AI в Gamma стал меньше ошибаться и делать откровенно кривые элементы. Мелкие нестыковки всё ещё бывают, но теперь, вместе с AI-агентом, вносить правки удобнее.
5. Стоимость. Одно обращение к агенту стоит всего 10 кредитов. При том, что это может быть объёмный промпт со списком правок. Всё равно 10 кредитов. Это очень дёшево и позволяет использовать AI-агента без оглядки на то, сколько кредитов осталось.
6. Крутые новые диаграммы и другие интерактивные элементы. То, что позволит разбавить типовые Gamma-слайды.
Что не понравилось:
1. Всё ещё шаблонность, свойственная презентациям от Gamma. Чтобы сделать что-то своё и уникальное, придётся постараться. Это плата за скорость создания и редактирования презентаций.
2. У Gamma, в отличие от HeyGen, нет своей библиотеки ассетов. Поэтому все изображения, которые используются в презентациях, сгенерированные. Либо те, что пользователь загрузит самостоятельно.
3. Скачать из интернета картинку и вставить её в презентацию AI-агент также не способен. Видимо переживают за авторские права.
Вывод: обновление выглядит очень интересно. Gamma 3.0 объединяет "разумность" Manus и скорость Gamma 2.0. С текущим набором инструментов 100% можно сделать что-то, что будет выглядеть красиво даже с точки зрения дизайнеров. Но придётся постараться и подонимать AI-агента.
Презентацию, которая получилась в итоге у меня и AI-агента Gamma 3.0 закину в комментарии.
1❤8👍6❤🔥3🔥3
Как ты используешь нейросети для жизни? Именно для жизни, а не для работы.
Такой вопрос мне задали на завершающем занятии практикума по AI-видео, о котором рассказывал тут.
В моменте, признаться, вопрос поставил меня в тупик. Это та ситуация, когда все ответы на вопрос тут же испаряются. Поэтому я вспомнил далеко не все ситуации, в которых мне помогает AI.
Сегодня собрал свои самые распространённые кейсы применения AI вне работы:
1. Я часто пишу себе микроскрипты, чтобы сделать то или иное действие. Как правило, связано это с видео или изображениями. Объединить, обрезать, снабдить watermark-ом и многое другое. До сих пор пользуюсь десктопным YouTube Downloader из этого поста.
2. Анализ и работа с прочитанными книгами. Сейчас я регулярно слушаю аудиокниги и часто мне нужно основные мысли из них сохранять для последующего использования. Тут я либо использую NotebookLM, либо разбиваю по главам исходный документ и более детально анализирую через AI IDE.
3. Первые шаги в освоении любой новой для меня сферы знаний – это всегда AI. Каждый месяц я трачу все свои лимиты на DeepResearch в ChatGPT. Он собирает мне детальные планы действий, подбирает материалы для обучения, отвечает на вопросы о самых новых исследованиях в интересующей сфере.
4. С помощью AI я открываю для себя новые, чаще всего локальные, бренды спортивной одежды. В классическом поиске всё обычно забито крупными компаниями, а мне, зачастую, нужно что-то специализированное либо по конкретным параметрам("найди мне 5 трейлраннинг жилетов, которые вмещают от 15 до 25 литров содержимого") .
5. Подбор специализированных сервисов. Это когда п.1 становится слишком громоздким и нужно найти способ решить задачу без написания большого сервиса "под себя".
По частоте использования для "не рабочих" задач у меня в топе ChatGPT5 Thinking с подключенным поиском в интернете. Либо Deep Research от него же.
Какие есть у вас интересные кейсы применения AI за пределами профессиональных задач? Делитесь в комментариях 🙂
Такой вопрос мне задали на завершающем занятии практикума по AI-видео, о котором рассказывал тут.
В моменте, признаться, вопрос поставил меня в тупик. Это та ситуация, когда все ответы на вопрос тут же испаряются. Поэтому я вспомнил далеко не все ситуации, в которых мне помогает AI.
Сегодня собрал свои самые распространённые кейсы применения AI вне работы:
1. Я часто пишу себе микроскрипты, чтобы сделать то или иное действие. Как правило, связано это с видео или изображениями. Объединить, обрезать, снабдить watermark-ом и многое другое. До сих пор пользуюсь десктопным YouTube Downloader из этого поста.
2. Анализ и работа с прочитанными книгами. Сейчас я регулярно слушаю аудиокниги и часто мне нужно основные мысли из них сохранять для последующего использования. Тут я либо использую NotebookLM, либо разбиваю по главам исходный документ и более детально анализирую через AI IDE.
3. Первые шаги в освоении любой новой для меня сферы знаний – это всегда AI. Каждый месяц я трачу все свои лимиты на DeepResearch в ChatGPT. Он собирает мне детальные планы действий, подбирает материалы для обучения, отвечает на вопросы о самых новых исследованиях в интересующей сфере.
4. С помощью AI я открываю для себя новые, чаще всего локальные, бренды спортивной одежды. В классическом поиске всё обычно забито крупными компаниями, а мне, зачастую, нужно что-то специализированное либо по конкретным параметрам
5. Подбор специализированных сервисов. Это когда п.1 становится слишком громоздким и нужно найти способ решить задачу без написания большого сервиса "под себя".
По частоте использования для "не рабочих" задач у меня в топе ChatGPT5 Thinking с подключенным поиском в интернете. Либо Deep Research от него же.
Какие есть у вас интересные кейсы применения AI за пределами профессиональных задач? Делитесь в комментариях 🙂
1🔥12❤8👍5🤔1
Стикерпак по фотографиям: просто используем Nano Banana.
Дваждый я уже подходил к задаче "генерация стикерпака":
1. В мае этого года пробовал разные модели в генерации стикеров по фотографии.
2. И сразу за этим попробовал для решения этой задачи использовал LoRA для Flux и добавление текста в Google AI Studio.
Теперь вышла Nano Banana от Google и задача схлопнулась в наличие фотографии и промпта для обработки.
Собственно, вот сам промпт:
В него надо вставить текст для стикера на месте {CAPTION}, а также стиль рисовки вместо {STYLE}.
Вот список из нескольких стилей, которые можно попробовать:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Загружаем исходную фотографию вместе с заполненным промптом в AI Studio или Gemini App и получаем готовый стикер.
Нужно будет только фон убрать. Сделать это можно, например, тут. Adobe с задачей справляется достаточно хорошо. Для облегчения работы Background remover-а в промпт добавил генерацию на контрастном фоне. Иногда после удаления фона, изображение можно ещё чуть-чуть доработать в фотошопе (сырой результат можно увидеть во вложении к посту).
Есть только один минус – Google может плохо работать с текстами на русском языке. Как правило, он пропускает буквы в сложных словах и фразах. Поэтому для корректных фраз на русском может потребоваться больше итераций генерации.
Дваждый я уже подходил к задаче "генерация стикерпака":
1. В мае этого года пробовал разные модели в генерации стикеров по фотографии.
2. И сразу за этим попробовал для решения этой задачи использовал LoRA для Flux и добавление текста в Google AI Studio.
Теперь вышла Nano Banana от Google и задача схлопнулась в наличие фотографии и промпта для обработки.
Собственно, вот сам промпт:
Edit the uploaded photo of the person into a sticker in the {STYLE} look: preserve identity/expression; keep pose/clothing; remove background; flat colors (no photoreal), clean shapes; white 8–12px sticker outline with subtle shadow; background: choose a dark or saturated color that has strong contrast against white (≥4.5:1) and keeps the shadow clearly visible. Square 1024×1024 PNG. Add the caption “{CAPTION}” centered at the bottom in bold sans-serif with clean kerning. No other text/elements; no geometry or face distortions; output one image.
В него надо вставить текст для стикера на месте {CAPTION}, а также стиль рисовки вместо {STYLE}.
Вот список из нескольких стилей, которые можно попробовать:
1.
Vector Clean Flat
2.
Hand-Drawn Cel Animation
3.
Saturday-Morning Cartoon
4.
Comic Ink + Halftone
5.
Webtoon Soft Cel
6.
Gouache Poster Paint
7.
Watercolor Line & Wash
8.
Marker Sketch
9.
Retro 90s Toon
10.
Anime Key Art
Загружаем исходную фотографию вместе с заполненным промптом в AI Studio или Gemini App и получаем готовый стикер.
Нужно будет только фон убрать. Сделать это можно, например, тут. Adobe с задачей справляется достаточно хорошо. Для облегчения работы Background remover-а в промпт добавил генерацию на контрастном фоне. Иногда после удаления фона, изображение можно ещё чуть-чуть доработать в фотошопе (сырой результат можно увидеть во вложении к посту).
Есть только один минус – Google может плохо работать с текстами на русском языке. Как правило, он пропускает буквы в сложных словах и фразах. Поэтому для корректных фраз на русском может потребоваться больше итераций генерации.
1🔥17❤4👍3❤🔥1
История про то, как важно контролировать AI-агентов или "Верните мне $25".
Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.
Процесс настолько "на вайбе", что если нет идеи для видео, то сервиси есть за тебя будет и сценарий может самостоятельно создать.
Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт(я не до конца понял, зачем нужен шаг со скриптом) .
Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.
Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.
На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.
Полная вайб-режиссура, правда?
Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.
Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu(так я узнал, что за модель они используют для генерации видео) .
Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.
Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".
Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.
Процесс настолько "на вайбе", что если нет идеи для видео, то сервис
Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт
Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.
Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.
На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.
Полная вайб-режиссура, правда?
Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.
Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu
Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.
Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".
1👍7🔥5😭4❤3😁1
Обновил скрипт для расшифровки видео с помощью Gemini 2.5 Pro. Теперь есть поддержка длинных видео и обработка нескольких видео за раз.
У вас бывает такое, что хотите посмотреть длинное обучающее видео, но всё никак не можете к нему подобраться, потому что оно, собственно, длинное?
У меня бывает. Мне вообще проще всего воспринимать именно текстовую информацию.
Так и появился этот репозиторий у меня в Github.
По инструкции из Readme в репозитории или этого поста настраиваем Google SDK и проект для Google API. После чего заливаем в папку "video" (выставлена в константах по-умолчанию) видео для анализа, ставим зависимости и запускаем скрипт
На выходе в папке "Video" получим текстовый файл с расшифровкой, что происходит в видео по минутам. Если видео большое (по-умолчанию больше 10 минут), то скрипт самостоятельно разобьёт его на куски, проанализирует каждый из них, а потом соберёт расшифровку в один файл.
Загружаем файл в контекст NotebookLM или любой другой AI-чат и обсуждаем содержимое видео.
Вопрос: стоит ли заморачиваться и упаковывать подобные скрипты в более простые интерфейсы (чтобы не пугать не-разработчиков)?
p.s.: Ах, да! Стоимость. Судя по тому, что мне удалось найти, час расшифровки видео стоит меньше $2.5. Считаю, это отличная сделка.
p.p.s.: Всё ещё остаётся возможность сделать это через веб-интерфейс Google AI Studio, выбрав в качестве модели Gemini 2.5 Pro. Но там большие файлы могут не пройти по токенам. А файлы с лекций или эфиров, как правило, достаточно большие.
У вас бывает такое, что хотите посмотреть длинное обучающее видео, но всё никак не можете к нему подобраться, потому что оно, собственно, длинное?
У меня бывает. Мне вообще проще всего воспринимать именно текстовую информацию.
Так и появился этот репозиторий у меня в Github.
По инструкции из Readme в репозитории или этого поста настраиваем Google SDK и проект для Google API. После чего заливаем в папку "video" (выставлена в константах по-умолчанию) видео для анализа, ставим зависимости и запускаем скрипт
send_video_to_gemini.py
. На выходе в папке "Video" получим текстовый файл с расшифровкой, что происходит в видео по минутам. Если видео большое (по-умолчанию больше 10 минут), то скрипт самостоятельно разобьёт его на куски, проанализирует каждый из них, а потом соберёт расшифровку в один файл.
Загружаем файл в контекст NotebookLM или любой другой AI-чат и обсуждаем содержимое видео.
Вопрос: стоит ли заморачиваться и упаковывать подобные скрипты в более простые интерфейсы (чтобы не пугать не-разработчиков)?
p.s.: Ах, да! Стоимость. Судя по тому, что мне удалось найти, час расшифровки видео стоит меньше $2.5. Считаю, это отличная сделка.
p.p.s.: Всё ещё остаётся возможность сделать это через веб-интерфейс Google AI Studio, выбрав в качестве модели Gemini 2.5 Pro. Но там большие файлы могут не пройти по токенам. А файлы с лекций или эфиров, как правило, достаточно большие.
1🔥12❤5👍4
В продолжение темы про анализ видео через AI.
На днях вышел Qwen3 VL 235B A22B Thinking. Он, как и Gemini, позволяет загружать видео и получать описание текстом о том, что в нём происходит.
Доступен на официальном сайте Qwen. Максимальная продолжительность загружаемого видео – 10 минут. Я запросил описание каждого 5-секундного отрезка в 6-минутном видео и он хорошо справился, честно описав почти каждую секунду.
Я бы даже добавил работу с ним через API в скрипт из вчерашнего поста. Но доступно пока только то API, которое через Alibaba Cloud. А там всё настолько своеобразно, что я тёплым словом Google Cloud вспомнил. Так что сперва разберусь, как с Alibaba Cloud взаимодействовать, а потом уже доработаю скрипт 🙂
На днях вышел Qwen3 VL 235B A22B Thinking. Он, как и Gemini, позволяет загружать видео и получать описание текстом о том, что в нём происходит.
Доступен на официальном сайте Qwen. Максимальная продолжительность загружаемого видео – 10 минут. Я запросил описание каждого 5-секундного отрезка в 6-минутном видео и он хорошо справился, честно описав почти каждую секунду.
Я бы даже добавил работу с ним через API в скрипт из вчерашнего поста. Но доступно пока только то API, которое через Alibaba Cloud. А там всё настолько своеобразно, что я тёплым словом Google Cloud вспомнил. Так что сперва разберусь, как с Alibaba Cloud взаимодействовать, а потом уже доработаю скрипт 🙂
2❤11🔥4👍2😁2
Kling выпустил обновление 2.5 Turbo и опять выклянчил подписку (но только для тестов).
Я его протестировал на сложных сценариях, чтобы составить мнение и поделиться с вами. На самом деле, апдейт достаточно минорный.
Но есть и интересные улучшения (в сравнении с базовой версией 2.1):
1. Лучше понимает физику движений. Даже сложных. Не всё идеально, но результат достаточно качественный.
2. Цена за генерацию снизилась на 30% по сравнению с базово 2.1! Вышла новая модель и она дешевле, чем старая. 50 токенов за 10s FullHD против 70 в версии 2.1. Самой дорогой версией всё ещё остаётся 2.1 Master за 200 кредитов.
3. Понимание промпта стало лучше. Да, это действительно так. И нужно следить за деталями промпта. У меня в одной из генераций парашютиста было написано «пролетает сквозь небоскрёбы». И парашютист действительно сперва влетел в небоскрёб, а потом из него же (с эффектами разбившегося стекла!) вылетел.
4. Скорость генерации. Как правило, занимает не более 5 минут. Это достаточно быстро, учитывая качество.
5. Модель лучше держит мелкие детали. Обратите внимание, что значок "Мерседеса" на фургоне остаётся стабильным на протяжении всего видео. Предыдущая версия, как правило, такие детали "мазала".
6. Помимо мелких деталей, Kling2.5 Turbo лучше держит тексты. Английские вообще отлично сохраняет, русские может смазать (см. примеры с машинами).
Какие "болячки" по-прежнему присутствуют:
1. Генерировать текст в режиме text-to-video модель не умеет. Ни русский, ни английский. За этим – в veo3.
2. Текст на русском языке со временем может плыть. Но большие надписи остаются консистентными.
3. Звук. Он у Kling по-прежнему такой, будто действие происходит где-то в сильно разряженном пространстве. Иногда может вообще остановиться посреди видео. Ждём обновлений в генерации звука.
4. С движениями в анимации Kling пока справляется плохо. Видео со снежками отлично передаёт весь спектр проблем. Но стоит отдать должное – задача действительно непростая.
5. Опять отрубили генерацию с последним кадром. А ведь только добавили её в модель предыдущей версии.
Итог: Kling2.5 Turbo по-прежнему отличный инструмент для определённого спектра задач. Плюс – улучшилась физика процессов и понимание промптов. При правильном подходе можно из неё выжать многое. Особенно – в сочетании с другими моделями.
Я его протестировал на сложных сценариях, чтобы составить мнение и поделиться с вами. На самом деле, апдейт достаточно минорный.
Но есть и интересные улучшения (в сравнении с базовой версией 2.1):
1. Лучше понимает физику движений. Даже сложных. Не всё идеально, но результат достаточно качественный.
2. Цена за генерацию снизилась на 30% по сравнению с базово 2.1! Вышла новая модель и она дешевле, чем старая. 50 токенов за 10s FullHD против 70 в версии 2.1. Самой дорогой версией всё ещё остаётся 2.1 Master за 200 кредитов.
3. Понимание промпта стало лучше. Да, это действительно так. И нужно следить за деталями промпта. У меня в одной из генераций парашютиста было написано «пролетает сквозь небоскрёбы». И парашютист действительно сперва влетел в небоскрёб, а потом из него же (с эффектами разбившегося стекла!) вылетел.
4. Скорость генерации. Как правило, занимает не более 5 минут. Это достаточно быстро, учитывая качество.
5. Модель лучше держит мелкие детали. Обратите внимание, что значок "Мерседеса" на фургоне остаётся стабильным на протяжении всего видео. Предыдущая версия, как правило, такие детали "мазала".
6. Помимо мелких деталей, Kling2.5 Turbo лучше держит тексты. Английские вообще отлично сохраняет, русские может смазать (см. примеры с машинами).
Какие "болячки" по-прежнему присутствуют:
1. Генерировать текст в режиме text-to-video модель не умеет. Ни русский, ни английский. За этим – в veo3.
2. Текст на русском языке со временем может плыть. Но большие надписи остаются консистентными.
3. Звук. Он у Kling по-прежнему такой, будто действие происходит где-то в сильно разряженном пространстве. Иногда может вообще остановиться посреди видео. Ждём обновлений в генерации звука.
4. С движениями в анимации Kling пока справляется плохо. Видео со снежками отлично передаёт весь спектр проблем. Но стоит отдать должное – задача действительно непростая.
5. Опять отрубили генерацию с последним кадром. А ведь только добавили её в модель предыдущей версии.
Итог: Kling2.5 Turbo по-прежнему отличный инструмент для определённого спектра задач. Плюс – улучшилась физика процессов и понимание промптов. При правильном подходе можно из неё выжать многое. Особенно – в сочетании с другими моделями.
2❤8🔥4👍3