Константин Доронин

История про то, как важно контролировать AI-агентов или "Верните мне $25".

Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.

Процесс настолько "на вайбе", что если нет идеи для видео, то сервис ~~и есть за тебя будет~~ и сценарий может самостоятельно создать.

Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт (я не до конца понял, зачем нужен шаг со скриптом).

Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.

Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.

На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.

Полная вайб-режиссура, правда?

Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.

Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu (так я узнал, что за модель они используют для генерации видео).

Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.

Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".

1👍7🔥5😭4❤3😁1

865 views18:43

Константин Доронин

Обновил скрипт для расшифровки видео с помощью Gemini 2.5 Pro. Теперь есть поддержка длинных видео и обработка нескольких видео за раз.

У вас бывает такое, что хотите посмотреть длинное обучающее видео, но всё никак не можете к нему подобраться, потому что оно, собственно, длинное?

У меня бывает. Мне вообще проще всего воспринимать именно текстовую информацию.

Так и появился этот репозиторий у меня в Github.

По инструкции из Readme в репозитории или этого поста настраиваем Google SDK и проект для Google API. После чего заливаем в папку "video" (выставлена в константах по-умолчанию) видео для анализа, ставим зависимости и запускаем скрипт send_video_to_gemini.py.

На выходе в папке "Video" получим текстовый файл с расшифровкой, что происходит в видео по минутам. Если видео большое (по-умолчанию больше 10 минут), то скрипт самостоятельно разобьёт его на куски, проанализирует каждый из них, а потом соберёт расшифровку в один файл.

Загружаем файл в контекст NotebookLM или любой другой AI-чат и обсуждаем содержимое видео.

Вопрос: стоит ли заморачиваться и упаковывать подобные скрипты в более простые интерфейсы (чтобы не пугать не-разработчиков)?

p.s.: Ах, да! Стоимость. Судя по тому, что мне удалось найти, час расшифровки видео стоит меньше $2.5. Считаю, это отличная сделка.

p.p.s.: Всё ещё остаётся возможность сделать это через веб-интерфейс Google AI Studio, выбрав в качестве модели Gemini 2.5 Pro. Но там большие файлы могут не пройти по токенам. А файлы с лекций или эфиров, как правило, достаточно большие.

1🔥12❤5👍4

897 views19:47

Константин Доронин

В продолжение темы про анализ видео через AI.

На днях вышел Qwen3 VL 235B A22B Thinking. Он, как и Gemini, позволяет загружать видео и получать описание текстом о том, что в нём происходит.

Доступен на официальном сайте Qwen. Максимальная продолжительность загружаемого видео – 10 минут. Я запросил описание каждого 5-секундного отрезка в 6-минутном видео и он хорошо справился, честно описав почти каждую секунду.

Я бы даже добавил работу с ним через API в скрипт из вчерашнего поста. Но доступно пока только то API, которое через Alibaba Cloud. А там всё настолько своеобразно, что я тёплым словом Google Cloud вспомнил. Так что сперва разберусь, как с Alibaba Cloud взаимодействовать, а потом уже доработаю скрипт 🙂

2❤11🔥4👍2😁2

832 views17:40

Константин Доронин