Константин Доронин

Veo3 стал доступен на платформе fal.ai. Text-to-video с возможностью генерации со звуком.

Секунда видео без звука стоит $0.5, со звуком – $0.75. То есть 8-секундное видео стоит $6 или примерно 500 рублей.

Дорого ли это? Для AI-генерации, я считаю, что дорого.

Но, вообще говоря, в киноиндустрии существуют сцены в миллион раз дороже. И при этом они могут длиться не многим более 8 секунд.

Именно на попытке повторения подобных сцен я и решил протестировать Veo3. Чтобы на контрасте с Голливудскими бюджетами, заплаченные $6 за одну генерацию не выглядели большой суммой 🙂

Я подошёл к вопросу основательно. Чтобы запечатлеть все детали сцены.

Сперва я пошёл в Google AI Studio, закинул в модель Gemini 2.5 Pro Preview 05-06 (каюсь. Устаревшая! Ведь на сегодняшний день уже вышла обновлённая модель 06-05!) видео с 8-секундным отрывком сцены и промптом:

Опиши очень подробно, что происходит в сцене на видео. Движение кадра, людей, изменения на протяжении времени. Разбей это всё по секундам и планам. Если камера движется, это также надо отметить. Задача – иметь возможность по описанию в точности воспроизвести данную сцену.

Посмотрите, как Google описал сцену с Джокером и Госпиталем (закину описание в комментарии поста).

Как по мне, это очень качественно и подробно.

Далее я пошёл в ChatGPT o3 и попросил его сгенерировать по этому описанию специализированный промпт для Veo3.

Получилось как-то так:

TITLE: “Joker – Gotham General Detonation (Live-Action Cut)”

META:
length: 8s
fps: 24
aspect_ratio: 2.39:1
style: photorealistic live-action, shot on Kodak Vision3 500T 35 mm, subtle film grain, high-dynamic-range, dramatic natural lighting, Christopher-Nolan blockbuster tone

SCENE:
[0-4 s] static slightly-low-angle medium-wide shot (Cooke S4 40 mm, f/2.0).
Joker (heath-ledger likeness, white nurse dress with pink trim, authentic movie makeup, messy light-green hair) stands right-third; presses black detonator repeatedly with right thumb.
Environment: cracked asphalt, scattered rubble, distant sedan; hospital entrance sign “EMERGEN-” engulfed in thick smoke; white ambulance van center back; green lawn and red fire-hydrant camera-right.
SFX: soft city hum, audible DETONATOR CLICKS at 1 Hz.

[3.8-4 s] final press ⇒ massive EXPLOSION at “EMERGENCY”.
Joker flinches, hair and gown flap; orange fireball, black smoke, debris flies.
SFX: thunderous BOOM, glass shatter.

[4-8 s] slow pan-right (~10 °/s) following Joker exiting frame; burning façade intensifies, full sign “GOTHAM GENERAL HOSPITAL” revealed.
Yellow US school-bus rolls in right edge; folding door hisses open; silhouettes of evacuees inside, partial word “HOSPITA…” visible.
Camera eases to halt when bus fills right half.
SFX: diesel idle, air-brake hiss, metal door creak; background fire roar persists.

AUDIO_CUES:
0.0s click - 1.0s click - 2.0s click - 3.0s click - 3.9s explosion - 4.5s bus_engine_fade_in - 5.8s air_brake - 6.2s door_creak

--NEGATIVE-- cartoon, anime, cel-shading, CGI plastic skin, oversaturated, low-poly, illustration, stylized, watermark
END

То есть это подробный промпт с указанием всех деталей сцены в каждом из моментов.

Что получилось в итоге с самой продвинутой на сегодняшний день моделью – можете посмотреть в медиа поста.

Да, какие-то детали он отлично переносит в видео. И в итоге получаются весьма забавные карикатуры. Но контроля за генерацией всё ещё мало. Поэтому и карикатуры, а не альтернативные сцены, созданные в миллион раз дешевле.

Думаю, до конца 2025-го мы увидим немало примеров поразительных инструментов редактирования AI-видео. Именно через эти инструменты мы сможем раскрыть потенциал современных видео-моделей на все 100%. А я постараюсь ни один из релизов не упустить. И продолжу рассказывать о кейсах применения в этом канале.

p.s.: в комментарии закину генерацию сцены с Джокером в исполнении Kling2.1 Master. Для сравнения.

1❤9👍7🔥6

466 views18:39

Константин Доронин

Анализируем видео при помощи API Google Cloud.

Вчера я упомянул, что через Google AI Studio с моделью Gemini 2.5 Pro можно анализировать видео. Достаточно передать на вход видеофайл и текстовый промпт.

Самый простой кейс – описать, что происходит на видео. Для этого достаточно Google AI Studio.

Из более сложного: анализ видео может быть частью системы по анализу видео-контента. Чтобы определить, например, какой контент и почему сейчас попадает в тренды на платформах с короткими видео.

Для этого нужен доступ через API. И именно через Google Cloud API, так как сторонние провайдеры вроде Openrouter с видео работать не дают (надеюсь, что пока не дают).

У Google есть Quick guide по тому, как активировать API. Посмотреть можете тут.

Здесь привожу его краткую (и дополненную мной) версию:

1. Создаём проект на платформе Google Cloud. Проект обязательно должен быть с локацией "global".

2. Добавляем billing-аккаунт.

3. Активируем для аккаунта Vertex API.

4. Качаем и устанавливаем на компьютер Google SDK.

5. (опционально для тех, кто не хочет спонсировать Google "на все деньги") Выставляем лимиты на использование API, чтобы какое-то из загруженных видео не оказалось для вас чересчур-дорогим.

6. Выполняем в терминале команду для авторизации сессии в Google: gcloud auth application-default login

7. Запускаем ваш скрипт для взаимодействия с API.

Скрипт с примером я уже написал и разместил на GitHub.

Чтобы его запустить, замените PROJECT_ID на ID проекта, который есть на странице dashboard.

Также понадобится прокинуть путь к вашему mp4-файлу в переменную video_path.

В качестве примера, запустил скрипт на видео из Матрицы (оригинальном), которое было во вчерашнем посте. Результат работы модели прилагаю:

Конечно, вот подробное описание происходящего в видео.

Это знаменитая экшен-сцена из фильма **"Матрица" (1999)**. Весь клип снят в характерной для фильма зеленоватой цветовой гамме, подчеркивающей, что действие происходит внутри компьютерной симуляции.

### Хронологическое описание:

* **00:00 - 00:02:** Сцена начинается с вида сверху. Большой черный вертолет летит вплотную к стеклянному небоскребу, почти касаясь его лопастями. Камера меняет ракурс и показывает главного героя, Нео (в черной одежде), стоящего на крыше и смотрящего вниз. Отражение вертолета искажается на волнистой поверхности стеклянного здания, создавая сюрреалистический, "цифровой" эффект.

* **00:02 - 00:05:** Вертолет врезается в боковую часть небоскреба. Сцена показана в замедленной съемке (эффект "bullet time"). Стекло не просто разбивается, а идет волнами, как жидкость, под воздействием удара. Осколки и обломки разлетаются в стороны. В отражении на стеклах виден городской пейзаж.

* **00:05 - 00:07:** В момент, когда вертолет начинает взрываться, из него на тросе вылетает Тринити (также в черном). Происходит мощный взрыв, который показан в эффектном замедленном движении. Вокруг Тринити, зависшей в воздухе, образуется идеальное сферическое облако из стеклянной пыли и мелких обломков.

* **00:07 - 00:09:** Тринити продолжает раскачиваться на тросе, в то время как за ее спиной происходит второй, уже огненный взрыв. Она летит сквозь облако обломков по направлению к соседнему зданию.

* **00:09 - 00:10:** Сцена завершается тем, что Тринити ногами вперед пробивает окно в соседнем здании. Мы видим, как стекло разлетается паутиной трещин на фоне огненного взрыва снаружи.

### Ключевые моменты и приемы:

* **Зеленый фильтр:** Визуальный маркер, указывающий на то, что действие происходит внутри Матрицы.
* **"Bullet Time" (Время пули):** Фирменный прием фильма, использующий замедленную съемку для создания зрелищных и стильных моментов, таких как взрыв и полет Тринити.
* **Нереалистичная физика:** Искажение и "текучесть" стекла при ударе подчеркивают искусственность мира, в котором находятся герои.
* **Высокооктановый экшен:** Сцена представляет собой концентрированное действие: крушение вертолета, масштабный взрыв и дерзкий побег, выполненные с невероятной точностью и стилем.

1🔥10❤8👍3

507 views00:30

Константин Доронин

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Каждый день по генерации ролика в Veo3 бесплатно.

В одном из предыдущих постов я сетовал на то, что генерация в Veo3 обходится в $6 за 8 секунд.

Сегодня поддержку Veo3 завезли в manus.im (стоило отменить подписку, ага).

Одна генерация 8-секундного видео стоит 300 кредитов. Те самые 300 кредитов, которые Manus выдаёт каждый день бесплатно.

Правда, за обработку запроса Manus снимает ещё 13-14 кредитов сверху. Но в сравнении с $6 за видео это отличное предложение.

После отправки запроса, Manus должен выдать дополнительный интерфейс, где предложит использовать Veo3 или оставить стандартный видеогенератор. Если такую плашку он не выдал, то генерация видео не начнётся.

Насколько я понимаю, он триггерит эту плашку, когда видит в запросе "Create video". Я использую вариант с "Create video with this prompt:", после которого добавляю промпт для генерации.

Но даже этот подход работает как будто бы примерно в 50% случаев. Будьте внимательны. Если генерацию Manus не предложил, останавливайте его работу и запускайте процесс заново.

В медиа поста сегодня видео, сгенерированное через Manus с использованием Veo3.

1🔥8👍4❤3👏1

535 views22:38

Константин Доронин

"Gamma.app: Революция в создании презентаций". Это она сама так говорит. В презентации, которую я попросил сделать для того, чтобы рассказать о Gamma.

Собственно, gamma.app – это платформа, ориентированная, в первую очередь, на создание и редактирование презентаций с использованием AI.

Есть три тарифа. От бесплатного до того, что $20/месяц (при оплате помесячно), как и у любой уважающий себя AI-платформы.

Основной инструмент для начала работы – генерация готовой презентации по промпту. Сама генерация работает очень быстро. Особенно в сравнении с Manus в том же сценарии.

На бесплатном тарифе можно сгенерировать на старте максимум 10 слайдов. Но впоследствии, при помощи всё того же запроса к AI, можно добавлять новые слайды.

Мне понравился процесс редактирования слайдов. Можно как вручную поменять каждый из элементов, так и через ИИ написать запрос для редактирования слайда целиком.

У платформы есть большое количество элементов-заготовок, которые можно использовать в слайдах. Собственно, сбор презентации потому и происходит настолько быстро. Gamma просто собирает её из уже готовых блоков и шаблонов слайдов.

Похоже, что количество создаваемых презентаций у меня будет понемногу увеличиваться. Для того, чтобы упростить себе работу с ними я буду использовать данный сервис. Возможно, даже подписку прикуплю.

Самопрезентацию Gamma.app закину в медиа поста. Там есть подробности, которые я даже в своём кратком обзоре не осветил. Заодно посмотрите пример готовой презентации от Gamma.

1🔥8👍4❤3

585 views18:31

Константин Доронин

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Manus, в отличие от fal.ai, поддерживает image to video во встроенном veo3.

Можно задать исходный кадр и через "Create video" промпт сгенерировать видео.

Также я посчитал, сколько будет стоить генерация видео на каждом из тарифов.

Возьмём за стоимость генерации одного видео 315 токенов. У меня обычно получается 313-314, но ещё единицу накину на случай, если у вас Manus окажется чуть прожорливее.

Важно: видео-генерация в Manus доступна исключительно на платных тарифах.

Я беру стоимость генерации с учётом того, что сейчас Manus даёт x2 токенов к любым платным тарифам. А также по 300 токенов в день, если заходить на платформу.

Basic ($16-19/month): $0.4–0.475 за одно видео. Всего: 40 видео в месяц.

Plus ($33–39/month): $0.62–0.73 за одно видео. Всего: 53 видео в месяц.

Pro ($166–199/month): $1.07–1.28 за одно видео. Всего: 155 видео в месяц.

Вывод: самые дешёвые генерации AI-видео в Veo3 можно получить на самом дешёвом Basic-тарифе в Manus при оплате за год. Вот она – сила 9000 бонусных токенов (я считал в среднем по 30 дней в месяце), которые можно получить, просто заходя на платформу.

Вывод 2: сравните стоимость с $6/видео, которые предлагает fal.ai и жизнь станет куда веселее даже в ситуации с Pro-подпиской на Manus.

1❤9🔥7👍2😁1

1.14K views20:08

About

Blog

Apps

Platform