История про то, как важно контролировать AI-агентов или "Верните мне $25".
Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.
Процесс настолько "на вайбе", что если нет идеи для видео, то сервиси есть за тебя будет и сценарий может самостоятельно создать.
Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт(я не до конца понял, зачем нужен шаг со скриптом) .
Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.
Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.
На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.
Полная вайб-режиссура, правда?
Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.
Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu(так я узнал, что за модель они используют для генерации видео) .
Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.
Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".
Тестировал я тут MovieFlo.AI. Очень приятно настроенный процесс того, как создавать длинное видео с нуля.
Процесс настолько "на вайбе", что если нет идеи для видео, то сервис
Из концепта формируется синопсис (если концепта нет, то AI генерирует синопсис самостоятельно), потом прописываются сцены. И по сценам пишется скрипт
Далее AI-агент самостоятельно генерирует консистентных персонажей (чтобы одни и те же были в разных сценах) и создаёт Storyboard.
Storyboard представляет из себя разбивку на Shot-ы, каждый из которых представлен сгенерированными изображениями, системой тегов и кратким описанием.
На этапе Storyboard из изображений по промптам от AI-агента генерируются видео. Потом переходим в редактор, позволяющий ещё и звуки с музыкой сгенерированные добавить.
Полная вайб-режиссура, правда?
Как бы не так. AI-агент умудрился сломать сам себя на собственном синопсисе.
Он создал персонажа-девушку из будущего. В очень своеобразном наряде (см изображение к посту). И на этапе генерации видео из картинок все кадры, в которых было больше, чем лицо этой героини, не прошли цензуру в Vidu
Собственно, для того, чтобы сгенерировать эти видео, я и закинул в MovieFlo $25. И за каждое видео, которое не прошло цензуру (и не было сгенерировано), сервис всё равно снял с меня кредиты.
Вывод: если вы создаёте хоть сколько-нибудь сложную систему AI-агентов, обязательно нужно продумывать, а что может пойти не так. Где у вас не совпадают уровни ограничений, в каком месте обязательно подведёт сторонее API. В общем, максимальный контроль за каждым шагом работы системы. А сервис MovieFlo, в свою очередь, не попадает в список "рекомендую к ознакомлению".
1👍7🔥5😭4❤3😁1
Обновил скрипт для расшифровки видео с помощью Gemini 2.5 Pro. Теперь есть поддержка длинных видео и обработка нескольких видео за раз.
У вас бывает такое, что хотите посмотреть длинное обучающее видео, но всё никак не можете к нему подобраться, потому что оно, собственно, длинное?
У меня бывает. Мне вообще проще всего воспринимать именно текстовую информацию.
Так и появился этот репозиторий у меня в Github.
По инструкции из Readme в репозитории или этого поста настраиваем Google SDK и проект для Google API. После чего заливаем в папку "video" (выставлена в константах по-умолчанию) видео для анализа, ставим зависимости и запускаем скрипт
На выходе в папке "Video" получим текстовый файл с расшифровкой, что происходит в видео по минутам. Если видео большое (по-умолчанию больше 10 минут), то скрипт самостоятельно разобьёт его на куски, проанализирует каждый из них, а потом соберёт расшифровку в один файл.
Загружаем файл в контекст NotebookLM или любой другой AI-чат и обсуждаем содержимое видео.
Вопрос: стоит ли заморачиваться и упаковывать подобные скрипты в более простые интерфейсы (чтобы не пугать не-разработчиков)?
p.s.: Ах, да! Стоимость. Судя по тому, что мне удалось найти, час расшифровки видео стоит меньше $2.5. Считаю, это отличная сделка.
p.p.s.: Всё ещё остаётся возможность сделать это через веб-интерфейс Google AI Studio, выбрав в качестве модели Gemini 2.5 Pro. Но там большие файлы могут не пройти по токенам. А файлы с лекций или эфиров, как правило, достаточно большие.
У вас бывает такое, что хотите посмотреть длинное обучающее видео, но всё никак не можете к нему подобраться, потому что оно, собственно, длинное?
У меня бывает. Мне вообще проще всего воспринимать именно текстовую информацию.
Так и появился этот репозиторий у меня в Github.
По инструкции из Readme в репозитории или этого поста настраиваем Google SDK и проект для Google API. После чего заливаем в папку "video" (выставлена в константах по-умолчанию) видео для анализа, ставим зависимости и запускаем скрипт
send_video_to_gemini.py
. На выходе в папке "Video" получим текстовый файл с расшифровкой, что происходит в видео по минутам. Если видео большое (по-умолчанию больше 10 минут), то скрипт самостоятельно разобьёт его на куски, проанализирует каждый из них, а потом соберёт расшифровку в один файл.
Загружаем файл в контекст NotebookLM или любой другой AI-чат и обсуждаем содержимое видео.
Вопрос: стоит ли заморачиваться и упаковывать подобные скрипты в более простые интерфейсы (чтобы не пугать не-разработчиков)?
p.s.: Ах, да! Стоимость. Судя по тому, что мне удалось найти, час расшифровки видео стоит меньше $2.5. Считаю, это отличная сделка.
p.p.s.: Всё ещё остаётся возможность сделать это через веб-интерфейс Google AI Studio, выбрав в качестве модели Gemini 2.5 Pro. Но там большие файлы могут не пройти по токенам. А файлы с лекций или эфиров, как правило, достаточно большие.
1🔥12❤5👍4
В продолжение темы про анализ видео через AI.
На днях вышел Qwen3 VL 235B A22B Thinking. Он, как и Gemini, позволяет загружать видео и получать описание текстом о том, что в нём происходит.
Доступен на официальном сайте Qwen. Максимальная продолжительность загружаемого видео – 10 минут. Я запросил описание каждого 5-секундного отрезка в 6-минутном видео и он хорошо справился, честно описав почти каждую секунду.
Я бы даже добавил работу с ним через API в скрипт из вчерашнего поста. Но доступно пока только то API, которое через Alibaba Cloud. А там всё настолько своеобразно, что я тёплым словом Google Cloud вспомнил. Так что сперва разберусь, как с Alibaba Cloud взаимодействовать, а потом уже доработаю скрипт 🙂
На днях вышел Qwen3 VL 235B A22B Thinking. Он, как и Gemini, позволяет загружать видео и получать описание текстом о том, что в нём происходит.
Доступен на официальном сайте Qwen. Максимальная продолжительность загружаемого видео – 10 минут. Я запросил описание каждого 5-секундного отрезка в 6-минутном видео и он хорошо справился, честно описав почти каждую секунду.
Я бы даже добавил работу с ним через API в скрипт из вчерашнего поста. Но доступно пока только то API, которое через Alibaba Cloud. А там всё настолько своеобразно, что я тёплым словом Google Cloud вспомнил. Так что сперва разберусь, как с Alibaba Cloud взаимодействовать, а потом уже доработаю скрипт 🙂
2❤11🔥4👍2😁2
Kling выпустил обновление 2.5 Turbo и опять выклянчил подписку (но только для тестов).
Я его протестировал на сложных сценариях, чтобы составить мнение и поделиться с вами. На самом деле, апдейт достаточно минорный.
Но есть и интересные улучшения (в сравнении с базовой версией 2.1):
1. Лучше понимает физику движений. Даже сложных. Не всё идеально, но результат достаточно качественный.
2. Цена за генерацию снизилась на 30% по сравнению с базово 2.1! Вышла новая модель и она дешевле, чем старая. 50 токенов за 10s FullHD против 70 в версии 2.1. Самой дорогой версией всё ещё остаётся 2.1 Master за 200 кредитов.
3. Понимание промпта стало лучше. Да, это действительно так. И нужно следить за деталями промпта. У меня в одной из генераций парашютиста было написано «пролетает сквозь небоскрёбы». И парашютист действительно сперва влетел в небоскрёб, а потом из него же (с эффектами разбившегося стекла!) вылетел.
4. Скорость генерации. Как правило, занимает не более 5 минут. Это достаточно быстро, учитывая качество.
5. Модель лучше держит мелкие детали. Обратите внимание, что значок "Мерседеса" на фургоне остаётся стабильным на протяжении всего видео. Предыдущая версия, как правило, такие детали "мазала".
6. Помимо мелких деталей, Kling2.5 Turbo лучше держит тексты. Английские вообще отлично сохраняет, русские может смазать (см. примеры с машинами).
Какие "болячки" по-прежнему присутствуют:
1. Генерировать текст в режиме text-to-video модель не умеет. Ни русский, ни английский. За этим – в veo3.
2. Текст на русском языке со временем может плыть. Но большие надписи остаются консистентными.
3. Звук. Он у Kling по-прежнему такой, будто действие происходит где-то в сильно разряженном пространстве. Иногда может вообще остановиться посреди видео. Ждём обновлений в генерации звука.
4. С движениями в анимации Kling пока справляется плохо. Видео со снежками отлично передаёт весь спектр проблем. Но стоит отдать должное – задача действительно непростая.
5. Опять отрубили генерацию с последним кадром. А ведь только добавили её в модель предыдущей версии.
Итог: Kling2.5 Turbo по-прежнему отличный инструмент для определённого спектра задач. Плюс – улучшилась физика процессов и понимание промптов. При правильном подходе можно из неё выжать многое. Особенно – в сочетании с другими моделями.
Я его протестировал на сложных сценариях, чтобы составить мнение и поделиться с вами. На самом деле, апдейт достаточно минорный.
Но есть и интересные улучшения (в сравнении с базовой версией 2.1):
1. Лучше понимает физику движений. Даже сложных. Не всё идеально, но результат достаточно качественный.
2. Цена за генерацию снизилась на 30% по сравнению с базово 2.1! Вышла новая модель и она дешевле, чем старая. 50 токенов за 10s FullHD против 70 в версии 2.1. Самой дорогой версией всё ещё остаётся 2.1 Master за 200 кредитов.
3. Понимание промпта стало лучше. Да, это действительно так. И нужно следить за деталями промпта. У меня в одной из генераций парашютиста было написано «пролетает сквозь небоскрёбы». И парашютист действительно сперва влетел в небоскрёб, а потом из него же (с эффектами разбившегося стекла!) вылетел.
4. Скорость генерации. Как правило, занимает не более 5 минут. Это достаточно быстро, учитывая качество.
5. Модель лучше держит мелкие детали. Обратите внимание, что значок "Мерседеса" на фургоне остаётся стабильным на протяжении всего видео. Предыдущая версия, как правило, такие детали "мазала".
6. Помимо мелких деталей, Kling2.5 Turbo лучше держит тексты. Английские вообще отлично сохраняет, русские может смазать (см. примеры с машинами).
Какие "болячки" по-прежнему присутствуют:
1. Генерировать текст в режиме text-to-video модель не умеет. Ни русский, ни английский. За этим – в veo3.
2. Текст на русском языке со временем может плыть. Но большие надписи остаются консистентными.
3. Звук. Он у Kling по-прежнему такой, будто действие происходит где-то в сильно разряженном пространстве. Иногда может вообще остановиться посреди видео. Ждём обновлений в генерации звука.
4. С движениями в анимации Kling пока справляется плохо. Видео со снежками отлично передаёт весь спектр проблем. Но стоит отдать должное – задача действительно непростая.
5. Опять отрубили генерацию с последним кадром. А ведь только добавили её в модель предыдущей версии.
Итог: Kling2.5 Turbo по-прежнему отличный инструмент для определённого спектра задач. Плюс – улучшилась физика процессов и понимание промптов. При правильном подходе можно из неё выжать многое. Особенно – в сочетании с другими моделями.
2❤8🔥4👍3
Взаимодействие SAM и Nano Banana для большего контроля.
SAM – это Segment Anything Model. Позволяет создавать маску выбранного на изображении объекта.
Я взял эту версию с fal.ai. Там можно создавать маску как вокруг заданной точки, так и внутри выбранной области.
После того, как модель выдаст маску, идём в Nano Banana (я также использовал версию с fal.ai), загружаем маску первым изображением, а исходное изображение вторым.
Теперь по маске можно заменить объект на другой. Это часто работает точнее, чем передавать в Nano Banana "Третий цветочный горшок слева зелёного цвета".
Для замены подойдёт, например, вот такой промпт (вставьте название объекта вместо {OBJECT_DESCRIPTION}):
Если вы предоставляете сервис для конечных пользователей, то увеличение надёжности модели с помощью переданной маски может сильно упростить жизнь.
Примеры использования данного приёма – в медиа поста.
SAM – это Segment Anything Model. Позволяет создавать маску выбранного на изображении объекта.
Я взял эту версию с fal.ai. Там можно создавать маску как вокруг заданной точки, так и внутри выбранной области.
После того, как модель выдаст маску, идём в Nano Banana (я также использовал версию с fal.ai), загружаем маску первым изображением, а исходное изображение вторым.
Теперь по маске можно заменить объект на другой. Это часто работает точнее, чем передавать в Nano Banana "Третий цветочный горшок слева зелёного цвета".
Для замены подойдёт, например, вот такой промпт (вставьте название объекта вместо {OBJECT_DESCRIPTION}):
Use two inputs: Image 1 = mask, Image 2 = original photo. The mask is a binary PNG where the target region is pure white #FFFFFF and all other pixels are pure black #000000 (if the colors are inverted, automatically invert the interpretation so the black region is treated as the placement area). Insert {OBJECT_DESCRIPTION} entirely inside the black masked region and modify only pixels within that region; every pixel outside the mask must remain bit-for-bit identical to Image 2. The object must be fully contained by the mask (no bleed or overrun); scale and, if necessary, gently warp the object to fit the region while preserving realistic proportions, perspective, and scene lighting. Match color temperature, exposure, contrast, sharpness, noise/grain, and white balance to the surrounding context; if shadows or reflections are needed, confine them to the masked area. Snap the object to the visual center of the region unless otherwise specified, leaving a subtle 2–4 px inner margin; use high-quality anti-aliasing on the object boundary but do not feather beyond the mask edge. Do not add or alter any content outside the mask (no text, borders, stickers, watermarks, or background changes). Maintain the exact pixel dimensions, aspect ratio, and EXIF orientation of Image 2; output a single PNG of the edited image at the same resolution as Image 2.
Если вы предоставляете сервис для конечных пользователей, то увеличение надёжности модели с помощью переданной маски может сильно упростить жизнь.
Примеры использования данного приёма – в медиа поста.
2👍14❤7🔥3
Kimi и его OK Computer.
Для меня Kimi с его инструментами всегда выглядел, как пародия на AI-сервис.
Я периодически заходил на него и проводил тесты с новыми инструментами. У меня в истории есть настолько кривые презентации "by Kimi", что я о них решил не писать.
Тем удивительнее для меня, что OK Computer от Kimi не просто работает (само по себе – чудо), но и делает это качественно.
OK Computer – это их собственный AI-Agent. Что-то вроде Manus или Perplexity Labs. По качеству до Manus, конечно, не дотягивает, но в сервисе есть 3 бесплатных "сессии", на которых можно понять, пригодится ли инструмент для ваших задач.
Если зайдёт, то есть план за $20/месяц, в котором, цитирую "Higher OK Computer quota". Точных цифр нигде не нашёл.
У Kimi OK Computer есть только один минус – он достаточно нетороплив в своей работе. По ощущениям, ждать результат работы приходится дольше, чем с другими AI-агентами. Похоже, что им не хватает мощностей.
Рассказать я о нём решил, потому что агент даёт "Больше, чем от него ожидают". А мне нравится такой подход в деятельности.
Посмотрите на этот проект, который был собран по промпту:
Да, в нём проблёскивают типичные признаки "лени AI-агентов" в виде "ПП-рецепт #64" или повторяющихся картинок. Однако с промпта в одно предложение Kimi сделал работоспособное "Избранное" и даже калькулятор калорийности рецептов!
В общем, у Kimi появился интересный инструмент на пробу. Если ищете себе AI-агента для комплексных задач, то имеет смысл рассмотреть применение OK Computer хотя бы в рамках бесплатных трёх сессий.
Для меня Kimi с его инструментами всегда выглядел, как пародия на AI-сервис.
Я периодически заходил на него и проводил тесты с новыми инструментами. У меня в истории есть настолько кривые презентации "by Kimi", что я о них решил не писать.
Тем удивительнее для меня, что OK Computer от Kimi не просто работает (само по себе – чудо), но и делает это качественно.
OK Computer – это их собственный AI-Agent. Что-то вроде Manus или Perplexity Labs. По качеству до Manus, конечно, не дотягивает, но в сервисе есть 3 бесплатных "сессии", на которых можно понять, пригодится ли инструмент для ваших задач.
Если зайдёт, то есть план за $20/месяц, в котором, цитирую "Higher OK Computer quota". Точных цифр нигде не нашёл.
У Kimi OK Computer есть только один минус – он достаточно нетороплив в своей работе. По ощущениям, ждать результат работы приходится дольше, чем с другими AI-агентами. Похоже, что им не хватает мощностей.
Рассказать я о нём решил, потому что агент даёт "Больше, чем от него ожидают". А мне нравится такой подход в деятельности.
Посмотрите на этот проект, который был собран по промпту:
Сделай PWA App со 100 ПП-рецептами
Да, в нём проблёскивают типичные признаки "лени AI-агентов" в виде "ПП-рецепт #64" или повторяющихся картинок. Однако с промпта в одно предложение Kimi сделал работоспособное "Избранное" и даже калькулятор калорийности рецептов!
В общем, у Kimi появился интересный инструмент на пробу. Если ищете себе AI-агента для комплексных задач, то имеет смысл рассмотреть применение OK Computer хотя бы в рамках бесплатных трёх сессий.
2❤8👍6🔥2
Graphiti и скорость создания элементов в графе.
На одно добавление эпизода через Graphiti приходится несколько запросов в различные AI-API. Эмбеддинги создать, сущности выделить, описание для сущности написать. Всё это занимает время.
Поэтому добавление одного эпизода занимает, в среднем, 10-15 секунд.
И это обязательно стоит учитывать в ситуации, когда собираетесь добавить эпизоды массово или система, из которой они собираются, поставляет больше, чем 4-7 эпизодов в минуту на протяжении всего времени работы.
Кстати, чем "сложнее" ваш эпизод, тем больше времени займёт его добавление. Так как из него можно выделить больше сущностей, каждую из которых необходимо описать и с чем-то связать.
Спонсор этого поста – граф со скриншота, который уже имеет 481 ноду и 1300+ связей, а эпизоды загрузились только на 60% 🫠
На одно добавление эпизода через Graphiti приходится несколько запросов в различные AI-API. Эмбеддинги создать, сущности выделить, описание для сущности написать. Всё это занимает время.
Поэтому добавление одного эпизода занимает, в среднем, 10-15 секунд.
И это обязательно стоит учитывать в ситуации, когда собираетесь добавить эпизоды массово или система, из которой они собираются, поставляет больше, чем 4-7 эпизодов в минуту на протяжении всего времени работы.
Кстати, чем "сложнее" ваш эпизод, тем больше времени займёт его добавление. Так как из него можно выделить больше сущностей, каждую из которых необходимо описать и с чем-то связать.
Спонсор этого поста – граф со скриншота, который уже имеет 481 ноду и 1300+ связей, а эпизоды загрузились только на 60% 🫠
2❤11🔥4👍3
– OpenAI, дай списать?
– Хорошо, Anthropic. Только один в один не списывай...
– Ой, а кто это бьётся в истерике под лавкой?
– Это Cursor. Представляешь, он думал, что если первый пришёл, то это его место!
––––––––––––––––––––––––––
Расширение Claude Code для VS Code вчера серьёзно обновили. Теперь он определённо ближе к народу.
Особенно к той части "народа", что не очень любит глубоко разбираться с cli-инструментами.
Самое крутое – Anthropic, в отличие от OpenAI, принесли в своё расширение все доступные в cli-версии инструменты.
Сейчас Claude Code – это инструмент, не уступающий Cursor в плане UX/UI. При этом у Claude Code есть хуки, саб-агенты и возможность самостоятельно очищать контекст.
Большие игроки всё активнее отжимают себе рынок AI-Coding. Не зря разработчики Cursor так активизировались в релизе новых фич(привет, Cursor Browser!) .
Что ж. Конкуренция – это хорошо. Позволяет многие инструменты использовать бесплатно (предоставил список тут).
А в медиа сегодня – скриншот того, как выглядит VS Code, который используют для тестирования различных AI-Coding Tools 🙂
– Хорошо, Anthropic. Только один в один не списывай...
– Ой, а кто это бьётся в истерике под лавкой?
– Это Cursor. Представляешь, он думал, что если первый пришёл, то это его место!
––––––––––––––––––––––––––
Расширение Claude Code для VS Code вчера серьёзно обновили. Теперь он определённо ближе к народу.
Особенно к той части "народа", что не очень любит глубоко разбираться с cli-инструментами.
Самое крутое – Anthropic, в отличие от OpenAI, принесли в своё расширение все доступные в cli-версии инструменты.
Сейчас Claude Code – это инструмент, не уступающий Cursor в плане UX/UI. При этом у Claude Code есть хуки, саб-агенты и возможность самостоятельно очищать контекст.
Большие игроки всё активнее отжимают себе рынок AI-Coding. Не зря разработчики Cursor так активизировались в релизе новых фич
Что ж. Конкуренция – это хорошо. Позволяет многие инструменты использовать бесплатно (предоставил список тут).
А в медиа сегодня – скриншот того, как выглядит VS Code, который используют для тестирования различных AI-Coding Tools 🙂
1👍11🔥7❤4
Теперь нас всех ждёт наплыв AI-generated видео. Покруче, чем было в день "Всеобщей гиблификации интернета".
Вышла Sora2. Пока только по инвайтам и только в США/Канаде.
Самый простой путь попробовать самому:
1. Получаем инвайт
2. Включаем VPN США
3. Идём сюда
4. Активируем с помощью кода из инвайта Sora2
Единственная возможность, которой при таком раскладе не будет – это загрузить собственное "Камео". Что-то типа персональной LoRA с вашим лицом.
Для Cameo потребуется iOS-приложение, скачанное из американского AppStore. Путь тоже проходимый, но более замороченный, как по мне.
Sora 2 – разная на подписках за $20 и за $200. В генерациях за $20 бросается в глаза, что OpenAI не доливают вычислительных мощностей на генерацию. Она получается более смазанной и "шумной". Отличается от того, что показывали во всех промо-материалах.
А, да. Есть как text-to-video, так и image-to-video. Хорошо держит физику и сцену после смены кадров. Весьма кинематографично. И, похоже, что это очередной шаг к бесконечной автоматически-создаваемой ленте, награждающей микродозами дофамина...
Мой инвайт для Sora2 – в комментариях. Не забудьте включить VPN США перед тем, как заходить на сайт.
Вышла Sora2. Пока только по инвайтам и только в США/Канаде.
Самый простой путь попробовать самому:
1. Получаем инвайт
2. Включаем VPN США
3. Идём сюда
4. Активируем с помощью кода из инвайта Sora2
Единственная возможность, которой при таком раскладе не будет – это загрузить собственное "Камео". Что-то типа персональной LoRA с вашим лицом.
Для Cameo потребуется iOS-приложение, скачанное из американского AppStore. Путь тоже проходимый, но более замороченный, как по мне.
Sora 2 – разная на подписках за $20 и за $200. В генерациях за $20 бросается в глаза, что OpenAI не доливают вычислительных мощностей на генерацию. Она получается более смазанной и "шумной". Отличается от того, что показывали во всех промо-материалах.
А, да. Есть как text-to-video, так и image-to-video. Хорошо держит физику и сцену после смены кадров. Весьма кинематографично. И, похоже, что это очередной шаг к бесконечной автоматически-создаваемой ленте, награждающей микродозами дофамина...
Мой инвайт для Sora2 – в комментариях. Не забудьте включить VPN США перед тем, как заходить на сайт.
3❤13👍5🔥3