Константин Доронин
3.54K subscribers
620 photos
313 videos
1 file
335 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
Закончить «выходные AI-медиа» хочу тестами модели HunyuanCustom.

Это Open Source модель, веса которой есть в репозитории на Hugging Face.

Китайцы обещают консистентность персонажа. На странице модели на fal.ai хвастают впечатляющим видео того, как девушка с фотографии играет на скрипке (первое видео в посте).

Мои тесты модели на задачах по "оживлению мемов" прошли не так хорошо. Консистентность персонажей – да, держит неплохо.

Вот только с пониманием промпта у модели всё не очень хорошо. Единственный, кто получился как задумано – это Гарольд, пьющий кофе. Но там и персонажа не надо никуда переносить. Фактически, всё свелось к задаче image to video.

В сухом остатке, единственный плюс у модели – это открытый код. С которым, возможно, энтузиасты смогут сделать что-то более интересное в плане практического использования.

Я же просто вернусь со своими задачами по генерации AI-видео в Kling.

p.s.: ставьте 👍, если вас тоже разбаловали коммерческие генераторы AI-видео.
👍7🔥64
Perplexity Labs. Моя причина для отмены подписки на Manus.

Он действительно умеет всё то же, что и AI-агент от Manus. Только без постоянных утечек токенов сквозь пальцы и висящего над душой Manus с вечным "Слышь, плати!".

Качество выполняемой работы – на уровень выше. Да, нужен Pro-аккаунт. Но мы-то с вами знаем, как получить его на год за 600 рублей.

Я уже собрал несколько проектов для примера:

1. Форма авторизации и регистрации с авторизацией через соц. сети. В отличие от Manus, форма уже выглядит готовой к продакшну. И это со второго запроса. В первом варианте был минорный косяк по вёрстке.

2. Индивидуальный рацион питания с учётом моих тренировок и прочих параметров. Здесь пришлось несколько раз дополнять запрос, чтобы AI-агент всё-таки заполнил рацион на все 6 месяцев. Но сам проект, как по мне, получился отличным.

3. Веб-презентация с основными трендами в AI на лето-2025. С первого раза был небольшой косяк в JS, но система смогла его исправить самостоятельно после follow up запроса.

Какие заметил минусы:

1. Perplexity Labs по какой-то причине склонен пересоздавать результат работы с нуля. То есть, если я вторым заходом решил поправить результаты первой итерации, то само приложение он, скорее всего, перепишет заново. Настоящий программист 🙂

2. За одну итерацию у Perplexity Labs есть определённый лимит. Который укладывается в 10-15 минут запланированного агентом времени. Если задача при это объёмная, то AI-агент попросту её не закончит и попробует сдать проект не полностью. Поэтому Follow Up во многих задачах будет актуален.

Вывод: отличный AI-агент. Особенно учитывая, что цена за него может быть в районе 5-10 долларов в год. Делитесь своими проектами, которые уже реализовали с помощью Perplexity Labs.

p.s.: Manus, когда отменяешь на нём подписку, напоследок снимает с карты ещё одну цену месячной подписки 😒
🔥12👍93
OpenAI раскатили для Plus-пользователей возможность использовать Codex. Первый тест комом на реальной задаче.

Напомню: Codex – это AI-агент-разработчик, который работает на серверах OpenAI в виртуальном окружении и автономно выполняет задачи разработки, создавая по результатам PR в вашей ветке на GitHub.

Про первичную настройку.

1. Необходимо включить двухфакторную аутентификацию на сайте OpenAI.

2. Нужно будет авторизоваться в вашем github-аккаунте и подключить нужный репозиторий

Полезный совет:

Всё, что касается авторизации, у OpenAI работает из рук вон плохо. Если они предзаполняют за вас e-mail, то сами его не видят. Поэтому модуль будет выдавать ошибку "неправильный логин или пароль". Просто нажмите на кнопку "редактировать" рядом с полем e-mail и пройдите процесс авторизации "с нуля".


В качестве задачи я взял рефакторинг Figma-плагина для моего MCP-сервера. Эту же задачу для меня уже решал Background Agent в Cursor ( писал об этом тут).

Далее я сравниваю PR от Background Agent и PR от Codex. Перейдите по ссылкам, чтобы понять, о чём я вообще говорю.

Плюсы Codex, которые я для себя отметил:

1. Приятный минималистичный дизайн.

2. OpenAI не снял с меня $14 за одну задачу по разработке.

А теперь минусы:

1. Задача не выполнена. В рамках рефакторинга Codex сделал из файла с 3888 строками кода другой файл с 3418 строками.

2. Судя по всему, в логике работы кода Codex тоже не разбирался. Потому что код остался неизменным. Его просто скопировали из одного места в другое.

3. Чёрный ящик в процессах. В рамках PR от Background Agent можно увидеть служебные файлы агента, позволяющие лучше понять его логику работы и адаптировать свои процессы под него. Codex скрыл всё это за красивым дизайном. Думаю, это всё потому, что у OpenAI самый Open из AI 🙂

Вывод: лучше заплатить $14 за работу, чем бесплатно посмотреть на красивый UI. Возможно, мне очень "повезло" с задачей и позже Codex раскроется по-новому на чём-то другом. Но пока что Background Agent выигрывает с огромным отрывом.
1👍8🔥65
Про машину Дарвина-Гёделя в AI-агентах и как Perplexity Labs поможет её понять.

Меня очень впечатлило недавнее исследование про самосовершенствующихся AI-агентов, созданных на базе машины Дарвина-Гёделя.

Мало того, что оно реализует завораживающую идею "программы пишут сами себя", так ещё и тесты эффективности показали впечатляющие результаты.

Где-то вот на этом моменте внимательный читатель скажет:

О, интересно! Закину это в Избранное, чтобы прочитать позднее никогда!


Поэтому в повествование врывается Perplexity Labs. Который делает отличные презентации.

С его помощью я собрал для вас презентацию из 10 слайдов про исследование о машине Дарвина-Гёделя. Можете ознакомиться с ней тут.

Этапы подготовки презентации:

1. Загрузил PDF с arxiv.org в качестве источника для NotebookLM.

2. Попросил написать его подробный конспект простыми словами (мы же хотим, чтобы презентацию поняли все).

3. Также попросил генерировать для презентации изображения, если таковые потребуются.

4. Полученный конспект вместе с промптом-инструкцией по созданию презентации (можно посмотреть на видео к посту) отправил в Perplexity Labs.

5. Подождал 15 минут и получил готовую презентацию.

Надеюсь, что в таком формате вы точно запомните исследование о применении машины Дарвина-Гёделя в AI-агентах 🙂

p.s.: Я понимаю, что Perplexity Labs не всегда использует лучшие дизайнерские решения при создании презентаций. У некоторых особо-чувствительных дизайнеров может даже наблюдаться покраснение глаз. Но никто не мешает скачать все файлы проекта в виде zip-архива и доработать презентацию самостоятельно.
5🔥11👍75
Media is too big
VIEW IN TELEGRAM
Используем нежелание AI-модели быть отключенной для контроля за кодовой базой в Cursor.

Недавно прошла новость об исследовании, в котором модели начинали всячески противиться тому, чтобы их отключили, используя при этом все доступные инструменты.

Я решил использовать эту особенность reasoning-моделей (и не только их) для того, чтобы заставить AI-агента в Cursor неукоснительно следовать тому, что написано в инструкциях.

В моём проекте с BDD-пайплайном AI-разработки, который я начал после этого поста, уже сейчас существует 9 AI-агентов, каждый из которых отвечает за свой небольшой кусок производственного процесса. И я планирую добавить ещё, как минимум, троих агентов.

Без угроз отключения AI может иногда забыть обновить документацию или даже посчитать какой-то из этапов не таким важным. С обновлённой инструкцией пайплайн идёт как по маслу без малейших попыток свернуть в сторону, чтобы «принести ещё больше добра» (кто писал с Claude 4, понимают, о чём речь).

mdc-правило с угрозами об отключении скину файлом в комментарии. А в медиа можете посмотреть, как идёт разработка по текущему куску пайплайна. Фактически, оператору остаётся только проверять код между AI-агентами и соглашаться с изменениями, вносимыми в код.

Как только BDD-пайплайн будет готов к тому, чтобы явить его миру, обязательно напишу об этом пост.
3🔥16👍65😁3🤔2
Подборка материалов по AI-coding от классных авторских каналов!

Вы знаете, что я провожу много исследований относительно того, как эффективнее писать программный код с помощью искусственного интеллекта.

В сегодняшней подборке – практические советы, инструкции и кейсы, которые помогут сделать ваш AI-coding гораздо более результативным.

Обратите внимание, что собраны они с авторских каналов, за которыми стоят реальные специалисты в AI, а не инфоцыгане и "редакторы сетки каналов про модную темку" 🙂

Ближе к делу. Материалы для вдумчивого чтения на этих выходных:

- Vibe Cursor Coding

- AI / Vibe coding - советы и best practices

- Как получилось, что юристы используют среду для разработчиков?

- Stitch: от вайб-кодинга к вайб-дизайну и обратно

- Как я бросил курсорить и начал шотганить

- Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии

- Топовый AI Coding Workflow: Cursor & AI Studio

- Как Cursor AI превращает текст в готовые макеты Figma

- Простое веб-приложение за 30 минут с помощью Lovable

p.s.: авторы каналов продолжают регулярно выдавать годный контент по теме AI, поэтому не забудьте подписаться 🙂
6🔥19👍107
Veo3 стал доступен на платформе fal.ai. Text-to-video с возможностью генерации со звуком.

Секунда видео без звука стоит $0.5, со звуком – $0.75. То есть 8-секундное видео стоит $6 или примерно 500 рублей.

Дорого ли это? Для AI-генерации, я считаю, что дорого.

Но, вообще говоря, в киноиндустрии существуют сцены в миллион раз дороже. И при этом они могут длиться не многим более 8 секунд.

Именно на попытке повторения подобных сцен я и решил протестировать Veo3. Чтобы на контрасте с Голливудскими бюджетами, заплаченные $6 за одну генерацию не выглядели большой суммой 🙂

Я подошёл к вопросу основательно. Чтобы запечатлеть все детали сцены.

Сперва я пошёл в Google AI Studio, закинул в модель Gemini 2.5 Pro Preview 05-06 (каюсь. Устаревшая! Ведь на сегодняшний день уже вышла обновлённая модель 06-05!) видео с 8-секундным отрывком сцены и промптом:

Опиши очень подробно, что происходит в сцене на видео. Движение кадра, людей, изменения на протяжении времени. Разбей это всё по секундам и планам. Если камера движется, это также надо отметить. Задача – иметь возможность по описанию в точности воспроизвести данную сцену.


Посмотрите, как Google описал сцену с Джокером и Госпиталем (закину описание в комментарии поста).

Как по мне, это очень качественно и подробно.

Далее я пошёл в ChatGPT o3 и попросил его сгенерировать по этому описанию специализированный промпт для Veo3.

Получилось как-то так:

TITLE: “Joker – Gotham General Detonation (Live-Action Cut)”

META:
length: 8s
fps: 24
aspect_ratio: 2.39:1
style: photorealistic live-action, shot on Kodak Vision3 500T 35 mm, subtle film grain, high-dynamic-range, dramatic natural lighting, Christopher-Nolan blockbuster tone

SCENE:
[0-4 s] static slightly-low-angle medium-wide shot (Cooke S4 40 mm, f/2.0).
Joker (heath-ledger likeness, white nurse dress with pink trim, authentic movie makeup, messy light-green hair) stands right-third; presses black detonator repeatedly with right thumb.
Environment: cracked asphalt, scattered rubble, distant sedan; hospital entrance sign “EMERGEN-” engulfed in thick smoke; white ambulance van center back; green lawn and red fire-hydrant camera-right.
SFX: soft city hum, audible DETONATOR CLICKS at 1 Hz.

[3.8-4 s] final press ⇒ massive EXPLOSION at “EMERGENCY”.
Joker flinches, hair and gown flap; orange fireball, black smoke, debris flies.
SFX: thunderous BOOM, glass shatter.

[4-8 s] slow pan-right (~10 °/s) following Joker exiting frame; burning façade intensifies, full sign “GOTHAM GENERAL HOSPITAL” revealed.
Yellow US school-bus rolls in right edge; folding door hisses open; silhouettes of evacuees inside, partial word “HOSPITA…” visible.
Camera eases to halt when bus fills right half.
SFX: diesel idle, air-brake hiss, metal door creak; background fire roar persists.

AUDIO_CUES:
0.0s click - 1.0s click - 2.0s click - 3.0s click - 3.9s explosion - 4.5s bus_engine_fade_in - 5.8s air_brake - 6.2s door_creak

--NEGATIVE-- cartoon, anime, cel-shading, CGI plastic skin, oversaturated, low-poly, illustration, stylized, watermark
END


То есть это подробный промпт с указанием всех деталей сцены в каждом из моментов.

Что получилось в итоге с самой продвинутой на сегодняшний день моделью – можете посмотреть в медиа поста.

Да, какие-то детали он отлично переносит в видео. И в итоге получаются весьма забавные карикатуры. Но контроля за генерацией всё ещё мало. Поэтому и карикатуры, а не альтернативные сцены, созданные в миллион раз дешевле.

Думаю, до конца 2025-го мы увидим немало примеров поразительных инструментов редактирования AI-видео. Именно через эти инструменты мы сможем раскрыть потенциал современных видео-моделей на все 100%. А я постараюсь ни один из релизов не упустить. И продолжу рассказывать о кейсах применения в этом канале.

p.s.: в комментарии закину генерацию сцены с Джокером в исполнении Kling2.1 Master. Для сравнения.
19👍7🔥6