Константин Доронин
3.14K subscribers
619 photos
313 videos
1 file
334 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
В качестве продолжения ко вчерашнему посту – встречайте интерактивный проект с карточками Zettelkasten по "The 2025 AI Index Report" (PDF есть в комментариях).

Посмотреть веб-версию проекта можно здесь: https://xpqngsvk.manus.space/

Там 50 карточек по основным темам, распределённые по тегам и иерархии. Есть представление карточек в виде графа, а также не работающий поиск (решил не тратить токены на его починку).

Самое крутое – всё переведено на русский язык самим Manus! Правда, он дважды спросил "Тут объёмная задача. Мы точно хотим её делать?".

Заработало всё не с первого промпта. В первой версии не работал граф, а также отсутствовали страницы тегов. Добавлял их отдельными запросами.

Также Manus в процессе работы создал дополнительный чат, так как первый быстро переполнился контекстом (ни разу не виню. Он 400+ страниц PDF-документа перевёл).

Суммарно на эту задачу у меня ушло 2200 токенов. Большая часть из них потрачена на перевод, а также на создание сайта.
1👍128🔥5
"Карта, деньги, Pull Request" или "сказ о том, как Background Agent в Cursor работает и зарабатывает".

В один день с презентацией, на которой OpenAI представили Codex (писал про него тут), Cursor выкатили "Codex у нас дома". Он называется Background Agent.

Работает он по тому же принципу. Мы авторизуем приложение Cursor в GitHub и запускаем автономную задачу в режиме AI-агента. Агент самостоятельно поднимает виртуальное окружение, пишет код, после чего создаёт Pull Request. На скринкастах в медиа можете посмотреть, как это работает.

В моей кастомной Python-версии Figma MCP я использовал Figma Plugin от разработчика Cursor Talk to Figma MCP. К сожалению, этот плагин содержал один основной файл с 3915 строками JS-кода внутри. Поддерживать и развивать такое – очень непросто. Даже с AI.

Поэтому я попросил Background Agent провести рефакторинг данного плагина, чтобы облегчить его сопровождение. Результат его работы можете посмотреть в данном PR.

Что важно знать про режим Background Agent:

1. Прежде, чем его включать, необходимо отключить опцию Privacy Mode в General настройках Cursor. Без неё включить Background Agent попросту не получится.

2. После того, как Background Agent включён, необходимо авторизоваться в GitHub-аккаунте, в котором существует текущий (локальный) репозиторий.

3. Если вы хотите выбрать ветку, отличную от Main, она должна обязательно быть опубликована в GitHub. Если ветка существует только локально, то Cursor позволит её выбрать, но работать с ней не сможет и будет выдавать почему-то ошибку подключения к API.

4. Похоже, что в режиме Background Agent Cursor не использует MCP-сервера. Но использует встроенные Tools. Так как актуальную документацию по Figma агент изучал через поиск, а не через Context7 MCP.

5. Деньги. Важный пункт. Все запросы, которые идут в режиме Background Agent, тарифицируются по Usage-based pricing. То есть мы платим за все используемые токены. Я использовал для своей задачи Claude 4 Opus. Поэтому потратился (об этом – ниже).

6. Следствие из предыдущего пункта. Перед тем, как запустить задачу в Background Agent, необходимо включить поддержку Usage-based pricing и установить месячные лимиты. Cursor заботливо предлагает разгуляться на $50, но я оставил $20.

7. Background Agent беспринципно закинул мне в PR папку node_modules. Я отдельным коммитом убирал её, чтобы оставить только код, созданный агентом. Меня удивило, что Opus 4 не догадался обновить .gitignore, чтобы не допустить попадания папки в PR.

Какие результаты я получил по своей задаче:

1. На создание PR с 3178 строчками кода Background Agent потратил $14.20. В самом PR, как вы можете видеть, полностью обновлённый плагин для Figma.

2. Плагин, к счастью, завёлся с первого раза. Подключился к серверу и даже выдал токен авторизации. Это внушает надежду, что деньги не были выброшены на ветер 😊

3. В PR также попали служебные файлы от Background Agent, так что можно внимательно изучить, какой документации, по мнению Cursor, достаточно для того, чтобы автономно выполнять задачи небольшого объёма.

Вывод: эксперимент получился относительно дорогой, но это следствие того, что я очень хотел попробовать в деле Claude 4 Opus. В режиме AI-агента он действительно хорош. Я планирую попробовать недавно вышедший обновлённый DeepSeek-v3 и расскажу, что изменится в вопросах качества и стоимости результатов.
👍177🔥7
Во Flux Pro завезли модель Kontext. Которая привозит с собой отличный inpainting. То есть изменяет часть изображения, оставляя неизменным остальные области.

Чтобы попробовать бесплатно, берём промокод KONTEXT10 и идём его активировать в личный кабинет на https://fal.ai/.

При активации дадут $10, которых хватит на 125 генераций с моделью Kontext Max или на 250 с версией Pro. Цена – по $0.08 и $0.04 за генерацию соответственно.

Лучше всего модель справляется, если на текущем изображении нужно изменить какую-то незначительную деталь или цельный объект. В таком случае, Flux отлично определяет область для изменений, не редактируя лишнего.

Большая часть примеров из медиа поста – это Kontext Max. Работает он стабильно и, по моему мнению, хорошо справляется со своими задачами.

Также на fal.ai завезли экспериментальную Multi Image версию. Она работает не так чтобы нестабильно и всё, что я смог с её помощью сделать – это переодеть Нео в шаровары и отправить в далёкую-далёкую Галактику. При этом Киану Ривз перестал быть похожим на себя, как вы видите.
1🔥84👍3😁3
Вышел Kling 2.1. Новая версия моего любимого (доступ к Veo3 ещё не сделал себе) AI-генератора видео.

Поддерживает как text-to-video, так и image-to-video.

Есть две версии: базовая и Master. Я проводил все тесты на Master, чтобы проверить, на что способна модель в максимально-доступном режиме.

Он стал лучше следовать промпту. Включая работу с временными интервалами и управлением камерой (посмотрите, как красиво она наезжает на морду дракона!).

Kling 2.1 Master теперь по-умолчанию генерирует видео в Full-HD длительностью до всё тех же 10 секунд.

Сами видео стали более натуральными. Модель теперь лучше "понимает" реальный мир. Даже гимнастка до последнего движения двигалась почти натурально.

И, конечно же, Kling 2.1 (особенно Master) профессионально на скорость съедает все доступные токены для генерации. 660 кредитов, которые в месяц получает пользователь на тарифе Standard, хватит всего лишь на три видео длиной 10 секунд (200 токенов за штуку). Получается, что генерация одного видео стоит $2 (в случае оплаты тарифа сразу за год).

На платфрме fal.ai генерация в Kling Master, в свою очередь, обойдётся в $2.8 за те же 10 секунд.
1🔥127👍5
Закончить «выходные AI-медиа» хочу тестами модели HunyuanCustom.

Это Open Source модель, веса которой есть в репозитории на Hugging Face.

Китайцы обещают консистентность персонажа. На странице модели на fal.ai хвастают впечатляющим видео того, как девушка с фотографии играет на скрипке (первое видео в посте).

Мои тесты модели на задачах по "оживлению мемов" прошли не так хорошо. Консистентность персонажей – да, держит неплохо.

Вот только с пониманием промпта у модели всё не очень хорошо. Единственный, кто получился как задумано – это Гарольд, пьющий кофе. Но там и персонажа не надо никуда переносить. Фактически, всё свелось к задаче image to video.

В сухом остатке, единственный плюс у модели – это открытый код. С которым, возможно, энтузиасты смогут сделать что-то более интересное в плане практического использования.

Я же просто вернусь со своими задачами по генерации AI-видео в Kling.

p.s.: ставьте 👍, если вас тоже разбаловали коммерческие генераторы AI-видео.
👍7🔥64