Константин Доронин
3.24K subscribers
620 photos
313 videos
1 file
335 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
Во Flux Pro завезли модель Kontext. Которая привозит с собой отличный inpainting. То есть изменяет часть изображения, оставляя неизменным остальные области.

Чтобы попробовать бесплатно, берём промокод KONTEXT10 и идём его активировать в личный кабинет на https://fal.ai/.

При активации дадут $10, которых хватит на 125 генераций с моделью Kontext Max или на 250 с версией Pro. Цена – по $0.08 и $0.04 за генерацию соответственно.

Лучше всего модель справляется, если на текущем изображении нужно изменить какую-то незначительную деталь или цельный объект. В таком случае, Flux отлично определяет область для изменений, не редактируя лишнего.

Большая часть примеров из медиа поста – это Kontext Max. Работает он стабильно и, по моему мнению, хорошо справляется со своими задачами.

Также на fal.ai завезли экспериментальную Multi Image версию. Она работает не так чтобы нестабильно и всё, что я смог с её помощью сделать – это переодеть Нео в шаровары и отправить в далёкую-далёкую Галактику. При этом Киану Ривз перестал быть похожим на себя, как вы видите.
1🔥84👍3😁3
Вышел Kling 2.1. Новая версия моего любимого (доступ к Veo3 ещё не сделал себе) AI-генератора видео.

Поддерживает как text-to-video, так и image-to-video.

Есть две версии: базовая и Master. Я проводил все тесты на Master, чтобы проверить, на что способна модель в максимально-доступном режиме.

Он стал лучше следовать промпту. Включая работу с временными интервалами и управлением камерой (посмотрите, как красиво она наезжает на морду дракона!).

Kling 2.1 Master теперь по-умолчанию генерирует видео в Full-HD длительностью до всё тех же 10 секунд.

Сами видео стали более натуральными. Модель теперь лучше "понимает" реальный мир. Даже гимнастка до последнего движения двигалась почти натурально.

И, конечно же, Kling 2.1 (особенно Master) профессионально на скорость съедает все доступные токены для генерации. 660 кредитов, которые в месяц получает пользователь на тарифе Standard, хватит всего лишь на три видео длиной 10 секунд (200 токенов за штуку). Получается, что генерация одного видео стоит $2 (в случае оплаты тарифа сразу за год).

На платфрме fal.ai генерация в Kling Master, в свою очередь, обойдётся в $2.8 за те же 10 секунд.
1🔥127👍5
Закончить «выходные AI-медиа» хочу тестами модели HunyuanCustom.

Это Open Source модель, веса которой есть в репозитории на Hugging Face.

Китайцы обещают консистентность персонажа. На странице модели на fal.ai хвастают впечатляющим видео того, как девушка с фотографии играет на скрипке (первое видео в посте).

Мои тесты модели на задачах по "оживлению мемов" прошли не так хорошо. Консистентность персонажей – да, держит неплохо.

Вот только с пониманием промпта у модели всё не очень хорошо. Единственный, кто получился как задумано – это Гарольд, пьющий кофе. Но там и персонажа не надо никуда переносить. Фактически, всё свелось к задаче image to video.

В сухом остатке, единственный плюс у модели – это открытый код. С которым, возможно, энтузиасты смогут сделать что-то более интересное в плане практического использования.

Я же просто вернусь со своими задачами по генерации AI-видео в Kling.

p.s.: ставьте 👍, если вас тоже разбаловали коммерческие генераторы AI-видео.
👍7🔥64
Perplexity Labs. Моя причина для отмены подписки на Manus.

Он действительно умеет всё то же, что и AI-агент от Manus. Только без постоянных утечек токенов сквозь пальцы и висящего над душой Manus с вечным "Слышь, плати!".

Качество выполняемой работы – на уровень выше. Да, нужен Pro-аккаунт. Но мы-то с вами знаем, как получить его на год за 600 рублей.

Я уже собрал несколько проектов для примера:

1. Форма авторизации и регистрации с авторизацией через соц. сети. В отличие от Manus, форма уже выглядит готовой к продакшну. И это со второго запроса. В первом варианте был минорный косяк по вёрстке.

2. Индивидуальный рацион питания с учётом моих тренировок и прочих параметров. Здесь пришлось несколько раз дополнять запрос, чтобы AI-агент всё-таки заполнил рацион на все 6 месяцев. Но сам проект, как по мне, получился отличным.

3. Веб-презентация с основными трендами в AI на лето-2025. С первого раза был небольшой косяк в JS, но система смогла его исправить самостоятельно после follow up запроса.

Какие заметил минусы:

1. Perplexity Labs по какой-то причине склонен пересоздавать результат работы с нуля. То есть, если я вторым заходом решил поправить результаты первой итерации, то само приложение он, скорее всего, перепишет заново. Настоящий программист 🙂

2. За одну итерацию у Perplexity Labs есть определённый лимит. Который укладывается в 10-15 минут запланированного агентом времени. Если задача при это объёмная, то AI-агент попросту её не закончит и попробует сдать проект не полностью. Поэтому Follow Up во многих задачах будет актуален.

Вывод: отличный AI-агент. Особенно учитывая, что цена за него может быть в районе 5-10 долларов в год. Делитесь своими проектами, которые уже реализовали с помощью Perplexity Labs.

p.s.: Manus, когда отменяешь на нём подписку, напоследок снимает с карты ещё одну цену месячной подписки 😒
🔥12👍93
OpenAI раскатили для Plus-пользователей возможность использовать Codex. Первый тест комом на реальной задаче.

Напомню: Codex – это AI-агент-разработчик, который работает на серверах OpenAI в виртуальном окружении и автономно выполняет задачи разработки, создавая по результатам PR в вашей ветке на GitHub.

Про первичную настройку.

1. Необходимо включить двухфакторную аутентификацию на сайте OpenAI.

2. Нужно будет авторизоваться в вашем github-аккаунте и подключить нужный репозиторий

Полезный совет:

Всё, что касается авторизации, у OpenAI работает из рук вон плохо. Если они предзаполняют за вас e-mail, то сами его не видят. Поэтому модуль будет выдавать ошибку "неправильный логин или пароль". Просто нажмите на кнопку "редактировать" рядом с полем e-mail и пройдите процесс авторизации "с нуля".


В качестве задачи я взял рефакторинг Figma-плагина для моего MCP-сервера. Эту же задачу для меня уже решал Background Agent в Cursor ( писал об этом тут).

Далее я сравниваю PR от Background Agent и PR от Codex. Перейдите по ссылкам, чтобы понять, о чём я вообще говорю.

Плюсы Codex, которые я для себя отметил:

1. Приятный минималистичный дизайн.

2. OpenAI не снял с меня $14 за одну задачу по разработке.

А теперь минусы:

1. Задача не выполнена. В рамках рефакторинга Codex сделал из файла с 3888 строками кода другой файл с 3418 строками.

2. Судя по всему, в логике работы кода Codex тоже не разбирался. Потому что код остался неизменным. Его просто скопировали из одного места в другое.

3. Чёрный ящик в процессах. В рамках PR от Background Agent можно увидеть служебные файлы агента, позволяющие лучше понять его логику работы и адаптировать свои процессы под него. Codex скрыл всё это за красивым дизайном. Думаю, это всё потому, что у OpenAI самый Open из AI 🙂

Вывод: лучше заплатить $14 за работу, чем бесплатно посмотреть на красивый UI. Возможно, мне очень "повезло" с задачей и позже Codex раскроется по-новому на чём-то другом. Но пока что Background Agent выигрывает с огромным отрывом.
1👍8🔥65
Про машину Дарвина-Гёделя в AI-агентах и как Perplexity Labs поможет её понять.

Меня очень впечатлило недавнее исследование про самосовершенствующихся AI-агентов, созданных на базе машины Дарвина-Гёделя.

Мало того, что оно реализует завораживающую идею "программы пишут сами себя", так ещё и тесты эффективности показали впечатляющие результаты.

Где-то вот на этом моменте внимательный читатель скажет:

О, интересно! Закину это в Избранное, чтобы прочитать позднее никогда!


Поэтому в повествование врывается Perplexity Labs. Который делает отличные презентации.

С его помощью я собрал для вас презентацию из 10 слайдов про исследование о машине Дарвина-Гёделя. Можете ознакомиться с ней тут.

Этапы подготовки презентации:

1. Загрузил PDF с arxiv.org в качестве источника для NotebookLM.

2. Попросил написать его подробный конспект простыми словами (мы же хотим, чтобы презентацию поняли все).

3. Также попросил генерировать для презентации изображения, если таковые потребуются.

4. Полученный конспект вместе с промптом-инструкцией по созданию презентации (можно посмотреть на видео к посту) отправил в Perplexity Labs.

5. Подождал 15 минут и получил готовую презентацию.

Надеюсь, что в таком формате вы точно запомните исследование о применении машины Дарвина-Гёделя в AI-агентах 🙂

p.s.: Я понимаю, что Perplexity Labs не всегда использует лучшие дизайнерские решения при создании презентаций. У некоторых особо-чувствительных дизайнеров может даже наблюдаться покраснение глаз. Но никто не мешает скачать все файлы проекта в виде zip-архива и доработать презентацию самостоятельно.
5🔥11👍75