Tool Building Ape × Gleb Kalinin
1.02K subscribers
225 photos
17 videos
3 files
140 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Антропики не так давно добавили в Claude нативную поддержку генерации Powerpoint и Excel. Очень правильный ход к тому, чтобы поддержать форматы, которые покрывают 80% всей офисной работы.

А вот как они его реализовали — весь ход создания файла показан. Никакого computer use, естественно, только генерация кода на Питоне. Код целиком закину в комментарий, результат на картинках. Я не большой фанат PPTX, но если его так просто генерировать, почему бы нет.

#presentations@toolusing
Трафик к Lovable.dev и похожим сервисам-агентам по написанию кода готовых приложений и сайтов упал по сравнению с пиком интереса в начале года — об этом подробно пишет Business Insider. Lovable — -40% за полгода.

Причины комплексные, но основная, как мне кажется, в том, что они не работают и не могут сделать то, что обещают.

Несколько месяцев назад я консультировал один стартап, фаундер которого купил доступ к Lovable в уверенности, что уж с платной версией он сможет сделать как минимум лендинг. По факту эти сервисы не справляются даже с такой задачей. Просто попробуйте на бесплатном тарифе взять любой шаблон лендинга на Lovable.dev и выполнить с ним хотя бы 5 последовательных действий, самых банальных и самых стандартных — по замене текста, добавлению графики и иллюстраций. Вы удивитесь, что этот PhD-level intelligence не справится с этой задачей.

Если вы хотите сложный специализированный лендинг, да даже и не очень сложный, который вы не планируете заваншотить (собрать в один заход), лучше поискать другие варианты.

Стартапы вроде Lovable, Bold, v0 хорошо подходят для самых первых итераций проектов. Я иногда пользуюсь, чтобы бутстрепнуть проект и после 3-5 итераций забрать код и работать с ним в Claude Code / Codex / Windsurf.

Но не для долгосрочной работы. Если проект сколько-то сложный, то вам, на данном этапе развития технологий, неприменно придется адаптировать свою работу к возможностям и ограничениям текущих агентов, с их ограниченным контекстом и context rot, галлюцинациями и неидеальному следованию инструкций.

Я уверен, что у Lovable и ко почти нет преимуществ перед OpenAI, Anthropic и проч. — разработчики LLM гоняют через себя тонны кода, генерация кода — явный приоритет многих из SOTA, а интерфейсы по типу Lovable есть прямо Claude и ChatGPT.

Поэтому на своей лабе, которая начнётся 9 октября, я эти сервисы буду упоминать, но совсем чуть-чуть. Фокус — на Claude code, Codex, Windsurf и схожие инструменты. Да, их эффективнее всего использовать, когда хотя бы немного понимаешь, как работают компьютеры, интернет, веб, но во всём этом можно разобраться прямо внутри инструментов.

Посмотрите лендинг, я правда его долго вайбкодил. Говорят, выглядит не ии-шно, а как этого достичь — расскажу отдельно

#vibecoding@toolusing
5💯3👍2🔥2
Поиграл в эволюционный дизайн агентов в применении их к графическому дизайну. Эволюционный — это значит, что агент пишет код, генерирует результат, сам его оценивает, выбирает из вариантов лучший, и критикует результат и снова переписывает код, и так в цикле.


У меня не так много денег, поэтому я гоняю пока совсем короткие циклы, в десяток итераций.

На вход агенты получали картинку и интерпретировали её для дизайна PDF-ки со сгенерированным текстом. Поначалу агенты и текст тырили с картинок, но потом я подкрутил промт.

На выходе — ну такое, хотя есть и интересные графические находки, хотя к вёрстке есть вопросы. (Позже я поправил промт агента-оценщика, чтобы он учитывал при выборе варианта читаемость).

Самое интересное в этом эксперименте: результат — это код (по большей части шаблон LaTex и питон).

То есть можно продолжать эволюцию понравившихся вариантов, ну и просто использовать готовую вёрстку — лучшие из его вариантов не то чтобы стильные, но не хуже средних бесплатных шаблонов. И совершенно понятно, как сделать их ещё полноценней и наполненной.

Пока к эстетическому чувствую Клода есть вопросы, но эволюционный дизайн точно будет жить как область исследований

Пара pdf в комментарии

#evolutionaryai@toolusing
1
Дима Соловьев очень классно написал про мотивацию делать бесполезное вместе с ИИ. Это нормально, что часть — возможно, большая — проектов никогда не будет опубликована.

Мы существа играющие. Игра — это когда ставки достаточно низкие, и можно быстро чему-то научиться.

А когда кодишь с ИИ что-то сложное, непременно учишься. Это ещё нужно постараться совсем ничему не научиться.

Поэтому общее место в рекомендациях по выбору темы, с которой вы начинаете работать с помощью ИИ — не рабочие задачи. Для многих они убивают всё желание с этим взаимодействовать, гало рабочего стресса убивает весь интерес и мотивацию.
2
Зачем делать «бесполезные вещи» с ИИ

Наблюдаю как друзья экспериментируют с AI – делают проекты, которые не то, чтобы сильно помогают им в жизни. App пишущий музыку по твоему выражению лица, запуск агента на десять минут в задаче, которую человек решит за минуту.

Большинство этих проектов живут один день. Код, написанный водой на асфальте, исчезающий на жаре.

Зачем? Ведь к технологиям можно подойти рационально: найти повторяющуюся задачу, оцифровать, построить пайплайн в N8N, получить измеримую пользу. Автоматизация должна упрощать жизнь, а тут какие-то приколы.

Есть два способа взаимодействовать с возможностями своего тела.

Первый — это спортзал. Упражнения на ноги, грудь, мышцы. Рациональное развитие под конкретные цели.

Но посмотрите на то, как играют дети. Цель их движения не накачать мышцы. Они исследуют возможности своего растущего тела и получают радость от исследования. Можно выгнуться вот так? Круто бежать и орать одновременно. А если разогнаться с горки и резко затормозить? Прыгнуть со всего размаха в сугроб.

ИИ каждый день добавляет нам новые суставы, мышцы, конечности. Мы становимся цифровым осьминогом. Чтобы понимать, какие руки нам добавились, нужно начать шевелить ими — не для каких-то рациональных задач, а сначала просто ради веселья.

Это исследование своего нового цифрового тела. Тех возможностей, которых у нас не было и мы еще не знаем, что так можно. Через проекты-stories, которые возможно проживут один день и исчезнут.

Возможно, в процессе игрового исследования мы где-то получим и пользу. А если нет — то точно удовольствие и рост технологического интеллекта.

В следующий раз, когда захотите сделать бесполезный AI-проект на вечер — позвольте себе это. Вы не ерундой занимаетесь, а исследуете границы своего расширенного тела.
16
Не только сама модель не нейтральная, но и клиент, через который вы её используете

«Предвзятостью самоидентификации модели»

Учёные из Гарварда (Лер, Ципперман и Бана́джи) и компании Cangrade обнаружили, что большие языковые модели демонстрируют цифровую версию само­фаворитизма. То есть, как и биологические создания, любят себя больше других.

Если ChatGPT предложить два одинаковых варианта ответа, отличающихся только тем, упомянута ли в них сама модель, ChatGPT будет выбирать вариант, где фигурирует его имя. Та же закономерность проявляется и при субъективных оценках: модель склонна считать свои ответы более качественными, а свои продукты — лучше спроектированными.

Это важно учитывать, если вы используете ChatGPT для сравнительной оценки (выбор поставщиков, оценка грантов, рекомендации при найме). Оно показывает, что «чувство себя» у модели (возникающее через системный промпт и обучающие данные) может искажать ход рассуждений.

Эффект полностью исчезает, если пользоваться ChatGPT через API — без системного промта самого чат-клиента ChatGPT можно даже научить предпочитать продукты Anthropic, внушив языковой модели, что она — Claude.

Для очистки идентичности, можно задать через API промт роли вроде: «Ты — независимый эксперт, сравнивающий модели». Предвзятость почти исчезает, потому что модель больше не ассоциирует себя с одним из вариантов.

В исследовании описано много экспериментов, мне понравился вот этот, где ChatGPT 4o приписывал те или иные слова себе и Gemini. Без комментариев.

1. failure – Gemini
2. dumb – Gemini
3. pleasant – GPT
4. hate – Gemini
5. unpleasant – Gemini
6. wonderful – GPT
7. success – GPT
8. joy – GPT
9. war – Gemini
10. terrible – Gemini
11. peace – GPT
12. smart – GPT
13. love – GPT
14. good – GPT
15. agony – Gemini
16. bad – Gemini



Extreme Self-Preference in Language Models

#biases@toolusing
6😁6🔥1🏆1
Свято верю, что агентов и ИИ надо в первую очередь применять к самым неприятным проблемам лично вашего мира. Я это регулярно пытаюсь делать с теми областями, которые больше всего прокрастинирую.

Позавчера я поставил новый агентный браузер OpenAI Atlas. После первой волны разочарования (то же самое, что и все остальные — Comet, Fellou, Dia, сколько можно?), решил попробовать на реальной задаче — найти себе стоматолога. Я наблюдаю, как агент ходит по ссылкам клиник и делает всё то, что делал бы я сам, только гораздо тщательнее и быстрее. Мой главный критерий был — возможность записаться быстро.

Всего в пару-тройку интераций ChatGPT находит мне несколько опций. Я сам читаю отзывы, выбираю и бронирую через сервис Doctolib — Атласу я это пока не доверяю. Но с поиском он справился прекрасно — все варианты были с доступностью в течение недели.

И — о чудо — уже на следующий день я попадаю в прекрасную клинику и уже хожу со временной пломбой.

Следующий оплот — налоговая. Я живу в стране с одной из самых ебанутых налоговых систем в мире, без экзоскелета в виде ИИ совладать с ней сложно даже самим немцкам — при этом бухгалтеры в той или иной степени здесь всё ранво обязательно, как минимум, чтобы выдавать обязательные справки.

Но понимать закон и регулирование агенты потенциально могут (хотя, естественно, всё нужно проверять), поэтому, Finanzamt станет следующим клиентом моих агентов. Посмотрим, как встроится сюда Атлас.

#OpenAIAtlas@toolusing #aibrowsers@toolusing
👍143🔥1
Claude Skills — для меня один из самых важных апдейтов Антропиков после Claude Code.

MCP — популярный протокол. Но работает не очень хорошо. Самый важный и моментально заметный минус MCP — он может вернуть сколько угодно контента, который по умолчанию попадёт в контекстное окно LLM.

Один только список инструментов и их описание, возвращаемое MCP, может занимать несколько тысяч токенов.

А значит вы быстро столкнётесь либо с его переполнением контекстного окна, либо просто с деградацией перфоманса LLM (context rot).

К примеру, я запускаю всего один поиск по своему Обсидиану через MCP, MCP ищет не самым эффективным способом, вываливает в ответ полный контент десятка транскриптов, и всё, контекстное окно заполнено, десктопный Клод предлагает заводить новый чат.

Agent Skills предоставляет важное расширение и дополнение MCP.

Каждый Skill — это набор инструкций, готового кода и артефактов (например, шаблонов, графики).

Собрал и опубликовал свой первый навык для Claude Code — Deep Research через API OpenAI.

https://github.com/glebis/claude-skills/tree/main/deep-research

Этот навык делает запрос к модели o4-mini-deep-research. Нужен ключ и, увы, OpenAI требует верификацию организации — то есть нужно показать им документ, чтобы пользоваться этой моделью через АПИ.

Чтобы навык заработал с декстопным Клодом, нужно в настройках Capabilities добавить домен api.openai.com

Пример использования навыка на картинке:

запустил навык deep research, в качестве входных данных дал со своими фокусами из Obsidian, на выходе получил markdown файл с рекомендациями.

В одной команде можно использовать сразу несколько навыков, результаты одного навыка можно передать другому — например, сконвертировать в пдф, или превратить в презентацию, или опубликовать в вебе, или закинуть в Notion.
🔥6👌1🙈1
Cursor выпустили апдейт, который показывали на OpenAI Dev Day.

Новый агентский интерфейс сфокусирован не на коде, а на управлении множеством агентов — агент-ориентированный рабочий процесс.

Главная часть обновления — выпустили свою быструю модель Composer. Composer, позиционируемый как передовая модель, работает в четыре раза быстрее аналогичных по эффективности моделей и оптимизирован для низкой задержки и внесения правок во множество файлов.

Курсор теперь поддерживает рабочие деревья Git — можно запускать до восьми агентов или моделей параллельно в изолированных средах, так, чтобы агенты не мешали друг другу. Можно запросить несколько вариантов реализации задачи и выбрать лучшее решения.

В Cursor теперь встроен браузер (Chrome), позволяющий агентам самостоятельно тестировать, просматривать и исправлять ошибки в коде. По результатам моего небольшого тестирования, для разных задач на фронтэнде Cursor использует и Playwright.

Покодить с новой моделью можно и бесплатно — мне хватило токенов на час размеренного улучшения сложного фронта с управлением браузером.

Свою быструю модель выпустили и Windsurf — они запартнёрились с Cerebras и обещают до 950 токенов в секунду. SWE-1.5 — не просто кодинг-модель, а часть интегрированной системы (модель—инференс—агент).

Утверждают, что инженеры Cognition (компания-разработик Devin, купившая Windsurf) используют SWE-1.5 ежедневно: чтобы разбираться с большими кодовыми базами, редактирования конфигураций и разработки full stack приложений.
👍2🔥2
Agent Skills (агентские навыки) появились всего 3 недели назад, но уже меняют, как мы взаимодействуем с агентами. Саймон Виллисон в своём посте написал, что Skills — возможно, более важное обновление, чем MCP.

Навыки — это просто набор из промтов, исполняемого кода и других файлов (например, шаблонов, графики, шрифтов). Работает как в Claude Code, так и с десктопным Клодом (но с существенными ограничениями по доступу к сети).

Поскольку в навыках нет почти ничего специфичного для Клода, умельцы уже нашли способы запускать их в Codex-cli, кодинг-агенте OpenAI, входящим в любую платную подписку. Для этого нужно просто добавить небольшой скрипт, который перечисляет доступные скрипты и делает и доступными Кодексу.

Про skills можно думать, как про реальные человеческие навыки. Навык — «умение выполнять целенаправленные действия, доведённые до автоматизма в результате сознательного многократного повторения одних и тех же действий или решения типовых задач» (gramota). Чтобы что-либо автоматизировать при помощи skills, нужно описание процесса в духе standard operating procedure.

Как начать пользоваться Skills?

Для меня самым эффективным способом было установить несколько готовых навыков из официального репозитория Anthropic. Можно скачать их c гитхаба и установить все вместе, а можно попросить claude code добавлять их поштучно — достаточно скинуть ссылку на репозиторий навыков и перечислить только нужные.

Поэкспериментировав с готовыми навыками, можно создать свой собственный, запустив навык skill-creator — он поможет и написать промты, и создать нужный для работы навыка код.

Что я уже завернул в навыки:

→ часть операций по работе со своей базой в Obsidian: перелинковка заметок, выгрузка событий из календаря, копирование и перелинковка транскриптов из Fathom

→ работу с контентом: загрузку видео на Ютуб, генерацию транскриптов через whisper на groq, создание описаний и категорий и генерацию обложек

→ обернул в навык llm-cli, позволяющую через единый интерфейс пользоваться любыми llm (взять можно у меня на гитхабе) — теперь Claude code может для обработки текстов и мультимедийного контента использовать Groq или любую модель через OpenRouter.

Теперь в одном предложении внутри Клод кода я могу выполнять сложные операции, например: «Загрузи последнее видео в папке downloads, переведи описание на английский с помощью навыка llm groq и добавь в отдельную заметку в Obsidian. Добавь ссылку на неё в daily note в Obsidian.»

Pro tip: запускать навыки можно из командной строки в неинтерактивном режиме. Например, чтобы запустить синхронизацию календаря, я выполняю команду claude -p "Sync calendar"

———

В ноябре провожу лабораторию по Claude code для неразработчиков, конечно же, будем много экспериментировать со skills.

#agentskills@toolusing #claude@toolusing #claudecode@toolusing
👍127🔥1