Tool Building Ape × Gleb Kalinin

Какой процент того, что вы делаете по работе — это создание презентаций и документов? Почему Claude добавляет возможность своему агенту в первую очередь работать с таблицами и презентациями? Да потому что это десятки процентов любой офисной работы.

Мне нравится, что GPT Agent может делать презентации, но с дизайном и, что гораздо важнее, с картинками у него беда — по умолчанию он генерирует грустный slop, который хочется только удалить. Искать картинки агенту тяжело, а может и нельзя.

Но знаете кто хорошо умеет искать картинки? Google, конечно.

И тут мы начинаем писать софт для нашего агента. Поскольку агент — это в первую очередь LLM, которая может пользоваться инструментами in the loop, все возможности просто LLM вам доступны внутри агента. А значит, вы можете не реализовывать в софте части, например, по суммаризации, или переводу, или классификации, или анализу изображений — если объем небольшой, агент справится легко (пусть и съест на это лимит токенов подписки, или реальные деньги).

Для скорости мы в первую очередь пишем только ту часть, которую LLM сделать не может. В моём случае — поиск картинок в Гугле, скачивание, оценку и финальный выбор файла.

За 20 минут чата с ChatGPT я нашёл все нужные ключи (Google Custom Search JSON API KEY, cx), скормил агенту презентацию на анализ, попросил сгенерировать список терминов для поиска,

после этого начал написать скрипты для поиска и скачивания изображений из Гугла, которые с какой-то попытки запустились (агент сам исправлял ошибки, конечно).

Отлично, у меня есть папка с картинками, а как выбрать-то, руками что ли?

Вспоминаю про llm и llm-prices.com, ищу самую дешевую мультимодальную LLM. Похоже, сейчас это gpt-5-nano.

Окей, подключаю через OpenRouter (добавляю в .env API-ключ), прошу агента попарно сравнить картинки, используя gpt-5-nano, и выбрать наиболее подходящую для каждого поискового запроса.

В новом файле агент сохраняет список отобранных картинок с описанием, прошу добавить в файл с текстом статьи. Конвертирую способом, про который писал раньше.

Вуа ля, статья с картинками, найденными в Гугле. Скрипты, разумеется, можно переиспользовать, а какие-то части дописать — например, составление поисковых терминов отдать самой дешевой LLM (Amazon Nova Micro), или даже на локальную, чтобы не гонять codex или claude code на слишком мелкие задачи.

Теперь я могу закидывать в эту папку презентации в markdown, просить агента найти картинки, и получать красивую пдф на выходе.

#automations@toolusing #vibecoding@toolusing #presnetations@toolusing

❤5

309 views11:17

Tool Building Ape × Gleb Kalinin

На что похожа работа с агентами?

Я руководил людьми суммарно дюжину лет, поэтому для меня — на работу с другими людьми. Я активный противник излишней антропоморфизации ИИ, но в данном случае это полезная метафора.

В чём особенность? Мы пока ещё находимся на начальной ступени развития агентов, и «человек» этот — начинающий, хоть и прокачивается от версии к версии довольно быстро. Разница между aider год назад и claude code сегодня — световые годы. Но пока агент работает самостоятельно не очень долго, и часто требует ручного вмешательства.

У агентов есть склонность (bias) к действию и к завершению действия любым путём. Иногда агенты решают задачу себе упростить и путь срезать — ну как человек прямо.

Та самая оркестрация агентов означает, что появляется темпоральный — временной — аспект работы. Если ЛЛМ, как в пинпонге, отдаёт ответ плюс-минус сразу, то агент может генерировать, запускать и дебажить код довольно долго — от минут до часов.

Не то чтобы раньше аспекта времени не было — то, как запускается и работает софт, сильно влияет на работу, но теперь, когда работа выполняется агентами, которые могут работать параллельно, в непредсказуемое время останавливаться, <s>простить покушать</s> требовать уточнения и подбадривания, приходится по-другому строить работу с ними. Автономия агентов растёт и растёт, GPT-5-Codex 7 часов проработал автономно.

× × ×

В октябре запускаю лабораторию по работе с агентами. Это и практикум — будем учиться работать в Codex, Claude code, Amp, Windsurf, Cursor, Lovable, v0, Manus, GPT Agent, чтобы оптизировать процессы, работать с данными (локально и через API) и генерировать разные артефакты — от презентаций и исследований до прототипов экспериментальных интерфейсов и продуктов;

и одновременно коллективное упражнение по проектированию будущего, поиску бизнес-моделей, профессиональных ролей и призваний в мире, где агенты делают 80% компьютерной работы.

Почти до нового года будем совместно использовать инструментарий — руководить агентами, исследовать State of the art технологии (как LLM, так и другие модели и hardware) и практиковать активный экстернализм, записывая и обрабатывая весь поток идей, навыков и технологий.

Это для предпринимателей, которые ищут новые идеи и стремятся построить модель будущего и себя в этом будущем,

для продактов, для CPO, CTO, CFO, CMO, которые ищут точку входу в работу с ризонинг-моделями, кто каждый день слышит про агентов, но так и не доходит дальше deep research.

Есть 2 формата участия:

с активной группой — для тех, кому нужны мастермайнды, помогающие сфокусироваться и выбрать направления для работы и исследований. Стоимость участия — 1000 евро за 2.5 месяца

и без активной группы — только теория, сессиий ответов на технические вопросы и онлайн-коворкинги — 400 евро.

Лендинг → https://agency.glebkalinin.com/

Специально сделал эту лабораторию продолжительной по времени — по опыту за месяц тяжело освоить объем информации и попробовать даже несколько инструментов.

Подробное описание опубликую завтра, будет пара бесплатных мест для художников и сотрудников нон-профитов, как всегда на моих лабораториях.

Записать и задать вопросы можно уже сейчас → @glebkalinin

❤8💯3

333 viewsedited 16:17

Tool Building Ape × Gleb Kalinin

0:18

This media is not supported in your browser

VIEW IN TELEGRAM

0:47

This media is not supported in your browser

VIEW IN TELEGRAM

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

Я пользуюсь ии-кодинг-агентами почти всё время, что они существуют. Агенты не как люди — они не учатся постепенно, прогресс происходит скачками.

По моим ощущениям, только что произошёл скачок в том, как ИИ-модели работают с фронтэндом.

Это с нуля написанные визуализации графов в псевдо-4д пространстве.

В последнем видео граф построен при помощи ЛЛМ (тема — теория привязанности). Двойной клик по ноду добавляет дочерних нодов, можно добавлять картинки из поиска Гугла. Как The Brain на стероидах.

Хотели бы такое в Obsidian вместо графа? Думаю завернуть, просто потому что это красиво, а потенциально и полезно.

Таким бы было интересно управлять с помощью нового браслета Meta Neural Band — но про него в отдельном посте.

Благодаря GPT-5-Codex убедился, что сейчас можно вайбкодить весьма сложные продукты.

Уверен, сейчас классное время для построения инновационных интерфейсов, и наконец-то не только для экранов.

На моей лаборатории вместе будем проектировать UX будущего

🤩1

280 views13:01

Tool Building Ape × Gleb Kalinin

Эта штука не функционирует по принципам 3д-пространства, а в 2д пытается представить 4д-пространство. Для тебя как для пользователя появляется очень новый опыт эмуляции конструкции, которая в твоём мире невозможна. Она реагирует на привычные движения совершенно непривычным образом, а в этих пространствах можно располагать и реконфигурировать относительно друг друга объекты огромным количеством образов. Это как будто у вас есть memory palace, только он постоянно перестраивается, как гиперкуб, и оказаться в одном и том же пространстве довольно затруднительно, хоть и не невозможно.

Мы можем строить такие странные графы на лету — на этих картинках весь граф создан полностью внутри этой среды из запросов в gpt-5-nano и поиск по картинкам. Я добавил поддержку изображений — теперь это 4д-пространство может быть наполнено, к примеру, фотографиями, которые можно сортировать, объединять, группировать с помощью llm и более простых инструментов в духе alexnet.

Подобная среда могла бы стать красивым дополнением к учебной программе — ноды могут содержать полноценные статьи или промты для агентов.

#experimentalux@toolusing #vibecoding #3d@toolusing #4d@toolusing

🔥1👏1

349 views13:20

Tool Building Ape × Gleb Kalinin

0:34

Media is too big

VIEW IN TELEGRAM

Эмержентность — процесс возниковение системы, которая начинает обладать свойствами, которыми не обладает ни одна из её частей в отдельности.

Птицы и рыби собираются в стаи, чтобы вместе охотиться и защищаться от хищников — стая отбивает своих эффективнее, чем один.

Когда на лету создаёшь софт, а у него возникают свои аффордансы, свои ограничения и возможности, и сразу же внутри этого софта создаешь структуру из данных — возникает как раз это самое удивительное ощущение возникновения чего-то большего. В этом видео показываю разные способы навигировать по пространству графа. Весь граф создан с помощью LLM из всего одного запроса (attachment theory). Покликав на нод, я добавляю с помощью LLM ещё 5 дочерних нодов, связанных с темой. Так, всего в 2 ключевых слова, у меня постепенно возник разветвлённый граф, в котором есть имена, термины, концепции, публикации и картинки из Гугла.

Добавил базовых инструментов анализа графа — теперь можно фильтровать и подсвечивать ноды, используя различные аналитические подходы.

Работа с таким сложным объектом подтолкнула к интересу к экспериментами с многомерными пространствами.

Даже 2.5D может быть очень эффективным и увлекательным способ огранизовывать информацию.

Представьте, что вместо папок — неограниченные слои, по которым вы можете размещать любые объекты: фото, видео, аудио, тексты, которые легко переводить из одного формата в другой.

Подобные экспериментальные интерфейсы делали уже десятки лет назад (вспомнить хотя б Surface — огромные интерактивный экран, и интерфейсы для него, которые потрясали своей инновационностью). Но сейчас, кажется, мы наконец-то можем реализовывать их сами для себя.

#emergence@toolusing #experimentalux@toolusing

⚡4👎1

332 views11:21

About

Blog

Apps

Platform