Tool Building Ape × Gleb Kalinin
AlterEgo-final-with-images.pdf
Какой процент того, что вы делаете по работе — это создание презентаций и документов? Почему Claude добавляет возможность своему агенту в первую очередь работать с таблицами и презентациями? Да потому что это десятки процентов любой офисной работы.
Мне нравится, что GPT Agent может делать презентации, но с дизайном и, что гораздо важнее, с картинками у него беда — по умолчанию он генерирует грустный slop, который хочется только удалить. Искать картинки агенту тяжело, а может и нельзя.
Но знаете кто хорошо умеет искать картинки? Google, конечно.
И тут мы начинаем писать софт для нашего агента. Поскольку агент — это в первую очередь LLM, которая может пользоваться инструментами in the loop, все возможности просто LLM вам доступны внутри агента. А значит, вы можете не реализовывать в софте части, например, по суммаризации, или переводу, или классификации, или анализу изображений — если объем небольшой, агент справится легко (пусть и съест на это лимит токенов подписки, или реальные деньги).
Для скорости мы в первую очередь пишем только ту часть, которую LLM сделать не может. В моём случае — поиск картинок в Гугле, скачивание, оценку и финальный выбор файла.
За 20 минут чата с ChatGPT я нашёл все нужные ключи (Google Custom Search JSON API KEY, cx), скормил агенту презентацию на анализ, попросил сгенерировать список терминов для поиска,
после этого начал написать скрипты для поиска и скачивания изображений из Гугла, которые с какой-то попытки запустились (агент сам исправлял ошибки, конечно).
Отлично, у меня есть папка с картинками, а как выбрать-то, руками что ли?
Вспоминаю про llm и llm-prices.com, ищу самую дешевую мультимодальную LLM. Похоже, сейчас это gpt-5-nano.
Окей, подключаю через OpenRouter (добавляю в .env API-ключ), прошу агента попарно сравнить картинки, используя gpt-5-nano, и выбрать наиболее подходящую для каждого поискового запроса.
В новом файле агент сохраняет список отобранных картинок с описанием, прошу добавить в файл с текстом статьи. Конвертирую способом, про который писал раньше.
Вуа ля, статья с картинками, найденными в Гугле. Скрипты, разумеется, можно переиспользовать, а какие-то части дописать — например, составление поисковых терминов отдать самой дешевой LLM (Amazon Nova Micro), или даже на локальную, чтобы не гонять codex или claude code на слишком мелкие задачи.
Теперь я могу закидывать в эту папку презентации в markdown, просить агента найти картинки, и получать красивую пдф на выходе.
#automations@toolusing #vibecoding@toolusing #presnetations@toolusing
Мне нравится, что GPT Agent может делать презентации, но с дизайном и, что гораздо важнее, с картинками у него беда — по умолчанию он генерирует грустный slop, который хочется только удалить. Искать картинки агенту тяжело, а может и нельзя.
Но знаете кто хорошо умеет искать картинки? Google, конечно.
И тут мы начинаем писать софт для нашего агента. Поскольку агент — это в первую очередь LLM, которая может пользоваться инструментами in the loop, все возможности просто LLM вам доступны внутри агента. А значит, вы можете не реализовывать в софте части, например, по суммаризации, или переводу, или классификации, или анализу изображений — если объем небольшой, агент справится легко (пусть и съест на это лимит токенов подписки, или реальные деньги).
Для скорости мы в первую очередь пишем только ту часть, которую LLM сделать не может. В моём случае — поиск картинок в Гугле, скачивание, оценку и финальный выбор файла.
За 20 минут чата с ChatGPT я нашёл все нужные ключи (Google Custom Search JSON API KEY, cx), скормил агенту презентацию на анализ, попросил сгенерировать список терминов для поиска,
после этого начал написать скрипты для поиска и скачивания изображений из Гугла, которые с какой-то попытки запустились (агент сам исправлял ошибки, конечно).
Отлично, у меня есть папка с картинками, а как выбрать-то, руками что ли?
Вспоминаю про llm и llm-prices.com, ищу самую дешевую мультимодальную LLM. Похоже, сейчас это gpt-5-nano.
Окей, подключаю через OpenRouter (добавляю в .env API-ключ), прошу агента попарно сравнить картинки, используя gpt-5-nano, и выбрать наиболее подходящую для каждого поискового запроса.
В новом файле агент сохраняет список отобранных картинок с описанием, прошу добавить в файл с текстом статьи. Конвертирую способом, про который писал раньше.
Вуа ля, статья с картинками, найденными в Гугле. Скрипты, разумеется, можно переиспользовать, а какие-то части дописать — например, составление поисковых терминов отдать самой дешевой LLM (Amazon Nova Micro), или даже на локальную, чтобы не гонять codex или claude code на слишком мелкие задачи.
Теперь я могу закидывать в эту папку презентации в markdown, просить агента найти картинки, и получать красивую пдф на выходе.
#automations@toolusing #vibecoding@toolusing #presnetations@toolusing
❤5
На что похожа работа с агентами?
Я руководил людьми суммарно дюжину лет, поэтому для меня — на работу с другими людьми. Я активный противник излишней антропоморфизации ИИ, но в данном случае это полезная метафора.
В чём особенность? Мы пока ещё находимся на начальной ступени развития агентов, и «человек» этот — начинающий, хоть и прокачивается от версии к версии довольно быстро. Разница между aider год назад и claude code сегодня — световые годы. Но пока агент работает самостоятельно не очень долго, и часто требует ручного вмешательства.
У агентов есть склонность (bias) к действию и к завершению действия любым путём. Иногда агенты решают задачу себе упростить и путь срезать — ну как человек прямо.
Та самая оркестрация агентов означает, что появляется темпоральный — временной — аспект работы. Если ЛЛМ, как в пинпонге, отдаёт ответ плюс-минус сразу, то агент может генерировать, запускать и дебажить код довольно долго — от минут до часов.
Не то чтобы раньше аспекта времени не было — то, как запускается и работает софт, сильно влияет на работу, но теперь, когда работа выполняется агентами, которые могут работать параллельно, в непредсказуемое время останавливаться, <s>простить покушать</s> требовать уточнения и подбадривания, приходится по-другому строить работу с ними. Автономия агентов растёт и растёт, GPT-5-Codex 7 часов проработал автономно.
× × ×
В октябре запускаю лабораторию по работе с агентами. Это и практикум — будем учиться работать в Codex, Claude code, Amp, Windsurf, Cursor, Lovable, v0, Manus, GPT Agent, чтобы оптизировать процессы, работать с данными (локально и через API) и генерировать разные артефакты — от презентаций и исследований до прототипов экспериментальных интерфейсов и продуктов;
и одновременно коллективное упражнение по проектированию будущего, поиску бизнес-моделей, профессиональных ролей и призваний в мире, где агенты делают 80% компьютерной работы.
Почти до нового года будем совместно использовать инструментарий — руководить агентами, исследовать State of the art технологии (как LLM, так и другие модели и hardware) и практиковать активный экстернализм, записывая и обрабатывая весь поток идей, навыков и технологий.
Это для предпринимателей, которые ищут новые идеи и стремятся построить модель будущего и себя в этом будущем,
для продактов, для CPO, CTO, CFO, CMO, которые ищут точку входу в работу с ризонинг-моделями, кто каждый день слышит про агентов, но так и не доходит дальше deep research.
Есть 2 формата участия:
с активной группой — для тех, кому нужны мастермайнды, помогающие сфокусироваться и выбрать направления для работы и исследований. Стоимость участия — 1000 евро за 2.5 месяца
и без активной группы — только теория, сессиий ответов на технические вопросы и онлайн-коворкинги — 400 евро.
Лендинг → https://agency.glebkalinin.com/
Специально сделал эту лабораторию продолжительной по времени — по опыту за месяц тяжело освоить объем информации и попробовать даже несколько инструментов.
Подробное описание опубликую завтра, будет пара бесплатных мест для художников и сотрудников нон-профитов, как всегда на моих лабораториях.
Записать и задать вопросы можно уже сейчас → @glebkalinin
Я руководил людьми суммарно дюжину лет, поэтому для меня — на работу с другими людьми. Я активный противник излишней антропоморфизации ИИ, но в данном случае это полезная метафора.
В чём особенность? Мы пока ещё находимся на начальной ступени развития агентов, и «человек» этот — начинающий, хоть и прокачивается от версии к версии довольно быстро. Разница между aider год назад и claude code сегодня — световые годы. Но пока агент работает самостоятельно не очень долго, и часто требует ручного вмешательства.
У агентов есть склонность (bias) к действию и к завершению действия любым путём. Иногда агенты решают задачу себе упростить и путь срезать — ну как человек прямо.
Та самая оркестрация агентов означает, что появляется темпоральный — временной — аспект работы. Если ЛЛМ, как в пинпонге, отдаёт ответ плюс-минус сразу, то агент может генерировать, запускать и дебажить код довольно долго — от минут до часов.
Не то чтобы раньше аспекта времени не было — то, как запускается и работает софт, сильно влияет на работу, но теперь, когда работа выполняется агентами, которые могут работать параллельно, в непредсказуемое время останавливаться, <s>простить покушать</s> требовать уточнения и подбадривания, приходится по-другому строить работу с ними. Автономия агентов растёт и растёт, GPT-5-Codex 7 часов проработал автономно.
× × ×
В октябре запускаю лабораторию по работе с агентами. Это и практикум — будем учиться работать в Codex, Claude code, Amp, Windsurf, Cursor, Lovable, v0, Manus, GPT Agent, чтобы оптизировать процессы, работать с данными (локально и через API) и генерировать разные артефакты — от презентаций и исследований до прототипов экспериментальных интерфейсов и продуктов;
и одновременно коллективное упражнение по проектированию будущего, поиску бизнес-моделей, профессиональных ролей и призваний в мире, где агенты делают 80% компьютерной работы.
Почти до нового года будем совместно использовать инструментарий — руководить агентами, исследовать State of the art технологии (как LLM, так и другие модели и hardware) и практиковать активный экстернализм, записывая и обрабатывая весь поток идей, навыков и технологий.
Это для предпринимателей, которые ищут новые идеи и стремятся построить модель будущего и себя в этом будущем,
для продактов, для CPO, CTO, CFO, CMO, которые ищут точку входу в работу с ризонинг-моделями, кто каждый день слышит про агентов, но так и не доходит дальше deep research.
Есть 2 формата участия:
с активной группой — для тех, кому нужны мастермайнды, помогающие сфокусироваться и выбрать направления для работы и исследований. Стоимость участия — 1000 евро за 2.5 месяца
и без активной группы — только теория, сессиий ответов на технические вопросы и онлайн-коворкинги — 400 евро.
Лендинг → https://agency.glebkalinin.com/
Специально сделал эту лабораторию продолжительной по времени — по опыту за месяц тяжело освоить объем информации и попробовать даже несколько инструментов.
Подробное описание опубликую завтра, будет пара бесплатных мест для художников и сотрудников нон-профитов, как всегда на моих лабораториях.
Записать и задать вопросы можно уже сейчас → @glebkalinin
❤8💯3
Я пользуюсь ии-кодинг-агентами почти всё время, что они существуют. Агенты не как люди — они не учатся постепенно, прогресс происходит скачками.
По моим ощущениям, только что произошёл скачок в том, как ИИ-модели работают с фронтэндом.
Это с нуля написанные визуализации графов в псевдо-4д пространстве.
В последнем видео граф построен при помощи ЛЛМ (тема — теория привязанности). Двойной клик по ноду добавляет дочерних нодов, можно добавлять картинки из поиска Гугла. Как The Brain на стероидах.
Хотели бы такое в Obsidian вместо графа? Думаю завернуть, просто потому что это красиво, а потенциально и полезно.
Таким бы было интересно управлять с помощью нового браслета Meta Neural Band — но про него в отдельном посте.
Благодаря GPT-5-Codex убедился, что сейчас можно вайбкодить весьма сложные продукты.
Уверен, сейчас классное время для построения инновационных интерфейсов, и наконец-то не только для экранов.
На моей лаборатории вместе будем проектировать UX будущего
По моим ощущениям, только что произошёл скачок в том, как ИИ-модели работают с фронтэндом.
Это с нуля написанные визуализации графов в псевдо-4д пространстве.
В последнем видео граф построен при помощи ЛЛМ (тема — теория привязанности). Двойной клик по ноду добавляет дочерних нодов, можно добавлять картинки из поиска Гугла. Как The Brain на стероидах.
Хотели бы такое в Obsidian вместо графа? Думаю завернуть, просто потому что это красиво, а потенциально и полезно.
Таким бы было интересно управлять с помощью нового браслета Meta Neural Band — но про него в отдельном посте.
Благодаря GPT-5-Codex убедился, что сейчас можно вайбкодить весьма сложные продукты.
Уверен, сейчас классное время для построения инновационных интерфейсов, и наконец-то не только для экранов.
На моей лаборатории вместе будем проектировать UX будущего
🤩1
Эта штука не функционирует по принципам 3д-пространства, а в 2д пытается представить 4д-пространство. Для тебя как для пользователя появляется очень новый опыт эмуляции конструкции, которая в твоём мире невозможна. Она реагирует на привычные движения совершенно непривычным образом, а в этих пространствах можно располагать и реконфигурировать относительно друг друга объекты огромным количеством образов. Это как будто у вас есть memory palace, только он постоянно перестраивается, как гиперкуб, и оказаться в одном и том же пространстве довольно затруднительно, хоть и не невозможно.
Мы можем строить такие странные графы на лету — на этих картинках весь граф создан полностью внутри этой среды из запросов в gpt-5-nano и поиск по картинкам. Я добавил поддержку изображений — теперь это 4д-пространство может быть наполнено, к примеру, фотографиями, которые можно сортировать, объединять, группировать с помощью llm и более простых инструментов в духе alexnet.
Подобная среда могла бы стать красивым дополнением к учебной программе — ноды могут содержать полноценные статьи или промты для агентов.
#experimentalux@toolusing #vibecoding #3d@toolusing #4d@toolusing
Мы можем строить такие странные графы на лету — на этих картинках весь граф создан полностью внутри этой среды из запросов в gpt-5-nano и поиск по картинкам. Я добавил поддержку изображений — теперь это 4д-пространство может быть наполнено, к примеру, фотографиями, которые можно сортировать, объединять, группировать с помощью llm и более простых инструментов в духе alexnet.
Подобная среда могла бы стать красивым дополнением к учебной программе — ноды могут содержать полноценные статьи или промты для агентов.
#experimentalux@toolusing #vibecoding #3d@toolusing #4d@toolusing
🔥1👏1
Эмержентность — процесс возниковение системы, которая начинает обладать свойствами, которыми не обладает ни одна из её частей в отдельности.
Птицы и рыби собираются в стаи, чтобы вместе охотиться и защищаться от хищников — стая отбивает своих эффективнее, чем один.
Когда на лету создаёшь софт, а у него возникают свои аффордансы, свои ограничения и возможности, и сразу же внутри этого софта создаешь структуру из данных — возникает как раз это самое удивительное ощущение возникновения чего-то большего. В этом видео показываю разные способы навигировать по пространству графа. Весь граф создан с помощью LLM из всего одного запроса (attachment theory). Покликав на нод, я добавляю с помощью LLM ещё 5 дочерних нодов, связанных с темой. Так, всего в 2 ключевых слова, у меня постепенно возник разветвлённый граф, в котором есть имена, термины, концепции, публикации и картинки из Гугла.
Добавил базовых инструментов анализа графа — теперь можно фильтровать и подсвечивать ноды, используя различные аналитические подходы.
Работа с таким сложным объектом подтолкнула к интересу к экспериментами с многомерными пространствами.
Даже 2.5D может быть очень эффективным и увлекательным способ огранизовывать информацию.
Представьте, что вместо папок — неограниченные слои, по которым вы можете размещать любые объекты: фото, видео, аудио, тексты, которые легко переводить из одного формата в другой.
Подобные экспериментальные интерфейсы делали уже десятки лет назад (вспомнить хотя б Surface — огромные интерактивный экран, и интерфейсы для него, которые потрясали своей инновационностью). Но сейчас, кажется, мы наконец-то можем реализовывать их сами для себя.
#emergence@toolusing #experimentalux@toolusing
Птицы и рыби собираются в стаи, чтобы вместе охотиться и защищаться от хищников — стая отбивает своих эффективнее, чем один.
Когда на лету создаёшь софт, а у него возникают свои аффордансы, свои ограничения и возможности, и сразу же внутри этого софта создаешь структуру из данных — возникает как раз это самое удивительное ощущение возникновения чего-то большего. В этом видео показываю разные способы навигировать по пространству графа. Весь граф создан с помощью LLM из всего одного запроса (attachment theory). Покликав на нод, я добавляю с помощью LLM ещё 5 дочерних нодов, связанных с темой. Так, всего в 2 ключевых слова, у меня постепенно возник разветвлённый граф, в котором есть имена, термины, концепции, публикации и картинки из Гугла.
Добавил базовых инструментов анализа графа — теперь можно фильтровать и подсвечивать ноды, используя различные аналитические подходы.
Работа с таким сложным объектом подтолкнула к интересу к экспериментами с многомерными пространствами.
Даже 2.5D может быть очень эффективным и увлекательным способ огранизовывать информацию.
Представьте, что вместо папок — неограниченные слои, по которым вы можете размещать любые объекты: фото, видео, аудио, тексты, которые легко переводить из одного формата в другой.
Подобные экспериментальные интерфейсы делали уже десятки лет назад (вспомнить хотя б Surface — огромные интерактивный экран, и интерфейсы для него, которые потрясали своей инновационностью). Но сейчас, кажется, мы наконец-то можем реализовывать их сами для себя.
#emergence@toolusing #experimentalux@toolusing
⚡4👎1