Tool Building Ape × Gleb Kalinin
1.38K subscribers
231 photos
17 videos
3 files
141 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
На что похожа работа с агентами?

Я руководил людьми суммарно дюжину лет, поэтому для меня — на работу с другими людьми. Я активный противник излишней антропоморфизации ИИ, но в данном случае это полезная метафора.

В чём особенность? Мы пока ещё находимся на начальной ступени развития агентов, и «человек» этот — начинающий, хоть и прокачивается от версии к версии довольно быстро. Разница между aider год назад и claude code сегодня — световые годы. Но пока агент работает самостоятельно не очень долго, и часто требует ручного вмешательства.

У агентов есть склонность (bias) к действию и к завершению действия любым путём. Иногда агенты решают задачу себе упростить и путь срезать — ну как человек прямо.

Та самая оркестрация агентов означает, что появляется темпоральный — временной — аспект работы. Если ЛЛМ, как в пинпонге, отдаёт ответ плюс-минус сразу, то агент может генерировать, запускать и дебажить код довольно долго — от минут до часов.

Не то чтобы раньше аспекта времени не было — то, как запускается и работает софт, сильно влияет на работу, но теперь, когда работа выполняется агентами, которые могут работать параллельно, в непредсказуемое время останавливаться, <s>простить покушать</s> требовать уточнения и подбадривания, приходится по-другому строить работу с ними. Автономия агентов растёт и растёт, GPT-5-Codex 7 часов проработал автономно.

× × ×

В октябре запускаю лабораторию по работе с агентами. Это и практикум — будем учиться работать в Codex, Claude code, Amp, Windsurf, Cursor, Lovable, v0, Manus, GPT Agent, чтобы оптизировать процессы, работать с данными (локально и через API) и генерировать разные артефакты — от презентаций и исследований до прототипов экспериментальных интерфейсов и продуктов;

и одновременно коллективное упражнение по проектированию будущего, поиску бизнес-моделей, профессиональных ролей и призваний в мире, где агенты делают 80% компьютерной работы.

Почти до нового года будем совместно использовать инструментарий — руководить агентами, исследовать State of the art технологии (как LLM, так и другие модели и hardware) и практиковать активный экстернализм, записывая и обрабатывая весь поток идей, навыков и технологий.

Это для предпринимателей, которые ищут новые идеи и стремятся построить модель будущего и себя в этом будущем,

для продактов, для CPO, CTO, CFO, CMO, которые ищут точку входу в работу с ризонинг-моделями, кто каждый день слышит про агентов, но так и не доходит дальше deep research.

Есть 2 формата участия:

с активной группой — для тех, кому нужны мастермайнды, помогающие сфокусироваться и выбрать направления для работы и исследований. Стоимость участия — 1000 евро за 2.5 месяца

и без активной группы — только теория, сессиий ответов на технические вопросы и онлайн-коворкинги — 400 евро.

Лендинг → https://agency.glebkalinin.com/

Специально сделал эту лабораторию продолжительной по времени — по опыту за месяц тяжело освоить объем информации и попробовать даже несколько инструментов.

Подробное описание опубликую завтра, будет пара бесплатных мест для художников и сотрудников нон-профитов, как всегда на моих лабораториях.

Записать и задать вопросы можно уже сейчас → @glebkalinin
8💯3
Я пользуюсь ии-кодинг-агентами почти всё время, что они существуют. Агенты не как люди — они не учатся постепенно, прогресс происходит скачками.

По моим ощущениям, только что произошёл скачок в том, как ИИ-модели работают с фронтэндом.

Это с нуля написанные визуализации графов в псевдо-4д пространстве.

В последнем видео граф построен при помощи ЛЛМ (тема — теория привязанности). Двойной клик по ноду добавляет дочерних нодов, можно добавлять картинки из поиска Гугла. Как The Brain на стероидах.

Хотели бы такое в Obsidian вместо графа? Думаю завернуть, просто потому что это красиво, а потенциально и полезно.

Таким бы было интересно управлять с помощью нового браслета Meta Neural Band — но про него в отдельном посте.

Благодаря GPT-5-Codex убедился, что сейчас можно вайбкодить весьма сложные продукты.

Уверен, сейчас классное время для построения инновационных интерфейсов, и наконец-то не только для экранов.

На моей лаборатории вместе будем проектировать UX будущего
🤩1
Эта штука не функционирует по принципам 3д-пространства, а в 2д пытается представить 4д-пространство. Для тебя как для пользователя появляется очень новый опыт эмуляции конструкции, которая в твоём мире невозможна. Она реагирует на привычные движения совершенно непривычным образом, а в этих пространствах можно располагать и реконфигурировать относительно друг друга объекты огромным количеством образов. Это как будто у вас есть memory palace, только он постоянно перестраивается, как гиперкуб, и оказаться в одном и том же пространстве довольно затруднительно, хоть и не невозможно.

Мы можем строить такие странные графы на лету — на этих картинках весь граф создан полностью внутри этой среды из запросов в gpt-5-nano и поиск по картинкам. Я добавил поддержку изображений — теперь это 4д-пространство может быть наполнено, к примеру, фотографиями, которые можно сортировать, объединять, группировать с помощью llm и более простых инструментов в духе alexnet.

Подобная среда могла бы стать красивым дополнением к учебной программе — ноды могут содержать полноценные статьи или промты для агентов.

#experimentalux@toolusing #vibecoding #3d@toolusing #4d@toolusing
🔥1👏1
Эмержентность — процесс возниковение системы, которая начинает обладать свойствами, которыми не обладает ни одна из её частей в отдельности.


Птицы и рыби собираются в стаи, чтобы вместе охотиться и защищаться от хищников — стая отбивает своих эффективнее, чем один.

Когда на лету создаёшь софт, а у него возникают свои аффордансы, свои ограничения и возможности, и сразу же внутри этого софта создаешь структуру из данных — возникает как раз это самое удивительное ощущение возникновения чего-то большего. В этом видео показываю разные способы навигировать по пространству графа. Весь граф создан с помощью LLM из всего одного запроса (attachment theory). Покликав на нод, я добавляю с помощью LLM ещё 5 дочерних нодов, связанных с темой. Так, всего в 2 ключевых слова, у меня постепенно возник разветвлённый граф, в котором есть имена, термины, концепции, публикации и картинки из Гугла.

Добавил базовых инструментов анализа графа — теперь можно фильтровать и подсвечивать ноды, используя различные аналитические подходы.

Работа с таким сложным объектом подтолкнула к интересу к экспериментами с многомерными пространствами.

Даже 2.5D может быть очень эффективным и увлекательным способ огранизовывать информацию.

Представьте, что вместо папок — неограниченные слои, по которым вы можете размещать любые объекты: фото, видео, аудио, тексты, которые легко переводить из одного формата в другой.

Подобные экспериментальные интерфейсы делали уже десятки лет назад (вспомнить хотя б Surface — огромные интерактивный экран, и интерфейсы для него, которые потрясали своей инновационностью). Но сейчас, кажется, мы наконец-то можем реализовывать их сами для себя.

#emergence@toolusing #experimentalux@toolusing
4👎1
Чумовой проект — автор гонял Claude (через Amp) в цикле 3 месяца, чтобы получить на выходе новый компилируемый язык в духе gen z — Cursed. https://ghuntley.com/cursed/

Автор потратил 36000 баксов на токены, Claude делал коммиты каждые 20 минут, нагенерировал сотни тысяч строк кода, включая документацию и какие-то странные попытки написать интеграции (вроде плагина для VS Code).

Но самое главное — оно работает: компилирует код, написанный на несуществующем языке!

https://cursed-lang.org/

И знаете как выглядел агент? Просто bash скрипт, запускающий amp (это конкурент claude code и codex) с коротеньким, в 2 предложения, промтом.

#evolutionaryai@toolusing #vibecoding@toolusing
😁5🤯1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Показываю прототипы проекта, который постепенно развивается из моих псевдо-4д экспериментов.

Загружаем много-много картинок (десятки тысяч), размечаем их, даём возможность группировать (пока по цвету, дате, а вообще легко — по объектам, сюжетам, ).

«Летаем» между ними в очень странном пространстве, сразу же над десятками тысяч датапойнтов — не обязательно картинок: текстов, схем.

Как минимум арт-проекты в таком пространстве собирать интересно.

На моей лаборатории, которая стартует на следующей неделе, отдельный модуль посвящу экспериментальным интерфейсам: с голосовым управлением, с управлением жестами, новыми устройствами ввода вроде EMG wristband

#3d@toolusing #3d@toolusing #ux@toolusing #experimentalux@toolusing
Как вы успели заметить, меня очень интересуют интерфейсы. Я уверен, что мы застряли в устаревших парадигмах (привет, Xerox Alto! вы задумывались, что WYSIWYG-режиму — уже больше полувека?), а устройства ввода не меняются десятилетиями. Взаимодействия с технологией может быть куда более человечным, от него не обязана болеть спина и портиться зрение.

Поэтому очень любопытно было посмотреть, увы, пока только на видео, на демо генеративного интерфейса от компании Anthropic — всё-таки это серьезный сдвиг парадигмы (хоть и собранный из привычных кубиков WIPM: windows, icons, menus, pointers).

https://www.youtube.com/watch?v=dGiqrsv530Y

То самое software 3.0, которое пишется на лету, под ваш запрос и из вашего контекста.

Любопытный эксперимент, который руки чешутся реплицировать. У такого UX есть любопытные побочные эффекты — например, обучить такому софту человека очень сложно, ведь он разный каждый раз, ещё и персонализирован!

И тут у меня огромный вопрос — как вообще понять, что такое оптимальное software? Если культурно-детерминированные и генетические особенности восприятия, физические ограничения и многие другие параметры у нас разные? Кто задает эти стандарты, на которых учится модель?

Я экспериментирую с самыми дикими репрезентациями данных, всерез пересматриваю Minority Report — сейчас, с новым EMG wristband компании Meta, их вполне возможно реализовать (хотя и не факт, что это будет удобно).

Уверен, что в области HCI (human-computer interaction) может быть много относительно быстрых побед. Модели уже сейчас могут тестировать интерактивные интерфейсы, оценивать и классифицировать изображения, а значит могут генерировать новые интерфейсы и находить новые UX решения, или оптимизировать существующие.

К тому же самим моделям существующие интерфейсы могут оказаться в долгосрочной перспективе не самыми эффективными, и конструировать новые интерфейсы (как API, так графические) тоже может быть задачей агентов.

(И, раз уже мы говорим про интерфейсы: Figma — одна из первых компаний, которая анонсировала сотрудничество с Anthropic и работу с новой Sonnet 4.5, тут можно посмотреть подробности в часовом эфире)

#ux@toolusing #generativeui@toolusing #gesture@toolusing #experimentalux@toolusing
11🔥1