Tool Building Ape × Gleb Kalinin
1.34K subscribers
231 photos
17 videos
3 files
141 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
https://www.youtube.com/watch?v=290ew1ZisK4

Визуализация реагирует на звук дыхания. Громкость влияет на разные параметры стаи, такие как сила притяжения и когерентность, у бойдов «хвосты» (traces). При достижении определенного уровня громкости цвет меняется на красный.

Вайбкодинг в v0 #vibecoding
1🔥1🕊1
Tool Building Ape × Gleb Kalinin
AlterEgo-final-with-images.pdf
Какой процент того, что вы делаете по работе — это создание презентаций и документов? Почему Claude добавляет возможность своему агенту в первую очередь работать с таблицами и презентациями? Да потому что это десятки процентов любой офисной работы.

Мне нравится, что GPT Agent может делать презентации, но с дизайном и, что гораздо важнее, с картинками у него беда — по умолчанию он генерирует грустный slop, который хочется только удалить. Искать картинки агенту тяжело, а может и нельзя.

Но знаете кто хорошо умеет искать картинки? Google, конечно.

И тут мы начинаем писать софт для нашего агента. Поскольку агент — это в первую очередь LLM, которая может пользоваться инструментами in the loop, все возможности просто LLM вам доступны внутри агента. А значит, вы можете не реализовывать в софте части, например, по суммаризации, или переводу, или классификации, или анализу изображений — если объем небольшой, агент справится легко (пусть и съест на это лимит токенов подписки, или реальные деньги).

Для скорости мы в первую очередь пишем только ту часть, которую LLM сделать не может. В моём случае — поиск картинок в Гугле, скачивание, оценку и финальный выбор файла.

За 20 минут чата с ChatGPT я нашёл все нужные ключи (Google Custom Search JSON API KEY, cx), скормил агенту презентацию на анализ, попросил сгенерировать список терминов для поиска,

после этого начал написать скрипты для поиска и скачивания изображений из Гугла, которые с какой-то попытки запустились (агент сам исправлял ошибки, конечно).

Отлично, у меня есть папка с картинками, а как выбрать-то, руками что ли?

Вспоминаю про llm и llm-prices.com, ищу самую дешевую мультимодальную LLM. Похоже, сейчас это gpt-5-nano.

Окей, подключаю через OpenRouter (добавляю в .env API-ключ), прошу агента попарно сравнить картинки, используя gpt-5-nano, и выбрать наиболее подходящую для каждого поискового запроса.

В новом файле агент сохраняет список отобранных картинок с описанием, прошу добавить в файл с текстом статьи. Конвертирую способом, про который писал раньше.

Вуа ля, статья с картинками, найденными в Гугле. Скрипты, разумеется, можно переиспользовать, а какие-то части дописать — например, составление поисковых терминов отдать самой дешевой LLM (Amazon Nova Micro), или даже на локальную, чтобы не гонять codex или claude code на слишком мелкие задачи.

Теперь я могу закидывать в эту папку презентации в markdown, просить агента найти картинки, и получать красивую пдф на выходе.

#automations@toolusing #vibecoding@toolusing #presnetations@toolusing
5
Эта штука не функционирует по принципам 3д-пространства, а в 2д пытается представить 4д-пространство. Для тебя как для пользователя появляется очень новый опыт эмуляции конструкции, которая в твоём мире невозможна. Она реагирует на привычные движения совершенно непривычным образом, а в этих пространствах можно располагать и реконфигурировать относительно друг друга объекты огромным количеством образов. Это как будто у вас есть memory palace, только он постоянно перестраивается, как гиперкуб, и оказаться в одном и том же пространстве довольно затруднительно, хоть и не невозможно.

Мы можем строить такие странные графы на лету — на этих картинках весь граф создан полностью внутри этой среды из запросов в gpt-5-nano и поиск по картинкам. Я добавил поддержку изображений — теперь это 4д-пространство может быть наполнено, к примеру, фотографиями, которые можно сортировать, объединять, группировать с помощью llm и более простых инструментов в духе alexnet.

Подобная среда могла бы стать красивым дополнением к учебной программе — ноды могут содержать полноценные статьи или промты для агентов.

#experimentalux@toolusing #vibecoding #3d@toolusing #4d@toolusing
🔥1👏1
Чумовой проект — автор гонял Claude (через Amp) в цикле 3 месяца, чтобы получить на выходе новый компилируемый язык в духе gen z — Cursed. https://ghuntley.com/cursed/

Автор потратил 36000 баксов на токены, Claude делал коммиты каждые 20 минут, нагенерировал сотни тысяч строк кода, включая документацию и какие-то странные попытки написать интеграции (вроде плагина для VS Code).

Но самое главное — оно работает: компилирует код, написанный на несуществующем языке!

https://cursed-lang.org/

И знаете как выглядел агент? Просто bash скрипт, запускающий amp (это конкурент claude code и codex) с коротеньким, в 2 предложения, промтом.

#evolutionaryai@toolusing #vibecoding@toolusing
😁5🤯1😱1
Трафик к Lovable.dev и похожим сервисам-агентам по написанию кода готовых приложений и сайтов упал по сравнению с пиком интереса в начале года — об этом подробно пишет Business Insider. Lovable — -40% за полгода.

Причины комплексные, но основная, как мне кажется, в том, что они не работают и не могут сделать то, что обещают.

Несколько месяцев назад я консультировал один стартап, фаундер которого купил доступ к Lovable в уверенности, что уж с платной версией он сможет сделать как минимум лендинг. По факту эти сервисы не справляются даже с такой задачей. Просто попробуйте на бесплатном тарифе взять любой шаблон лендинга на Lovable.dev и выполнить с ним хотя бы 5 последовательных действий, самых банальных и самых стандартных — по замене текста, добавлению графики и иллюстраций. Вы удивитесь, что этот PhD-level intelligence не справится с этой задачей.

Если вы хотите сложный специализированный лендинг, да даже и не очень сложный, который вы не планируете заваншотить (собрать в один заход), лучше поискать другие варианты.

Стартапы вроде Lovable, Bold, v0 хорошо подходят для самых первых итераций проектов. Я иногда пользуюсь, чтобы бутстрепнуть проект и после 3-5 итераций забрать код и работать с ним в Claude Code / Codex / Windsurf.

Но не для долгосрочной работы. Если проект сколько-то сложный, то вам, на данном этапе развития технологий, неприменно придется адаптировать свою работу к возможностям и ограничениям текущих агентов, с их ограниченным контекстом и context rot, галлюцинациями и неидеальному следованию инструкций.

Я уверен, что у Lovable и ко почти нет преимуществ перед OpenAI, Anthropic и проч. — разработчики LLM гоняют через себя тонны кода, генерация кода — явный приоритет многих из SOTA, а интерфейсы по типу Lovable есть прямо Claude и ChatGPT.

Поэтому на своей лабе, которая начнётся 9 октября, я эти сервисы буду упоминать, но совсем чуть-чуть. Фокус — на Claude code, Codex, Windsurf и схожие инструменты. Да, их эффективнее всего использовать, когда хотя бы немного понимаешь, как работают компьютеры, интернет, веб, но во всём этом можно разобраться прямо внутри инструментов.

Посмотрите лендинг, я правда его долго вайбкодил. Говорят, выглядит не ии-шно, а как этого достичь — расскажу отдельно

#vibecoding@toolusing
6💯3👍2🔥2