Tool Building Ape × Gleb Kalinin
1.34K subscribers
231 photos
17 videos
3 files
141 links
@glebkalinin пишет о технологиях, ИИ и жизни в будущем. @Experimentally @mentalhealthtech

Without philosophical examination, builders inherit their answers from the defaults of their environment.
Download Telegram
Чумовой проект — автор гонял Claude (через Amp) в цикле 3 месяца, чтобы получить на выходе новый компилируемый язык в духе gen z — Cursed. https://ghuntley.com/cursed/

Автор потратил 36000 баксов на токены, Claude делал коммиты каждые 20 минут, нагенерировал сотни тысяч строк кода, включая документацию и какие-то странные попытки написать интеграции (вроде плагина для VS Code).

Но самое главное — оно работает: компилирует код, написанный на несуществующем языке!

https://cursed-lang.org/

И знаете как выглядел агент? Просто bash скрипт, запускающий amp (это конкурент claude code и codex) с коротеньким, в 2 предложения, промтом.

#evolutionaryai@toolusing #vibecoding@toolusing
😁5🤯1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Показываю прототипы проекта, который постепенно развивается из моих псевдо-4д экспериментов.

Загружаем много-много картинок (десятки тысяч), размечаем их, даём возможность группировать (пока по цвету, дате, а вообще легко — по объектам, сюжетам, ).

«Летаем» между ними в очень странном пространстве, сразу же над десятками тысяч датапойнтов — не обязательно картинок: текстов, схем.

Как минимум арт-проекты в таком пространстве собирать интересно.

На моей лаборатории, которая стартует на следующей неделе, отдельный модуль посвящу экспериментальным интерфейсам: с голосовым управлением, с управлением жестами, новыми устройствами ввода вроде EMG wristband

#3d@toolusing #3d@toolusing #ux@toolusing #experimentalux@toolusing
Как вы успели заметить, меня очень интересуют интерфейсы. Я уверен, что мы застряли в устаревших парадигмах (привет, Xerox Alto! вы задумывались, что WYSIWYG-режиму — уже больше полувека?), а устройства ввода не меняются десятилетиями. Взаимодействия с технологией может быть куда более человечным, от него не обязана болеть спина и портиться зрение.

Поэтому очень любопытно было посмотреть, увы, пока только на видео, на демо генеративного интерфейса от компании Anthropic — всё-таки это серьезный сдвиг парадигмы (хоть и собранный из привычных кубиков WIPM: windows, icons, menus, pointers).

https://www.youtube.com/watch?v=dGiqrsv530Y

То самое software 3.0, которое пишется на лету, под ваш запрос и из вашего контекста.

Любопытный эксперимент, который руки чешутся реплицировать. У такого UX есть любопытные побочные эффекты — например, обучить такому софту человека очень сложно, ведь он разный каждый раз, ещё и персонализирован!

И тут у меня огромный вопрос — как вообще понять, что такое оптимальное software? Если культурно-детерминированные и генетические особенности восприятия, физические ограничения и многие другие параметры у нас разные? Кто задает эти стандарты, на которых учится модель?

Я экспериментирую с самыми дикими репрезентациями данных, всерез пересматриваю Minority Report — сейчас, с новым EMG wristband компании Meta, их вполне возможно реализовать (хотя и не факт, что это будет удобно).

Уверен, что в области HCI (human-computer interaction) может быть много относительно быстрых побед. Модели уже сейчас могут тестировать интерактивные интерфейсы, оценивать и классифицировать изображения, а значит могут генерировать новые интерфейсы и находить новые UX решения, или оптимизировать существующие.

К тому же самим моделям существующие интерфейсы могут оказаться в долгосрочной перспективе не самыми эффективными, и конструировать новые интерфейсы (как API, так графические) тоже может быть задачей агентов.

(И, раз уже мы говорим про интерфейсы: Figma — одна из первых компаний, которая анонсировала сотрудничество с Anthropic и работу с новой Sonnet 4.5, тут можно посмотреть подробности в часовом эфире)

#ux@toolusing #generativeui@toolusing #gesture@toolusing #experimentalux@toolusing
11🔥1
Антропики не так давно добавили в Claude нативную поддержку генерации Powerpoint и Excel. Очень правильный ход к тому, чтобы поддержать форматы, которые покрывают 80% всей офисной работы.

А вот как они его реализовали — весь ход создания файла показан. Никакого computer use, естественно, только генерация кода на Питоне. Код целиком закину в комментарий, результат на картинках. Я не большой фанат PPTX, но если его так просто генерировать, почему бы нет.

#presentations@toolusing
🔥1
Трафик к Lovable.dev и похожим сервисам-агентам по написанию кода готовых приложений и сайтов упал по сравнению с пиком интереса в начале года — об этом подробно пишет Business Insider. Lovable — -40% за полгода.

Причины комплексные, но основная, как мне кажется, в том, что они не работают и не могут сделать то, что обещают.

Несколько месяцев назад я консультировал один стартап, фаундер которого купил доступ к Lovable в уверенности, что уж с платной версией он сможет сделать как минимум лендинг. По факту эти сервисы не справляются даже с такой задачей. Просто попробуйте на бесплатном тарифе взять любой шаблон лендинга на Lovable.dev и выполнить с ним хотя бы 5 последовательных действий, самых банальных и самых стандартных — по замене текста, добавлению графики и иллюстраций. Вы удивитесь, что этот PhD-level intelligence не справится с этой задачей.

Если вы хотите сложный специализированный лендинг, да даже и не очень сложный, который вы не планируете заваншотить (собрать в один заход), лучше поискать другие варианты.

Стартапы вроде Lovable, Bold, v0 хорошо подходят для самых первых итераций проектов. Я иногда пользуюсь, чтобы бутстрепнуть проект и после 3-5 итераций забрать код и работать с ним в Claude Code / Codex / Windsurf.

Но не для долгосрочной работы. Если проект сколько-то сложный, то вам, на данном этапе развития технологий, неприменно придется адаптировать свою работу к возможностям и ограничениям текущих агентов, с их ограниченным контекстом и context rot, галлюцинациями и неидеальному следованию инструкций.

Я уверен, что у Lovable и ко почти нет преимуществ перед OpenAI, Anthropic и проч. — разработчики LLM гоняют через себя тонны кода, генерация кода — явный приоритет многих из SOTA, а интерфейсы по типу Lovable есть прямо Claude и ChatGPT.

Поэтому на своей лабе, которая начнётся 9 октября, я эти сервисы буду упоминать, но совсем чуть-чуть. Фокус — на Claude code, Codex, Windsurf и схожие инструменты. Да, их эффективнее всего использовать, когда хотя бы немного понимаешь, как работают компьютеры, интернет, веб, но во всём этом можно разобраться прямо внутри инструментов.

Посмотрите лендинг, я правда его долго вайбкодил. Говорят, выглядит не ии-шно, а как этого достичь — расскажу отдельно

#vibecoding@toolusing
6💯3👍2🔥2
Поиграл в эволюционный дизайн агентов в применении их к графическому дизайну. Эволюционный — это значит, что агент пишет код, генерирует результат, сам его оценивает, выбирает из вариантов лучший, и критикует результат и снова переписывает код, и так в цикле.


У меня не так много денег, поэтому я гоняю пока совсем короткие циклы, в десяток итераций.

На вход агенты получали картинку и интерпретировали её для дизайна PDF-ки со сгенерированным текстом. Поначалу агенты и текст тырили с картинок, но потом я подкрутил промт.

На выходе — ну такое, хотя есть и интересные графические находки, хотя к вёрстке есть вопросы. (Позже я поправил промт агента-оценщика, чтобы он учитывал при выборе варианта читаемость).

Самое интересное в этом эксперименте: результат — это код (по большей части шаблон LaTex и питон).

То есть можно продолжать эволюцию понравившихся вариантов, ну и просто использовать готовую вёрстку — лучшие из его вариантов не то чтобы стильные, но не хуже средних бесплатных шаблонов. И совершенно понятно, как сделать их ещё полноценней и наполненной.

Пока к эстетическому чувствую Клода есть вопросы, но эволюционный дизайн точно будет жить как область исследований

Пара pdf в комментарии

#evolutionaryai@toolusing
2
Дима Соловьев очень классно написал про мотивацию делать бесполезное вместе с ИИ. Это нормально, что часть — возможно, большая — проектов никогда не будет опубликована.

Мы существа играющие. Игра — это когда ставки достаточно низкие, и можно быстро чему-то научиться.

А когда кодишь с ИИ что-то сложное, непременно учишься. Это ещё нужно постараться совсем ничему не научиться.

Поэтому общее место в рекомендациях по выбору темы, с которой вы начинаете работать с помощью ИИ — не рабочие задачи. Для многих они убивают всё желание с этим взаимодействовать, гало рабочего стресса убивает весь интерес и мотивацию.
2
Зачем делать «бесполезные вещи» с ИИ

Наблюдаю как друзья экспериментируют с AI – делают проекты, которые не то, чтобы сильно помогают им в жизни. App пишущий музыку по твоему выражению лица, запуск агента на десять минут в задаче, которую человек решит за минуту.

Большинство этих проектов живут один день. Код, написанный водой на асфальте, исчезающий на жаре.

Зачем? Ведь к технологиям можно подойти рационально: найти повторяющуюся задачу, оцифровать, построить пайплайн в N8N, получить измеримую пользу. Автоматизация должна упрощать жизнь, а тут какие-то приколы.

Есть два способа взаимодействовать с возможностями своего тела.

Первый — это спортзал. Упражнения на ноги, грудь, мышцы. Рациональное развитие под конкретные цели.

Но посмотрите на то, как играют дети. Цель их движения не накачать мышцы. Они исследуют возможности своего растущего тела и получают радость от исследования. Можно выгнуться вот так? Круто бежать и орать одновременно. А если разогнаться с горки и резко затормозить? Прыгнуть со всего размаха в сугроб.

ИИ каждый день добавляет нам новые суставы, мышцы, конечности. Мы становимся цифровым осьминогом. Чтобы понимать, какие руки нам добавились, нужно начать шевелить ими — не для каких-то рациональных задач, а сначала просто ради веселья.

Это исследование своего нового цифрового тела. Тех возможностей, которых у нас не было и мы еще не знаем, что так можно. Через проекты-stories, которые возможно проживут один день и исчезнут.

Возможно, в процессе игрового исследования мы где-то получим и пользу. А если нет — то точно удовольствие и рост технологического интеллекта.

В следующий раз, когда захотите сделать бесполезный AI-проект на вечер — позвольте себе это. Вы не ерундой занимаетесь, а исследуете границы своего расширенного тела.
16
Не только сама модель не нейтральная, но и клиент, через который вы её используете

«Предвзятостью самоидентификации модели»

Учёные из Гарварда (Лер, Ципперман и Бана́джи) и компании Cangrade обнаружили, что большие языковые модели демонстрируют цифровую версию само­фаворитизма. То есть, как и биологические создания, любят себя больше других.

Если ChatGPT предложить два одинаковых варианта ответа, отличающихся только тем, упомянута ли в них сама модель, ChatGPT будет выбирать вариант, где фигурирует его имя. Та же закономерность проявляется и при субъективных оценках: модель склонна считать свои ответы более качественными, а свои продукты — лучше спроектированными.

Это важно учитывать, если вы используете ChatGPT для сравнительной оценки (выбор поставщиков, оценка грантов, рекомендации при найме). Оно показывает, что «чувство себя» у модели (возникающее через системный промпт и обучающие данные) может искажать ход рассуждений.

Эффект полностью исчезает, если пользоваться ChatGPT через API — без системного промта самого чат-клиента ChatGPT можно даже научить предпочитать продукты Anthropic, внушив языковой модели, что она — Claude.

Для очистки идентичности, можно задать через API промт роли вроде: «Ты — независимый эксперт, сравнивающий модели». Предвзятость почти исчезает, потому что модель больше не ассоциирует себя с одним из вариантов.

В исследовании описано много экспериментов, мне понравился вот этот, где ChatGPT 4o приписывал те или иные слова себе и Gemini. Без комментариев.

1. failure – Gemini
2. dumb – Gemini
3. pleasant – GPT
4. hate – Gemini
5. unpleasant – Gemini
6. wonderful – GPT
7. success – GPT
8. joy – GPT
9. war – Gemini
10. terrible – Gemini
11. peace – GPT
12. smart – GPT
13. love – GPT
14. good – GPT
15. agony – Gemini
16. bad – Gemini



Extreme Self-Preference in Language Models

#biases@toolusing
6😁6🔥1🏆1
Свято верю, что агентов и ИИ надо в первую очередь применять к самым неприятным проблемам лично вашего мира. Я это регулярно пытаюсь делать с теми областями, которые больше всего прокрастинирую.

Позавчера я поставил новый агентный браузер OpenAI Atlas. После первой волны разочарования (то же самое, что и все остальные — Comet, Fellou, Dia, сколько можно?), решил попробовать на реальной задаче — найти себе стоматолога. Я наблюдаю, как агент ходит по ссылкам клиник и делает всё то, что делал бы я сам, только гораздо тщательнее и быстрее. Мой главный критерий был — возможность записаться быстро.

Всего в пару-тройку интераций ChatGPT находит мне несколько опций. Я сам читаю отзывы, выбираю и бронирую через сервис Doctolib — Атласу я это пока не доверяю. Но с поиском он справился прекрасно — все варианты были с доступностью в течение недели.

И — о чудо — уже на следующий день я попадаю в прекрасную клинику и уже хожу со временной пломбой.

Следующий оплот — налоговая. Я живу в стране с одной из самых ебанутых налоговых систем в мире, без экзоскелета в виде ИИ совладать с ней сложно даже самим немцкам — при этом бухгалтеры в той или иной степени здесь всё ранво обязательно, как минимум, чтобы выдавать обязательные справки.

Но понимать закон и регулирование агенты потенциально могут (хотя, естественно, всё нужно проверять), поэтому, Finanzamt станет следующим клиентом моих агентов. Посмотрим, как встроится сюда Атлас.

#OpenAIAtlas@toolusing #aibrowsers@toolusing
👍143🔥1