Сергей Булаев AI 🤖

У нашего читателя Евгения #ЕстьМнение по поводу последнего поста, которое стоит принять во внимание:

Я не настоящий сварщик, не силен в статистике и в больших экспериментах - но расскажу, что сделали.

Дизайн эксперимента такой:

Как тестируем:
Берем три компании- MS/Acc/An(хз кто это)
В каждой компании выбираем контрольную и тестируемую группу(число пользователей|%в группе тестируемых)
MS(1746 | 50.4%), после очистки 1521, длительность с 09/22 по 04/23 включительно. Контрольной группе начали давать доступ 04/23. Регион- US
Acc(320 | 61.3), после очистки 316, длительность с июля 2023 по декабрь 2023. Контрольной группе начали давать доступ 12/23. Регион-Southeast Asia
An(3054 | хз ), после очистки 3030, дали доступ в начале сентября 2023, в контрольной группе начали давать в отябре 2023. Регион - хз.

Метрики: В первую очередь смотрим на количество PRs, вспомогательные - коммиты, количество билдов. И совсем вспомогательный - количество успешных билдов.

Ну в общем, идем сравниваемся на уровне гранулярности developer-week.

Результаты:
1. Ребята правда молодцы и честно говорят что постарались учесть влияние того что пользователи контрольной группы начали получать доступ. Ну и на самом деле - чем раньше получали - тем меньше разница в обозреваемом эффект между контрольной и тестируемой группой. Но данные из прошлого-то не меняются, поэтому можно забить.

2. Суммарная таблица с результатами выглядит прикольно. Только тут пара вещей которые немного странные.

2.а. Тут сразу честно “while standard errors are consistently large, we find evidence of the productivity-enchancing effects of gh copilot”. При этом таблица на взвешенных данных исходя из(1), если посмотреть на таблицу невзвешенных - там действительно результат хуже. Ладно, это ок.

2.b. Вижу что есть указание про кластеры. И тут, если посмотреть на размер кластеров - на индивидуальном уровне измеряется _только_ в Acc. В MS кластер на 2 человека, в An - 7. И вроде бы подписано, что SE varies across experiments (MS: mixed team level and individual assisgnments, Acc: individual assignmetns, An: Team level assignments). Тут становится немного непонятно - почему такое разбиение на кластеры и для чего (вроде рандомизировали специально и на уровне команд и на индивидуальном уровне). В общем - я хз что тут измеряют и как это интерпретировать.

2.с. Для An присутствует самое большое SE, но при этом в финальных цифрах - SE становится минимальным среди всех трех экспериментов. Как это сделали - черт знает. По идее - с ростом генеральной совокупности SE должна уменьшаться и на самом деле, учитывая двукратное превосходство An над объемом других - финальные цифры должны быть сопоставимы. Но думаю, тут просто с кластерами поиграли taking the precision weighted average across our three experiment-by-experiment estimates. Ну ок.

3. Там еще увольнение сотрудников Acc было в количестве 42% от тех кто участвовал в эксперименте, но там ребята поигрались с цифрами и считают что можно оставить результаты 204 оставшихся человек, но просто вынесем их в Appedix D, чтобы не путать цифры. А так-то все норм.

Мне кажется, здесь пара вещей, которые мне не нравятся и я не доверяю результатам:
- произошло смешение контрольных и исследуемых групп
- цифры считаются не совсем понятным образом .

В общем, выглядит как очередной маркетинговый булшит. Может, только для меня ибо, повторюсь, вычисления и выводы не выглядят solid ground.

У Gemini есть своё мнение по поводу мнения Евгения:

Комментарий критикует статью за смешение контрольных и исследовательских групп, неясные расчёты и подозрения в маркетинговом преувеличении. Авторы признают некоторые недостатки, но утверждают, что использовали статистические методы для их компенсации. Тем не менее, статья не детализирует эти методы, что затрудняет проверку корректности данных.

Сергей Булаев AI 🤖 - об AI и не только

1496

1.88K views14:10

Сергей Булаев AI 🤖

Наверное уже слышали что OpenAI представила Canvas, крутой конкурент Claude Artifacts. К сожалению сильно занят, и пока не могу попробовать.

Но Саша, на которую давно подписан, и которая тоже много пишет про свой опыт использования ИИ, уже попробовала и можно посмотреть.

Для редактирования текста очень удобно, для кода пока не очень поняла, в чем удобство, кроме, может быть ui. Тк потом все равно иду в cursor собирать кусочки и дорабатывать. Может уже привычка.

Сергей Булаев AI 🤖 - об AI и не только

Openai

Introducing canvas

Canvas is a new way to write and code with ChatGPT.

107

2K viewsedited 06:57

Сергей Булаев AI 🤖

1:09

This media is not supported in your browser

VIEW IN TELEGRAM

На DevDays OpenAI было показано как o1 всего за 5 минут пишет полностью рабочее приложение под iOS по управлению дронами.

А вы знаете, что Пьетро Шкирано, создатель Omni Engineer (а так же человек, превративший Клода в змею), выпустил полноценного агента на базе o1, который пишет приложения по заданию? Не шагами, не интеграциями, а типа разом и полностью.

Для этого проект использует две модели o1-mini (можно изменить в настройках), одна говорит что добавлять и менять, а вторая - исполняет. Как пишет автор, первым делом он подключил своего агента к работе над собственным же кодом.

Кстати, обратите внимание, из свеже-опубликованного системного промпта Canvas GPT-4o, стало известно, что частями файлы ему менять не дают, заставляют переписывать полностью, похоже так всё ещё надежнее всего. (Поэтому всегда помните, ваши файлы с кодом должны быть короткими, что бы переписать их в небольшом контекстном окне было не трудно, но думаю все итак это понимают, и без контекстных окон. Я чистый код как то читал…)

Сергей Булаев AI 🤖 - об AI и не только

1273

2.45K views09:26

This media is not supported in your browser

VIEW IN TELEGRAM

Представление о том как будет выглядеть генеративный геймплей будущего (тут вот фортнайт уже представляли). GTA San Adreas. Тот ролик что побольше - это Runway Gen 3, что покороче - не знаю. Увидел тут.

Сергей Булаев AI 🤖 - об AI и не только

1673

2.26K views10:57

Сергей Булаев AI 🤖

0:38

This media is not supported in your browser

VIEW IN TELEGRAM

3:43

This media is not supported in your browser

VIEW IN TELEGRAM

1:20

This media is not supported in your browser

VIEW IN TELEGRAM

Replit прислал рассылку с новостями, между ними список интересных проектов, построенных его агентом (с которым у меня пока не сложилось) за месяц существования. Не ахти какой, но что то интересное есть:

💳

Кастомный дашборд по контролю за метриками здоровья

🌿

Калькулятор A/B тестирований с извлечением данных из скриншотов (автор)

😎

Веб скрэпер для бизнес партнёрств

🎩

Анализатор видео с уроков, для понимания лучших моментов отклика

📖

Приложение по рекомендации книг

🗑

И стандартное разделение счёта из ресторана

Что ждать?

- В начале следующей недели выпустят руководство по стилю, чтобы сделать приложения,  более привлекательными визуально.
- Обещают поддержку других фрэйморков (а не только скучный Flask). Например, мой любимый Nextjs.
- БОльшую гибкость по управлению квотой агентов.
- Улучшенние производительности для крупных проектов

Сергей Булаев AI 🤖 - об AI и не только

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

833

2.18K views07:39

Сергей Булаев AI 🤖

1:13

This media is not supported in your browser

VIEW IN TELEGRAM

Мои любимые Firecrawl выпустили в качестве примера использования, Realtime консоль для кроулинга через OpenAI Realtime API. Отличный жизненный кейс.

Сергей Булаев AI 🤖 - об AI и не только

852

2.08K views08:03

Сергей Булаев AI 🤖