Сергей Булаев AI 🤖

Кстати, вчера доработал немного генератор описаний комитов Андрея Карпаты. Добавил фичи, которые пришли в голову за недели постоянного использования.

- Второй запрос в LLM для краткого описания того что будет выкинуто из кода (Cursor Composer постоянно что то теряет)
- Автокоммит по-умолчанию по нажатию Return (так как чаще всего принимаю описание)
- Распечатку времени исполнения (что бы постоянно видеть, как давно я коммитил последний раз)
- Написал инструкцию как использовать скрипт прямо в комментах.

Пользуйтесь пожалуйста, очень удобно. (можете там звёздочку тапнуть, мне приятно будет)

Сергей Булаев AI 🤖 - об AI и не только

331642

2.05K views11:21

Сергей Булаев AI 🤖

Меня кто-то недавно спрашивал, как репозиторий в единый файл превратить, что бы LLM проще отдать. Я пользовался «своими» скриптами для этого, пока Composer не появился.

Оказывается на эту тему есть несколько проектов.

repo2txt - веб решение которое конвертит репозиторий в структурированный текстовый файл. (Репозиторий)

code2prompt - Rust утилита, из командной строки преобразует вашу кодовую базу в единый запрос для языковой модели (LLM), включая дерево исходного кода, шаблонизацию запросов и подсчёт токенов.

TxtRepo - это API для взаимодействия с репозиториями GitHub. Он предоставляет функционал для получения всей кодовой базы в виде единого текстового файла и преобразования аналогично отформатированного текстового файла в запрос на внесение изменений (pull request). Есть демо.

Вот перевод и краткое изложение на русском:

Mergy - расширение для Chrome, которое объединяет содержимое репозиториев GitHub в один текстовый файл. Оно позволяет загружать файлы из публичных репозиториев GitHub, объединять выбранные файлы в единый документ и оптимизировать контент для обработки искусственным интеллектом.

Сергей Булаев AI 🤖 - об AI и не только

Simplebasedomain

GitHub to Plain Text Converter

Convert GitHub repositories to plain text files easily. Transform code into a single formatted text file.

2075

2.36K viewsedited 07:45

Сергей Булаев AI 🤖

Что такое дистилляция модели?

Дистилляция (знаний) модели — это техника, при которой знания более крупной и сложной AI-модели (например, GPT-4o) передаются в более маленькую и эффективную модель (например, GPT-4o-mini). Это можно сравнить с тем, как учитель (большая модель) передаёт свои знания ученику (меньшей модели).

Почему дистилляция модели важна?

Экономичность: Большие модели требуют значительных затрат на работу. Меньшие, дистиллированные модели предлагают более экономичное решение, особенно при масштабном развертывании.

Скорость ответа: Меньшие модели требуют меньше вычислительной мощности и, следовательно, обеспечивают более быстрые ответы, что особенно важно для приложений реального времени, таких как чат-боты.

Доступность: Дистиллированные модели могут работать на менее мощном оборудовании, делая технологии искусственного интеллекта доступными для большего числа разработчиков и пользователей.

Подход OpenAI к дистилляции модели:

OpenAI обозначила трёхэтапный процесс для эффективной дистилляции моделей:

Определение метрик оценки: Чётко определите, что представляет собой “хорошую” производительность для конкретной задачи, которую будет выполнять дистиллированная модель. Это включает создание критериев оценки, специфичных для задачи.

Генерация высококачественных обучающих данных: Используйте большую модель (например, GPT-4o) для создания набора примеров входных данных и желаемых выходных результатов. Эти примеры должны отражать идеальную производительность, определённую на этапе оценки.

Тонкая настройка меньшей модели: Обучите меньшую модель (например, GPT-4o-mini), используя созданный на предыдущем шаге набор данных. Меньшая модель учится воспроизводить поведение и результаты более крупной модели.

OpenAI анонсировала два новых инструмента, которые упрощают процесс дистилляции моделей для разработчиков:

Stored Completions: Этот параметр API позволяет разработчикам сохранять и помечать взаимодействия с моделями OpenAI. Эти сохранённые взаимодействия можно использовать для создания наборов данных для дообучения меньших моделей.

Evals Product (Beta): Этот новый инструмент предоставляет платформу для управления процессом дистилляции внутри экосистемы OpenAI, упрощая оценку и сравнение различных моделей и наборов данных.

Когда стоит рассматривать дистилляцию модели?

Узкая область, низкие требования к точности: Идеально подходит для задач в рамках узкой области, где высокоточные результаты не являются критичными (например, суммирование отзывов клиентов).

Высокая точность, узкая область: Эффективно для задач категоризации в чётко определённой области, требующих более крупного и разнообразного набора данных.

Широкая область, низкая точность: Подходит для задач, охватывающих несколько областей, где точность не является критически важной (например, создание креативных текстов).

Когда дистилляция модели может быть не очень:

Задачи, требующие как широких знаний в различных областях, так и высокоточных выходных данных, обычно не подходят для дистилляции. Для таких задач часто требуется полные возможности большой модели.

Важные аспекты для успешной дистилляции:

Качество данных и предвзятость: Убедитесь, что обучающий набор данных не содержит предвзятости и точно отражает распределение данных, с которыми модель столкнётся в реальном использовании.

Редкие данные: Будьте внимательны к редким событиям (например, обнаружение мошенничества), где малый набор данных может не включать достаточное количество примеров, что приведёт к “слепым пятнам” в дистиллированной модели.

Итеративный подход: Начните с небольшого набора данных и постепенно увеличивайте его, непрерывно оценивая производительность для эффективной тонкой настройки модели.

OpenAI считает, что будущее разработки AI-приложений, вероятно, будет включать гибридный подход, использующий комбинацию специализированных дистиллированных моделей для конкретных задач и больших моделей для более сложных, общих нужд.

По материалам различных рассказов о вчерашних презентациях на OpenAI DevDay

Сергей Булаев AI 🤖 - об AI и не только

1135

1.72K views08:33

Сергей Булаев AI 🤖

Как я уже говорил, на OpenAI DevDay была беседа с Сэмом Альтманом

Основные моменты:

- Полностью функционирующие, независимые агенты в 2025-м
- Достигнут 2-й уровень AGI, 3-й уровень ожидается в следующем году
- Неограниченное контекстное окно появится максимум через ~5 лет
- Агенты будут выполнять нашу месячную работу буквально за часы
- Развитие по-прежнему идёт стремительными темпами
- O2 (предположительно следующая версия после O1) вероятно уже умнее любого человека
- Скоро модели будут проводить исследования лучше, чем сами исследователи в OpenAI
- У каждого человека (в теме) будет 10x, 100x агентов

Вот тут подробнее

Сергей Булаев AI 🤖 - об AI и не только

128722

2.05K viewsedited 13:07

Сергей Булаев AI 🤖

Важный пейпер, который многие из нас боялись ждать: каково реальное влияние ИИ на продуктивность программистов? Это рандомизированное контролируемое исследование с использованием старого и осталого Github Copilot на базе GPT-3.5 для 4 867 программистов в компаниях из списка Fortune 100. Исследование обнаружило увеличение количества выполненных задач на 26,08%.

Сергей Булаев AI 🤖 - об AI и не только

1287

2.04K views13:34

Сергей Булаев AI 🤖

У нашего читателя Евгения #ЕстьМнение по поводу последнего поста, которое стоит принять во внимание:

Я не настоящий сварщик, не силен в статистике и в больших экспериментах - но расскажу, что сделали.

Дизайн эксперимента такой:

Как тестируем:
Берем три компании- MS/Acc/An(хз кто это)
В каждой компании выбираем контрольную и тестируемую группу(число пользователей|%в группе тестируемых)
MS(1746 | 50.4%), после очистки 1521, длительность с 09/22 по 04/23 включительно. Контрольной группе начали давать доступ 04/23. Регион- US
Acc(320 | 61.3), после очистки 316, длительность с июля 2023 по декабрь 2023. Контрольной группе начали давать доступ 12/23. Регион-Southeast Asia
An(3054 | хз ), после очистки 3030, дали доступ в начале сентября 2023, в контрольной группе начали давать в отябре 2023. Регион - хз.

Метрики: В первую очередь смотрим на количество PRs, вспомогательные - коммиты, количество билдов. И совсем вспомогательный - количество успешных билдов.

Ну в общем, идем сравниваемся на уровне гранулярности developer-week.

Результаты:
1. Ребята правда молодцы и честно говорят что постарались учесть влияние того что пользователи контрольной группы начали получать доступ. Ну и на самом деле - чем раньше получали - тем меньше разница в обозреваемом эффект между контрольной и тестируемой группой. Но данные из прошлого-то не меняются, поэтому можно забить.

2. Суммарная таблица с результатами выглядит прикольно. Только тут пара вещей которые немного странные.

2.а. Тут сразу честно “while standard errors are consistently large, we find evidence of the productivity-enchancing effects of gh copilot”. При этом таблица на взвешенных данных исходя из(1), если посмотреть на таблицу невзвешенных - там действительно результат хуже. Ладно, это ок.

2.b. Вижу что есть указание про кластеры. И тут, если посмотреть на размер кластеров - на индивидуальном уровне измеряется _только_ в Acc. В MS кластер на 2 человека, в An - 7. И вроде бы подписано, что SE varies across experiments (MS: mixed team level and individual assisgnments, Acc: individual assignmetns, An: Team level assignments). Тут становится немного непонятно - почему такое разбиение на кластеры и для чего (вроде рандомизировали специально и на уровне команд и на индивидуальном уровне). В общем - я хз что тут измеряют и как это интерпретировать.

2.с. Для An присутствует самое большое SE, но при этом в финальных цифрах - SE становится минимальным среди всех трех экспериментов. Как это сделали - черт знает. По идее - с ростом генеральной совокупности SE должна уменьшаться и на самом деле, учитывая двукратное превосходство An над объемом других - финальные цифры должны быть сопоставимы. Но думаю, тут просто с кластерами поиграли taking the precision weighted average across our three experiment-by-experiment estimates. Ну ок.

3. Там еще увольнение сотрудников Acc было в количестве 42% от тех кто участвовал в эксперименте, но там ребята поигрались с цифрами и считают что можно оставить результаты 204 оставшихся человек, но просто вынесем их в Appedix D, чтобы не путать цифры. А так-то все норм.

Мне кажется, здесь пара вещей, которые мне не нравятся и я не доверяю результатам:
- произошло смешение контрольных и исследуемых групп
- цифры считаются не совсем понятным образом .

В общем, выглядит как очередной маркетинговый булшит. Может, только для меня ибо, повторюсь, вычисления и выводы не выглядят solid ground.

У Gemini есть своё мнение по поводу мнения Евгения:

Комментарий критикует статью за смешение контрольных и исследовательских групп, неясные расчёты и подозрения в маркетинговом преувеличении. Авторы признают некоторые недостатки, но утверждают, что использовали статистические методы для их компенсации. Тем не менее, статья не детализирует эти методы, что затрудняет проверку корректности данных.

Сергей Булаев AI 🤖 - об AI и не только

1496

1.88K views14:10

Сергей Булаев AI 🤖

Наверное уже слышали что OpenAI представила Canvas, крутой конкурент Claude Artifacts. К сожалению сильно занят, и пока не могу попробовать.

Но Саша, на которую давно подписан, и которая тоже много пишет про свой опыт использования ИИ, уже попробовала и можно посмотреть.

Для редактирования текста очень удобно, для кода пока не очень поняла, в чем удобство, кроме, может быть ui. Тк потом все равно иду в cursor собирать кусочки и дорабатывать. Может уже привычка.

Сергей Булаев AI 🤖 - об AI и не только

Openai

Introducing canvas

Canvas is a new way to write and code with ChatGPT.

107

2K viewsedited 06:57