Сергей Булаев AI 🤖
10.8K subscribers
685 photos
623 videos
2 files
687 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Кстати, вчера доработал немного генератор описаний комитов Андрея Карпаты. Добавил фичи, которые пришли в голову за недели постоянного использования.

- Второй запрос в LLM для краткого описания того что будет выкинуто из кода (Cursor Composer постоянно что то теряет)
- Автокоммит по-умолчанию по нажатию Return (так как чаще всего принимаю описание)
- Распечатку времени исполнения (что бы постоянно видеть, как давно я коммитил последний раз)
- Написал инструкцию как использовать скрипт прямо в комментах.


Пользуйтесь пожалуйста, очень удобно. (можете там звёздочку тапнуть, мне приятно будет)

Сергей Булаев AI 🤖 - об AI и не только
331642
Меня кто-то недавно спрашивал, как репозиторий в единый файл превратить, что бы LLM проще отдать. Я пользовался «своими» скриптами для этого, пока Composer не появился.

Оказывается на эту тему есть несколько проектов.

repo2txt - веб решение которое конвертит репозиторий в структурированный текстовый файл. (Репозиторий)

code2prompt - Rust утилита, из командной строки преобразует вашу кодовую базу в единый запрос для языковой модели (LLM), включая дерево исходного кода, шаблонизацию запросов и подсчёт токенов.​​​​​​​​​​​​​​​​

TxtRepo - это API для взаимодействия с репозиториями GitHub. Он предоставляет функционал для получения всей кодовой базы в виде единого текстового файла и преобразования аналогично отформатированного текстового файла в запрос на внесение изменений (pull request).​​​​​​​​​​​​​​​​ Есть демо.

Вот перевод и краткое изложение на русском:

Mergy - расширение для Chrome, которое объединяет содержимое репозиториев GitHub в один текстовый файл. Оно позволяет загружать файлы из публичных репозиториев GitHub, объединять выбранные файлы в единый документ и оптимизировать контент для обработки искусственным интеллектом.​​​​​​​​​​​​​​​​

Сергей Булаев AI 🤖 - об AI и не только
2075
Что такое дистилляция модели?

Дистилляция (знаний) модели — это техника, при которой знания более крупной и сложной AI-модели (например, GPT-4o) передаются в более маленькую и эффективную модель (например, GPT-4o-mini). Это можно сравнить с тем, как учитель (большая модель) передаёт свои знания ученику (меньшей модели).

Почему дистилляция модели важна?

Экономичность: Большие модели требуют значительных затрат на работу. Меньшие, дистиллированные модели предлагают более экономичное решение, особенно при масштабном развертывании.

Скорость ответа: Меньшие модели требуют меньше вычислительной мощности и, следовательно, обеспечивают более быстрые ответы, что особенно важно для приложений реального времени, таких как чат-боты.

Доступность: Дистиллированные модели могут работать на менее мощном оборудовании, делая технологии искусственного интеллекта доступными для большего числа разработчиков и пользователей.

Подход OpenAI к дистилляции модели:

OpenAI обозначила трёхэтапный процесс для эффективной дистилляции моделей:

Определение метрик оценки: Чётко определите, что представляет собой “хорошую” производительность для конкретной задачи, которую будет выполнять дистиллированная модель. Это включает создание критериев оценки, специфичных для задачи.

Генерация высококачественных обучающих данных: Используйте большую модель (например, GPT-4o) для создания набора примеров входных данных и желаемых выходных результатов. Эти примеры должны отражать идеальную производительность, определённую на этапе оценки.

Тонкая настройка меньшей модели: Обучите меньшую модель (например, GPT-4o-mini), используя созданный на предыдущем шаге набор данных. Меньшая модель учится воспроизводить поведение и результаты более крупной модели.

OpenAI анонсировала два новых инструмента, которые упрощают процесс дистилляции моделей для разработчиков:

Stored Completions: Этот параметр API позволяет разработчикам сохранять и помечать взаимодействия с моделями OpenAI. Эти сохранённые взаимодействия можно использовать для создания наборов данных для дообучения меньших моделей.

Evals Product (Beta): Этот новый инструмент предоставляет платформу для управления процессом дистилляции внутри экосистемы OpenAI, упрощая оценку и сравнение различных моделей и наборов данных.

Когда стоит рассматривать дистилляцию модели?

Узкая область, низкие требования к точности: Идеально подходит для задач в рамках узкой области, где высокоточные результаты не являются критичными (например, суммирование отзывов клиентов).

Высокая точность, узкая область: Эффективно для задач категоризации в чётко определённой области, требующих более крупного и разнообразного набора данных.

Широкая область, низкая точность: Подходит для задач, охватывающих несколько областей, где точность не является критически важной (например, создание креативных текстов).

Когда дистилляция модели может быть не очень:

Задачи, требующие как широких знаний в различных областях, так и высокоточных выходных данных, обычно не подходят для дистилляции. Для таких задач часто требуется полные возможности большой модели.

Важные аспекты для успешной дистилляции:

Качество данных и предвзятость: Убедитесь, что обучающий набор данных не содержит предвзятости и точно отражает распределение данных, с которыми модель столкнётся в реальном использовании.

Редкие данные: Будьте внимательны к редким событиям (например, обнаружение мошенничества), где малый набор данных может не включать достаточное количество примеров, что приведёт к “слепым пятнам” в дистиллированной модели.

Итеративный подход: Начните с небольшого набора данных и постепенно увеличивайте его, непрерывно оценивая производительность для эффективной тонкой настройки модели.

OpenAI считает, что будущее разработки AI-приложений, вероятно, будет включать гибридный подход, использующий комбинацию специализированных дистиллированных моделей для конкретных задач и больших моделей для более сложных, общих нужд.

По материалам различных рассказов о вчерашних презентациях на OpenAI DevDay

Сергей Булаев AI 🤖 - об AI и не только
1135
Как я уже говорил, на OpenAI DevDay была беседа с Сэмом Альтманом

Основные моменты:

- Полностью функционирующие, независимые агенты в 2025-м
- Достигнут 2-й уровень AGI, 3-й уровень ожидается в следующем году
- Неограниченное контекстное окно появится максимум через ~5 лет
- Агенты будут выполнять нашу месячную работу буквально за часы
- Развитие по-прежнему идёт стремительными темпами
- O2 (предположительно следующая версия после O1) вероятно уже умнее любого человека
- Скоро модели будут проводить исследования лучше, чем сами исследователи в OpenAI
- У каждого человека (в теме) будет 10x, 100x агентов


Вот тут подробнее

Сергей Булаев AI 🤖 - об AI и не только
128722
Важный пейпер, который многие из нас боялись ждать: каково реальное влияние ИИ на продуктивность программистов? Это рандомизированное контролируемое исследование с использованием старого и осталого Github Copilot на базе GPT-3.5 для 4 867 программистов в компаниях из списка Fortune 100. Исследование обнаружило увеличение количества выполненных задач на 26,08%.

Сергей Булаев AI 🤖 - об AI и не только
1287
У нашего читателя Евгения #ЕстьМнение по поводу последнего поста, которое стоит принять во внимание:

Я не настоящий сварщик, не силен в статистике и в больших экспериментах - но расскажу, что сделали.

Дизайн эксперимента такой:

Как тестируем:
Берем три компании- MS/Acc/An(хз кто это)
В каждой компании выбираем контрольную и тестируемую группу(число пользователей|%в группе тестируемых)
MS(1746 | 50.4%), после очистки 1521, длительность с 09/22 по 04/23 включительно. Контрольной группе начали давать доступ 04/23. Регион- US
Acc(320 | 61.3), после очистки 316, длительность с июля 2023 по декабрь 2023.
Контрольной группе начали давать доступ 12/23. Регион-Southeast Asia
An(3054 | хз ), после очистки 3030, дали доступ в начале сентября 2023, в контрольной группе начали давать в отябре 2023. Регион - хз.


Метрики: В первую очередь смотрим на количество PRs, вспомогательные - коммиты, количество билдов. И совсем вспомогательный - количество успешных билдов.

Ну в общем, идем сравниваемся на уровне гранулярности developer-week.

Результаты:
1. Ребята правда молодцы и честно говорят что постарались учесть влияние того что пользователи контрольной группы начали получать доступ. Ну и на самом деле - чем раньше получали - тем меньше разница в обозреваемом эффект между контрольной и тестируемой группой. Но данные из прошлого-то не меняются, поэтому можно забить.

2. Суммарная таблица с результатами выглядит прикольно. Только тут пара вещей которые немного странные.

2.а. Тут сразу честно “while standard errors are consistently large, we find evidence of the productivity-enchancing effects of gh copilot”. При этом таблица на взвешенных данных исходя из(1), если посмотреть на таблицу невзвешенных - там действительно результат хуже. Ладно, это ок.

2.b. Вижу что есть указание про кластеры. И тут, если посмотреть на размер кластеров - на индивидуальном уровне измеряется _только_ в Acc. В MS кластер на 2 человека, в An - 7. И вроде бы подписано, что SE varies across experiments (MS: mixed team level and individual assisgnments, Acc: individual assignmetns, An: Team level assignments). Тут становится немного непонятно - почему такое разбиение на кластеры и для чего (вроде рандомизировали специально и на уровне команд и на индивидуальном уровне). В общем - я хз что тут измеряют и как это интерпретировать.

2.с. Для An присутствует самое большое SE, но при этом в финальных цифрах - SE становится минимальным среди всех трех экспериментов. Как это сделали - черт знает. По идее - с ростом генеральной совокупности SE должна уменьшаться и на самом деле, учитывая двукратное превосходство An над объемом других - финальные цифры должны быть сопоставимы. Но думаю, тут просто с кластерами поиграли taking the precision weighted average across our three experiment-by-experiment estimates. Ну ок.

3. Там еще увольнение сотрудников Acc было в количестве 42% от тех кто участвовал в эксперименте, но там ребята поигрались с цифрами и считают что можно оставить результаты 204 оставшихся человек, но просто вынесем их в Appedix D, чтобы не путать цифры. А так-то все норм.

Мне кажется, здесь пара вещей, которые мне не нравятся и я не доверяю результатам:
- произошло смешение контрольных и исследуемых групп
- цифры считаются не совсем понятным образом .

В общем, выглядит как очередной маркетинговый булшит. Может, только для меня ибо, повторюсь, вычисления и выводы не выглядят solid ground.


У Gemini есть своё мнение по поводу мнения Евгения:

Комментарий критикует статью за смешение контрольных и исследовательских групп, неясные расчёты и подозрения в маркетинговом преувеличении. Авторы признают некоторые недостатки, но утверждают, что использовали статистические методы для их компенсации. Тем не менее, статья не детализирует эти методы, что затрудняет проверку корректности данных.


Сергей Булаев AI 🤖 - об AI и не только
1496
Наверное уже слышали что OpenAI представила Canvas, крутой конкурент Claude Artifacts. К сожалению сильно занят, и пока не могу попробовать.

Но Саша, на которую давно подписан, и которая тоже много пишет про свой опыт использования ИИ, уже попробовала и можно посмотреть.

Для редактирования текста очень удобно, для кода пока не очень поняла, в чем удобство, кроме, может быть ui. Тк потом все равно иду в cursor собирать кусочки и дорабатывать. Может уже привычка.


Сергей Булаев AI 🤖 - об AI и не только
107
This media is not supported in your browser
VIEW IN TELEGRAM
На DevDays OpenAI было показано как o1 всего за 5 минут пишет полностью рабочее приложение под iOS по управлению дронами.

А вы знаете, что Пьетро Шкирано, создатель Omni Engineer (а так же человек, превративший Клода в змею), выпустил полноценного агента на базе o1, который пишет приложения по заданию? Не шагами, не интеграциями, а типа разом и полностью.

Для этого проект использует две модели o1-mini (можно изменить в настройках), одна говорит что добавлять и менять, а вторая - исполняет. Как пишет автор, первым делом он подключил своего агента к работе над собственным же кодом.

Кстати, обратите внимание, из свеже-опубликованного системного промпта Canvas GPT-4o, стало известно, что частями файлы ему менять не дают, заставляют переписывать полностью, похоже так всё ещё надежнее всего. (Поэтому всегда помните, ваши файлы с кодом должны быть короткими, что бы переписать их в небольшом контекстном окне было не трудно, но думаю все итак это понимают, и без контекстных окон. Я чистый код как то читал…)

Сергей Булаев AI 🤖 - об AI и не только
1273
Представление о том как будет выглядеть генеративный геймплей будущего (тут вот фортнайт уже представляли). GTA San Adreas. Тот ролик что побольше - это Runway Gen 3, что покороче - не знаю. Увидел тут.

Сергей Булаев AI 🤖 - об AI и не только
1673
Replit прислал рассылку с новостями, между ними список интересных проектов, построенных его агентом (с которым у меня пока не сложилось) за месяц существования. Не ахти какой, но что то интересное есть:

💳 Кастомный дашборд по контролю за метриками здоровья
🌿 Калькулятор A/B тестирований с извлечением данных из скриншотов (автор)
😎 Веб скрэпер для бизнес партнёрств
🎩 Анализатор видео с уроков, для понимания лучших моментов отклика
📖 Приложение по рекомендации книг
🗑 И стандартное разделение счёта из ресторана

Что ждать?

- В начале следующей недели выпустят руководство по стилю, чтобы сделать приложения, более привлекательными визуально.
- Обещают поддержку других фрэйморков (а не только скучный Flask). Например, мой любимый Nextjs.
- БОльшую гибкость по управлению квотой агентов.
- Улучшенние производительности для крупных проектов


Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
833
This media is not supported in your browser
VIEW IN TELEGRAM
Мои любимые Firecrawl выпустили в качестве примера использования, Realtime консоль для кроулинга через OpenAI Realtime API. Отличный жизненный кейс.

Сергей Булаев AI 🤖 - об AI и не только
852
Демо подборочка видосиков новой Meta Movie Gen:

- Снежная обезьяна играет с игрушечным корабликом
- Персонализированное видео
- Создание звуков и музыки (змея в джунглях)
- Редактикрование видео с помощью текстовых промтов
- Видос с приведением - обратите внимание каким стабильным остаётся нарисованное лицо
- Коала на сёрфе
- Фаершоу (тайская классика)
- Обезьяна на тьюбе с коктейлем

Выглядит очень достойно!

Сергей Булаев AI 🤖 - об AI и не только
6321