Сергей Булаев AI 🤖
10.8K subscribers
696 photos
626 videos
2 files
698 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Голосовые ИИ-агенты становятся всё мощнее и доступнее. Попался свежий интересный отчёт a16z по теме.

Голос превращается в основной способ взаимодействия с ИИ. Это самая естественная и информативная форма коммуникации, и впервые в истории мы можем использовать её как полноценный "интерфейс".

2024-й стал прорывным для голосовых технологий:

- OpenAI выкатили GPT-4o с поддержкой real-time голоса
- ElevenLabs запустили очень сложные голосовые модели
- NVIDIA также показывали новые возможности для разговорного ИИ


Что особенно радует - качество диалогов уже почти не отличить от человеческого. Задержки минимальные, эмоции передаются, можно перебивать. Я регулярно общаюсь с ChatGPT голосом и мне всё ещё очень нравится это.

Рынок рванул во второй половине года - 22% стартапов последнего набора YC были связаны с голосовыми технологиями. При этом цены постоянно падают (например, OpenAI серьёзно снизила стоимость GPT-4o API в декабре).

Самые интересные применения:

- Обработка звонков в нерабочее время
- Новые типы исходящих звонков (которые раньше были невыгодны), типа кастомер чеков
- "Бэк-офис" звонки между бизнесами. (вроде мед клиник звонящих в страховые)
- Коучинг и тренинги для высокооплачиваемых специалистов (немного сам в этой теме)


Кстати, AI-собеседования тоже показывают хорошие результаты. Боты часто справляются лучше живых рекрутеров на этапе первичного скрининга.

Большинство стартапов (около 69%) фокусируются на B2B решениях, за ними идёт здравоохранение (18%) и потребительский сегмент (13%).

Очевидно, 2025-й станет годом массового внедрения голосовых агентов. Как вы понимаете я и сам работаю с ними уже некоторое время, планирую только наращивать взаимодействие.

Сергей Булаев AI 🤖 - об AI и не только
235
Нашёл на GitHub интересный фреймворк для создания мультиагентных систем - Eliza. Уже вовсю используется для таких ботов как @DegenSpartanAI и @MarcAIndreessen.

Главная тема - возможность создавать и управлять несколькими автономными ИИ-агентами одновременно, каждый со своей личностью и базой знаний. Написан на TypeScript.

Что умеет:
- Работает с Discord (включая голосовые каналы), Twitter/X, Telegram
- Читает PDF, парсит ссылки, транскрибирует аудио и видео
- Использует RAG для долговременной памяти (как мои флэшбэки)
- Поддерживает локальные модели через Ollama, облачные через OpenAI, по умолчанию - Nous Hermes Llama 3.1B


Можно создавать разные типы агентов:
- Ассистенты поддержки и модераторы
- Автоматические генераторы контента
- Исследователи и аналитики
- Интерактивные персонажи для обучения или развлечения
- Много плагинов для блокчейн/крипто функционала


Весь код открыт, есть подробная документация и готовые шаблоны персонажей. Выглядит как неплохая база для экспериментов с мультиагентными системами.

Сергей Булаев AI 🤖 - об AI и не только
297👎1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI дебютировала на Super Bowl с 60-секундным роликом. "The Intelligence Age" - так называется их реклама, где ChatGPT представлен как следующий большой скачок в развитии человечества после огня, колеса, телевидения и интернета.

Интересно, что несмотря на тему ИИ, ролик полностью создан людьми. Sora использовалась только на этапе проектирования. Визуально реклама выполнена в фирменном стиле OpenAI - точки складываются в узнаваемые образы, ДНК превращается в телевизор, всё в таком духе.

За рекламу отвечала Кейт Роуч, которую OpenAI переманили из Coinbase в декабре (помните QR-код на прошлом Super Bowl?). По её словам, "мы находимся на заре эпохи интеллекта, и вы можете участвовать в этом прямо сейчас". 14 миллионов долларов за 60 секунд в прайм-тайм - немало, но похоже OpenAI всерьёз взялись за массовый рынок.

Сергей Булаев AI 🤖 - об AI и не только
1492
Сэм Альтман написал новую статью. Вот несколько ключевых моментов.

- Системы, указывающие на появление AGI, уже входят в поле зрения разработчиков.
- В течение десятилетия каждый человек на Земле сможет достигать большего, чем самый влиятельный человек сегодня.
- Интеллект AI-модели примерно равен логарифму используемых для её обучения и работы ресурсов.
- Стоимость использования определённого уровня ИИ падает примерно в 10 раз каждые 12 месяцев (это намного сильнее закона Мура).
- Социально-экономическая ценность линейного увеличения интеллекта имеет супер-экспоненциальную природу.
- ИИ-агенты будут восприниматься как виртуальные коллеги, и их можно будет масштабировать до миллионов.
- Мир не изменится сразу - в 2025 году люди будут проводить время примерно так же, как в 2024.
- Целеустремлённость и способность принимать решения станут чрезвычайно ценными качествами.
- Научный прогресс, вероятно, будет происходить намного быстрее, чем сегодня.
- Стоимость многих товаров в итоге резко упадёт, а цены на элитную недвижимость могут значительно вырасти.
- OpenAI считает важным давать людям больше контроля над технологиями, включая открытие исходного кода.

Пара цитат:

В каком-то смысле AGI - это просто ещё один инструмент в этих постоянно растущих строительных лесах человеческого прогресса, которые мы строим вместе. В другом смысле - это начало чего-то такого, о чём трудно не сказать 'на этот раз всё действительно иначе'


Любой человек в 2035 году должен иметь в своём распоряжении интеллектуальный потенциал, эквивалентный совокупным возможностям людей 2025 года; каждый должен иметь доступ к безграничному гению и использовать его по своему усмотрению.


Сергей Булаев AI 🤖 - об AI и не только
215
Эрик из команды Cursor показывает чуть обновлённый Cursor Agent - инструмент, работающий как полноценный разработчик с доступом к вашему проекту. В отличие от обычного режима Composer, агент может самостоятельно выполнять действия.

Основные функции
- Автономная работа с кодом (чтение, запись, поиск)
- Выполнение команд в терминале (установка пакетов, запуск серверов)
- Взаимодействие с базами данных (показали работу с postgres)
- Автоматическое исправление ошибок линтера с последующей проверкой
- Yolo режим - автономная работа с терминалом


Через @ команды можно расширять контекст:
@web - поиск документации в интернете
@file - добавление файла в контекст
@folder - доступ к папке с файлами


Настройка через .cursorrules в корне проекта:
- Привязка правил к файлам
- Описание стиля кода
- Ограничения по технологиям
- Шаблоны для типовых задач


Агент в Composer включается через cmd/ctrl + точка или в интерфейсе нового composer.

Сергей Булаев AI 🤖 - об AI и не только
144
Потихоньку копирую свою личность в облако. Сделал небольшую подбору своих жизненных правил. Версия не окончательная, но довольно уже обширная.

- Люди хорошие, в основном. Плохие есть. Большинство плохих тоже искренне считают, что они хорошие.
- Люди не меняются. Меняются только редкие.
- Реальные попытки изменить себя - признак высокого интеллекта, цени таких людей.
- От лжи всегда больше проблем, чем от правды (если не сейчас, то потом).
- Особенно касается лжи себе.
- Людям нравится, когда им помогают, но ещё больше они любят помогать сами. Всегда старайся дать им такую возможность.
- Людям нужно внимание, важно помнить важные мелочи о них. Они это ценят. Я это ценю.
- Не надо бояться повторной работы, лишней работы. Переделывать - это всегда хорошо. Не умеешь переделывать — готовься к посредственности.
- Цени чужие границы и помни о своих (никогда не забывай о своих, осознавай их и дай другим их почувствовать).
- Люди ошибаются, ты тоже, это нормально.
- Когда одинаковые ошибки повторяются много раз - это не нормально.
- Часто отстаивать свою точку зрения - признак глупости.
- Прощение - всегда во благо, но иногда ты просто не можешь, возможно, нужно время.
- Цени красоту вокруг себя: в природе, в ветре, в мелочах.
- Смеяться - клёво, насмехаться - насилие.


Сергей Булаев 🏝️ - о жизни на острове и не только
46462
Илон Маск вместе с xAI и консорциумом инвесторов предложил $97.4 млрд за OpenAI. Цель - вернуть компанию к изначальной некоммерческой модели исследовательской лаборатории.

Сэм Альтман быстро отреагировал в X, предложив взамен купить Twitter за $9.74 млрд (напомню, Маск купил его за $44 млрд).

Веселье судебные разбирательства между бывшими партнёрами продолжаются. Маск требует заблокировать переход OpenAI в коммерческую компанию. Судья пока сомневается в обоснованности требований, но не исключает, что дело дойдёт до суда присяжных уже в следующем году.

Сергей Булаев AI 🤖 - об AI и не только
1383
Anthropic выпустил Economic Index - исследование реального использования ИИ, основанное на миллионах анонимизированных разговоров с Claude.

Самое интересное:
- 36% профессий используют ИИ хотя бы в четверти своих задач, но только 4% - в более чем трёх четвертях
- ИИ чаще дополняет человека (57%), чем заменяет (43%)
- Самое активное использование в программировании и технической документации (всего 3.4% рабочей силы, но генерируют 37.2% запросов к Claude)
- "Обучение" составляет 23.3% всех взаимодействий с ИИ - люди активно используют его для получения новых знаний
- ИИ меньше всего используют как в самых низкооплачиваемых профессиях (рыбаки и фермеры - 0,1%), так и в самых высокооплачиваемых (типа хирургов)
- На втором месте после айтишников - креативщики (10.3%), в основном писатели и редакторы
- В офисных профессиях (самая большая группа - 12.2% всех работников) ИИ используется только в 7.9% случаев


Компания не просто собрала статистику, но и использовала специальную систему Clio, которая анализирует разговоры с Claude, сохраняя приватность пользователей. Система сопоставляет каждый диалог с базой из 20 000 рабочих задач министерства труда США (O*NET).

Особенно круто, что компания открыла доступ к датасету, на основе которого проводилось исследование. Можно поковыряться самому.

Сергей Булаев AI 🤖 - об AI и не только
174
This media is not supported in your browser
VIEW IN TELEGRAM
Zyphra AI зарелизила Zonos - новую библиотеку для генерации речи, доступную по лицензии Apache 2.0.

Главные моменты:
- Клонирование голоса всего по 10-30 секундам аудио
- Поддержка нескольких языков (английский, японский, китайский, французский и немецкий)
- Тонкая настройка характеристик голоса - скорость, эмоции, тон
- Работает в 2 раза быстрее реального времени на RTX 4090
- Всего 1.6B параметров - можно запускать практически где угодно


Можно добавить аудиопрефикс к тексту и получить такие эффекты как шёпот, которые обычно сложно достичь при простом клонировании голоса.

Модель доступна на Hugging Face Hub. Качество и выразительность на высоте, при этом полностью бесплатно и для личного, и для коммерческого использования.

Сергей Булаев AI 🤖 - об AI и не только
255
Duolingo выпустили очень интересный handbook, типа внутреннюю библию (помните внутренние инструкции Mr. Beast?) где довольно подробно рассказали о своих принципах работы. Вот несколько интересных моментов:

"Green Machine" - это их подход к разработке. Команда сравнивает его с процессором: чем выше тактовая частота (clock speed), тем быстрее выполняются инструкции. В Duolingo стараются минимизировать разрывы между действиями - время между принятием решения и его реализацией, между получением фидбека и внесением изменений.

Прикольно, что они не верят в MVP (минимально жизнеспособный продукт). Вместо этого у них V1 - первая версия, которая уже должна быть "отполирована". Да, может без всех фич, но обязательно качественная. Их аргумент - MVP часто становится оправданием для выпуска сырого продукта.

И ещё одна интересная штука - их подход к найму. "Better a hole than an a**hole" - лучше дырка в команде, чем токсичный сотрудник. Они реально отказали senior-у на позицию, которую не могли закрыть год, только потому что тот грубо общался с водителем, который вёз его из аэропорта. Жёстко, но правильно.

А знаете как они относятся к ошибкам? У них есть традиция "99 Bad Ideas" - на офсайтах они специально генерят самые безумные идеи. Например, что если бы Duo появился в рекламе на Супербоуле? (Кстати, в итоге так и случилось - в 2024 показали 5-секундную рекламу, где одна сова вылетает из... другой совы 😅, и реклама имела успех и результаты).

Но посмотрите всю книгу, там много интересного. Файл добавлю в первый комментарий.

Сергей Булаев AI 🤖 - об AI и не только
22110