Сергей Булаев AI 🤖
10.8K subscribers
696 photos
626 videos
2 files
698 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Hailuo AI о котором я вчера писал, оказывается проводит занимательный конкурс по генерации видео, где пересекаются границы.

пара промтов из которых получились видео сверху, для примера

A cinematic film split screen, one side of the video is [subject/scene], on the other side of the video is [subject/scene], then the [subject] crosses over to the [subject then action]

Split screen. Left screen is deep space with nebula. Right screen is underwater view of ocean with a shark swimming to the left. The shark reach's the split screen and with a splash seamlessly swims into deep space, on the left screen.

The picture is divided into two parts, on the left is a luxury car running in the desert, on the right is the street scene of Shanghai CBD. The luxury car in the desert on the left crosses the boundary and drives into the street scene on the right at a very fast speed.

попробуйте сами, это бесплатно!

Сергей Булаев AI 🤖 - об AI и не только
11853
This media is not supported in your browser
VIEW IN TELEGRAM
Добавил в свои корпоративные боты распознавание голосовых сообщений, а так же создание голосовых. Что бы получать голосовые - нужно включить режим речи командой /speech (выключать так же если что).

В ПРОСТОБОТЕ тоже работает, можете попробовать.

Сергей Булаев AI 🤖 - об AI и не только
1651
Media is too big
VIEW IN TELEGRAM
В нашей регулярной рубрике #КриповаяСуббота новый выпуск AI or Die, дублированный ElevenLabs. (тут первая серия) Очень смешно, глупо и страшно, почти на уровне моих О***нных историй.

Сергей Булаев AI 🤖 - об AI и не только
5432
This media is not supported in your browser
VIEW IN TELEGRAM
Добавил в ПРОСТОБОТ (и коммерчиские боты) gpt-4o-mini, написал, наконец подробную инструкцию по его использованию.

В Yakker ускорил скорость распечатки отформатированного сообщения и добавил кнопку копирования распознанного текста в клипборд. Немного подредактировал промты и вроде циклиться стал пореже.

А как у вас утро субботы прошло?

Сергей Булаев AI 🤖 - об AI и не только
1532
Runway наконец-то добавил генерацию вертикальных видео (только в Gen 3 Alpha Turbo). Я этого очень ждал, буду теперь себе сторисы для инсты генерить.

Говорят модель склонна держать основной объект в левой части копозиции, даже если на начальном изображении он посередине.

Сергей Булаев AI 🤖 - об AI и не только
11212
This media is not supported in your browser
VIEW IN TELEGRAM
После двух недель работы со spellings.app были зафиксированы первые серьёзные проблемы. Стало очевидно, что обучение написанию слов происходит слишком прямолинейно — на клавиатуре сын набирает медленно, что его напрягает. Он начинает нервничать и пытается ввести слово голосом через голосовой ввод :)

Мы решили добавить ещё два вида заданий: сопоставление произношения слов с их написанием, а также ускоренный ввод букв из ограниченного числа предложенных (это быстрее, проще и интереснее, чем набор с клавиатуры).

Также для развлечения добавили печать карточек — теперь сын носит в школу распечатанные картинки из Minecraft со своими словами. А ещё обязательный салют на Framer Motion по окончании практической сессии (моя особая гордость, с музыкальным сопровождением, сгенерированным Eleven Labs).

Понятно, что заданий стало слишком много, поэтому нужно будет разделить их на этапы, чтобы каждый день не делать всё сразу — скоро этим займёмся. Временные затраты на это обновление составили около 6 часов.

К сожалению, я не смог записать звук с айфона :( Не понимаю, как это работает.

P.S. Для тех, кто не знает, приложение полностью пишется через Cursor Composer для моего сына, которому каждую неделю в школе дают 10 новых слов на выучить.

Сергей Булаев AI 🤖 - об AI и не только
2652
Media is too big
VIEW IN TELEGRAM
Доброе утро! Сэм Альтман написал новую статью о будущем "Эпоха интеллекта". Записали вам с o1 короткий подкаст на 5 минут с её обсуждением.

Как думаете, есть польза? Не читать статью, а за 5 минут прослушать её суть в диалоге?

Использовал PDF 2 Audio, чуть-чуть поиграв с промптами. Промты там крутые, посмотрите, их можно редактировать. Теперь очень интересно сделать такое самому, но через Eleven Labs, качество должно быть гораздо круче. Будет время - попробую.

Также я знаю, что Googlebook Notebook LM тоже умеет делать подкасты из документов, но я сам пока не пробовал.

#ИскуственныйПодкаст

Сергей Булаев AI 🤖 - об AI и не только
2394
Ходят упорные слухи, что сегодня наконец-то зарелизят расширенный голосовой режим ChatGPT. Мне в это не очень верится, но очень хочется. Последнее время пользуюсь голосовым всё чаще и чаще, и это реально бывает удобно (представляю, насколько будет удобнее с расширенным).

По этому случаю предлагаю посмотреть два мозговзрывающих 🚨 кусочка демонстрации общения с ChatGPT через видеокамеру с трека мультимодальности конференции для AI-разработчиков, 2 месяца назад. Полное видео выступления Романа.

Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1953
This media is not supported in your browser
VIEW IN TELEGRAM
Очередное сравние видео генераторов:

Kling AI 1.5
PixVerse
Hailuo
Gen-3

Промт:
Крупный план женщины с вьющимися волосами, ее губы слегка приоткрыты, как будто она собирается говорить. У нее серьезное выражение лица, когда она обдумывает сложное решение, но постепенно она успокаивается и расслабляется. Деревья на заднем плане постепенно переходят от мягкого фокуса к резкому по мере ее движения. Кинематографическая цветокоррекция, с темными цианами, холодным блюзом в стиле триллера-блокбастера


По словам автора в Luma достойного результата получить не удалость.

Какой вариант лучший?

Сергей Булаев AI 🤖 - об AI и не только
2873
Так ну что? Каждый раз, когда я получаю новый айфон я настраиваю его с нуля. Понятно что контакты, заметки и фотки в любом случае в облаке.

Просто пользуюсь возможностью снести все те сотни приложений, которыми я не пользовался и установить только те что нужны.

Базовый не стандартный набор у меня - ChatGPT, Claude, Kindle, Readwise, InShot, Google Authenticator, X, Trust Wallet, Proton Mail, Substack, Strava.

Что интересного посоветуете поставить?

(пост пишу ещё со старого)

Сергей Булаев AI 🤖 - об AI и не только
14113
Да! Фотографии на 16-м получаются просто взрыв мозга! И кнопка очень удобна, но с регулировкой зума у меня пока не очень, но надо научиться.

А ещё, я очень рад, что наконец могу снимать spatial video, которые так сильно меня впечатлили в Apple Vision Pro (и которые мы пока можем смотреть на нашем Meta Quest 3)

Сергей Булаев AI 🤖 - об AI и не только
1374
This media is not supported in your browser
VIEW IN TELEGRAM
Так ну что! Я всё утро утро учился общаться с расширенным голосовым режимом ChatGPT. Это выглядело примерно вот так...

Пользование им ограничено, я думаю вышло примерно около 1 часа (может поменьше). За 15 минут до окончания выдал предупреждение.

Сейчас напишу свои мысли (и не только не мои)

Сергей Булаев AI 🤖 - об AI и не только
17931
This media is not supported in your browser
VIEW IN TELEGRAM
Мои мысли после первого дня использования продвинутого голосового режима ChatGPT.

Плюсы:

- Разговоры проходят плавно и естественно, почти как с реальным человеком. Небольшие сбои случаются: иногда долго включается или прерывается.

- Память о предыдущих беседах. Круто, что есть память, и она используется — это делает общение более связным и интересным с самого начала.

- Удобство фонового использования. Очень полезно иметь возможность просто говорить вслух, пока ассистент работает на заднем плане, даже с заблокированным экраном.

- Альтернатива набору текста. Разговор с языковой моделью — действительно достойная альтернатива набору текста. Это провоцирует более живой диалог.

- Умный и терпеливый слушатель. Хотя не всегда терпеливый 😁. Говорить вслух становится продуктивнее, когда у тебя есть внимательный и понимающий собеседник.

- Будущее общения. Возможно, в ближайшие три года мы будем больше общаться с голосовыми агентами, чем с реальными людьми.

- Дизрапция изучения языков. Ведение диалога значительно улучшает обучение языкам. Это точно будет востребовано.


Минусы:

Его сильно урезали!

Раньше он мог искать информацию онлайн, но сейчас эта функция отсутствует.

Нельзя использовать пользовательские GPT, что ограничивает персонализацию и адаптацию под индивидуальные потребности.

Отсутствует возможность создания изображений. Раньше можно было генерировать изображения, теперь эта возможность исчезла.

Нельзя показывать изображения. Это снижает интерактивность и ограничивает сценарии использования.

Ограниченное распознавание эмоций. Ассистент может различать эмоции, но в основном опирается на слова, а не на интонацию или тон голоса.

Лимиты по времени использования. В настоящее время есть ограничение около 1 часа в день, которое сбрасывается каждые 24 часа. Это мало! Надеюсь, не надолго!

Технические сбои. При высокой нагрузке возникают задержки и обрывы звука, что напоминает потерю связи в телефонном разговоре. Это раздражает (хоть и нечасто).

Строгие правила модерации. Если ассистент считает, что нарушает правила, он резко прерывает разговор и извиняется, что может сбивать с толку. Сталкивался с этим несколько раз на пустом месте.


На видео парень общается с ChatGPT во время разработки. Я примерно так же взаимодействовал, обсуждая функционал различных проектов.

Мы с нуля придумали проект и долго его обсуждали. Затем я перешёл в текстовый режим и попросил создать .md файлы с документацией (в голосовом он это не может!).

Мне понравилось — было классно обсудить проект короткими предложениями и постепенно обрисовать его в диалоге, по сравнению с текстом.

Жду когда это всё будет в курсоре!

Сергей Булаев AI 🤖 - об AI и не только
31761
Я не знаю была ли она раньше, но сегодня обнаружил факу по Advanced Voice Mode.

Вот 10 советов на основе неё:

1. Предотвращение прерываний: Используйте наушники и включите режим "Voice Isolation" на iPhone для улучшения качества звука и уменьшения фонового шума.

2. Управление ежедневными лимитами: Следите за временем использования продвинутого голосового режима и обращайте внимание на уведомления о приближении к лимиту.

3. Фоновый режим: Продолжайте голосовую беседу в фоновом режиме или при заблокированном экране, включив опцию "Фоновые беседы" в настройках.

4. Выбор голоса: Настройте голосовой ответ, выбрав один из девяти доступных голосов с уникальным тоном и характером.

5. Приватность данных: Управляйте своими данными в разделе "Контроль данных". Аудиозаписи хранятся вместе с транскрипциями и удаляются при удалении чата.

6. Обучение моделей: Ваши аудиозаписи не будут использоваться для обучения моделей без вашего согласия. Вы можете включить или отключить эту опцию в настройках.

7. Ограничения контента: Генерация музыкального контента, включая пение, недоступна. Если ChatGPT отказывается обсуждать тему, это связано с мерами безопасности.

8. История чатов: После голосовой беседы транскрипция сохраняется в вашей истории чатов, где вы можете ее просмотреть.

9. Один чат одновременно: Учтите, что вы можете вести только одну голосовую беседу одновременно.

10. Продвинутый голосовой режим доступен только для пользователей ChatGPT Plus и Team и недоступен в некоторых регионах (в Европе)

На видео рассказы про юзкейсы, голоса и кастомные инструкции для ChatGPT.

Сергей Булаев AI 🤖 - об AI и не только
1144