Сергей Булаев AI 🤖
10.8K subscribers
696 photos
626 videos
2 files
698 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Действительно, с чем хорошо справляется Minimax - это мультипликация. Три отличных мультика (один совсем не детский - тот что про панду Бао) сделаны очень талантливым человеком.

Перевёл я, с помощью ElevenLabs

Сергей Булаев AI 🤖 - об AI и не только
176
Media is too big
VIEW IN TELEGRAM
Попробовал сделать простейший транскрайбер речи с помощью Replit, опять потерпел неудачу, дважды (за 20 минут)! Переключился на Cursor и он справился меньше чем за 10!. Заснял хронику событий.

Знаю что у других получается с реплит, не знаю почему мне не везёт... Как думаете?

Сергей Булаев AI 🤖 - об AI и не только
1463
Kyutai Labs выпустили прикольную аудио модель реального времени (пейпер, репозиторий). Если вам надоело ждать ChatGPT advanced voice - попробуйте её, она доступна всем на сайте или даже локально на процессорах Mac:

$ pip install moshi_mlx
$ python -m moshi_mlx.local_web -q 4


Moshi состоит из трёх компонентов: языковой модели Helium, нейронного аудиокодека Mimi и уникальной многопотоковой архитектуры. Система способна моделировать полнодуплексные разговоры, имитируя естественное общение, включая перекрытие речи и прерывания. Moshi работает в режиме реального времени даже на относительно скромном оборудовании.

Для обучения была создана база данных из 20 000 часов синтетических разговоров. Эти данные включают различные условия записи и акценты для пользовательских голосов, при этом голос самой Moshi остается постоянным. Это обеспечивает устойчивость системы к шумным средам и сохранение её характера.

В настоящее время выпущены две версии - с мужским и женским голосами.

Андрей Карпаты пишет:
Это действительно круто, что я могу запустить такой тип голосового взаимодействия даже на своем Macbook, что репозиторий доступен на GitHub вместе с подробной научной статьей, и я, безусловно, с нетерпением жду возможности без усилий разговаривать с нашими компьютерами напрямую, без использования промежуточных текстовых представлений, которые теряют огромное количество информационного содержания.


По-русски не говорит и не понимает 🎧

UPDATE: Запустил на своём macbook air на m2, тормозит ощутимо 🔨

Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1162👎1
o1 подумала 92 секунды и переписала на html + javascript игру Stocky Boy (репозиторий). Задание ей дал Альваро Матеос, он вместе с друзьями разработал её для хакатона питоновых игр вместе с друзьями.

Промт:

[python-code]
Convert this python game to a single html + javascript game. Use all the assets and animations as in the python game. You can skip the menu for simplicity but don't miss any other part of the game. Check the details!


Сергей Булаев AI 🤖 - об AI и не только
137
Запилил таки утром транскрайбер с Framer Motion, по просьбе подписчика пытался транскрибировать старинные песни в плохом качестве, результат не постоянен, но мне кажется, попыток с 5-8 можно в итоге получить нормальное содержание.

Современные youtube видео транскрибирует отлично. Ну русском тоже работает.

Кстати, кто может, пожалуйста побустите канал, а то подписчики растут, а реакции отваливаются :((

Сергей Булаев AI 🤖 - об AI и не только
54511
Hailuo AI о котором я вчера писал, оказывается проводит занимательный конкурс по генерации видео, где пересекаются границы.

пара промтов из которых получились видео сверху, для примера

A cinematic film split screen, one side of the video is [subject/scene], on the other side of the video is [subject/scene], then the [subject] crosses over to the [subject then action]

Split screen. Left screen is deep space with nebula. Right screen is underwater view of ocean with a shark swimming to the left. The shark reach's the split screen and with a splash seamlessly swims into deep space, on the left screen.

The picture is divided into two parts, on the left is a luxury car running in the desert, on the right is the street scene of Shanghai CBD. The luxury car in the desert on the left crosses the boundary and drives into the street scene on the right at a very fast speed.

попробуйте сами, это бесплатно!

Сергей Булаев AI 🤖 - об AI и не только
11853
This media is not supported in your browser
VIEW IN TELEGRAM
Добавил в свои корпоративные боты распознавание голосовых сообщений, а так же создание голосовых. Что бы получать голосовые - нужно включить режим речи командой /speech (выключать так же если что).

В ПРОСТОБОТЕ тоже работает, можете попробовать.

Сергей Булаев AI 🤖 - об AI и не только
1651