Действительно, с чем хорошо справляется Minimax - это мультипликация. Три отличных мультика (один совсем не детский - тот что про панду Бао) сделаны очень талантливым человеком.
Перевёл я, с помощью ElevenLabs
Сергей Булаев AI 🤖 - об AI и не только
Перевёл я, с помощью ElevenLabs
Сергей Булаев AI 🤖 - об AI и не только
1 7 6
Media is too big
VIEW IN TELEGRAM
Попробовал сделать простейший транскрайбер речи с помощью Replit, опять потерпел неудачу, дважды (за 20 минут)! Переключился на Cursor и он справился меньше чем за 10!. Заснял хронику событий.
Знаю что у других получается с реплит, не знаю почему мне не везёт... Как думаете?
Сергей Булаев AI 🤖 - об AI и не только
Знаю что у других получается с реплит, не знаю почему мне не везёт... Как думаете?
Сергей Булаев AI 🤖 - об AI и не только
Kyutai Labs выпустили прикольную аудио модель реального времени (пейпер, репозиторий). Если вам надоело ждать ChatGPT advanced voice - попробуйте её, она доступна всем на сайте или даже локально на процессорах Mac:
Moshi состоит из трёх компонентов: языковой модели Helium, нейронного аудиокодека Mimi и уникальной многопотоковой архитектуры. Система способна моделировать полнодуплексные разговоры, имитируя естественное общение, включая перекрытие речи и прерывания. Moshi работает в режиме реального времени даже на относительно скромном оборудовании.
Для обучения была создана база данных из 20 000 часов синтетических разговоров. Эти данные включают различные условия записи и акценты для пользовательских голосов, при этом голос самой Moshi остается постоянным. Это обеспечивает устойчивость системы к шумным средам и сохранение её характера.
В настоящее время выпущены две версии - с мужским и женским голосами.
Андрей Карпаты пишет:
По-русски не говорит и не понимает🎧
UPDATE: Запустил на своём macbook air на m2, тормозит ощутимо🔨
Сергей Булаев AI 🤖 - об AI и не только
$ pip install moshi_mlx
$ python -m moshi_mlx.local_web -q 4Moshi состоит из трёх компонентов: языковой модели Helium, нейронного аудиокодека Mimi и уникальной многопотоковой архитектуры. Система способна моделировать полнодуплексные разговоры, имитируя естественное общение, включая перекрытие речи и прерывания. Moshi работает в режиме реального времени даже на относительно скромном оборудовании.
Для обучения была создана база данных из 20 000 часов синтетических разговоров. Эти данные включают различные условия записи и акценты для пользовательских голосов, при этом голос самой Moshi остается постоянным. Это обеспечивает устойчивость системы к шумным средам и сохранение её характера.
В настоящее время выпущены две версии - с мужским и женским голосами.
Андрей Карпаты пишет:
Это действительно круто, что я могу запустить такой тип голосового взаимодействия даже на своем Macbook, что репозиторий доступен на GitHub вместе с подробной научной статьей, и я, безусловно, с нетерпением жду возможности без усилий разговаривать с нашими компьютерами напрямую, без использования промежуточных текстовых представлений, которые теряют огромное количество информационного содержания.
По-русски не говорит и не понимает
UPDATE: Запустил на своём macbook air на m2, тормозит ощутимо
Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
o1 подумала 92 секунды и переписала на html + javascript игру Stocky Boy (репозиторий). Задание ей дал Альваро Матеос, он вместе с друзьями разработал её для хакатона питоновых игр вместе с друзьями.
Промт:
Сергей Булаев AI 🤖 - об AI и не только
Промт:
[python-code]
Convert this python game to a single html + javascript game. Use all the assets and animations as in the python game. You can skip the menu for simplicity but don't miss any other part of the game. Check the details!
Сергей Булаев AI 🤖 - об AI и не только
Запилил таки утром транскрайбер с Framer Motion, по просьбе подписчика пытался транскрибировать старинные песни в плохом качестве, результат не постоянен, но мне кажется, попыток с 5-8 можно в итоге получить нормальное содержание.
Современные youtube видео транскрибирует отлично. Ну русском тоже работает.
Кстати, кто может, пожалуйста побустите канал, а то подписчики растут, а реакции отваливаются :((
Сергей Булаев AI 🤖 - об AI и не только
Современные youtube видео транскрибирует отлично. Ну русском тоже работает.
Кстати, кто может, пожалуйста побустите канал, а то подписчики растут, а реакции отваливаются :((
Сергей Булаев AI 🤖 - об AI и не только
5 45 11
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Hailuo AI о котором я вчера писал, оказывается проводит занимательный конкурс по генерации видео, где пересекаются границы.
пара промтов из которых получились видео сверху, для примера
попробуйте сами, это бесплатно!
Сергей Булаев AI 🤖 - об AI и не только
пара промтов из которых получились видео сверху, для примера
A cinematic film split screen, one side of the video is [subject/scene], on the other side of the video is [subject/scene], then the [subject] crosses over to the [subject then action]Split screen. Left screen is deep space with nebula. Right screen is underwater view of ocean with a shark swimming to the left. The shark reach's the split screen and with a splash seamlessly swims into deep space, on the left screen.The picture is divided into two parts, on the left is a luxury car running in the desert, on the right is the street scene of Shanghai CBD. The luxury car in the desert on the left crosses the boundary and drives into the street scene on the right at a very fast speed.попробуйте сами, это бесплатно!
Сергей Булаев AI 🤖 - об AI и не только
1 18 5 3
This media is not supported in your browser
VIEW IN TELEGRAM
Добавил в свои корпоративные боты распознавание голосовых сообщений, а так же создание голосовых. Что бы получать голосовые - нужно включить режим речи командой /speech (выключать так же если что).
В ПРОСТОБОТЕ тоже работает, можете попробовать.
Сергей Булаев AI 🤖 - об AI и не только
В ПРОСТОБОТЕ тоже работает, можете попробовать.
Сергей Булаев AI 🤖 - об AI и не только