Квест Теория Каст и Ролей
19.9K subscribers
1.22K photos
396 videos
44 files
3.55K links
Канал Алексея Крола, автора Теории Каст и Ролей.
Download Telegram
​​#использовать #ИИ - Еще один полезный кейс. Описываю по шагам.

1. Я сделал 26 минутное объяснение архитектуры медиа, оптимизированного ИИ (пред. пост). Нарисовал картинку и в живой манере пояснил, со всеми этим "эээ", "ммм", "ааа", паразитными словами, паузами и т.п.

2. Решил попробовать добавить титры на английском и полностью заменить русский закадровый голос на английский. Что получилось и что использовал?

3. Сначала я попробовал загрузить оригинальный русский трек в elevenlabs, они обещают крутой даббинг. На выходе должен я был получить аудиофайл с голосом на английском.

Результат меня не устроил, сервис все перевел и озвучил, но 0 интонаций, акцентов - никуда не годиться. Я решил попробовать их основной режим - текст в голос.

4. Для транскрибации аудиотрека я использовал CapCut - он приемлемо делает, на выходе я получил текстовый файл без знаков препинания со всем мусором.

5. Я взял фрагмент расшифровки, небольшой около 100 букв, отредактировал его руками, убрал все, перевел на английский нормально в chatGPT, и уже загнал в elevenlabs отредактированный перевод на английском. В этом случае результат elevenlabs был отличный.

Я понял, что мне надо как-то сырой массив текста от CupCut перевести в отредактированный текст со знаками препинания и убрать мусор. Так как, одно дело отредактировать руками для теста 100 символов, другое дело 26000 символов.

6. chatGPT с задачей не справился, т.е. на небольших фрагментах все хорошо, но при достижении пределов контекстного окна все плохо.

7. Задачу решил claude от Anthropic, но с 10-й попытки, после танцев с бубнами. По сути вся разница между Anthropic и chatGPT, что у антропика число итерация в 10 раз меньше, но качество сопоставимо.

8. Перевод на английский с помощью моей джипитшки (chatGPT). На выходе полный английский текст, все выполнил ИИ, я ничего не редактировал (хотя надо бы), но я хотел посмотреть возможности.

9. Получение аудиотрека в elevenlabs. 26500 знаков, это примерно 1/4 месячной квоты на тарифе Creator.

10. Загрузка в CupCut и монтаж, синхронизация темпоритма. Это не липсинг - лица там не было. Потребовало почти 1 час, и вот это конкретно рутинная работа.

С учетом тестов и плясок 1-й раз процесс занял почти 3 часа, не считая создания самого видео. , однако, можно допустить, когда процесс станет стабильным, то он сократится раза в 3. Т.е. грубо можно оценить, что нормальный даббинг с русского на английский работает в соотношении:

1 минута на русском требует от 1,5 до 2 минут возни на английском при длине исходника от 5 минут. Если меньше, то чуть больше.
👍2213