GigaAM (Giga Acoustic Model) - семейство акустических моделей для обработки звучащей речи на русском языке. Среди решаемых задач - задачи распознавания речи, распознавания эмоций и извлечения эмбеддингов из аудио. Модели построены на основе архитектуры
Conformer с использованием методов self-supervised learning (wav2vec2-подход для GigaAM-v1 и HuBERT-подход для GigaAM-v2).Модели
GigaAM с отрывом являются лучшими по качеству моделями в открытом доступе для соответствующих задач.Репозиторий включает:
-
GigaAM: фундаментальная акустическая модель, обученная на большом объеме неразмеченных русскоязычных аудиозаписей.-
GigaAM-CTC и GigaAM-RNNT: модели, дообученные на задачу автоматического распознавания речи.-
GigaAM-Emo: модель, дообученная на задачу распознавания эмоций.https://gitverse.ru/GigaTeam/GigaAM
опубликовано в @gitgate
#russian #speech2text #stt
gitverse.ru
GigaTeam/GigaAM: Foundational Model for Speech Recognition Tasks | Gitverse
GigaTeam/GigaAM: Foundational Model for Speech Recognition Tasks. Up-to-date files and descriptions. Branches and discussions on the developer platform GitVerse.
👍12🔥6