ym88659208ym87991671
Распознавание речи | Документация для разработчиков

Распознавание речи

Обновлено 19 октября 2022

Вы можете внедрить распознавание речи в свои приложения с помощью API сервиса SaluteSpeech.

note

При использовании SaluteSpeech максимальная нагрузка на сервис составляет не более 10 параллельных потоков.

Виды распознавания

Ответ выдается только после обработки всей аудиозаписи. Максимальный размер аудио – 2 Мб, максимальная длина – одна минута. Для многоканального аудио распознается только первый канал.

Используется, если требуется распознавание речи в процессе ее записи: протоколы телефонии, запись аудио на мобильных устройствах и прочее. Возможно отображение промежуточных результатов и автоматическое определение конца фразы. Максимальный размер аудио – 1 Гб. Для многоканального аудио распознается только первый канал.

Подходит для распознавания многоканальных аудиозаписей. При работе стоит учитывать, что процесс асинхронного распознавания может быть дольше синхронного, поэтому этот тип подходит для случаев, когда длительность распознавания не важна. Максимальный размер аудио – 1 Гб.

Open Source Dataset Golos

Golos — это датасет для распознавания речи на русском языке. Он состоит из аудиозаписей речи и транскрипций, полученных с помощью ручной разметки на краудсорсинговой платформе. Общая длительность записей составляет примерно 1240 часов. Все данные и обученные на них акустические модели распознавания речи бесплатны и открыты для скачивания. Также доступны триграммные модели KenLM, подготовленные при помощи русских текстов из открытого корпуса Common Crawl.

Датасет доступен по ссылке.

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней