ym88659208ym87991671
Способы улучшения распознавания речи с помощью сервиса SaluteSpeech | Документация для разработчиков

Как улучшить распознавание речи

Обновлено 17 ноября 2023

Акустические модели

В зависимости от частоты дискретизации звука загруженного аудио при распознавании будет использоваться одна из акустических моделей:

  • general – общая модель, для звука больше 8 кГц.
  • callcenter – модель, предназначенная для телефонии. Частота – 8 кГц.

Чтобы самостоятельно выбрать модель, укажите ее в параметре model при отправке аудио на распознавание.

Разделение спикеров

Если на аудиозаписи, которую нужно распознать, есть фрагменты одновременной речи двух человек, то вы можете включить функцию разделение спикеров. Тогда для этих фрагментов вы получите отдельные результаты распознавания по каждому из спикеров.

Доступно только для модели general.

Функция не предназначена для разделения спикеров на всей аудиозаписи и работает только для фрагментов, где одновременно говорит два человека.

В ответ возвращается три финальных результата распознавания. Финальными считаются те результаты, в которых присутствует блок speaker_info.

  • Результат всей записи с обоими спикерами. Ему присваивается "speaker_id": -1.
  • Результат канала одного спикера — "speaker_id": 1
  • Результат канала другого спикера — "speaker_id": 2.

Результат, пришедший последним, имеет признак "is_final": true.

Описание параметров и примеры смотрите в разделах Потоковое распознавание (gRPC) и Асинхронное распознавание (HTTP и gRPC).

Хинты

Распознавание речи можно сильно улучшить использованием хинтов.

Хинты — это одноразовые подсказки для сервиса распознавания речи, помогающие правильно понять речь пользователя в определенный момент времени. Например, когда приложение ожидает от пользователя конкретный ответ, этот ответ заранее придет в сервис в виде хинтов.

Подсказка работает только для следующего ответа пользователя. После использования хинтов процесс распознавания речи пользователя возвращается к ее обработке без подсказок.

Подробнее об использовании хинтов вы можете прочитать в статье Хинты.

Добавить хинты вы можете при потоковом и асинхронном распознавании.

Если что-то пошло не так

  • Выбирайте акустическую модель, которая подходит для вашего аудио. Например, для распознавания телефонных разговоров используйте callcenter, а general лучше всего распознает запросы к виртуальному ассистенту.
  • Убедитесь, что в запросе верно указана кодировка аудиофайла.
  • Если при асинхронном распознавании пришел пустой ответ, проверьте, что вы корректно загрузили файл для распознавания. Если вы загружаете файл с компьютера, добавьте в запрос @:
@./audio.pcm
  • Если вы получили ошибку 8 ResourceExhausted при распознавании через gRPC или 429 Too Many Requests при распознавании через HTTP, значит вы превысили лимит запросов. Напишите нам на SaluteSpeech@sberbank.ru для увеличения лимита.
  • Если вы получили много ошибок в результатах распознавания, пожалуйста, напишите нам на SaluteSpeech@sberbank.ru. Приложите к письму аудиофайл, результаты распознавания, текст запроса и request-id. Также укажите в письме тип ошибок:
    • Удаления — многие слова не распознаны.
    • Замены — многие слова распознаны неверно.
    • Вставки — в результатах распознавания много лишних слов, которых не было в аудио.
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.