ym88659208ym87991671
Улучшение распознавания | Документация для разработчиков

Улучшение распознавания

Обновлено 24 марта 2023

Акустические модели

Чтобы повысить точность распознавания, укажите акустическую модель, которую должен использовать сервис. Модель должна соответствовать частоте дискретизации.

Поддерживаемые модели:

  • general – общая модель, для звука 16 кГц и больше. Рекомендуем начать с нее.
  • callcenter – модель, предназначенная для телефонии. Частота – меньше 16 кГц.
  • en_us_general — модель для распознавания английской речи.

Разделение спикеров

Если на аудиозаписи, которую нужно распознать, есть фрагменты одновременной речи двух человек, то вы можете включить функцию разделение спикеров. Тогда для этих фрагментов вы получите отдельные результаты распознавания по каждому из спикеров.

Доступно только для модели general.

Функция не предназначена для разделения спикеров на всей аудиозаписи и работает только для фрагментов, где одновременно говорит два человека.

В ответ возвращается три финальных результата распознавания. Финальными считаются те результаты, в которых присутствует блок speaker_info.

  • Результат всей записи с обоими спикерами. Ему присваивается "speaker_id": -1.
  • Результат канала одного спикера — "speaker_id": 1
  • Результат канала другого спикера — "speaker_id": 2.

Результат, пришедший последним, имеет признак "is_final": true.

Описание параметров и примеры смотрите в разделах Потоковое распознавание (gRPC) и Асинхронное распознавание (HTTP и gRPC).

Хинты

Распознавание речи можно сильно улучшить использованием хинтов.

Хинты — это одноразовые подсказки для сервиса распознавания речи, помогающие правильно понять речь пользователя в определенный момент времени. Например, когда приложение ожидает от пользователя конкретный ответ, этот ответ заранее придет в сервис в виде хинтов.

Подсказка работает только для следующего ответа пользователя. После использования хинтов процесс распознавания речи пользователя возвращается к ее обработке без подсказок.

Подробнее об использовании хинтов вы можете прочитать в статье Хинты.

Добавить хинты вы можете при потоковом и асинхронном распознавании.

Если что-то пошло не так

  • Выбирайте акустическую модель, которая подходит для вашего аудио. Например, для распознавания телефонных разговоров используйте callcenter, а general лучше всего распознает запросы к виртуальному ассистенту.
  • Убедитесь, что в запросе верно указана кодировка аудиофайла.
  • Если при асинхронном распознавании пришел пустой ответ, проверьте, что вы корректно загрузили файл для распознавания. Если вы загружаете файл с компьютера, добавьте в запрос @:
@./audio.pcm
  • Если вы получили ошибку 8 ResourceExhausted при распознавании через gRPC или 429 Too Many Requests при распознавании через HTTP, значит вы превысили лимит запросов. Напишите нам на SaluteSpeech@sberbank.ru для увеличения лимита.
  • Если вы получили много ошибок в результатах распознавания, пожалуйста, напишите нам на SaluteSpeech@sberbank.ru. Приложите к письму аудиофайл, результаты распознавания, текст запроса и request-id. Также укажите в письме тип ошибок:
    • Удаления — многие слова не распознаны.
    • Замены — многие слова распознаны неверно.
    • Вставки — в результатах распознавания много лишних слов, которых не было в аудио.

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней

Подключить сервис