Создать задачу на распознавание
/speech:async_recognize
Возвращает идентификатор созданной задачи на распознавание. В запросе нужно передать идентификатор загруженного файла, а также параметры распознавания.
Подробнее — в разделе Асинхронное распознавание речи.
Запрос
Header Parameters
Возможные значения: Value must match regular expression (([0-9a-fA-F-])36)
Уникальный ID запроса, который используется для поиска запроса в логах. Если ID не задан явно, то сервер сгенерирует его автоматически.
- application/json
Body
ru-RU
— русский;en-US
— английский;kk-KZ
— казахский. Доступно по отдельной заявке, напишите на почту SaluteSpeech@sberbank.ru.csi
;call_features
;csi, call_features
.
options objectrequired
Возможные значения: [general
, media
, ivr
, callcenter
]
Название модели для распознавания речи
Возможные значения: [PCM_S16LE
, OPUS
, MP3
, FLAC
, ALAW
, MULAW
]
Аудио-кодек
Частота дискретизации. Зависит от значения audio_encoding
NormalizationOptions.enable
Подробнее о частоте дискретизации — в разделе Доступные форматы аудио.
Возможные значения: [ru-RU
, en-US
, kk-KZ
]
По умолчанию: ru-RU
Язык для распознавания речи.
Доступные языки:
По умолчанию: false
Фильтр обсценной лексики.
Возможные значения: >= 0
и <= 10
По умолчанию: 1
Количество сообщаемых альтернативных гипотез распознанной речи.
Возможные значения: >= 2
и <= 20
По умолчанию: 7
Интервал ожидания речи пользователя.
Возможные значения: >= 0.5
и <= 20
По умолчанию: 20
Определение максимальной длины высказывания до форсированного EOU. По умолчанию стоит 20 секунд.
hints object
Подсказки
Список слов или фраз, распознавание которых мы хотим усилить. Здесь можно перечислить слова, которые с высокой вероятностью будет произносить пользователь
По умолчанию: false
Модель коротких фраз, улучшающая распознавание отдельных букв и коротких слов.
Возможные значения: >= 0.5
и <= 5
По умолчанию: 1
Настройка распознавания конца фразы (End of Utterance - eou). Такое распознавание будет ожидаться после конца фразы столько секунд, сколько установлено в этом параметре. По умолчанию распознавание конца фразы срабатывает после 1 секунды
Возможные значения: >= 1
и <= 10
По умолчанию: 1
Количество каналов в многоканальном аудио. Подробнее об ограничениях — в разделе Доступные форматы аудио.
speaker_separation_options object
Параметры разделения спикеров для фрагментов одновременной речи.
По умолчанию: false
Включение функции разделения спикеров.
По умолчанию: false
Возвращение только главного спикера. Главный находится по max(main_speaker_confidence)
.
Возможные значения: >= 1
и <= 10
Максимальное число спикеров.
Оценка удовлетворенности клиента по аудио с использованием моделей Insights.
Работает только для двухканальных аудио.
Возможные значения:
Подробнее — в разделе Insights модели.
Возможные значения: Value must match regular expression (([0-9a-fA-F-])36)
Идентификатор загруженного файла.
Возвращает идентификатор созданной задачи на распознавание.
- application/json
- Схема
- Пример из схемы
Schema
HTTP-код ответа.
result objectrequired
Результат создания задачи
Идентификатор задачи
Дата создания задачи
Дата обновления статуса задачи
Возможные значения: [NEW
, RUNNING
, CANCELED
, DONE
, ERROR
]
Статус задачи
{
"status": 200,
"result": {
"id": "5f5c6e6eed15b23b357852d52d3c979f",
"created_at": "2017-10-10T10:00:00.000+03:00",
"updated_at": "2021-01-01T00:00:00.000+03:00",
"status": "NEW"
}
}
Bad request format
Unauthorized
Payload too large
Internal Server Error