API потокового распознавания речи (gRPC)
Этот протокол больше не поддерживается. Рекомендуем использовать API потокового распознавания двух каналов (gRPC v2).
Используется, если требуется распознавать речь в процессе ее записи, например, п ротоколы телефонии или запись аудио на мобильном устройстве.
Возможно отображение промежуточных результатов и автоматическое определение конца фразы.
Максимальный размер аудио – 1 Гб. Для многоканального аудио распознается только первый канал.
Запросы на распознавание передаются на адрес:
smartspeech.sber.ru
Заголовки запросов и ответов для всех шагов одинаковы:
Заголовки запроса
Информация об аутентификации с помощью Access Token, переданная через OAuth 2.0 .
Пример: Bearer eyJhbGciOi.cCI6IkpXVCJ9.eyJzd.1hcnRzcG.KUkw
Заголовки ответа
Уникальный идентификатор запроса, генерируемый сервером. 36 символов.
Пример: 22345200-abe8-4f60-90c8-0d43c5f6c0f6
Создание приложения
Для работы с сервисом распознавания речи SaluteSpeech вам необходимо создать клиентское приложение. Вы можете использовать любой язык программирования, который есть в библиотеке для работы с gRPC.
При написании приложения используйте proto-файл.
Подробную инструкцию по написанию клиентских приложений для gRPC с примерами вы найдете в официальной документации gRPC (английский язык).
Передача параметров распознавания
При обращении по gRPC-протоколу с запросом распознавания речи клиентское приложение использует метод Recognize
. В первом сообщении клиент должен отправить опции распознавания в сообщении типа RecognitionOptions
. Параметры этого сообщения:
ru-RU
— русский. Значение по умолчанию.en-US
— английский.kk-KZ
— казахский. Доступно по отдельной заявке, напишите на почту SaluteSpeech@sberbank.ru
Аудиокодек.
Возможные значения смотрите в разделе Доступные форматы аудио
Частота дискретизации.
Зависит от значения audio_encoding
, подробнее читайте в разделе Доступные форматы аудио
Язык для распознавания речи.
Возможные значения:
Фильтр обсценной лексики.
Возможные значения: true
и false
. Значение по умолчанию — false
Распознавание либо одного, либо нескольких предложений.
Возможные значения: true
и false
. Значение по умолчанию — false