API синхронного синтеза и распознавания речи

Обновлено 5 марта 2026

Синтез речи

Чтобы синтезировать речь, отправьте POST-запрос с параметрами синтеза и токеном, а также текстом для синтеза в теле запроса. Текст может быть в формате UTF8 или в виде SSML-разметки.

Максимальный размер тела запроса — 4 000 символов, включая пробелы и SSML-разметку.

В случае успешной обработки в ответе вы получите бинарное представление синтезированного звука в запрошенном формате.

Запросы к SaluteSpeech API передаются по адресу: https://smartspeech.sber.ru/rest/v1/text:synthesize.

Распознавание речи

Ответ выдается только после обработки всей аудиозаписи.

Максимальный размер аудио – 2 Мб, максимальная длина – одна минута.

Для многоканального аудио распознается только первый канал.

POST HTTP-запрос отправляется по адресу: https://smartspeech.sber.ru/rest/v1/speech:recognize.

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней

Синтез речи﻿

Распознавание речи﻿

Синтез речи

Распознавание речи