ym88659208ym87991671
Доступные для работы с сервисом SaluteSpeech форматы аудио | Документация для разработчиков

Допустимые форматы и лимиты

Обновлено 8 сентября 2025

На этой странице собраны поддерживаемые форматы аудио и лимиты для распознавания и синтеза речи в SaluteSpeech.

Допустимые форматы аудио

Для распознавания доступны аудиофайлы со следующими кодировками:

  • PCM_S16LE
    • PCM signed 16bit little-endian, с заголовком WAV или без.
    • Частота дискретизации – от 8 до 96 кГц. Если без заголовка, то параметр sample_rate – обязательный.
    • Максимальное количество каналов – 8.
    • Значение Content-Type – audio/x-pcm;bit=16;rate=XXX.
  • OPUS
    • Opus в контейнере ogg.
    • Параметр sample_rate – необязательный.
    • Поддерживается только одноканальный звук.
    • Значение Content-Type – audio/ogg;codecs=opus.
  • MP3
    • MP3.
    • Параметр sample_rate – необязательный.
    • Максимальное количество каналов – 2.
    • Значение Content-Type – audio/mpeg.
  • FLAC
    • FLAC
    • Параметр sample_rate – необязательный.
    • Максимальное количество каналов – 8.
    • Значение Content-Type – audio/flac.
  • ALAW
    • G.711 A-law, с заголовком WAV или без.
    • Частота дискретизации – 8 кГц. Если без заголовка, то параметр sample_rate – обязательный.
    • Максимальное количество каналов – 1.
    • Значение Content-Type – audio/pcma;rate=XXX.
  • MULAW
    • G.711 μ-law, с заголовком WAV или без.
    • Частота дискретизации – 8 кГц. Если без заголовка, то параметр sample_rate – обязательный.
    • Максимальное количество каналов – 1.
    • Значение Content-Type – audio/pcmu;rate=XXX.
  • G-729
    • Узкополосный речевой кодек. Допустимые форматы: G.729, G.729a, G.729b, G.729c
    • Частота дискретизации – 8 кГц.
    • Максимальное количество каналов – 1.
    • Значение Content-Type – audio/g729.

Лимиты

Режим распознавания речи (ASR)

РежимПротоколХарактеристикиМакс. размер аудиоМакс. количество каналов
СинхронноеHTTPПрименяется при невозможности
использования протокола gRPC. Подходит для распознавания коротких аудиозаписей в одноканальном аудио
2 Мб1 канал
АсинхронноеHTTP/gRPCПодходит для распознавания длительных аудиозаписей.
Применяется, если не важна скорость распознавания, аудио является многоканальным и файлы для распознавания уже записаны
1 ГбМногоканальная обработка
ПотоковоеgRPC (v2)Используется, если требуется распознавать речь
в процессе ее записи.
Например, протоколы телефонии или запись аудио на мобильном устройстве.
Возможно отображение промежуточных результатов
и автоматическое определение конца фразы
1 Гб2 канала в реальном времени

Режим синтеза речи (TTS)

РежимПротоколХарактеристикиОграничения
СинхронноеHTTPПрименяется при невозможности
использования протокола gRPC
До 4000 символов
АсинхронноеHTTP/gRPCПодходит для синтеза длинных текстовНе поддерживается
SSML-разметка
ПотоковоеgRPC (v2)Возможно отображение промежуточных результатовДо 1 Гб

Многоканальное распознавание

При многоканальном распознавании следует учитывать максимально допустимое число каналов для распознавания в зависимости от аудиоформата.

Формат аудиоРаспознавание аудио:
синхронное/асинхронное
Максимальное
число каналов
PCM_S16LEПервый канал/Все8
Opus1/11
MP3Первый канал/Все2
FLACПервый канал/Все8
G711 (ALAW или MULAW)1/11
G-7291/11

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей. Вы можете запретить сохранение cookie в настройках своего браузера.