Допустимые форматы и лимиты
Обновлено 8 сентября 2025
На этой странице собраны поддерживаемые форматы аудио и лимиты для распознавания и синтеза речи в SaluteSpeech.
Допустимые форматы аудио
Для распознавания доступны аудиофайлы со следующими кодировками:
- PCM_S16LE
- PCM signed 16bit little-endian, с заголовком WAV или без.
- Частота дискретизации – от 8 до 96 кГц. Если без заголовка, то параметр
sample_rate
– обязательный. - Максимальное количество каналов – 8.
- Значение Content-Type –
audio/x-pcm;bit=16;rate=XXX
.
- OPUS
- Opus в контейнере ogg.
- Параметр
sample_rate
– необязательный. - Поддерживается только одноканальный звук.
- Значение Content-Type –
audio/ogg;codecs=opus
.
- MP3
- MP3.
- Параметр
sample_rate
– необязательный. - Максимальное количество каналов – 2.
- Значение Content-Type –
audio/mpeg
.
- FLAC
- FLAC
- Параметр
sample_rate
– необязательный. - Максимальное количество каналов – 8.
- Значение Content-Type –
audio/flac
.
- ALAW
- G.711 A-law, с заголовком WAV или без.
- Частота дискретизации – 8 кГц. Если без заголовка, то параметр
sample_rate
– обязательный. - Максимальное количество каналов – 1.
- Значение Content-Type –
audio/pcma;rate=XXX
.
- MULAW
- G.711 μ-law, с заголовком WAV или без.
- Частота дискретизации – 8 кГц. Если без заголовка, то параметр
sample_rate
– обязательный. - Максимальное количество каналов – 1.
- Значение Content-Type –
audio/pcmu;rate=XXX
.
- G-729
- Узкополосный речевой кодек. Допустимые форматы: G.729, G.729a, G.729b, G.729c
- Частота дискретизации – 8 кГц.
- Максимальное количество каналов – 1.
- Значение Content-Type –
audio/g729
.
Лимиты
Режим распознавания речи (ASR)
Режим | Протокол | Характеристики | Макс. размер аудио | Макс. количество каналов |
---|---|---|---|---|
Синхронное | HTTP | Применяется при невозможности использования протокола gRPC. Подходит для распознавания коротких аудиозаписей в одноканальном аудио | 2 Мб | 1 канал |
Асинхронное | HTTP/gRPC | Подходит для распознавания длительных аудиозаписей. Применяется, если не важна скорость распознавания, аудио является многоканальным и файлы для распознавания уже записаны | 1 Гб | Многоканальная обработка |
Потоковое | gRPC (v2) | Используется, если требуется распознавать речь в процессе ее записи. Например, протоколы телефонии или запись аудио на мобильном устройстве. Возможно отображение промежуточных результатов и автоматическое определение конца фразы | 1 Гб | 2 канала в реальном времени |
Режим синтеза речи (TTS)
Режим | Протокол | Характеристики | Ограничения |
---|---|---|---|
Синхронное | HTTP | Применяется при невозможности использования протокола gRPC | До 4000 символов |
Асинхронное | HTTP/gRPC | Подходит для синтеза длинных текстов | Не поддерживается SSML-разметка |
Потоковое | gRPC (v2) | Возможно отображение промежуточных результатов | До 1 Гб |
Многоканальное распознавание
При многоканальном р аспознавании следует учитывать максимально допустимое число каналов для распознавания в зависимости от аудиоформата.
Формат аудио | Распознавание аудио: синхронное/асинхронное | Максимальное число каналов |
---|---|---|
PCM_S16LE | Первый канал/Все | 8 |
Opus | 1/1 | 1 |
MP3 | Первый канал/Все | 2 |
FLAC | Первый канал/Все | 8 |
G711 (ALAW или MULAW) | 1/1 | 1 |
G-729 | 1/1 | 1 |