Допустимые форматы и лимиты

Обновлено 5 марта 2026

На этой странице собраны поддерживаемые форматы аудио и лимиты для распознавания и синтеза речи в SaluteSpeech.

Допустимые форматы аудио

Для распознавания доступны аудиофайлы со следующими кодировками:

PCM_S16LE
- PCM signed 16bit little-endian, с заголовком WAV или без.
- Частота дискретизации – от 8 до 96 кГц. Если без заголовка, то параметр sample_rate – обязательный.
- Максимальное количество каналов – 8.
- Значение Content-Type – audio/x-pcm;bit=16;rate=XXX.
OPUS
- Opus в контейнере ogg.
- Параметр sample_rate – необязательный.
- Поддерживается только одноканальный звук.
- Значение Content-Type – audio/ogg;codecs=opus.
MP3
- MP3.
- Параметр sample_rate – необязательный.
- Максимальное количество каналов – 2.
- Значение Content-Type – audio/mpeg.
FLAC
- FLAC
- Параметр sample_rate – необязательный.
- Максимальное количество каналов – 8.
- Значение Content-Type – audio/flac.
ALAW
- G.711 A-law, с заголовком WAV или без.
- Частота дискретизации – 8 кГц. Если без заголовка, то параметр sample_rate – обязательный.
- Максимальное количество каналов – 1.
- Значение Content-Type – audio/pcma;rate=XXX.
MULAW
- G.711 μ-law, с заголовком WAV или без.
- Частота дискретизации – 8 кГц. Если без заголовка, то параметр sample_rate – обязательный.
- Максимальное количество каналов – 1.
- Значение Content-Type – audio/pcmu;rate=XXX.
G-729
- Узкополосный речевой кодек. Допустимые форматы: G.729, G.729a, G.729b, G.729c
- Частота дискретизации – 8 кГц.
- Максимальное количество каналов – 1.
- Значение Content-Type – audio/g729.

Лимиты

Режим распознавания речи (ASR)

Режим	Протокол	Характеристики	Макс. размер аудио	Макс. количество каналов
Синхронное	HTTP	Применяется при невозможности использования протокола gRPC. Подходит для распознавания коротких аудиозаписей в одноканальном аудио	2 Мб	1 канал
Асинхронное	HTTP/gRPC	Подходит для распознавания длительных аудиозаписей. Применяется, если не важна скорость распознавания, аудио является многоканальным и файлы для распознавания уже записаны	1 Гб	Многоканальная обработка
Потоковое	gRPC (v2)	Используется, если требуется распознавать речь в процессе ее записи. Например, протоколы телефонии или запись аудио на мобильном устройстве. Возможно отображение промежуточных результатов и автоматическое определение конца фразы	1 Гб	2 канала в реальном времени

Режим синтеза речи (TTS)

Режим	Протокол	Характеристики	Ограничения
Синхронное	HTTP	Применяется при невозможности использования протокола gRPC	До 4000 символов
Асинхронное	HTTP/gRPC	Подходит для синтеза длинных текстов	Не поддерживается SSML-разметка
Потоковое	gRPC (v2)	Возможно отображение промежуточных результатов	До 1 Гб

Многоканальное распознавание

При многоканальном распознавании следует учитывать максимально допустимое число каналов для распознавания в зависимости от аудиоформата.

Формат аудио	Распознавание аудио: синхронное/асинхронное	Максимальное число каналов
PCM_S16LE	Первый канал/Все	8
Opus	1/1	1
MP3	Первый канал/Все	2
FLAC	Первый канал/Все	8
G711 (ALAW или MULAW)	1/1	1
G-729	1/1	1

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней

Допустимые форматы аудио﻿

Лимиты﻿

Многоканальное распознавание﻿

Допустимые форматы аудио

Лимиты

Многоканальное распознавание