Поддерживаемые форматы аудио
SpeechKit позволяет распознавать и синтезировать аудио в форматах:
- LPCM
- OggOpus
- MP3
LPCM
Linear pulse-code modulation
Характеристики аудио в этом формате:
-
Частота дискретизации:
Версия API Допустимые значения API v1 синтеза 8, 16 или 48 кГц API v3 синтеза любое значение от 8 до 48 кГц API v2 распознавания 8, 16 или 48 кГц API v3 распознавания 8, 16 или 48 кГц -
Разрядность квантования — 16 бит.
-
Порядок байтов — обратный (little-endian).
-
Аудиоданные хранятся как знаковые числа (signed integer).
OggOpus
OggOpus
SpeechKit распознает и синтезирует OggOpus без ограничений на качество и заголовки аудиофайлов.
MP3
MP3
SpeechKit распознает MP3 без ограничений на качество и заголовки аудиофайлов.
Важно
Формат MP3 не поддерживается в API v1 синхронного распознавания и API v2 потокового распознавания.