Поддерживаемые форматы аудио

Статья создана

Yandex Cloud

Обновлена 28 мая 2025 г.

LPCM
WAV
MP3
OggOpus

SpeechSense позволяет загружать аудио в форматах:

LPCM;
WAV;
MP3 — предпочтительный формат;
OggOpus.

Примечание

Максимальная длительность аудио — 4 часа.

LPCM

Linear pulse-code modulation (линейная импульсно-кодовая модуляция) — формат кодирования звука без сжатия.

Требования к аудио в формате LPCM:

частота дискретизации — в диапазоне 8–48 кГц;
разрядность квантования — 16 бит;
порядок байтов — обратный (little-endian);
аудиоданные хранятся как знаковые числа (signed integer).

WAV

WAV — данные закодированы с помощью LPCM и упакованы в контейнер WAV.

К аудио в формате WAV предъявляются те же требования, что и к LPCM. SpeechSense не распознает WAV, если данные закодированы в формате, отличном от LPCM, или аудио не соответствует требованиям, предъявляемым к этому формату.

MP3

MP3 — данные закодированы с помощью аудиокодека MPEG-1/2/2.5 Layer III и упакованы в контейнер MP3.

SpeechSense распознает MP3 без ограничений на качество и заголовки аудиофайлов.

OggOpus

OggOpus — данные закодированы с помощью аудиокодека OPUS и упакованы в контейнер OGG.

SpeechSense распознает OggOpus без ограничений на качество и заголовки аудиофайлов.

Поддерживаемые форматы аудио

LPCMLPCM

WAVWAV

MP3MP3

OggOpusOggOpus

Была ли статья полезна?

LPCM

WAV

MP3

OggOpus