Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechSense
  • Начало работы
    • Иерархия ресурсов
    • Диалоги
    • Теги в диалогах
    • Словари для тегов
    • Поддерживаемые форматы аудио
    • Квоты и лимиты
  • Аудитные логи Audit Trails
  • Управление доступом
  • Правила тарификации
  • История изменений
  • Вопросы и ответы

В этой статье:

  • LPCM
  • WAV
  • MP3
  • OggOpus
  1. Концепции
  2. Поддерживаемые форматы аудио

Поддерживаемые форматы аудио

Статья создана
Yandex Cloud
Обновлена 14 апреля 2025 г.
  • LPCM
  • WAV
  • MP3
  • OggOpus

SpeechSense позволяет загружать аудио в форматах:

  • LPCM;
  • WAV;
  • MP3 — предпочтительный формат;
  • OggOpus.

LPCMLPCM

Linear pulse-code modulation (линейная импульсно-кодовая модуляция) — формат кодирования звука без сжатия.

Требования к аудио в формате LPCM:

  • частота дискретизации — в диапазоне 8–48 кГц;
  • разрядность квантования — 16 бит;
  • порядок байтов — обратный (little-endian);
  • аудиоданные хранятся как знаковые числа (signed integer).

WAVWAV

WAV — данные закодированы с помощью LPCM и упакованы в контейнер WAV.

К аудио в формате WAV предъявляются те же требования, что и к LPCM. SpeechSense не распознает WAV, если данные закодированы в формате, отличном от LPCM, или аудио не соответствует требованиям, предъявляемым к этому формату.

MP3MP3

MP3 — данные закодированы с помощью аудиокодека MPEG-1/2/2.5 Layer III и упакованы в контейнер MP3.

SpeechSense распознает MP3 без ограничений на качество и заголовки аудиофайлов.

OggOpusOggOpus

OggOpus — данные закодированы с помощью аудиокодека OPUS и упакованы в контейнер OGG.

SpeechSense распознает OggOpus без ограничений на качество и заголовки аудиофайлов.

Была ли статья полезна?

Предыдущая
Смысловые атрибуты
Следующая
Квоты и лимиты
Проект Яндекса
© 2025 ООО «Яндекс.Облако»