Практические руководства SpeechKit

Статья создана

Обновлена 28 августа 2024 г.

Распознавание

Потоковое распознавание аудиофайла с помощью API v3 — в примере заданы русский язык, потоковое аудио в формате LPCM из файла, частота дискретизации 8000 Гц и один аудиоканал. В параметрах распознавания включен фильтр ненормативной лексики.
Потоковое распознавание речи с микрофона с помощью API v3 — в примере заданы русский язык, формат аудиопотока LPCM, частота дискретизации 8000 Гц и один аудиоканал. Также включен фильтр ненормативной лексики.
Потоковое распознавание речи с автоматическим определением языка в API v3 — в примере заданы формат аудиопотока LPCM, частота дискретизации 8000 Гц и один аудиоканал.
Пример использования API v2 потокового распознавания — в примере заданы русский язык, формат аудиопотока LPCM и частота дискретизации 8000 Гц. Также включены фильтры ненормативной лексики и промежуточных результатов.

Асинхронное распознавание аудиофайлов в формате LPCM в API v2 — в примере заданы русский язык, языковая модель general:rc, формат аудиофайла LPCM, частота дискретизации 8000 Гц и один аудиоканал.
Асинхронное распознавание аудиофайлов в формате OggOpus в API v2 — в примере задан русский язык, остальные параметры оставлены по умолчанию.
Асинхронное распознавание аудиофайлов в формате WAV в API v3 — в примере заданы языковая модель general, формат аудиофайла WAV, остальные параметры оставлены по умолчанию.
Регулярное асинхронное распознавание аудиофайлов из Yandex Object Storage — в примере заданы русский язык и языковая модель general. Распознается речь из аудиофайлов любого поддерживаемого формата.

Синтез речи в API v3 — в примере заданы формат аудиофайла LPCM, частота дискретизации 22 050 Гц, контейнер WAV и нормализация громкости LUFS.
Синтез речи по шаблонам с помощью API v3 — в примере используется синтез по шаблонам для голосов SpeechKit Brand Voice Self Service и SpeechKit Brand Voice Premium.
Синтез речи по шаблонам в SpeechKit Brand Voice Call Center — в примере используется синтез по шаблонам для голосов SpeechKit Brand Voice Call Center.
Синтез речи в формате WAV с помощью API v1 — в примере заданы русский язык, формат аудиофайла LPCM, частота дискретизации 48 000 Гц, контейнер WAV и голос filipp.
Синтез речи в формате OggOpus с помощью API v1 — в примере заданы русский язык и голос filipp.
Синтез речи из текста в формате SSML с помощью API v1 — в примере заданы русский язык и голос jane.