Практические руководства SpeechKit
- Разработка Telegram-бота для распознавания текста на изображениях, синтеза и распознавания аудио
- Использование Yandex API Gateway для настройки синтеза речи в Yandex SpeechKit
Распознавание
Потоковое распознавание
-
Потоковое распознавание аудиофайла с помощью API v3 — в примере заданы русский язык, потоковое аудио в формате LPCM из файла, частота дискретизации 8000 Гц и один аудиоканал. В параметрах распознавания включен фильтр ненормативной лексики.
-
Потоковое распознавание речи с микрофона с помощью API v3 — в примере заданы русский язык, формат аудиопотока LPCM, частота дискретизации 8000 Гц и один аудиоканал. Также включен фильтр ненормативной лексики.
-
Потоковое распознавание речи с автоматическим определением языка в API v3 — в примере заданы формат аудиопотока LPCM, частота дискретизации 8000 Гц и один аудиоканал.
-
Пример использования API v2 потокового распознавания — в примере заданы русский язык, формат аудиопотока LPCM и частота дискретизации 8000 Гц. Также включены фильтры ненормативной лексики и промежуточных результатов.
Синхронное распознавание
Пример использования API v1 синхронного распознавания — в примере задан русский язык, остальные параметры оставлены по умолчанию.
Асинхронное распознавание
-
Асинхронное распознавание аудиофайлов в формате LPCM в API v2 — в примере заданы русский язык, языковая модель
general:rc
, формат аудиофайла LPCM, частота дискретизации 8000 Гц и один аудиоканал. -
Асинхронное распознавание аудиофайлов в формате OggOpus в API v2 — в примере задан русский язык, остальные параметры оставлены по умолчанию.
-
Асинхронное распознавание аудиофайлов в формате WAV в API v3 — в примере заданы языковая модель
general
, формат аудиофайла WAV, остальные параметры оставлены по умолчанию. -
Регулярное асинхронное распознавание аудиофайлов из Yandex Object Storage — в примере заданы русский язык и языковая модель
general
. Распознается речь из аудиофайлов любого поддерживаемого формата.
Синтез
-
Синтез речи в API v3 — в примере заданы формат аудиофайла LPCM, частота дискретизации 22 050 Гц, контейнер WAV и нормализация громкости LUFS.
-
Синтез речи по шаблонам с помощью API v3 — в примере используется синтез по шаблонам для голосов SpeechKit Brand Voice Self Service и SpeechKit Brand Voice Premium.
-
Синтез речи по шаблонам в SpeechKit Brand Voice Call Center — в примере используется синтез по шаблонам для голосов SpeechKit Brand Voice Call Center.
-
Синтез речи в формате WAV с помощью API v1 — в примере заданы русский язык, формат аудиофайла LPCM, частота дискретизации 48 000 Гц, контейнер WAV и голос
filipp
. -
Синтез речи в формате OggOpus с помощью API v1 — в примере заданы русский язык и голос
filipp
. -
Синтез речи из текста в формате SSML с помощью API v1 — в примере заданы русский язык и голос
jane
.