Как распознать короткие аудиофайлы в SpeechKit
Статья создана
Обновлена 27 сентября 2024 г.
Сервис позволяет распознавать речь различными способами. В примере ниже аудиофайл распознается с помощью API синхронного распознавания. В этом API действуют ограничения:
- максимальная длительность аудио — 30 секунд;
- максимальный размер файла — 1 МБ.
Отправьте запрос на распознавание речи:
export FOLDER_ID=<идентификатор_каталога>
export IAM_TOKEN=<IAM-токен>
curl \
--request POST \
--header "Authorization: Bearer ${IAM_TOKEN}" \
--data-binary "@speech.ogg" \
"https://stt.api.cloud.yandex.net/speech/v1/stt:recognize?folderId=${FOLDER_ID}&lang=ru-RU"
Где:
FOLDER_ID
— идентификатор каталога, полученный перед началом работы.IAM_TOKEN
— IAM-токен, полученный перед началом работы.lang
— язык распознавания.speech.ogg
– аудиофайл с речью.
В ответе сервис вернет распознанный текст:
{
"result":"Я яндекс спичкит я могу превратить любой текст в речь теперь вы можете"
}