Асинхронное распознавание аудиофайлов в формате LPCM в API v2

Статья создана

Обновлена 24 апреля 2025 г.

Перед началом работы
Выполните распознавание с помощью API

Ниже рассмотрен пример асинхронного распознавания речи из аудиофайла с помощью API v2 SpeechKit. В примере заданы параметры:

язык — русский;
языковая модель — general;
формат передаваемого аудиофайла — LPCM с частотой дискретизации 8000 Гц;
количество аудиоканалов — 1 (значение по умолчанию);
остальные параметры оставлены по умолчанию.

Вы можете сформировать и отправить запрос на распознавание речи с помощью утилиты cURL.

Аутентификация происходит от имени сервисного аккаунта с помощью IAM-токена. Подробнее об аутентификации в API SpeechKit.

Перед началом работы

Создайте бакет и загрузите в него аудиофайл, который вы хотите распознать.
Создайте сервисный аккаунт.

Важно

Асинхронно распознать аудиофайлы можно только от имени сервисного аккаунта. Не используйте для этого другие аккаунты в Yandex Cloud.
Назначьте сервисному аккаунту роли storage.uploader и ai.speechkit-stt.user на каталог, в котором вы ранее создали бакет.
Получите IAM-токен или API-ключ для созданного сервисного аккаунта.

Если у вас нет аудиофайла формата LPCM, вы можете скачать пример файла.

Выполните распознавание с помощью API

cURL

Получите ссылку на аудиофайл в Object Storage.
Создайте файл body.json и добавьте в него код:
```
{
   "config": {
      "specification": {
         "languageCode": "ru-RU",
         "model": "general",
         "audioEncoding": "LINEAR16_PCM",
         "sampleRateHertz": 8000,
         "audioChannelCount": 1
      }
   },
   "audio": {
      "uri": "<ссылка_на_аудиофайл>"
   }
}
```
Где:
- languageCode — язык, для которого будет выполнено распознавание.
- model — модель распознавания речи.
- audioEncoding — формат передаваемого аудиофайла.
- sampleRateHertz — частота дискретизации аудиофайла в Гц.
- audioChannelCount — количество аудиоканалов.
- uri — ссылка на аудиофайл в Object Storage. Пример ссылки: https://storage.yandexcloud.net/speechkit/speech.pcm.
  
  Для бакета с ограниченным доступом в ссылке присутствуют дополнительные query-параметры (после знака ?). Эти параметры не нужно передавать в SpeechKit — они игнорируются.

Выполните созданный файл:

export API_KEY=<API-ключ_сервисного_аккаунта> && \
curl \
  --insecure \
  --header "Authorization: Api-Key ${API_KEY}" \
  --data "@body.json"\
  https://transcribe.api.cloud.yandex.net/speech/stt/v2/longRunningRecognize

Пример результата:

{
   "done": false,
   "id": "e03sup6d5h1q********",
   "createdAt": "2019-04-21T22:49:29Z",
   "createdBy": "ajes08feato8********",
   "modifiedAt": "2019-04-21T22:49:29Z"
}

Сохраните идентификатор (id) операции распознавания, полученный в ответе.

Дождитесь, когда завершится распознавание. Одна минута одноканального аудио распознается примерно за 10 секунд.

Отправьте запрос на получение информации об операции:

curl \
  --insecure \
  --header "Authorization: Api-key ${API_KEY}" \
  https://operation.api.cloud.yandex.net/operations/<идентификатор_операции_распознавания>

Пример результата:

{
   "done": true,
   "response": {
      "@type": "type.googleapis.com/yandex.cloud.ai.stt.v2.LongRunningRecognitionResponse",
      "chunks": [
         {
            "alternatives": [
               {
                  "words": [
                     {
                        "startTime": "0.160s",
                        "endTime": "0.500s",
                        "word": "привет",
                        "confidence": 1
                     },
                     {
                        "startTime": "0.580s",
                        "endTime": "0.800s",
                        "word": "мир",
                        "confidence": 1
                     }
                  ],
                  "text": "Привет мир",
                  "confidence": 1
               }
            ],
            "channelTag": "1"
         }
      ]
   },
   "id": "e03jjenu23uc********",
   "createdAt": "2024-08-22T11:39:22Z",
   "createdBy": "aje3bg430agh********",
   "modifiedAt": "2024-08-22T11:39:23Z"
}

Если распознать речь в переданном файле не удалось, секция response.chunks может отсутствовать в ответе.

Асинхронное распознавание аудиофайлов в формате LPCM в API v2

Перед началом работы

Выполните распознавание с помощью API

См. также

Была ли статья полезна?

Асинхронное распознавание аудиофайлов в формате LPCM в API v2

Перед началом работыПеред началом работы

Выполните распознавание с помощью APIВыполните распознавание с помощью API

См. такжеСм. также

Была ли статья полезна?

Перед началом работы

Выполните распознавание с помощью API

См. также