API v2 для потокового распознавания
Сервис потокового распознавания располагается по адресу: stt.api.cloud.yandex.net:443
Сообщение с настройками распознавания
Параметр | Описание |
---|---|
config | object Поле с настройками распознавания и идентификатором каталога. |
config .specification |
object Настройки распознавания. |
config .specification .languageCode |
string Язык, для которого будет выполнено распознавание. Допустимые значения см. в описании модели. Значение по умолчанию — ru-RU — русский язык. |
config .specification .model |
string Языковая модель, которую следует использовать при распознавании. Чем точнее выбрана модель, тем лучше результат распознавания. В одном запросе можно указать только одну модель. Допустимые значения зависят от выбранного языка. Значение параметра по умолчанию: general . |
config .specification .profanityFilter |
boolean Фильтр ненормативной лексики. Допустимые значения:
|
config .specification .partialResults |
boolean Фильтр промежуточных результатов. Допустимые значения:
|
config .specification .singleUtterance |
boolean Флаг, отключающий распознавание после первой фразы. Допустимые значения:
|
config .specification .audioEncoding |
string Формат передаваемого аудио. Допустимые значения:
|
config .specification .sampleRateHertz |
integer (int64) Частота дискретизации передаваемого аудио. Этот параметр обязателен, если значение format равно LINEAR16_PCM . Допустимые значения:
|
config. specification. rawResults |
boolean Флаг, указывающий, как писать числа. true — писать прописью, false (по умолчанию) — писать цифрами. |
folderId | string Идентификатор каталога, к которому у вас есть доступ. Требуется для аутентификации с пользовательским аккаунтом (см. раздел Аутентификация в API SpeechKit). Не используйте это поле, если вы делаете запрос от имени сервисного аккаунта. Максимальная длина строки в символах — 50. |
Экспериментальные дополнительные настройки распознавания
Для моделей потокового распознавания поддерживаются новые настройки распознавания. Они передаются через метаданные к gRPC-процедуре.
Параметр | Описание |
---|---|
x-normalize-partials |
boolean Флаг, позволяющий получать промежуточные результаты распознавания (части распознанного высказывания) в нормализованном виде: числа передаются цифрами, включен фильтр ненормативной лексики и т. д. Допустимые значения:
|
Сообщение с аудиофрагментом
Параметр | Описание |
---|---|
audio_content |
Фрагмент аудио в виде массива байт. Аудио должно быть в формате, указанном в сообщении с настройками распознавания. |
Сообщение с результатами распознавания
При успешном распознавании фрагмента речи придет сообщение, содержащее список результатов распознавания chunks[]
. Каждый результат содержит поля:
-
alternatives[]
- список вариантов распознанного текста. Каждый вариант содержит поля:text
- распознанный текст.confidence
- это поле сейчас не поддерживается, не используйте его.
-
final
- флаг, указывающий что этот результат распознавания финальный и больше меняться не будет. Если значениеfalse
, то результат распознавания промежуточный и может измениться при распознавании следующих фрагментов речи. -
endOfUtterance
— флаг, указывающий что этот результат содержит конец фразы. Если значениеtrue
, то со следующего полученного результата начнется новая фраза.Примечание
Если в настройках вы указали
singleUtterance=true
, то будет распознана только одна фраза за всю сессию. После сообщения, в которомendOfUtterance
имеет значениеtrue
, сервер не будет распознавать следующие фразы и будет ждать, когда вы разорвете соединение.
Коды ошибок, возвращаемые сервером
Соответствия gRPC-статусов с HTTP-кодами описаны в google.rpc.Code
Список возможных gRPC-ошибок, возвращаемых сервисом:
Код | Статус | Описание |
---|---|---|
3 | INVALID_ARGUMENT |
Клиент некорректно указал параметры запроса. Детальная информация представлена в поле details . |
9 | RESOURCE_EXHAUSTED |
Клиент превысил одну из квот. |
16 | UNAUTHENTICATED |
Для выполнения операции необходима аутентификация. Проверьте IAM-токен и идентификатор каталога, которые вы передали. |
13 | INTERNAL |
Внутренняя ошибка сервера. Ошибка означает, что операция не может быть выполнена из-за технического состояния сервера. Например, из-за нехватки вычислительных ресурсов. |