API синхронного распознавания
Статья создана
Обновлена 21 января 2025 г.
С помощью API синхронного распознавания можно распознавать подготовленные аудиофайлы с такими характеристиками:
- максимальный размер файла — 1 МБ;
- максимальная длительность — 30 секунд;
- максимальное количество аудиоканалов — 1.
Сервис синхронного распознавания располагается по адресу: stt.api.cloud.yandex.net/speech/v1/stt:recognize
Query-параметры
| Параметр | Описание | 
|---|---|
| lang | string Язык, для которого будет выполнено распознавание. Допустимые значения см. в описании модели. Значение по умолчанию — ru-RU— русский язык. | 
| topic | string Языковая модель, которую следует использовать при распознавании. Чем точнее выбрана модель, тем лучше результат распознавания. В одном запросе можно указать только одну модель. Допустимые значения зависят от выбранного языка. Значение параметра по умолчанию: general. | 
| profanityFilter | boolean Параметр, регулирующий работу фильтра ненормативной лексики в распознанной речи. Допустимые значения: 
 | 
| rawResults | boolean Флаг, указывающий, как писать числа. true— писать прописью,false(по умолчанию) — писать цифрами. | 
| format | string Формат передаваемого аудио. Допустимые значения: 
 | 
| sampleRateHertz | string Частота дискретизации передаваемого аудио. Применяется, если значение formatравноlpcm. Допустимые значения:
 | 
| folderId | string Идентификатор каталога, к которому у вас есть доступ. Требуется для авторизации с пользовательским аккаунтом (см. ресурс Аутентификация в API SpeechKit). Не используйте это поле, если вы делаете запрос от имени сервисного аккаунта. Максимальная длина строки в символах — 50. | 
Параметры в теле запроса
В теле необходимо передать двоичное содержимое аудиофайла.
Ответ
Распознанный текст возвращается в ответе в поле result.
{
  "result": <распознанный_текст>
}
Подробнее о формате и кодах ответов см. на странице Коды ответов на запросы.