Распознавание речи (STT)

Статья создана

Yandex Cloud

Улучшена

Alex S.

Обновлена 24 июня 2026 г.

Открыть в Markdown

Примечание

В регионе Казахстан доступна только версия API v3.

Некорректные ударения и произношение

Создайте обращение и приложите примеры, чтобы разработчики могли внести корректировки к следующим релизам модели синтеза.

Плохое качество распознавания при 8кГц

Если проблема систематическая (десятки процентов от общей доли запросов), создайте обращение и приложите примеры для исследования. Чем больше примеров вы пришлете, тем вероятнее разработчики обнаружат проблему.

Форма обратной связи по качеству распознавания

При систематическом возникновении проблем обратитесь в службу поддержки с файлами и описанием.

Два канала распознались как один. Как распознать каждый канал отдельно

Распознавание многоканальных аудиофайлов доступно только при асинхронном распознавании.

Проверьте формат вашей записи:

Для LPCM используйте параметр config.specification.audioChannelCount, равный 2.
Для MP3 и OggOpus указывать параметр не нужно, поскольку информация о количестве каналов уже содержится в файле. Файл автоматически распределится на нужное количество записей.

Распознанный текст в ответе разделяется параметром channelTag.

Можно ли распознавать 2 и более голосов с разделением на дикторов?

Распознавание многоканальных аудиофайлов доступно только при асинхронном распознавании.

Во время распознавания текст не разделяется по голосу, но вы можете разместить голоса в разных каналах и разделить распознанный текст в ответе параметром channelTag.

Количество каналов можно указать в запросе с помощью параметра config.specification.audioChannelCount.

Файл короче чем лимит, но при распознавании возникает ошибка

Если файл многоканальный, то учитывайте суммарное время записи всех каналов. Список ограничений смотрите в разделе Квоты и лимиты в SpeechKit.

Ошибка Internal Server Error

Убедитесь, что формат, указываемый в запросе, и реальный формат файла соответствуют друг другу. Если ошибку исправить не получается, пришлите нам примеры аудиофайлов, которые не удается распознать.

Где найти пример для распознавания речи с микрофона?

Пример потокового распознавания речи, продиктованной на микрофон.

Можно ли использовать POST для потокового распознавания?

Потоковое распознавание использует механизм удаленного вызова процедур gRPC и не поддерживается в REST API, поэтому использовать метод POST не получится.

Обрывается / завершается сессия потокового распознавания

Потоковое распознавание работает в режиме реального времени. Вы можете отправлять на распознавание «тишину», чтобы сервис не закрыл соединение.

Мы рекомендуем использовать API v3 для потокового распознавания. Для отправки «тишины» в API v3 есть специальный тип сообщений, поэтому ее не придется имитировать в аудиозаписи самостоятельно.

Как определяется конец фразы и длительность сессии распознавания?

Конец фразы определяется по «тишине» после фразы автоматически. Подробнее об определении конца фразы читайте в разделе Определение конца фразы.

Максимальная длительность сессии потокового распознавания составляет 5 минут.

Что делать, если SpeechKit не дослушивает или, наоборот, слишком долго ждет окончания разговора?

Перебивание и задержки при потоковом распознавании могут быть связаны с определением конца фразы. Рекомендации для настройки EOU читайте в разделе Определение конца фразы.

Ошибка OutOfRange desc = Exceeded maximum allowed stream duration

Эта ошибка означает, что превышена максимально допустимая длительность сессии распознавания. В этом случае вам нужно заново открыть сессию.

Для потокового распознавания максимальная длительность сессии составляет 5 минут. Это техническое ограничение, обусловленное особенностями архитектуры Yandex Cloud, изменить его нельзя.

Ошибка use SA for s3 file recognition

Ошибка use SA for s3 file recognition возникает при попытке распознавания аудиофайлов из Object Storage не от имени сервисного аккаунта.

Создайте сервисный аккаунт, получите для него IAM-токен или API-ключ и используйте их для аутентификации в запросах к API. Также проверьте способ авторизации и ключ или токен для авторизации: возможно, вы получили его для одного аккаунта, а запрос выполняете от имени другого.

Из чего складывается стоимость использования?

Примеры расчета стоимости использования, правила тарификации и актуальные цены смотрите в разделе Правила тарификации для SpeechKit.

Распознавание речи (STT)

Некорректные ударения и произношениеНекорректные ударения и произношение

Плохое качество распознавания при 8кГцПлохое качество распознавания при 8кГц

Форма обратной связи по качеству распознаванияФорма обратной связи по качеству распознавания

Два канала распознались как один. Как распознать каждый канал отдельноДва канала распознались как один. Как распознать каждый канал отдельно

Можно ли распознавать 2 и более голосов с разделением на дикторов?Можно ли распознавать 2 и более голосов с разделением на дикторов?

Файл короче чем лимит, но при распознавании возникает ошибкаФайл короче чем лимит, но при распознавании возникает ошибка

Ошибка Internal Server ErrorОшибка Internal Server Error

Где найти пример для распознавания речи с микрофона?Где найти пример для распознавания речи с микрофона?

Можно ли использовать POST для потокового распознавания?Можно ли использовать POST для потокового распознавания?

Обрывается / завершается сессия потокового распознаванияОбрывается / завершается сессия потокового распознавания

Как определяется конец фразы и длительность сессии распознавания?Как определяется конец фразы и длительность сессии распознавания?

Ошибка OutOfRange desc = Exceeded maximum allowed stream durationОшибка OutOfRange desc = Exceeded maximum allowed stream duration

Ошибка use SA for s3 file recognitionОшибка use SA for s3 file recognition

Из чего складывается стоимость использования?Из чего складывается стоимость использования?

Была ли статья полезна?