Распознавание речи (STT)
Примечание
В регионе Казахстан доступна только версия API v3.
Некорректные ударения и произношение
Создайте обращение и приложите примеры, чтобы разработчики могли внести корректировки к следующим релизам модели синтеза.
Плохое качество распознавания при 8кГц
Если проблема систематическая (десятки процентов от общей доли запросов), создайте обращение и приложите примеры для исследования. Чем больше примеров вы пришлете, тем вероятнее разработчики обнаружат проблему.
Форма обратной связи по качеству распознавания
При систематическом возникновении проблем обратитесь в службу поддержки
Два канала распознались как один. Как распознать каждый канал отдельно
Распознавание многоканальных аудиофайлов доступно только при асинхронном распознавании.
Проверьте формат вашей записи:
- Для LPCM используйте параметр config.specification.audioChannelCount, равный 2.
- Для MP3 и OggOpus указывать параметр не нужно, поскольку информация о количестве каналов уже содержится в файле. Файл автоматически распределится на нужное количество записей.
Распознанный текст в ответе разделяется параметром channelTag.
Можно ли распознавать 2 и более голосов с разделением на дикторов?
Распознавание многоканальных аудиофайлов доступно только при асинхронном распознавании.
Во время распознавания текст не разделяется по голосу, но вы можете разместить голоса в разных каналах и разделить распознанный текст в ответе параметром channelTag.
Количество каналов можно указать в запросе с помощью параметра config.specification.audioChannelCount.
Файл короче чем лимит, но при распознавании возникает ошибка
Если файл многоканальный, то учитывайте суммарное время записи всех каналов. Список ограничений см. в разделе Квоты и лимиты в SpeechKit.
Ошибка Internal Server Error
Убедитесь, что формат, указываемый в запросе, и реальный формат файла соответствуют друг другу. Если ошибку исправить не получается, пришлите нам примеры аудиофайлов, которые не удается распознать.
Когда высылается ответ при распознавании?
При синхронном и асинхронном распознавании ответ присылается один раз — после обработки запроса.
При потоковом режиме распознавания вы можете настроить поведение сервера. По умолчанию сервер возвращает ответ только после распознавания всей переданный фразы. С помощью параметра partialResults можно настроить распознавание так, чтобы сервер возвращал также и промежуточные результаты распознавания.
Получение промежуточных результатов позволит быстрее реагировать на распознаваемую речь, не дожидаясь окончания фразы.
Где найти пример для распознавания речи с микрофона?
Пример потокового распознавания речи, продиктованной на микрофон.
Можно ли использовать POST для потокового распознавания?
Потоковое распознавание использует механизм удаленного вызова процедур gRPC и не поддерживается в REST API, поэтому использовать метод POST не получится.
Обрывается / завершается сессия потокового распознавания
Потоковое распознавание работает в режиме реального времени. Вы можете отправлять на распознавание «тишину», чтобы сервис не закрыл соединение.
Мы рекомендуем использовать API v3 для потокового распознавания. Для отправки "тишины" в API v3 есть специальный тип сообщений, поэтому ее не придется имитировать в аудиозаписи самостоятельно.
Как определяется конец фразы и длительность сессии распознавания?
Конец фразы определяется по «тишине» после фразы автоматически. Подробнее об определении конца фразы см. в разделе Определение конца фразы.
Максимальная длительность сессии потокового распознавания составляет 5 минут.
Что делать, если SpeechKit не дослушивает или, наоборот, слишком долго ждет окончания разговора?
Перебивание и задержки при потоковом распознавании могут быть связаны с определением конца фразы. О том, как настроить EOU, см. рекомендации в разделе Определение конца фразы.
Ошибка OutOfRange desc = Exceeded maximum allowed stream duration
Эта ошибка означает, что превышена максимально допустимая длительность сессии распознавания. В этом случае вам нужно заново открыть сессию.
Для потокового распознавания максимальная длительность сессии составляет 5 минут. Это техническое ограничение, обусловленное особенностями архитектуры Yandex Cloud, изменить его нельзя.
Из чего складывается стоимость использования?
Примеры расчета стоимости использования, правила тарификации и актуальные цены смотрите в разделе Правила тарификации для SpeechKit.