Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
    • Коды ошибок
    • Заголовки запросов
    • Общие вопросы
    • Распознавание речи
    • Синтез речи
    • Все вопросы на одной странице
  1. Решение проблем
  2. Распознавание речи

Распознавание речи (STT)

Статья создана
Yandex Cloud
Улучшена
Alex S.
Обновлена 2 апреля 2025 г.

Некорректные ударения и произношение

Создайте обращение и приложите примеры, чтобы разработчики могли внести корректировки к следующим релизам модели синтеза.

Плохое качество распознавания при 8кГц

Если проблема систематическая (десятки процентов от общей доли запросов), создайте обращение и приложите примеры для исследования. Чем больше примеров вы пришлете, тем вероятнее разработчики обнаружат проблему.

Форма обратной связи по качеству распознавания

При возникновении проблем обратитесь в службу поддержки с файлами и описанием.

Два канала распознались в один / Как распознать каждый канал отдельно

Распознавание многоканальных аудиофайлов доступно только при асинхронном распознавании.

Проверьте формат вашей записи:

  • Для LPCM используйте параметр config.specification.audioChannelCount, равный 2.
  • Для MP3 и OggOpus указывать параметр не нужно, поскольку информация о количестве каналов уже содержится в файле. Файл автоматически распределится на нужное количество записей.

Распознанный текст в ответе разделяется параметром channelTag.

Можно ли распознавать 2 и более голосов с разделением на дикторов?

Распознавание многоканальных аудиофайлов доступно только при асинхронном распознавании.

Во время распознавания текст не разделяется по голосу, но вы можете разместить голоса в разных каналах и разделить распознанный текст в ответе параметром channelTag.

Количество каналов можно указать в запросе с помощью параметра config.specification.audioChannelCount.

Неполное распознавание аудио

Если вы распознаете потоковое аудио, попробуйте использовать разные версии API: API v2 или API v3.

Для распознавания аудиофайлов попробуйте разные модели.

Файл короче чем лимит, но при распознавании возникает ошибка

Если файл многоканальный, то учитывайте суммарное время записи всех каналов. Список ограничений см. в разделе Квоты и лимиты в SpeechKit.

Ошибка Internal Server Error

Убедитесь, что формат, указываемый в запросе, и реальный формат файла соответствуют друг другу. Если ошибку исправить не получается, пришлите нам примеры аудиофайлов, которые не удается распознать.

Когда высылается ответ при распознавании?

При синхронном и асинхронном распознавании ответ присылается один раз — после обработки запроса.

При потоковом режиме распознавания вы можете настроить поведение сервера. По умолчанию сервер возвращает ответ только после распознавания всей переданный фразы. С помощью параметра partialResults можно настроить распознавание так, чтобы сервер возвращал также и промежуточные результаты распознавания.

Получение промежуточных результатов позволит быстрее реагировать на распознаваемую речь, не дожидаясь окончания фразы.

Где найти пример для распознавания аудиофайлов?

Примеры использования SpeechKit собраны в разделе Практические руководства. Если вы хотите распознать предзаписанные аудиофайлы, используйте асинхронное распознавание.

Где найти пример для распознавания речи с микрофона?

Пример потокового распознавания речи, продиктованной на микрофон.

Можно ли использовать POST для потокового распознавания?

Потоковое распознавание использует механизм удаленного вызова процедур gRPC и не поддерживается в REST API, поэтому использовать метод POST не получится.

Обрывается / завершается сессия потокового распознавания

При использовании API v2 для потокового распознавания сервис ожидает аудиоинформацию. Если в течение 5 секунд данные не приходят, сессия завершается. Этот параметр нельзя изменить в API v2.

Потоковое распознавание работает в режиме реального времени. Вы можете отправлять на распознавание «тишину», чтобы сервис не закрыл соединение.

Мы рекомендуем использовать API v3 для потокового распознавания. Для отправки "тишины" в API v3 есть специальный тип сообщений, поэтому ее не придется имитировать в аудиозаписи самостоятельно.

Как определяется конец фразы и длительность сессии распознавания?

Конец фразы определяется по «тишине» после фразы автоматически. Подробнее об определении конца фразы см. в разделе Определение конца фразы.

Максимальная длительность сессии потокового распознавания составляет 5 минут.

Что делать, если SpeechKit не дослушивает или, наоборот, слишком долго ждет окончания разговора?

Перебивание и задержки при потоковом распознавании могут быть связаны с определением конца фразы. О том, как настроить EOU, см. рекомендации в разделе Определение конца фразы.

Ошибка OutOfRange desc = Exceeded maximum allowed stream duration

Эта ошибка означает, что превышена максимально допустимая длительность сессии распознавания. В этом случае вам нужно заново открыть сессию.

Для потокового распознавания максимальная длительность сессии составляет 5 минут. Это техническое ограничение, обусловленное особенностями архитектуры Yandex Cloud, изменить его нельзя.

Из чего складывается стоимость использования?

Примеры расчета стоимости использования, правила тарификации и актуальные цены смотрите в разделе Правила тарификации для SpeechKit.

Была ли статья полезна?

Предыдущая
Общие вопросы
Следующая
Синтез речи
Проект Яндекса
© 2025 ООО «Яндекс.Облако»