Распознавание речи
Распознавание речи (speech-to-text — STT) — это процесс преобразования речи в текст.
Работа со SpeechKit осуществляется через API или Playground. Подробнее о принципах работы API Yandex Cloud см. в документе Концепции API.
Сервис доступен по адресу stt.api.cloud.yandex.net:443
.
Для работы со SpeechKit также доступен Python SDK. Он основан на API v3 SpeechKit.
Вы можете попробовать синтез и распознавание речи на сайте на странице SpeechKit.
Способы распознавания
SpeechKit предоставляет два способа распознавания речи:
- Потоковое распознавание применяется для распознавания в режиме реального времени. При потоковом распознавании SpeechKit получает короткие аудиофрагменты и отправляет результаты, в том числе промежуточные, в рамках одного соединения.
- Распознавание аудиофайлов. SpeechKit может распознавать аудиозаписи в синхронном и асинхронном режиме.
- Синхронное распознавание имеет жесткие ограничения на размер и длительность файла и подходит для распознавания одноканальных аудио до 30 секунд.
- Асинхронное распознавание может обрабатывать многоканальные аудиозаписи. Максимальная длительность файла — 4 часа.
Какое распознавание выбрать
Потоковое распознавание | Синхронное распознавание | Асинхронное распознавание | |
---|---|---|---|
Сценарии использования | Телефонные ассистенты и роботы Виртуальные ассистенты | Виртуальные ассистенты Голосовое управление Распознавание коротких голосовых сообщений в мессенджерах | Транскрибация аудиозвонков и выступлений Создание субтитров Контроль соблюдения скриптов колл-центров Выявление успешных скриптов Оценка качества работы операторов колл-центров |
Входные данные | Голос в режиме реального времени | Предзаписанные одноканальные короткие аудиофайлы | Предзаписанные многоканальные и длинные аудиофайлы |
Принцип работы | Обмен сообщениями с сервером в рамках одного соединения | Запрос — быстрый ответ | Запрос — отложенный ответ |
Поддерживаемые API | gRPC v2 gRPC v3 | REST v1 | REST v2 gRPC v3 |
Максимальная длительность аудиоданных | 5 минут | 30 секунд | 4 часа |
Максимальный объем переданных данных | 10 МБ | 1 МБ | 1 ГБ |
Количество распознаваемых каналов | 1 | 1 | 2 |
Процесс распознавания
Распознавание аудио происходит в три этапа:
- Акустическая модель определяет, какой набор низкоуровневых признаков соответствует звуковому сигналу.
- Языковая модель на основе выхода акустической модели генерирует текст по словам.
- Сервис обрабатывает текст: производит расстановку пунктуации, преобразование числительных в цифры и т.п.
Точность распознавания
Точность распознавания зависит от модели распознавания. Вы можете повысить точность распознавания модели, предоставив данные для дообучения модели. Подробнее о дообучении моделей см. в разделе Расширение модели распознавания речи.
Также на точность распознавания влияют:
- качество исходного звука;
- качество кодирования аудио;
- разборчивость и темп речи;
- сложность фраз и их длина.