Нормализация результатов распознавания
Статья создана
Обновлена 17 октября 2024 г.
Нормализация — это преобразование (постобработка) текста, полученного в результате работы модели распознавания речи Yandex SpeechKit. Нормализация выполняется согласно параметрам, указанным в запросах API.
Примечание
В режиме автоматического распознавания языка (код языка auto
) нормализация не выполняется.
Вы можете применять следующие уровни нормализации:
- Представление дат и времени в цифровом формате.
- Преобразование чисел из словарного в цифровой формат.
- Добавление заглавной буквы в начале предложения и в именах собственных.
- Маскирование обсценной лексики.
- Форматирование телефонных номеров. Например,
7(999)123-45-67
вместо7 999 123 45 67
. - Добавление знаков пунктуации.
Важно
Правила представления нормализованного текста могут меняться. Учитывайте это при интеграции и следите за обновлениями.
Управление параметрами нормализации
API v1
Уровень нормализации | Параметр API |
---|---|
Маскирование обсценной лексики | profanityFilter=true |
Преобразование чисел из словарного в цифровой формат | По умолчанию включено. Чтобы отключить, укажите rawResults=true |
API v2
Уровень нормализации | Параметр API |
---|---|
Маскирование обсценной лексики | config.specification.profanityFilter=true |
Преобразование чисел из словарного в цифровой формат | По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true |
Уровень нормализации | Параметр API |
---|---|
Маскирование обсценной лексики | config.specification.profanityFilter=true |
Преобразование чисел из словарного в цифровой формат | По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true |
Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации | config.specification.literature_text=true |
API v3
Для включения нормализации задайте в API параметр text_normalization=TEXT_NORMALIZATION_ENABLED
. Некоторые опции включаются дополнительными параметрами, когда задан text_normalization=TEXT_NORMALIZATION_ENABLED
.
Уровень нормализации | Параметр API |
---|---|
Представление дат и времени в цифровом формате | text_normalization=TEXT_NORMALIZATION_ENABLED |
Преобразование чисел из словарного в цифровой формат | text_normalization=TEXT_NORMALIZATION_ENABLED |
Форматирование телефонных номеров | text_normalization=TEXT_NORMALIZATION_ENABLED . Чтобы выключить только этот уровень, укажите дополнительно phone_formatting_mode=PHONE_FORMATTING_MODE_DISABLED . |
Маскирование обсценной лексики | profanity_filter=true при включенном параметре text_normalization |
Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации | literature_text=true при включенном параметре text_normalization |