Нормализация результатов распознавания
Статья создана
Обновлена 10 марта 2025 г.
Нормализация — это преобразование (постобработка) текста, полученного в результате работы модели распознавания речи Yandex SpeechKit. Нормализация выполняется согласно параметрам, указанным в запросах API.
Примечание
В режиме автоматического распознавания языка (код языка auto) нормализация не выполняется.
Вы можете применять следующие уровни нормализации:
- Представление дат и времени в цифровом формате.
- Преобразование чисел из словарного в цифровой формат.
- Добавление заглавной буквы в начале предложения и в именах собственных.
- Маскирование обсценной лексики.
- Форматирование телефонных номеров. Например,
7(999)123-45-67вместо7 999 123 45 67. - Добавление знаков пунктуации.
Важно
Правила представления нормализованного текста могут меняться. Учитывайте это при интеграции и следите за обновлениями.
Управление параметрами нормализации
API v1
| Уровень нормализации | Параметр API |
|---|---|
| Маскирование обсценной лексики | profanityFilter=true |
| Преобразование чисел из словарного в цифровой формат | По умолчанию включено. Чтобы отключить, укажите rawResults=true |
API v2
| Уровень нормализации | Параметр API |
|---|---|
| Маскирование обсценной лексики | config.specification.profanityFilter=true |
| Преобразование чисел из словарного в цифровой формат | По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true |
| Уровень нормализации | Параметр API |
|---|---|
| Маскирование обсценной лексики | config.specification.profanityFilter=true |
| Преобразование чисел из словарного в цифровой формат | По умолчанию включено. Чтобы отключить, укажите config.specification.rawResults=true |
| Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации | config.specification.literature_text=true |
API v3
Для включения нормализации задайте в API параметр text_normalization=TEXT_NORMALIZATION_ENABLED. Некоторые опции включаются дополнительными параметрами, когда задан text_normalization=TEXT_NORMALIZATION_ENABLED.
| Уровень нормализации | Параметр API |
|---|---|
| Представление дат и времени в цифровом формате | text_normalization=TEXT_NORMALIZATION_ENABLED |
| Преобразование чисел из словарного в цифровой формат | text_normalization=TEXT_NORMALIZATION_ENABLED |
| Форматирование телефонных номеров | text_normalization=TEXT_NORMALIZATION_ENABLED. Чтобы выключить только этот уровень, укажите дополнительно phone_formatting_mode=PHONE_FORMATTING_MODE_DISABLED. |
| Маскирование обсценной лексики | profanity_filter=true при включенном параметре text_normalization |
| Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации | literature_text=true при включенном параметре text_normalization |