Нормализация результатов распознавания

Статья создана

Обновлена 10 марта 2025 г.

Управление параметрами нормализации

Нормализация — это преобразование (постобработка) текста, полученного в результате работы модели распознавания речи Yandex SpeechKit. Нормализация выполняется согласно параметрам, указанным в запросах API.

Примечание

В режиме автоматического распознавания языка (код языка auto) нормализация не выполняется.

Вы можете применять следующие уровни нормализации:

Представление дат и времени в цифровом формате.
Преобразование чисел из словарного в цифровой формат.
Добавление заглавной буквы в начале предложения и в именах собственных.
Маскирование обсценной лексики.
Форматирование телефонных номеров. Например, 7(999)123-45-67 вместо 7 999 123 45 67.
Добавление знаков пунктуации.

Важно

Правила представления нормализованного текста могут меняться. Учитывайте это при интеграции и следите за обновлениями.

Управление параметрами нормализации

API v1

REST API v1 для синхронного распознавания.

Уровень нормализации	Параметр API
Маскирование обсценной лексики	`profanityFilter=true`
Преобразование чисел из словарного в цифровой формат	По умолчанию включено. Чтобы отключить, укажите `rawResults=true`

API v2

gRPC API v2 для потокового распознавания.

Уровень нормализации	Параметр API
Маскирование обсценной лексики	`config.specification.profanityFilter=true`
Преобразование чисел из словарного в цифровой формат	По умолчанию включено. Чтобы отключить, укажите `config.specification.rawResults=true`

REST API v2 для асинхронного распознавания.

Уровень нормализации	Параметр API
Маскирование обсценной лексики	`config.specification.profanityFilter=true`
Преобразование чисел из словарного в цифровой формат	По умолчанию включено. Чтобы отключить, укажите `config.specification.rawResults=true`
Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации	`config.specification.literature_text=true`

API v3

Для включения нормализации задайте в API параметр text_normalization=TEXT_NORMALIZATION_ENABLED. Некоторые опции включаются дополнительными параметрами, когда задан text_normalization=TEXT_NORMALIZATION_ENABLED.

Уровень нормализации	Параметр API
Представление дат и времени в цифровом формате	`text_normalization=TEXT_NORMALIZATION_ENABLED`
Преобразование чисел из словарного в цифровой формат	`text_normalization=TEXT_NORMALIZATION_ENABLED`
Форматирование телефонных номеров	`text_normalization=TEXT_NORMALIZATION_ENABLED`. Чтобы выключить только этот уровень, укажите дополнительно `phone_formatting_mode=PHONE_FORMATTING_MODE_DISABLED`.
Маскирование обсценной лексики	`profanity_filter=true` при включенном параметре `text_normalization`
Добавление заглавной буквы в начале предложения и в именах собственных. Добавление знаков пунктуации	`literature_text=true` при включенном параметре `text_normalization`

Нормализация результатов распознавания

Управление параметрами нормализацииУправление параметрами нормализации

API v1API v1

API v2API v2

API v3API v3

Была ли статья полезна?

Управление параметрами нормализации

API v1

API v2

API v3