Расширение модели распознавания речи
SpeechKit предоставляет два способа, которыми можно повысить качество распознавания речи.
Автотюнинг
По умолчанию SpeechKit не сохраняет переданные пользователем данные. Однако самый эффективный способ улучшать модель распознавания речи — это обучать ее на реальных пользовательских данных.
Чтобы повысить качество распознавания, вы можете использовать автотюнинг модели. Автотюнинг позволит сохранять переданные в запросах данные и использовать их для дальнейшего обучения. Для этого в запросах API указывайте заголовок x-data-logging-enabled: true
. Пример запроса с включенным логированием см. в разделе Диагностика ошибок в Yandex SpeechKit.
Автотюнинг позволяет повышать качество распознавания в процессе работы модели без дополнительных действий с вашей стороны.
Дообучение модели
Основная модель распознавания речи предназначена для работы с общей лексикой, однако ее может быть недостаточно для распознавания специфичной лексики. С помощью дообучения модель можно научить распознавать доменно-специфичные термины из разных областей:
- медицина — диагнозы, биологические термины, названия лекарств;
- бизнес — названия компаний;
- торговля — номенклатура товаров (ювелирные изделия, электротехника и т.п.);
- финансы — банковские термины и названия банковских продуктов.
Данные для дообучения
Для дообучения необходимы следующие данные:
- Глоссарий — полный список терминов. В глоссарии могут содержаться как слова, присутствующие на аудиозаписях для тестирования, так и другая лексика. Глоссарий должен быть предоставлен в отдельном файле, каждый термин размещается в файле на отдельной строке.
- Текстовые шаблоны — однородные фразы, на основе которых модель будет синтезировать высказывания. Длина шаблона вместе с переменными не должна превышать 200 символов.
Глоссарий и текстовые шаблоны должны быть представлены в формате TSV
- Числительные — расшифрованы прописью.
- Латинские слова и символы — заменены на транскрипцию.
- Сокращения — полностью прописаны.
- Аббревиатуры — расшифрованы полностью или заменены на транскрипцию.
— Безвозмездно, т.е. даром, отдадим 2 кг картошки, модель спирали ДНК и журналы Cloud of Science за 2020 г.
— Безвозмездно, то есть даром, отдадим два килограмма картошки, модель спирали дэ эн ка и журналы Клауд оф сайенс за две тысячи двадцатый год.
Из полученных файлов будут подготовлены текстовые данные. В переменную часть шаблонов подставляются термины из глоссариев. Чтобы дообучение было эффективным, необходимо достаточное количество данных:
- Не менее 1 тысячи высказываний.
- Не менее 3-5 фраз, желательно пропорционально частоте использования термина в реальных задачах.
Например, файлы-глоссарии first-name.tsv
, middle-name.tsv
и last-name.tsv
для дообучения модели колл-центра могут содержать имена, отчества и фамилии клиентов.
first-name.tsv | middle-name.tsv | last-name.tsv |
---|---|---|
Никита Кирилл Павел ... |
Александрович Петрович Казимирович ... |
Романов Алексеев Кукушкин ... |
Если фразы-шаблоны предполагают, что термины из глоссария могут склоняться, для каждой формы нужно создать отдельный файл-глоссарий. Например, файлы с именами в творительном падеже будут содержать записи:
first-name-ablative.tsv | middle-name-ablative.tsv | last-name-ablative.tsv |
---|---|---|
Никитой Кириллом Павлом ... |
Александровичем Петровичем Казимировичем ... |
Романовым Алексеевым Кукушкиным ... |
Тогда файл с шаблонами templates.tsv
может состоять из записей вида
Добрый день, вы {first-name=first-names.tsv} {middle-name=middle-names.tsv} {last-name=last-names.tsv}?
Здравствуйте, я могу поговорить с {first-name=first-names-ablative.tsv} {middle-name=middle-names-ablative.tsv}?
Загрузка данных для дообучения
Чтобы передать данные для дообучения команде SpeechKit, обратитесь
Сроки готовности модели
Как правило, изменения поступают в модель general:rc
в течение 4 недель по стандартному циклу подготовки релиза.