Загрузка данных для дообучения модели распознавания речи
Чтобы загрузить данные для дообучения модели распознавания речи, соберите их в архив и передайте его команде SpeechKit.
Перед началом работы
- Подготовьте файлы TSV с текстовыми шаблонами и глоссариями.
- Убедитесь, что они соответствуют требованиям. Иначе файлы не пройдут проверку, и вы не сможете собрать архив.
- Создайте сообщество в Yandex DataSphere. В нем вы будете работать.
- Привяжите к сообществу платежный аккаунт.
Подготовка архива с данными для дообучения
-
На главной странице DataSphere создайте проект.
-
Откройте ноутбук
, содержащий функцию проверки данных. Если данные удовлетворяют требованиям, они будут упакованы в архив, который нужно будет передать команде SpeechKit, чтобы дообучить модель. -
Нажмите кнопку Запустить в Yandex DataSphere.
-
Выберите проект, созданный ранее, и нажмите кнопку Добавить.
Ноутбук откроется в JupyterLab в выбранном проекте.
-
Перетащите файлы с текстовыми шаблонам и глоссариями в папку проекта в JupyterLab.
-
В ноутбуке вызовите функцию для проверки данных. Будет сформирован архив для загрузки в SpeechKit.
Чтобы вызвать функцию, в ноутбуке выделите ячейку, указанную ниже, и нажмите кнопку
:prepare_stt_templates( templates_path="<имя_файла_с_шаблонами>.tsv", variables_path="<имя_папки_с_глоссариями>", output_path="<имя_файла_с_результатами>_tar.gz", )
-
Скачайте полученный архив. Для этого кликните на него правой кнопкой мыши и нажмите
Download. -
Обратитесь в техническую поддержку
и передайте ей собранный архив.