Загрузка данных для дообучения модели распознавания речи
Важно
Функциональность доступна только в регионе Россия.
Чтобы загрузить данные для дообучения модели распознавания речи, соберите их в архив и передайте его команде SpeechKit. Дообучение доступно только для распознавания на русском языке.
Перед началом работы
- Подготовьте файлы TSV с терминами и примерами.
- Создайте сообщество в Yandex DataSphere. В нем вы будете работать.
- Привяжите к сообществу платежный аккаунт.
Подготовка архива с данными для дообучения
-
На главной странице DataSphere создайте проект.
-
Откройте ноутбук
, содержащий функцию проверки данных. Данные будут упакованы в архив, который нужно будет передать команде SpeechKit, чтобы дообучить модель. -
Нажмите кнопку Запустить в Yandex DataSphere.
-
Выберите проект, созданный ранее, и нажмите кнопку Добавить.
Ноутбук откроется в JupyterLab в выбранном проекте.
-
Перетащите файлы с терминами и примерами в папку проекта в JupyterLab.
-
В ноутбуке вызовите функцию для проверки данных. Будет сформирован архив для загрузки в SpeechKit.
Чтобы вызвать функцию, в ноутбуке выделите ячейку, указанную ниже, и нажмите кнопку
:prepare_stt_templates( templates_path="<имя_файла_с_терминами_и_примерами>.tsv", output_path="<имя_файла_с_результатами>_tar.gz", )
-
Скачайте полученный архив. Для этого кликните на него правой кнопкой мыши и нажмите
Download. -
Обратитесь в техническую поддержку
и передайте ей собранный архив.