Подготовка и загрузка данных для SpeechKit Brand Voice Lite
SpeechKit Brand Voice Lite позволяет создать свой уникальный голос, загрузив минимум размеченных аудиозаписей. В результате вы получите URI дообученной модели, к которой сможете обращаться из своих приложений через API.
Какие данные нужны для обучения
Чтобы создать свой голос SpeechKit Brand Voice Lite, необходимо подготовить и загрузить данные для обучения — записи аудио и соответствующие им тексты. Объем данных, необходимых для обучения модели, зависит от целей использования создаваемого голоса и особенностей дикции диктора. Так, голос для озвучки художественной литературы потребует больше данных, чем голос для голосового робота.
Минимальный объем необходимых данных — 20 минут, рекомендуемый — 40 минут, хороший — час и более. Для обучения модели нескольким амплуа понадобится создать датасет для каждого, указав его название в параметрах.
Данные для обучения загружаются одним ZIP-архивом, содержащим:
- Аудиозаписи в формате WAV.
- Таблицу в формате TSV
в кодировке UTF-8, содержащей текстовые расшифровки аудиозаписей из архива. Таблица должна состоять из двух колонок без заголовков:- имя файла с аудиозаписью, на которой диктор произносит текст;
- строка, содержащая дословную расшифровку аудиозаписи.
Важно
В каждой аудиозаписи должна быть полностью произнесенная фраза из одного или нескольких предложений длительностью не более 15 секунд. Текстовая расшифровка в таблице должна полностью совпадать с текстом на аудиозаписи.
В каждой аудиозаписи в начале и в конце должны присутствовать интервалы тишины, обрезанные звуки и слова недопустимы. Нельзя взять аудиозапись подкаста и нарезать ее на отрезки по 15 секунд: в этом случае границы аудиозаписей будут попадать на середину слова или фразы и не будут соответствовать логическим фразам. Обучить качественную модель на таких данных не получится.
Пример правильно подготовленной аудиозаписи: в начале и в конце аудио есть несколько миллисекунд тишины, фраза произнесена полностью.
Пример плохой аудиозаписи: в начале и в конце аудио нет интервалов тишины, начало и конец фразы обрезаны.
Такие аудиозаписи будут иметь искажения и не подойдут для обучения модели.
Пример подготовленных данных
Перед загрузкой данных для создания голоса запакуйте все аудиофайлы (1.wav, 2.wav, 3.wav) и таблица в формате TSV, соотносящая аудиофайлы и их расшифровки, в ZIP-архив.
Заголовок таблицы приведен для наглядности, в файле для загрузки он должен отсутствовать.
recordings | text |
---|---|
1.wav | Книги собирают жемчужины человеческой мысли и передают их потомству. |
2.wav | Мы предлагаем вам замечательную книгу! |
3.wav | Книга рекомендована школьникам от пяти лет. |
Подготовьте данные
Тексты для обучения
Как минимум 30% обучающих данных должны содержать вопросы, чтобы обученный голос мог синтезировать вопросительную интонацию в тексте.
Вы можете использовать для обучения тексты, подготовленные командой SpeechKit, или создать их самостоятельно. Если вы используете пример
Требования ко всем текстам
Совет
Результат обучения голосовой модели SpeechKit Brand Voice Lite напрямую зависит от обучающих данных. Выполняйте приведенные требования и рекомендации к текстам, чтобы получить качественный голос SpeechKit Brand Voice Lite.
-
Текст в расшифровке должен полностью совпадать с озвученным в аудио.
-
Рекомендуемая длина фразы — не более 250 символов.
-
Все фразы должны быть полными, без обрывов на полуслове.
"..ть Время! Разве такое ему может понравиться! Если б ты с ним не ссорилась, могла бы просить у него все, что хо."
-
Тексты не должны содержать грамматических ошибок.
-
При записи речи на русском языке обязательно указывайте букву «ё» в расшифровке. Использование «е» вместо «ё» в любых текстах для синтеза недопустимо.
-
В словах-омографах, где ударение может быть поставлено неоднозначно, явно указывайте ударную гласную знаком
+
.«Он вставил ключ в зам+ок.», ударение падает на второй слог.
«Михайловский з+амок — главный корпус Пушкинского музея.», ударение падает на первый слог. -
Строки текста для синтеза не должны содержать цифр и сокращений вида «ул. Строителей, д.15 к.3» или «13 руб 10 коп». Цифры и числа записывайте прописью, сокращения — полностью раскрывайте.
Улица Строителей, дом пятнадцать, корпус три.
Тринадцать рублей десять копеек. -
В вопросительных предложениях укажите, на какое слово приходится **логическое ударение** — вопросительная интонация предложения.
Предложение «Кот пошел в лес?» можно прочитать тремя разными способами:
- **Кот** пошел в лес? — со смыслом «Кто пошел в лес? Это был действительно кот?»
- Кот **пошел** в лес? — со смыслом «Кот пошел или побежал?» или «Было ли совершено само действие? Кот ушел или нет?»
- Кот пошел **в лес**? — со смыслом «Куда или за чем пошел кот? В лес, в школу, за колбасой?»
Во всех предложениях логическое ударение выделяет основной смысл предложения.
Запишите аудиофайлы
Общие рекомендации для записи аудио
Шумы и эхо при записи напрямую влияют на качество обучения и работы модели для синтеза речи. Поэтому при записи аудио для обучения и дообучения модели или шаблонов для синтеза по шаблонам старайтесь максимально уменьшить отражение звука в помещении. Идеальным местом для записи будет комната, оборудованная акустическими панелями. Если запись происходит в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель: ковер, мягкий диван и т.д.
Используйте одинаково настроенное и расположенное оборудование для записи всех аудио.
Не совмещайте роли звукорежиссера записи, диктора и войскоуча в одном лице. Войскоуч — специалист, который следит, чтобы диктор строго следовал тексту и не менял манеры повествования.
При записи любых аудио, предназначенных для модели синтеза речи, придерживайтесь правила «одна фраза — один файл».
Неточности, микроповторы, оговорки и замены слов недопустимы. Любые дефекты дикции в записях, на основе которых работает модель синтеза, значительно снижают качество синтезируемой речи.
Каждая запись шаблона или фразы для обучения модели должна сопровождаться абсолютно точной текстовой расшифровкой. Шаблоны, обучающие фразы и их расшифровки не должны содержать грамматических ошибок.
Требования к аудиозаписям
Требование | Значение |
---|---|
Частота дискретизации | 48 кГц |
Глубина аудио (audio bit depth) | 16 бит PCM |
Количество каналов | 1 (моно) |
Формат | WAV |
Продолжительность | ≤15 секунд |
Тишина в начале и в конце | 100–200 миллисекунд |
Сохраните все аудиозаписи в ZIP-архив для загрузки вместе с таблицой с текстами в формате TSV.
Загрузите данные
Текстовые данные и аудиофайлы загружаются архивом через интерфейс в консоли управления