Синтез речи по шаблонам
С помощью синтеза по шаблонам вы можете синтезировать речь по заранее заготовленным фразам (шаблонам), в которых изменяются отдельные ключевые части — переменные. Новая фраза будет синтезирована целиком, а не склеена из заранее записанного и синтезированного блоков. При этом интонации копируются из шаблона, а речь звучит естественно и неотличима от речи живого человека.
Синтез по шаблонам доступен только для голосов SpeechKit Brand Voice.
Важно
Сервис SpeechKit Brand Voice предоставляется по запросу. Для доступа к технологии заполните форму.
Исходные данные для синтеза по шаблонам
Каждый запрос для синтеза по шаблонам должен содержать:
- аудиозапись шаблонной фразы;
- текстовый шаблон с разметкой переменных частей;
- значения переменных для синтеза новой фразы;
- временную метку начала и длительность каждой переменной части.
Важно
Длина нормализованного текста переменной части фразы может занимать не более 25% синтезируемой фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.
Например, желаемая фраза для синтеза
Давайте проверим бронирование. Ваш рейс состоится восьмого сентября в одиннадцать часов двадцать минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Аудиозапись шаблона содержит фразуДавайте проверим бронирование. Ваш рейс состоится двадцать третьего марта в двадцать один час ноль ноль минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
.
Текстовый шаблон должен выглядеть так:Давайте проверим бронирование. Ваш рейс состоится {date} в {time}. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Список переменных:variable_name = '{date}', variable_value = 'восьмого сентября'
,variable_name = '{time}', variable_value = 'одиннадцать часов двадцать минут
.
Подробнее о примерах реализации синтеза по шаблонам.
Требования к аудиозаписям шаблонов
Требование | Значение |
---|---|
Частота дискретизации | 48 кГц для SpeechKit Brand Voice Self Service и SpeechKit Brand Voice Premium8 кГц или выше для SpeechKit Brand Voice Call Center |
Глубина аудио (audio bit depth) | 16 бит PCM |
Количество каналов | 1 (моно) |
Формат | WAV |
Минимальная длительность аудиозаписи шаблона | 1 секунда |
Аудиозаписи шаблонов не должны содержать посторонние шумы и эхо. Допускается минимальная обработка аудиозаписи. Длительность тишины в начале и в конце записи — не более 1 секунды.
Рекомендации для записи аудио
Шумы и эхо при записи напрямую влияют на качество обучения и работы модели для синтеза речи. Поэтому при записи аудио для обучения и дообучения модели или шаблонов для синтеза по шаблонам старайтесь максимально уменьшить отражение звука в помещении. Идеальным местом для записи будет комната, оборудованная акустическими панелями. Если запись происходит в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель: ковер, мягкий диван и т.д.
Используйте одинаково настроенное и расположенное оборудование для записи всех аудио.
Не совмещайте роли звукорежиссера записи, диктора и войскоуча в одном лице. Войскоуч — специалист, который следит, чтобы диктор строго следовал тексту и не менял манеры повествования.
При записи любых аудио, предназначенных для модели синтеза речи, придерживайтесь правила «одна фраза — один файл».
Неточности, микроповторы, оговорки и замены слов недопустимы. Любые дефекты дикции в записях, на основе которых работает модель синтеза, значительно снижают качество синтезируемой речи.
Каждая запись шаблона или фразы для обучения модели должна сопровождаться абсолютно точной текстовой расшифровкой. Шаблоны, обучающие фразы и их расшифровки не должны содержать грамматических ошибок.
Требования к синтезируемым текстам
Шаблон должен соответствовать желаемому скрипту.
В шаблоне должна быть одна или несколько переменных для замены. Длительность звучания переменной части должна соответствовать образцу в шаблоне. Если длительность звучания переменной части может сильно отличаться, рекомендуем записать несколько шаблонов с примерами разной длины. Нормализованный текст переменной части фразы должен занимать не больше 25% от длины шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.
Например, если в шаблоне
Здравствуйте, меня зовут Ирина, я работаю в {company}.
длина переменнойcompany
может быть очень разной (компании Облака
,банке Надежность
,региональном представительстве известной зарубежной компании
), запишите два шаблона — для коротких и длинных значений. В зависимости от подставляемого значения передавайте при синтезе один из них. Так синтезированная речь останется естественной.
Длинные реплики диктора необходимо разбить на самостоятельные предложения и разные шаблоны. Синтезируемая фраза не может превышать 24 секунды и 250 символов.
-
При записи речи на русском языке обязательно указывайте букву «ё» в расшифровке. Использование «е» вместо «ё» в любых текстах для синтеза недопустимо.
-
В словах-омографах, где ударение может быть поставлено неоднозначно, явно указывайте ударную гласную знаком
+
.«Он вставил ключ в зам+ок.», ударение падает на второй слог.
«Михайловский з+амок — главный корпус Пушкинского музея.», ударение падает на первый слог. -
Строки текста для синтеза не должны содержать цифр и сокращений вида «ул. Строителей, д.15 к.3» или «13 руб 10 коп». Цифры и числа записывайте прописью, сокращения — полностью раскрывайте.
Улица Строителей, дом пятнадцать, корпус три.
Тринадцать рублей десять копеек. -
В вопросительных предложениях укажите, на какое слово приходится **логическое ударение** — вопросительная интонация предложения.
Предложение «Кот пошел в лес?» можно прочитать тремя разными способами:
- **Кот** пошел в лес? — со смыслом «Кто пошел в лес? Это был действительно кот?»
- Кот **пошел** в лес? — со смыслом «Кот пошел или побежал?» или «Было ли совершено само действие? Кот ушел или нет?»
- Кот пошел **в лес**? — со смыслом «Куда или за чем пошел кот? В лес, в школу, за колбасой?»
Во всех предложениях логическое ударение выделяет основной смысл предложения.
Важно
Логическое ударение не должно падать на переменную часть фразы.