Синтез речи по шаблонам

Статья создана

Обновлена 10 марта 2025 г.

Исходные данные для синтеза по шаблонам
Использование синтеза по шаблонам

С помощью синтеза по шаблонам вы можете синтезировать речь по заранее заготовленным фразам (шаблонам), в которых изменяются отдельные ключевые части — переменные. Новая фраза будет синтезирована целиком, а не склеена из заранее записанного и синтезированного блоков. При этом интонации копируются из шаблона, а речь звучит естественно и неотличима от речи живого человека.

Синтез по шаблонам доступен только для голосов SpeechKit Brand Voice.

Важно

Сервис SpeechKit Brand Voice предоставляется по запросу. Для доступа к технологии заполните форму.

Исходные данные для синтеза по шаблонам

Каждый запрос для синтеза по шаблонам должен содержать:

аудиозапись шаблонной фразы;
текстовый шаблон с разметкой переменных частей;
значения переменных для синтеза новой фразы;
временную метку начала и длительность каждой переменной части.

Важно

Длина нормализованного текста переменной части фразы может занимать не более 25% синтезируемой фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

Например, желаемая фраза для синтеза Давайте проверим бронирование. Ваш рейс состоится восьмого сентября в одиннадцать часов двадцать минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Аудиозапись шаблона содержит фразу Давайте проверим бронирование. Ваш рейс состоится двадцать третьего марта в двадцать один час ноль ноль минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?.
Текстовый шаблон должен выглядеть так: Давайте проверим бронирование. Ваш рейс состоится {date} в {time}. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Список переменных: variable_name = '{date}', variable_value = 'восьмого сентября', variable_name = '{time}', variable_value = 'одиннадцать часов двадцать минут.

Подробнее о примерах реализации синтеза по шаблонам.

Требования к аудиозаписям шаблонов

Требование	Значение
Частота дискретизации	48 кГц для SpeechKit Brand Voice Self Service и SpeechKit Brand Voice Premium 8 кГц или выше для SpeechKit Brand Voice Call Center
Глубина аудио (audio bit depth)	16 бит PCM
Количество каналов	1 (моно)
Формат	WAV
Минимальная длительность аудиозаписи шаблона	1 секунда

Аудиозаписи шаблонов не должны содержать посторонние шумы и эхо. Допускается минимальная обработка аудиозаписи. Длительность тишины в начале и в конце записи — не более 1 секунды.

Требования к синтезируемым текстам

Шаблон должен соответствовать желаемому скрипту.

В шаблоне должна быть одна или несколько переменных для замены. Длительность звучания переменной части должна соответствовать образцу в шаблоне. Если длительность звучания переменной части может сильно отличаться, рекомендуем записать несколько шаблонов с примерами разной длины. Нормализованный текст переменной части фразы должен занимать не больше 25% от длины шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

Например, если в шаблоне Здравствуйте, меня зовут Ирина, я работаю в {company}. длина переменной company может быть очень разной (компании Облака, банке Надежность, региональном представительстве известной зарубежной компании), запишите два шаблона — для коротких и длинных значений. В зависимости от подставляемого значения передавайте при синтезе один из них. Так синтезированная речь останется естественной.

Длинные реплики диктора необходимо разбить на самостоятельные предложения и разные шаблоны. Синтезируемая фраза не может превышать 24 секунды и 250 символов.

При записи речи на русском языке обязательно указывайте букву «ё» в расшифровке. Использование «е» вместо «ё» в любых текстах для синтеза недопустимо.
В словах-омографах, где ударение может быть поставлено неоднозначно, явно указывайте ударную гласную знаком +.

«Он вставил ключ в зам+ок.», ударение падает на второй слог.
«Михайловский з+амок — главный корпус Пушкинского музея.», ударение падает на первый слог.
Строки текста для синтеза не должны содержать цифр и сокращений вида «ул. Строителей, д.15 к.3» или «13 руб 10 коп». Цифры и числа записывайте прописью, сокращения — полностью раскрывайте.

Улица Строителей, дом пятнадцать, корпус три.
Тринадцать рублей десять копеек.
В вопросительных предложениях укажите, на какое слово приходится **логическое ударение** — вопросительная интонация предложения.
Предложение «Кот пошел в лес?» можно прочитать тремя разными способами:
- **Кот** пошел в лес? — со смыслом «Кто пошел в лес? Это был действительно кот?»
- Кот **пошел** в лес? — со смыслом «Кот пошел или побежал?» или «Было ли совершено само действие? Кот ушел или нет?»
- Кот пошел **в лес**? — со смыслом «Куда или за чем пошел кот? В лес, в школу, за колбасой?»
Во всех предложениях логическое ударение выделяет основной смысл предложения.

Важно

Логическое ударение не должно падать на переменную часть фразы.

Использование синтеза по шаблонам

API v3:
- Brand Voice Premium и Brand Voice Self Service.
- SpeechKit Brand Voice Call Center.

Синтез речи по шаблонам

Исходные данные для синтеза по шаблонам

Требования к аудиозаписям шаблонов

Рекомендации для записи аудио

Требования к синтезируемым текстам

Использование синтеза по шаблонам

Была ли статья полезна?

Синтез речи по шаблонам

Исходные данные для синтеза по шаблонамИсходные данные для синтеза по шаблонам

Требования к аудиозаписям шаблоновТребования к аудиозаписям шаблонов

Рекомендации для записи аудиоРекомендации для записи аудио

Требования к синтезируемым текстамТребования к синтезируемым текстам

Использование синтеза по шаблонамИспользование синтеза по шаблонам

Была ли статья полезна?

Исходные данные для синтеза по шаблонам

Требования к аудиозаписям шаблонов

Рекомендации для записи аудио

Требования к синтезируемым текстам

Использование синтеза по шаблонам