Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • О технологии
    • Список голосов
      • Обзор
      • Данные для Brand Voice Self Service
      • Данные для SpeechKit Brand Voice Call Center
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации

В этой статье:

  • Исходные данные для синтеза по шаблонам
  • Требования к аудиозаписям шаблонов
  • Рекомендации для записи аудио
  • Требования к синтезируемым текстам
  • Использование синтеза по шаблонам
  1. Синтез речи
  2. SpeechKit Brand Voice
  3. Данные для SpeechKit Brand Voice Call Center

Синтез речи по шаблонам

Статья создана
Yandex Cloud
Обновлена 10 марта 2025 г.
  • Исходные данные для синтеза по шаблонам
    • Требования к аудиозаписям шаблонов
    • Рекомендации для записи аудио
    • Требования к синтезируемым текстам
  • Использование синтеза по шаблонам

С помощью синтеза по шаблонам вы можете синтезировать речь по заранее заготовленным фразам (шаблонам), в которых изменяются отдельные ключевые части — переменные. Новая фраза будет синтезирована целиком, а не склеена из заранее записанного и синтезированного блоков. При этом интонации копируются из шаблона, а речь звучит естественно и неотличима от речи живого человека.

Синтез по шаблонам доступен только для голосов SpeechKit Brand Voice.

Важно

Сервис SpeechKit Brand Voice предоставляется по запросу. Для доступа к технологии заполните форму.

Исходные данные для синтеза по шаблонам

Каждый запрос для синтеза по шаблонам должен содержать:

  • аудиозапись шаблонной фразы;
  • текстовый шаблон с разметкой переменных частей;
  • значения переменных для синтеза новой фразы;
  • временную метку начала и длительность каждой переменной части.

Важно

Длина нормализованного текста переменной части фразы может занимать не более 25% синтезируемой фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

Например, желаемая фраза для синтеза Давайте проверим бронирование. Ваш рейс состоится восьмого сентября в одиннадцать часов двадцать минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Аудиозапись шаблона содержит фразу Давайте проверим бронирование. Ваш рейс состоится двадцать третьего марта в двадцать один час ноль ноль минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?.
Текстовый шаблон должен выглядеть так: Давайте проверим бронирование. Ваш рейс состоится {date} в {time}. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Список переменных: variable_name = '{date}', variable_value = 'восьмого сентября', variable_name = '{time}', variable_value = 'одиннадцать часов двадцать минут.

Подробнее о примерах реализации синтеза по шаблонам.

Требования к аудиозаписям шаблонов

Требование Значение
Частота дискретизации 48 кГц для SpeechKit Brand Voice Self Service и SpeechKit Brand Voice Premium
8 кГц или выше для SpeechKit Brand Voice Call Center
Глубина аудио (audio bit depth) 16 бит PCM
Количество каналов 1 (моно)
Формат WAV
Минимальная длительность аудиозаписи шаблона 1 секунда

Аудиозаписи шаблонов не должны содержать посторонние шумы и эхо. Допускается минимальная обработка аудиозаписи. Длительность тишины в начале и в конце записи — не более 1 секунды.

Рекомендации для записи аудио

Шумы и эхо при записи напрямую влияют на качество обучения и работы модели для синтеза речи. Поэтому при записи аудио для обучения и дообучения модели или шаблонов для синтеза по шаблонам старайтесь максимально уменьшить отражение звука в помещении. Идеальным местом для записи будет комната, оборудованная акустическими панелями. Если запись происходит в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель: ковер, мягкий диван и т.д.

Используйте одинаково настроенное и расположенное оборудование для записи всех аудио.

Не совмещайте роли звукорежиссера записи, диктора и войскоуча в одном лице. Войскоуч — специалист, который следит, чтобы диктор строго следовал тексту и не менял манеры повествования.

При записи любых аудио, предназначенных для модели синтеза речи, придерживайтесь правила «одна фраза — один файл».

Неточности, микроповторы, оговорки и замены слов недопустимы. Любые дефекты дикции в записях, на основе которых работает модель синтеза, значительно снижают качество синтезируемой речи.

Каждая запись шаблона или фразы для обучения модели должна сопровождаться абсолютно точной текстовой расшифровкой. Шаблоны, обучающие фразы и их расшифровки не должны содержать грамматических ошибок.

Требования к синтезируемым текстам

Шаблон должен соответствовать желаемому скрипту.

В шаблоне должна быть одна или несколько переменных для замены. Длительность звучания переменной части должна соответствовать образцу в шаблоне. Если длительность звучания переменной части может сильно отличаться, рекомендуем записать несколько шаблонов с примерами разной длины. Нормализованный текст переменной части фразы должен занимать не больше 25% от длины шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

Например, если в шаблоне Здравствуйте, меня зовут Ирина, я работаю в {company}. длина переменной company может быть очень разной (компании Облака, банке Надежность, региональном представительстве известной зарубежной компании), запишите два шаблона — для коротких и длинных значений. В зависимости от подставляемого значения передавайте при синтезе один из них. Так синтезированная речь останется естественной.

Длинные реплики диктора необходимо разбить на самостоятельные предложения и разные шаблоны. Синтезируемая фраза не может превышать 24 секунды и 250 символов.

  • При записи речи на русском языке обязательно указывайте букву «ё» в расшифровке. Использование «е» вместо «ё» в любых текстах для синтеза недопустимо.

  • В словах-омографах, где ударение может быть поставлено неоднозначно, явно указывайте ударную гласную знаком +.

    «Он вставил ключ в зам+ок.», ударение падает на второй слог.
    «Михайловский з+амок — главный корпус Пушкинского музея.», ударение падает на первый слог.

  • Строки текста для синтеза не должны содержать цифр и сокращений вида «ул. Строителей, д.15 к.3» или «13 руб 10 коп». Цифры и числа записывайте прописью, сокращения — полностью раскрывайте.

    Улица Строителей, дом пятнадцать, корпус три.
    Тринадцать рублей десять копеек.

  • В вопросительных предложениях укажите, на какое слово приходится **логическое ударение** — вопросительная интонация предложения.

    Предложение «Кот пошел в лес?» можно прочитать тремя разными способами:

    • **Кот** пошел в лес? — со смыслом «Кто пошел в лес? Это был действительно кот?»
    • Кот **пошел** в лес? — со смыслом «Кот пошел или побежал?» или «Было ли совершено само действие? Кот ушел или нет?»
    • Кот пошел **в лес**? — со смыслом «Куда или за чем пошел кот? В лес, в школу, за колбасой?»

    Во всех предложениях логическое ударение выделяет основной смысл предложения.

Важно

Логическое ударение не должно падать на переменную часть фразы.

Использование синтеза по шаблонам

  • API v3:

    • Brand Voice Premium и Brand Voice Self Service.
    • SpeechKit Brand Voice Call Center.

Была ли статья полезна?

Предыдущая
Данные для Brand Voice Self Service
Следующая
О технологии
Проект Яндекса
© 2025 ООО «Яндекс.Облако»