Yandex Cloud
Поиск
Связаться с намиПопробовать бесплатно
  • Кейсы
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Кейсы
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»
  • Обзор технологий SpeechKit
    • О технологии
    • Список голосов
      • Обзор
      • Данные для SpeechKit Brand Voice Lite
      • Данные для Brand Voice Self Service
      • Данные для SpeechKit Brand Voice Call Center
      • Рекомендации для записи амплуа
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Аудитные логи Audit Trails

В этой статье:

  • Исходные данные для синтеза по шаблонам
  • Требования к аудиозаписям шаблонов
  • Рекомендации для записи аудио
  • Требования к синтезируемым текстам
  • Использование синтеза по шаблонам
  1. Синтез речи
  2. SpeechKit Brand Voice
  3. Данные для SpeechKit Brand Voice Call Center

Синтез речи по шаблонам

Статья создана
Yandex Cloud
Обновлена 3 марта 2026 г.
  • Исходные данные для синтеза по шаблонам
    • Требования к аудиозаписям шаблонов
    • Рекомендации для записи аудио
    • Требования к синтезируемым текстам
  • Использование синтеза по шаблонам

С помощью синтеза по шаблонам вы можете синтезировать речь по заранее заготовленным фразам (шаблонам), в которых изменяются отдельные ключевые части — переменные. Новая фраза будет синтезирована целиком, а не склеена из заранее записанного и синтезированного блоков. При этом интонации копируются из шаблона, а речь звучит естественно и неотличима от речи живого человека.

Синтез по шаблонам доступен только для голосов SpeechKit Brand Voice.

Важно

Сервис SpeechKit Brand Voice предоставляется по запросу. Для доступа к технологии заполните форму.

Исходные данные для синтеза по шаблонамИсходные данные для синтеза по шаблонам

Каждый запрос для синтеза по шаблонам должен содержать:

  • аудиозапись шаблонной фразы;
  • текстовый шаблон с разметкой переменных частей;
  • значения переменных для синтеза новой фразы;
  • временную метку начала и длительность каждой переменной части.

Важно

Длина нормализованного текста переменной части фразы может занимать не более 25% синтезируемой фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

Например, желаемая фраза для синтеза Давайте проверим бронирование. Ваш рейс состоится восьмого сентября в одиннадцать часов двадцать минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Аудиозапись шаблона содержит фразу Давайте проверим бронирование. Ваш рейс состоится двадцать третьего марта в двадцать один час ноль ноль минут. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?.
Текстовый шаблон должен выглядеть так: Давайте проверим бронирование. Ваш рейс состоится {date} в {time}. Аэропорт вылета Домодедово, аэропорт прилета Пулково. Всё верно?
Список переменных: variable_name = '{date}', variable_value = 'восьмого сентября', variable_name = '{time}', variable_value = 'одиннадцать часов двадцать минут.

Подробнее о примерах реализации синтеза по шаблонам.

Требования к аудиозаписям шаблоновТребования к аудиозаписям шаблонов

Требование Значение
Частота дискретизации 48 кГц для SpeechKit Brand Voice Self Service и SpeechKit Brand Voice Premium
8 кГц или выше для SpeechKit Brand Voice Call Center
Глубина аудио (audio bit depth) 16 бит PCM
Количество каналов 1 (моно)
Формат WAV
Минимальная длительность аудиозаписи шаблона 1 секунда

Аудиозаписи шаблонов не должны содержать посторонние шумы и эхо. Допускается минимальная обработка аудиозаписи. Длительность тишины в начале и в конце записи — не более 1 секунды.

Рекомендации для записи аудиоРекомендации для записи аудио

Шумы и эхо при записи напрямую влияют на качество обучения и работы модели для синтеза речи. Поэтому при записи аудио для обучения и дообучения модели или шаблонов для синтеза по шаблонам старайтесь максимально уменьшить отражение звука в помещении. Идеальным местом для записи будет комната, оборудованная акустическими панелями. Если запись происходит в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель: ковер, мягкий диван и т.д.

Используйте одинаково настроенное и расположенное оборудование для записи всех аудио.

Не совмещайте роли звукорежиссера записи, диктора и войскоуча в одном лице. Войскоуч — специалист, который следит, чтобы диктор строго следовал тексту и не менял манеры повествования.

При записи любых аудио, предназначенных для модели синтеза речи, придерживайтесь правила «одна фраза — один файл».

Неточности, микроповторы, оговорки и замены слов недопустимы. Любые дефекты дикции в записях, на основе которых работает модель синтеза, значительно снижают качество синтезируемой речи.

Каждая запись шаблона или фразы для обучения модели должна сопровождаться абсолютно точной текстовой расшифровкой. Шаблоны, обучающие фразы и их расшифровки не должны содержать грамматических ошибок.

Требования к синтезируемым текстамТребования к синтезируемым текстам

Шаблон должен соответствовать желаемому скрипту.

В шаблоне должна быть одна или несколько переменных для замены. Длительность звучания переменной части должна соответствовать образцу в шаблоне. Если длительность звучания переменной части может сильно отличаться, рекомендуем записать несколько шаблонов с примерами разной длины. Нормализованный текст переменной части фразы должен занимать не больше 25% от длины шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

Например, если в шаблоне Здравствуйте, меня зовут Ирина, я работаю в {company}. длина переменной company может быть очень разной (компании Облака, банке Надежность, региональном представительстве известной зарубежной компании), запишите два шаблона — для коротких и длинных значений. В зависимости от подставляемого значения передавайте при синтезе один из них. Так синтезированная речь останется естественной.

Длинные реплики диктора необходимо разбить на самостоятельные предложения и разные шаблоны. Синтезируемая фраза не может превышать 24 секунды и 250 символов.

  • При записи речи на русском языке обязательно указывайте букву «ё» в расшифровке. Использование «е» вместо «ё» в любых текстах для синтеза недопустимо.

  • В словах-омографах, где ударение может быть поставлено неоднозначно, явно указывайте ударную гласную знаком +.

    «Он вставил ключ в зам+ок.», ударение падает на второй слог.
    «Михайловский з+амок — главный корпус Пушкинского музея.», ударение падает на первый слог.

  • Строки текста для синтеза не должны содержать цифр и сокращений вида «ул. Строителей, д.15 к.3» или «13 руб 10 коп». Цифры и числа записывайте прописью, сокращения — полностью раскрывайте.

    Улица Строителей, дом пятнадцать, корпус три.
    Тринадцать рублей десять копеек.

  • В вопросительных предложениях укажите, на какое слово приходится **логическое ударение** — вопросительная интонация предложения.

    Предложение «Кот пошел в лес?» можно прочитать тремя разными способами:

    • **Кот** пошел в лес? — со смыслом «Кто пошел в лес? Это был действительно кот?»
    • Кот **пошел** в лес? — со смыслом «Кот пошел или побежал?» или «Было ли совершено само действие? Кот ушел или нет?»
    • Кот пошел **в лес**? — со смыслом «Куда или за чем пошел кот? В лес, в школу, за колбасой?»

    Во всех предложениях логическое ударение выделяет основной смысл предложения.

Важно

Логическое ударение не должно падать на переменную часть фразы.

Использование синтеза по шаблонамИспользование синтеза по шаблонам

  • API v3:

    • Brand Voice Premium и Brand Voice Self Service.
    • SpeechKit Brand Voice Call Center.

Была ли статья полезна?

Предыдущая
Данные для Brand Voice Self Service
Следующая
Рекомендации для записи амплуа
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ТОО «Облачные Сервисы Казахстан»