Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • О технологии
    • Список голосов
      • Обзор
      • Данные для Brand Voice Self Service
      • Данные для SpeechKit Brand Voice Call Center
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации

В этой статье:

  • SpeechKit Brand Voice Premium
  • SpeechKit Brand Voice Self Service
  • SpeechKit Brand Voice Call Center
  • Требования и ограничения SpeechKit Brand Voice Call Center
  1. Синтез речи
  2. SpeechKit Brand Voice
  3. Обзор

Yandex SpeechKit Brand Voice

Статья создана
Yandex Cloud
Обновлена 10 марта 2025 г.
  • SpeechKit Brand Voice Premium
  • SpeechKit Brand Voice Self Service
  • SpeechKit Brand Voice Call Center
    • Требования и ограничения SpeechKit Brand Voice Call Center

Технология SpeechKit Brand Voice позволяет создавать уникальные голоса для модели синтеза речи. Технология синтезирует как простой текст, так и текст по шаблонам. Они содержат фразы с переменными, которые заменяются на заготовленный текст. В зависимости от целей использования обученной модели Yandex Cloud предлагает три направления SpeechKit Brand Voice.

Brand Voice Premium Brand Voice Self Service Brand Voice Call Center
Голос Голос на основе записей диктора Голос на основе записей диктора Копия голоса из шаблона
Использование Полнотекстовый синтез. Синтез по шаблонам. Полнотекстовый синтез. Синтез по шаблонам. Синтез по шаблонам. Переменная часть не больше 25% от шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.
Эмоции и роли Копирование эмоций при синтезе по шаблонам.
Разработка дополнительных амплуа.
Копирование эмоций при синтезе по шаблонам. Копирование эмоций при синтезе по шаблонам.
Частота дискретизации исходных аудиозаписей 48 кГц 48 кГц 8 кГц или выше
Частота дискретизации синтезированных аудиозаписей 22 кГц 22 кГц 8 кГц

Чтобы создать уникальный голос для своего бизнеса, заполните форму.

SpeechKit Brand Voice PremiumSpeechKit Brand Voice Premium

SpeechKit Brand Voice Premium подойдет для любых бизнес-задач:

  • голосовые ассистенты;
  • роботы-операторы колл-центра;
  • озвучивание произвольных текстов.

Создание полноценной модели с уникальным голосом требует большого количества записанных аудио. Специалисты Yandex Cloud помогут вам подготовить данные, необходимые для обучения модели SpeechKit Brand Voice Premium, подберут студию и диктора и будут сопровождать на всех этапах создания голоса.

После создания голос SpeechKit Brand Voice Premium может быть дополнен различными амплуа.

SpeechKit Brand Voice Self ServiceSpeechKit Brand Voice Self Service

Если у вас уже есть записанные аудио, необходимые для обучения модели, вы можете самостоятельно создать на их основе голос SpeechKit Brand Voice Self Service. Такой голос сможет озвучивать тексты любой длины, а также синтезировать речь по шаблонам. На его основе можно создавать голосовых ассистентов или роботов для колл-центра.

Разнообразить эмоциональную окраску голоса SpeechKit Brand Voice Self Service поможет синтез по шаблонам. При синтезе по шаблонам интонации будут копироваться из записанного аудио.

Примечание

При использовании синтеза по шаблонам с голосами Yandex SpeechKit Brand Voice шаблоны должны быть записаны тем же диктором, на основе которого был создан голос Yandex SpeechKit Brand Voice.

Качество синтезируемой речи напрямую зависит от качества аудиозаписей, на которых обучена модель. При создании голоса SpeechKit Brand Voice Self Service за весь процесс подготовки данных для обучения отвечаете вы.

Подробнее об обучении собственной модели читайте в разделе Подготовка и загрузка данных для Brand Voice Self Service.

SpeechKit Brand Voice Call CenterSpeechKit Brand Voice Call Center

SpeechKit Brand Voice Call Center разработан специально для автоматизации колл-центров и других задач бизнеса, в основе которых лежат телефонные звонки:

  • телемаркетинг;
  • прием звонков первой линии;
  • опросы;
  • автоматизация колл-центров.

Brand Voice Call Center не требует подготовки специальной модели, обучающейся на голосе вашего диктора: голос будет скопирован прямо из шаблонов, которые вы передаете для генерации фраз. При этом речь генерируется целиком, а не склеивается из заранее записанного шаблона и сгенерированной переменной части.

С помощью SpeechKit Brand Voice Call Center вы можете автоматизировать шаблонные диалоги.

Например, аудио с фразой Здравствуйте, Михаил! Это компания Облака и тучи. Меня зовут Анастасия. Вам удобно разговаривать? можно преобразовать в аудио Здравствуйте, Анна! Это компания Новые окна и двери. Меня зовут Матвей. Вам удобно разговаривать? без записей дополнительных фраз.

Требования и ограничения SpeechKit Brand Voice Call CenterТребования и ограничения SpeechKit Brand Voice Call Center

Для синтеза необходимы аудиофайл с шаблоном фразы и текст с размеченными переменными. Подробнее о требованиях к текстам см. в разделе Требования к синтезируемым текстам.

Частота дискретизации синтезированного аудио составляет 8 кГц. Этого достаточно для телефонных разговоров, однако в других условиях могут быть слышны шумы и погрешности синтеза.

SpeechKit Brand Voice Call Center предназначен для телефонных звонков. Синтезируемые тексты должны быть достаточно короткими. Максимальная длительность синтезированной фразы — 24 секунды, а длина фразы не должна превышать 250 символов вместе с переменной частью. При этом переменная часть нормализованного текста фразы может занимать не более 25% фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

SpeechKit Brand Voice Call Center логирует передаваемые шаблоны (текст и аудио). При этом синтезированные аудиозаписи и переменные части, а значит, и ваши данные, не попадают в логирование. Если вы хотите улучшить качество работы модели на ваших данных, вы можете включить логирование переменных с помощью заголовка x-data-logging-enabled: true.

Примечание

Логирование данных может быть полезно при возникновении ошибок синтеза. Если вы не хотите логировать все данные, включайте заголовок логирования только для проблемных запросов, предварительно максимально очистив переменную часть от персональных данных.

См. такжеСм. также

  • API SpeechKit Brand Voice (англ.)
  • Синтез речи по шаблонам
  • Синтез речи по шаблонам с помощью API v3

Была ли статья полезна?

Предыдущая
Список поддерживаемых фонем в SSML
Следующая
Данные для Brand Voice Self Service
Проект Яндекса
© 2025 ООО «Яндекс.Облако»