Yandex SpeechKit Brand Voice
Технология SpeechKit Brand Voice позволяет создавать уникальные голоса для модели синтеза речи. Технология синтезирует как простой текст, так и текст по шаблонам. Они содержат фразы с переменными, которые заменяются на заготовленный текст. В зависимости от целей использования обученной модели Yandex Cloud предлагает три направления SpeechKit Brand Voice.
Brand Voice Premium | Brand Voice Self Service | Brand Voice Call Center | |
---|---|---|---|
Голос | Голос на основе записей диктора | Голос на основе записей диктора | Копия голоса из шаблона |
Использование | Полнотекстовый синтез. Синтез по шаблонам. | Полнотекстовый синтез. Синтез по шаблонам. | Синтез по шаблонам. Переменная часть не больше 25% от шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи. |
Эмоции и роли | Копирование эмоций при синтезе по шаблонам. Разработка дополнительных амплуа. | Копирование эмоций при синтезе по шаблонам. | Копирование эмоций при синтезе по шаблонам. |
Частота дискретизации исходных аудиозаписей | 48 кГц | 48 кГц | 8 кГц или выше |
Частота дискретизации синтезированных аудиозаписей | 22 кГц | 22 кГц | 8 кГц |
Чтобы создать уникальный голос для своего бизнеса, заполните форму.
SpeechKit Brand Voice Premium
SpeechKit Brand Voice Premium подойдет для любых бизнес-задач:
- голосовые ассистенты;
- роботы-операторы колл-центра;
- озвучивание произвольных текстов.
Создание полноценной модели с уникальным голосом требует большого количества записанных аудио. Специалисты Yandex Cloud помогут вам подготовить данные, необходимые для обучения модели SpeechKit Brand Voice Premium, подберут студию и диктора и будут сопровождать на всех этапах создания голоса.
После создания голос SpeechKit Brand Voice Premium может быть дополнен различными амплуа.
SpeechKit Brand Voice Self Service
Если у вас уже есть записанные аудио, необходимые для обучения модели, вы можете самостоятельно создать на их основе голос SpeechKit Brand Voice Self Service. Такой голос сможет озвучивать тексты любой длины, а также синтезировать речь по шаблонам. На его основе можно создавать голосовых ассистентов или роботов для колл-центра.
Разнообразить эмоциональную окраску голоса SpeechKit Brand Voice Self Service поможет синтез по шаблонам. При синтезе по шаблонам интонации будут копироваться из записанного аудио.
Примечание
При использовании синтеза по шаблонам с голосами Yandex SpeechKit Brand Voice шаблоны должны быть записаны тем же диктором, на основе которого был создан голос Yandex SpeechKit Brand Voice.
Качество синтезируемой речи напрямую зависит от качества аудиозаписей, на которых обучена модель. При создании голоса SpeechKit Brand Voice Self Service за весь процесс подготовки данных для обучения отвечаете вы.
Подробнее об обучении собственной модели читайте в разделе Подготовка и загрузка данных для Brand Voice Self Service.
SpeechKit Brand Voice Call Center
SpeechKit Brand Voice Call Center разработан специально для автоматизации колл-центров и других задач бизнеса, в основе которых лежат телефонные звонки:
- телемаркетинг;
- прием звонков первой линии;
- опросы;
- автоматизация колл-центров.
Brand Voice Call Center не требует подготовки специальной модели, обучающейся на голосе вашего диктора: голос будет скопирован прямо из шаблонов, которые вы передаете для генерации фраз. При этом речь генерируется целиком, а не склеивается из заранее записанного шаблона и сгенерированной переменной части.
С помощью SpeechKit Brand Voice Call Center вы можете автоматизировать шаблонные диалоги.
Например, аудио с фразой
Здравствуйте, Михаил! Это компания Облака и тучи. Меня зовут Анастасия. Вам удобно разговаривать?
можно преобразовать в аудиоЗдравствуйте, Анна! Это компания Новые окна и двери. Меня зовут Матвей. Вам удобно разговаривать?
без записей дополнительных фраз.
Требования и ограничения SpeechKit Brand Voice Call Center
Для синтеза необходимы аудиофайл с шаблоном фразы и текст с размеченными переменными. Подробнее о требованиях к текстам см. в разделе Требования к синтезируемым текстам.
Частота дискретизации синтезированного аудио составляет 8 кГц. Этого достаточно для телефонных разговоров, однако в других условиях могут быть слышны шумы и погрешности синтеза.
SpeechKit Brand Voice Call Center предназначен для телефонных звонков. Синтезируемые тексты должны быть достаточно короткими. Максимальная длительность синтезированной фразы — 24 секунды, а длина фразы не должна превышать 250 символов вместе с переменной частью. При этом переменная часть нормализованного текста фразы может занимать не более 25% фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.
SpeechKit Brand Voice Call Center логирует передаваемые шаблоны (текст и аудио). При этом синтезированные аудиозаписи и переменные части, а значит, и ваши данные, не попадают в логирование. Если вы хотите улучшить качество работы модели на ваших данных, вы можете включить логирование переменных с помощью заголовка x-data-logging-enabled: true
.
Примечание
Логирование данных может быть полезно при возникновении ошибок синтеза. Если вы не хотите логировать все данные, включайте заголовок логирования только для проблемных запросов, предварительно максимально очистив переменную часть от персональных данных.