Yandex SpeechKit Brand Voice

Статья создана

Обновлена 3 сентября 2025 г.

SpeechKit Brand Voice Premium
SpeechKit Brand Voice Lite
SpeechKit Brand Voice Call Center
- Требования и ограничения SpeechKit Brand Voice Call Center

Технология SpeechKit Brand Voice позволяет создавать уникальные голоса для модели синтеза речи. Технология синтезирует как простой текст, так и текст по шаблонам. Они содержат фразы с переменными, которые заменяются на заготовленный текст. В зависимости от целей использования обученной модели Yandex Cloud предлагает четыре направления SpeechKit Brand Voice.

	Brand Voice Premium	SpeechKit Brand Voice Lite	Brand Voice Call Center
Голос	Голос на основе записей диктора	Голос на основе записей диктора	Копия голоса из шаблона
Использование	Полнотекстовый синтез. Синтез по шаблонам.	Полнотекстовый синтез. Шаблоны не поддерживаются.	Синтез по шаблонам. Переменная часть не больше 25% от шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.
Эмоции и роли	Копирование эмоций при синтезе по шаблонам. Разработка дополнительных амплуа.	Копирование эмоций при синтезе по шаблонам. Разработка дополнительных амплуа.	Копирование эмоций при синтезе по шаблонам.
Частота дискретизации исходных аудиозаписей	48 кГц	48 кГц	8 кГц или выше
Частота дискретизации синтезированных аудиозаписей	22 кГц	22 кГц	8 кГц

Чтобы создать уникальный голос Brand Voice Premium для своего бизнеса, заполните форму.

SpeechKit Brand Voice Premium

SpeechKit Brand Voice Premium подойдет для любых бизнес-задач:

голосовые ассистенты;
роботы-операторы колл-центра;
озвучивание произвольных текстов.

Создание полноценной модели с уникальным голосом требует большого количества записанных аудио. Специалисты Yandex Cloud помогут вам подготовить данные, необходимые для обучения модели SpeechKit Brand Voice Premium, подберут студию и диктора и будут сопровождать на всех этапах создания голоса.

После создания голос SpeechKit Brand Voice Premium может быть дополнен различными амплуа.

SpeechKit Brand Voice Lite

SpeechKit Brand Voice Lite позволяет создать свой уникальный голос, загрузив минимум размеченных аудиозаписей (от 30 минут). В результате вы получите URI дообученной модели, к которой сможете обращаться из своих приложений через API.

Качество синтезируемой речи напрямую зависит от качества аудиозаписей, на которых обучена модель. При создании голоса SpeechKit Brand Voice Lite за весь процесс подготовки данных для обучения отвечаете вы.

Подробнее об обучении собственной модели читайте в разделе Данные для SpeechKit Brand Voice Lite.

SpeechKit Brand Voice Call Center

SpeechKit Brand Voice Call Center разработан специально для автоматизации колл-центров и других задач бизнеса, в основе которых лежат телефонные звонки:

телемаркетинг;
прием звонков первой линии;
опросы;
автоматизация колл-центров.

Brand Voice Call Center не требует подготовки специальной модели, обучающейся на голосе вашего диктора: голос будет скопирован прямо из шаблонов, которые вы передаете для генерации фраз. При этом речь генерируется целиком, а не склеивается из заранее записанного шаблона и сгенерированной переменной части.

С помощью SpeechKit Brand Voice Call Center вы можете автоматизировать шаблонные диалоги.

Например, аудио с фразой Здравствуйте, Михаил! Это компания Облака и тучи. Меня зовут Анастасия. Вам удобно разговаривать? можно преобразовать в аудио Здравствуйте, Анна! Это компания Новые окна и двери. Меня зовут Матвей. Вам удобно разговаривать? без записей дополнительных фраз.

Требования и ограничения SpeechKit Brand Voice Call Center

Для синтеза необходимы аудиофайл с шаблоном фразы и текст с размеченными переменными. Подробнее о требованиях к текстам см. в разделе Требования к синтезируемым текстам.

Частота дискретизации синтезированного аудио составляет 8 кГц. Этого достаточно для телефонных разговоров, однако в других условиях могут быть слышны шумы и погрешности синтеза.

SpeechKit Brand Voice Call Center предназначен для телефонных звонков. Синтезируемые тексты должны быть достаточно короткими. Максимальная длительность синтезированной фразы — 24 секунды, а длина фразы не должна превышать 250 символов вместе с переменной частью. При этом переменная часть нормализованного текста фразы может занимать не более 25% фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

SpeechKit Brand Voice Call Center логирует передаваемые шаблоны (текст и аудио). При этом синтезированные аудиозаписи и переменные части, а значит, и ваши данные, не попадают в логирование. Если вы хотите улучшить качество работы модели на ваших данных, вы можете включить логирование переменных с помощью заголовка x-data-logging-enabled: true.

Примечание

Логирование данных может быть полезно при возникновении ошибок синтеза. Если вы не хотите логировать все данные, включайте заголовок логирования только для проблемных запросов, предварительно максимально очистив переменную часть от персональных данных.

Yandex SpeechKit Brand Voice

SpeechKit Brand Voice Premium

SpeechKit Brand Voice Lite

SpeechKit Brand Voice Call Center

Требования и ограничения SpeechKit Brand Voice Call Center

См. также

Была ли статья полезна?

Yandex SpeechKit Brand Voice

SpeechKit Brand Voice PremiumSpeechKit Brand Voice Premium

SpeechKit Brand Voice LiteSpeechKit Brand Voice Lite

SpeechKit Brand Voice Call CenterSpeechKit Brand Voice Call Center

Требования и ограничения SpeechKit Brand Voice Call CenterТребования и ограничения SpeechKit Brand Voice Call Center

См. такжеСм. также

Была ли статья полезна?

SpeechKit Brand Voice Premium

SpeechKit Brand Voice Lite

SpeechKit Brand Voice Call Center

Требования и ограничения SpeechKit Brand Voice Call Center

См. также