Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • О технологии
    • Список голосов
      • Обзор
      • Данные для SpeechKit Brand Voice Lite
      • Данные для SpeechKit Brand Voice Call Center
      • Рекомендации для записи амплуа
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Аудитные логи Audit Trails

В этой статье:

  • SpeechKit Brand Voice Premium
  • SpeechKit Brand Voice Lite
  • SpeechKit Brand Voice Call Center
  • Требования и ограничения SpeechKit Brand Voice Call Center
  1. Синтез речи
  2. SpeechKit Brand Voice
  3. Обзор

Yandex SpeechKit Brand Voice

Статья создана
Yandex Cloud
Обновлена 3 сентября 2025 г.
  • SpeechKit Brand Voice Premium
  • SpeechKit Brand Voice Lite
  • SpeechKit Brand Voice Call Center
    • Требования и ограничения SpeechKit Brand Voice Call Center

Технология SpeechKit Brand Voice позволяет создавать уникальные голоса для модели синтеза речи. Технология синтезирует как простой текст, так и текст по шаблонам. Они содержат фразы с переменными, которые заменяются на заготовленный текст. В зависимости от целей использования обученной модели Yandex Cloud предлагает четыре направления SpeechKit Brand Voice.

Brand Voice Premium SpeechKit Brand Voice Lite Brand Voice Call Center
Голос Голос на основе записей диктора Голос на основе записей диктора Копия голоса из шаблона
Использование Полнотекстовый синтез. Синтез по шаблонам. Полнотекстовый синтез. Шаблоны не поддерживаются. Синтез по шаблонам. Переменная часть не больше 25% от шаблона. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.
Эмоции и роли Копирование эмоций при синтезе по шаблонам.
Разработка дополнительных амплуа.
Копирование эмоций при синтезе по шаблонам.
Разработка дополнительных амплуа.
Копирование эмоций при синтезе по шаблонам.
Частота дискретизации исходных аудиозаписей 48 кГц 48 кГц 8 кГц или выше
Частота дискретизации синтезированных аудиозаписей 22 кГц 22 кГц 8 кГц

Чтобы создать уникальный голос Brand Voice Premium для своего бизнеса, заполните форму.

SpeechKit Brand Voice PremiumSpeechKit Brand Voice Premium

SpeechKit Brand Voice Premium подойдет для любых бизнес-задач:

  • голосовые ассистенты;
  • роботы-операторы колл-центра;
  • озвучивание произвольных текстов.

Создание полноценной модели с уникальным голосом требует большого количества записанных аудио. Специалисты Yandex Cloud помогут вам подготовить данные, необходимые для обучения модели SpeechKit Brand Voice Premium, подберут студию и диктора и будут сопровождать на всех этапах создания голоса.

После создания голос SpeechKit Brand Voice Premium может быть дополнен различными амплуа.

SpeechKit Brand Voice LiteSpeechKit Brand Voice Lite

SpeechKit Brand Voice Lite позволяет создать свой уникальный голос, загрузив минимум размеченных аудиозаписей (от 30 минут). В результате вы получите URI дообученной модели, к которой сможете обращаться из своих приложений через API.

Качество синтезируемой речи напрямую зависит от качества аудиозаписей, на которых обучена модель. При создании голоса SpeechKit Brand Voice Lite за весь процесс подготовки данных для обучения отвечаете вы.

Подробнее об обучении собственной модели читайте в разделе Данные для SpeechKit Brand Voice Lite.

SpeechKit Brand Voice Call CenterSpeechKit Brand Voice Call Center

SpeechKit Brand Voice Call Center разработан специально для автоматизации колл-центров и других задач бизнеса, в основе которых лежат телефонные звонки:

  • телемаркетинг;
  • прием звонков первой линии;
  • опросы;
  • автоматизация колл-центров.

Brand Voice Call Center не требует подготовки специальной модели, обучающейся на голосе вашего диктора: голос будет скопирован прямо из шаблонов, которые вы передаете для генерации фраз. При этом речь генерируется целиком, а не склеивается из заранее записанного шаблона и сгенерированной переменной части.

С помощью SpeechKit Brand Voice Call Center вы можете автоматизировать шаблонные диалоги.

Например, аудио с фразой Здравствуйте, Михаил! Это компания Облака и тучи. Меня зовут Анастасия. Вам удобно разговаривать? можно преобразовать в аудио Здравствуйте, Анна! Это компания Новые окна и двери. Меня зовут Матвей. Вам удобно разговаривать? без записей дополнительных фраз.

Требования и ограничения SpeechKit Brand Voice Call CenterТребования и ограничения SpeechKit Brand Voice Call Center

Для синтеза необходимы аудиофайл с шаблоном фразы и текст с размеченными переменными. Подробнее о требованиях к текстам см. в разделе Требования к синтезируемым текстам.

Частота дискретизации синтезированного аудио составляет 8 кГц. Этого достаточно для телефонных разговоров, однако в других условиях могут быть слышны шумы и погрешности синтеза.

SpeechKit Brand Voice Call Center предназначен для телефонных звонков. Синтезируемые тексты должны быть достаточно короткими. Максимальная длительность синтезированной фразы — 24 секунды, а длина фразы не должна превышать 250 символов вместе с переменной частью. При этом переменная часть нормализованного текста фразы может занимать не более 25% фразы. То же ограничение действует на длительность переменной части относительно длительности итоговой аудиозаписи.

SpeechKit Brand Voice Call Center логирует передаваемые шаблоны (текст и аудио). При этом синтезированные аудиозаписи и переменные части, а значит, и ваши данные, не попадают в логирование. Если вы хотите улучшить качество работы модели на ваших данных, вы можете включить логирование переменных с помощью заголовка x-data-logging-enabled: true.

Примечание

Логирование данных может быть полезно при возникновении ошибок синтеза. Если вы не хотите логировать все данные, включайте заголовок логирования только для проблемных запросов, предварительно максимально очистив переменную часть от персональных данных.

См. такжеСм. также

  • API SpeechKit Brand Voice (англ.)
  • Синтез речи по шаблонам
  • Синтез речи по шаблонам с помощью API v3
  • Как ИИ помогает в поддержке клиентов: кейсы банков, ритейла и IT‑компаний
  • От карточек товаров до обучения сотрудников: как ИИ трансформирует современный ритейл

Была ли статья полезна?

Предыдущая
Список поддерживаемых фонем в SSML
Следующая
Данные для SpeechKit Brand Voice Lite
Проект Яндекса
© 2025 ООО «Яндекс.Облако»