Описание метода API v1

Статья создана

Yandex Cloud

Улучшена

amatol

Обновлена 21 января 2025 г.

Параметры в теле запроса
Ответ
Примеры использования

Генерирует речь по переданному тексту.

Примечание

API v1 поддерживает не все возможности синтеза SpeechKit. Сравнение версий API см. в разделе Возможности синтеза.

Сервис синтеза располагается по адресу: tts.api.cloud.yandex.net/speech/v1/tts:synthesize

Параметры в теле запроса

Для всех параметров обязательно используйте URL-кодирование. Максимальный размер тела POST-запроса 15 КБ.

Параметр	Описание
text	string Текст, который нужно озвучить, в кодировке UTF-8. Можно использовать только одно из полей `text` и `ssml`. Для управления произношением (расстановки пауз, акцентов и ударений) используйте TTS-разметку. Ограничение на длину строки: 5000 символов.
ssml	string Текст, который нужно озвучить, в формате SSML. Можно использовать только одно из полей `text` и `ssml`.
lang	string Язык. Допустимые значения: `ru-RU` (по умолчанию) — русский язык.
voice	string Желаемый голос для синтеза речи из списка.
emotion	string Амплуа или эмоциональная окраска голоса. Поддерживается только при выборе русского языка (`ru-RU`). Допустимые комбинации голоса и эмоциональной окраски см. в разделе Список голосов.
speed	string Скорость (темп) синтезированной речи. Скорость речи задается дробным числом в диапазоне от `0.1` до `3.0`. Где: `3.0` — самый быстрый темп; `1.0` (по умолчанию) — средняя скорость человеческой речи; `0.1` — самый медленный темп.
format	string Формат синтезируемого аудио. Допустимые значения: `lpcm` `oggopus` (по умолчанию) `mp3`
sampleRateHertz	string Частота дискретизации синтезируемого аудио. Применяется, если значение `format` равно `lpcm`. Допустимые значения: `48000` (по умолчанию) — частота дискретизации 48 кГц; `16000` — частота дискретизации 16 кГц; `8000` — частота дискретизации 8 кГц.
folderId	string Идентификатор каталога, к которому у вас есть доступ. Требуется для авторизации с пользовательским аккаунтом (см. ресурс Аутентификация в API SpeechKit). Не используйте это поле, если вы делаете запрос от имени сервисного аккаунта. Максимальная длина строки в символах — 50.

Ответ

Если синтез прошел успешно, в ответе будет бинарное содержимое аудиофайла. Формат выходных данных зависит от значения параметра format.

Подробнее о формате и кодах ответов см. на странице Коды ответов на запросы.

Описание метода API v1

Параметры в теле запросаПараметры в теле запроса

ОтветОтвет

Примеры использованияПримеры использования

Была ли статья полезна?

Параметры в теле запроса

Ответ

Примеры использования