Синтез речи с помощью Python SDK

Статья создана

Обновлена 17 июня 2026 г.

Перед началом работы
Создайте приложение для синтеза речи

Ниже приведен пример синтеза речи из текста в TTS-разметке в файл формата WAV с помощью Python SDK SpeechKit. В примере заданы параметры:

голос — jane;
амплуа — good.

Для остальных настроек синтеза используются значения по умолчанию.

Для работы с Python SDK нужен пакет yandex-speechkit.

Аутентификация выполняется от имени сервисного аккаунта с помощью API-ключа или IAM-токена. Подробнее об аутентификации в API SpeechKit.

Перед началом работы

Создайте сервисный аккаунт и назначьте ему роль ai.speechkit-tts.user.
Для сервисного аккаунта получите и сохраните API-ключ.

Создайте приложение для синтеза речи

Python 3

Установите пакет yandex-speechkit с помощью менеджера пакетов pip:
```
pip install yandex-speechkit
```
Установка проверялась на Python 3.9. Минимально допустимую версию Python смотрите на сайте SDK.

Создайте файл test.py и добавьте в него код:

from argparse import ArgumentParser

from speechkit import model_repository, configure_credentials, creds

# Аутентификация через API-ключ.
configure_credentials(
   yandex_credentials=creds.YandexCredentials(
      api_key='<API-ключ>'
   )
)

def synthesize(text, export_path):
   custom_endpoint = ('tts.api.ml.yandexcloud.kz:443', True)
   model = model_repository.synthesis_model(
        custom_endpoint=custom_endpoint  # Передаем новый эндпоинт
   )

   # Задайте настройки синтеза.
   model.voice = 'jane'
   model.role = 'good'

   # Синтез речи и создание аудио с результатом.
   result = model.synthesize(text, raw_format=False)
   result.export(export_path, 'wav')

if __name__ == '__main__':
   parser = ArgumentParser()
   parser.add_argument('--text', type=str, help='text to synthesize', required=True)
   parser.add_argument('--export', type=str, help='export path for synthesized audio', required=False)

   args = parser.parse_args()

   synthesize(args.text, args.export)

Где:

api_key — API-ключ для сервисного аккаунта;
voice — голос для синтеза речи;
role — амплуа для указанного голоса;
text — текст в TTS-разметке для синтеза;
export_path — путь к файлу, в который нужно записать аудио.

Сохраните текст, который нужно озвучить, в переменную окружения:

export TEXT='Я Яндекс Спичк+ит. Я могу превратить любой текст в речь. Теперь и в+ы — можете!'

Выполните созданный файл:
```
python3 test.py --text ${TEXT} --export speech.wav
```
Где:
- --text — текст в TTS-разметке, который нужно синтезировать. В примере текст передается в переменной окружения TEXT;
- --export — путь к файлу, в который нужно записать аудио.
В результате будет создан файл speech.wav с синтезированной речью.

Синтез речи с помощью Python SDK

Перед началом работы

Создайте приложение для синтеза речи

Полезные ссылки

Была ли статья полезна?

Синтез речи с помощью Python SDK

Перед началом работыПеред началом работы

Создайте приложение для синтеза речиСоздайте приложение для синтеза речи

Полезные ссылкиПолезные ссылки

Была ли статья полезна?

Перед началом работы

Создайте приложение для синтеза речи

Полезные ссылки