Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • Распознавание речи с помощью Playground
    • Синтез речи с помощью Playground
      • Синтез речи в API v3
      • Синтез речи в REST API v3
      • Синтез речи по шаблонам
      • Синтез речи по шаблонам Brand Voice Call Center
      • Синтез речи в формате WAV — API v1
      • Синтез речи в формате OggOpus — API v1
      • Синтез речи из текста SSML — API v1
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  1. Пошаговые инструкции
  2. Синтез
  3. Синтез речи из текста SSML — API v1

Синтез речи из текста в формате SSML с помощью API v1

Статья создана
Yandex Cloud
Обновлена 21 января 2025 г.

С помощью API v1 можно синтезировать речь из текста, размеченного по правилам SSML, в файл формата OggOpus.

В примере заданы следующие параметры синтеза:

  • язык — русский;
  • голос — jane;
  • остальные параметры оставлены по умолчанию.

Считывание текстового файла выполняется с помощью утилиты cat.

Аутентификация происходит от имени аккаунта на Яндексе или федеративного аккаунта с помощью IAM-токена. Если вы используете сервисный аккаунт, передавать в запросе идентификатор каталога не нужно. Подробнее об аутентификации в API SpeechKit см. Аутентификация в API SpeechKit.

Bash
  1. Создайте файл, например text.xml, и напишите в нем текст в формате SSML:

    <speak>
      Вот несколько примеров использования SSML.
      Вы можете добавить в текст паузу любой длины:<break time="2s"/> та-дааам!
      Или разметить текст на параграфы и предложения. Паузы между параграфами длиннее.
      <p><s>Первое предложение</s><s>Второе предложение</s></p>
      А еще вы можете подменять фразы.
      Например, чтобы произносить аббревиатуры и <sub alias="тому подобное">т.п.</sub>
    </speak>
    
  2. Отправьте запрос с текстом на сервер:

    export FOLDER_ID=<идентификатор_каталога>
    export IAM_TOKEN=<IAM-токен>
    curl \
      --request POST \
      --header "Authorization: Bearer ${IAM_TOKEN}" \
      --data-urlencode "ssml=`cat text.xml`" \
      --data "lang=ru-RU&voice=jane&folderId=${FOLDER_ID}" \
      "https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize" > speech.ogg
    

    Где:

    • FOLDER_ID — идентификатор каталога.
    • IAM_TOKEN — IAM-токен.
    • ssml — файл с текстом, размеченным по правилам SSML.
    • lang — язык текста.

Синтезированная речь будет записана в файл speech.ogg в папке, из которой вы отправляли запрос.

См. такжеСм. также

  • Описание метода API v1
  • Синтез речи в формате WAV с помощью API v1
  • Синтез речи в формате OggOpus с помощью API v1
  • Аутентификация в API SpeechKit

Была ли статья полезна?

Предыдущая
Синтез речи в формате OggOpus — API v1
Следующая
О технологии
Проект Яндекса
© 2025 ООО «Яндекс.Облако»