Начало работы со SpeechKit
Вы можете протестировать распознавание и синтез речи в сервисе SpeechKit на странице демо. О стоимости использования сервиса читайте в разделе Правила тарификации для SpeechKit.
Перед началом работы
- Перейдите в консоль управления
, затем войдите в Yandex Cloud или зарегистрируйтесь, если вы еще не зарегистрированы. О том, как начать работать с Yandex Cloud, см. в документе Начало работы с Yandex Cloud. - Примите пользовательское соглашение.
- В сервисе Yandex Cloud Billing
убедитесь, что у вас подключен платежный аккаунт и он находится в статусеACTIVE
илиTRIAL_ACTIVE
. Если платежного аккаунта нет, создайте его.
Распознавание речи с помощью Playground
Чтобы распознать речь из аудиофайла через интерфейс SpeechKit Playground:
- Откройте консоль управления
и выберите сервис SpeechKit. - На панели слева нажмите
SpeechKit Playground и перейдите на вкладку Распознавание речи. - В поле Язык выберите нужный язык или оставьте значение
Автоматически
. - Нажмите Выбрать файл или перетащите его в зону загрузки.
- Чтобы распознать речь, нажмите Распознать.
SpeechKit Playground предоставляет базовые возможности распознавания речи. Более гибкие настройки распознавания доступны только через API.
Синтез речи с помощью Playground
Чтобы преобразовать текст в аудио через интерфейс SpeechKit Playground:
- Откройте консоль управления
и выберите сервис SpeechKit. - На панели слева нажмите
SpeechKit Playground и перейдите на вкладку Синтез речи. - В блоке Настройки синтеза:
- Паузы — выберите длительность пауз между словами или задайте ее самостоятельно.
- Акцент на слове — расставьте акценты на нужных словах.
- Ударение — обозначьте ударные гласные, чтобы уточнить корректный вариант произношения слов.
- Фонемы — контролируйте правильность произношения слов с помощью фонем.
- В блоке Настройки синтеза:
- Язык — выберите язык диктора.
- Голос — укажите голос диктора.
- Амплуа — выберите амплуа диктора.
- Скорость речи — задайте скорость речи диктора.
- Высота голоса — скорректируйте высоту голоса диктора.
- Формат аудио — выберите необходимый формат аудио.
- Чтобы синтезировать текст, нажмите Синтезировать и воспроизвести.
- Чтобы скачать результат, нажмите
.
SpeechKit Playground предоставляет базовые возможности синтеза речи. Более гибкие настройки синтеза доступны только через API.
Аутентификация для работы с API
Для работы с API SpeechKit пройдите аутентификацию. Ее способ зависит от типа аккаунта:
- Получите IAM-токен для аккаунта на Яндексе или федеративного аккаунта.
- Получите идентификатор каталога, на который у вашего аккаунта есть роли
ai.speechkit-stt.user
,ai.speechkit-tts.user
или выше. -
При обращении к SpeechKit через API в каждом запросе передавайте полученные параметры:
-
Для API v1 и API v2:
Указывайте IAM-токен в заголовке
Authorization
в следующем формате:Authorization: Bearer <IAM-токен>
Идентификатор каталога указывайте в теле запроса в параметре
folderId
. -
Для API v3:
- в заголовке
Authorization
указывайте IAM-токен; - в заголовке
x-folder-id
указывайте идентификатор каталога.
Authorization: Bearer <IAM-токен> x-folder-id <идентификатор_каталога>
- в заголовке
-
SpeechKit поддерживает два способа аутентификации с сервисным аккаунтом:
-
С помощью IAM-токена:
-
Полученный IAM-токен передавайте в заголовке
Authorization
в следующем формате:Authorization: Bearer <IAM-токен>
-
С помощью API-ключей.
Используйте API-ключи, если у вас нет возможности автоматически запрашивать IAM-токен.
-
Полученный API-ключ передавайте в заголовке
Authorization
в следующем формате:Authorization: Api-Key <API-ключ>
Не указывайте в запросах идентификатор каталога — сервис использует каталог, в котором был создан сервисный аккаунт.
Распознавание речи через API
Узнайте, как распознать короткие и длинные предзаписанные аудиофайлы в SpeechKit. Также сервис позволяет распознать голос в режиме реального времени.
Синтез речи через API
Узнайте, как преобразовать текст в аудио с помощью API v1 и API v3 SpeechKit. API v3 позволяет более гибко настроить синтез. Подробнее о различиях версий API в разделе Возможности синтеза.