Yandex SpeechKit Playground: как быстро протестировать синтез и распознавание речи

Инструмент помогает проверить, как работают технологии преобразования аудио в текст и текста в аудио в Yandex Cloud — без кода и сложных настроек.

Yandex SpeechKit Playground даёт возможность в удобном интерфейсе протестировать технологии Yandex SpeechKit: преобразовать аудио в текст или синтезировать речь из текста. Инструмент подойдёт бизнесу, исследователям, менеджерам проектов и создателям контента. В статье рассказываем, как начать с ним работу. Сервис доступен через консоль.

Распознавание речи: преобразование аудио в текст

Yandex SpeechKit Playground предлагает базовые возможности распознавания аудио. Для более гибких настроек, например потокового распознавания аудио в реальном времени или асинхронной обработки файлов до четырёх часов, можно использовать API SpeechKit.

Yandex SpeechKit Playground распознаёт аудио на 16 языках: немецком, английском, испанском, финском, французском, иврите, итальянском, казахском, голландском, польском, португальском, бразильском португальском, русском, шведском, турецком, узбекском.

Язык каждого отдельного предложения в аудиофайле определяется автоматически.

Для распознавания аудиофайлов в Yandex SpeechKit Playground необходимо:

  1. В поле «Язык» выбрать нужный из списка или оставить «Автоматически».
  2. Включить нормализацию текста (опционально) — позволяет представлять даты и время в цифровом формате, преобразовывать числа из словесного в цифровой формат, а также открывает доступ к дополнительным уровням нормализации.
  3. Добавить аудиофайл через кнопку «Выбрать файл» или перетащить его в область загрузки (максимальный размер — 60 МБ)
  4. Нажать кнопку «Распознать».
  5. Дождаться завершения процесса. Время зависит от размера файла.

Синтез речи: преобразование текста в аудио

Yandex SpeechKit Playground поддерживает 29 голосов: 1 немецкий, 1 английский, 1 на иврите, 4 казахских, 19 русских и 3 узбекских. Синтезированная речь в каждом случае звучит по‑разному: голос может быть строгим, дружелюбным или нейтральным, в зависимости от задачи.

Для синтеза речи из текста нужно:

  1. Ввести текст в центральное поле. Максимальная длина — 5000 символов.
  2. Настроить параметры в блоке «Настройки синтеза»: язык и голос, амплуа, скорость речи, высота голоса, формат аудиофайла.
  3. Запустить синтез кнопкой «Синтезировать и воспроизвести».
  4. Сохранить результат с помощью кнопки скачивания.

Для тонкой настройки произношения можно использовать элементы разметки текста.

Описание

Спецсимволы и теги

Поставить ударение

+

Явно указать паузу между предложениями

sil<[t]>, где t — длительность паузы в миллисекундах. Максимальное значение — 7 000.

Указать паузу, зависящую от контекста

<[small]>. Допустимые значения: tiny, small, medium, large, huge

Выделить акцент

<[accented]> или **акцентное слово**

Использовать фонетическое произношение

[[<фонемы_слова_разделенные_пробелами>]]

Как и в случае с распознаванием аудио, Yandex SpeechKit Playground предоставляет базовые возможности синтеза речи. Для более гибких сценариев используйте API SpeechKit: потоковое распознавание аудио в реальном времени (до 5 минут и до 10 МБ данных) или асинхронную обработку файлов длительностью до 4 часов (до 60 МБ в теле запроса). Для быстрой обработки коротких аудиозаписей до 30 секунд и размером до 1 МБ подходит синхронное распознавание API SpeechKit.

После теста: тарифы и технические лимиты Yandex SpeechKit

Использование решений Yandex SpeechKit тарифицируется. Стоимость зависит от операции, версии API и режима работы.

Сравнительная таблица решений и их тарифов

Категория

Тип

Принцип тарификации

Растчётная единица/стоимость

Распознавание речи

Синхронное и потоковое

Зависит от длительности

15‑секундный сегмент одноканального аудио с округлением вверх

Асинхронное

Зависит от длительности, количества каналов и модели

Единица тарификации — 1 секунда двухканального аудио. Отрезки меньшей длительности округляются в большую сторону. Количество каналов округляется до четного числа.

Минимум начисляется 15 секунд за каждые два канала. Аудио меньшей длительности тарифицируется, как 15 секунд.

Синтез речи

API v1

Зависит от общего числа символов в месяц

Символ

API v3

Зависит от числа запросов в месяц

Запросы длиннее 250 символов или 24 секунд в режиме unsafe_mode тарифицируются по количеству расчётных единиц в 250 символов с округлением вверх

Пустые запросы

Минимальная тарификация

К API v1 — как один символ, к API v3 — как одна расчётная единица

Запросы, завершившиеся с внутренней ошибкой сервера, не тарифицируются.

Подробнее о технологии SpeechKit Brand Voice и возможностях создания уникального голоса расскажет отдел продаж или менеджер поддержки. Связаться с ними можно через техническую поддержку или форму обратной связи.

Yandex SpeechKit Playground: как быстро протестировать синтез и распознавание речи
Войдите, чтобы сохранить пост