Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • О технологии
    • Поддерживаемые языки
    • Потоковое распознавание
      • Синхронное распознавание
      • Асинхронное распознавание
    • Нормализация результатов распознавания
    • Анализ результатов распознавания
    • Определение дикторов
    • Расширение модели распознавания речи
    • Загрузка данных для дообучения модели распознавания речи
    • Определение конца фразы
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации

В этой статье:

  • Режимы работы асинхронного распознавания
  • Как асинхронно распознать предзаписанное аудио
  • Примеры использования
  1. Распознавание речи
  2. Распознавание аудиофайлов
  3. Асинхронное распознавание

Асинхронное распознавание

Статья создана
Yandex Cloud
Обновлена 14 апреля 2025 г.
  • Режимы работы асинхронного распознавания
  • Как асинхронно распознать предзаписанное аудио
  • Примеры использования

Асинхронное распознавание позволяет преобразовывать в текст многоканальные аудиофайлы следующих характеристик:

  • Максимальная длительность записи — 4 часа.
  • Максимальный размер файла — 1 ГБ.

Результаты распознавания хранятся на сервере 3 суток, после чего вы не сможете их получить.

Асинхронное распознавание не подходит для распознавания диалога в режиме реального времени. Если вам нужны промежуточные результаты и минимальное время ответа, используйте потоковое распознавание.

Список поддерживаемых языков см. в разделе Поддерживаемые языки распознавания.

Режимы работы асинхронного распознаванияРежимы работы асинхронного распознавания

Асинхронное распознавание доступно в двух режимах:

  1. В стандартном режиме распознавание обрабатывается в очереди со стандартным приоритетом. Режим работает при выборе модели general.
  2. В отложенном режиме аудиофайл для распознавания попадает в очередь с низким приоритетом и обрабатывается в наименее нагруженное время. На отложенное распознавание действуют специальные тарифы. Для распознавания в отложенном режиме укажите модель deferred-general.

Асинхронное распознавание аудиофайлов занимает не более 24 часов. Точное время обработки зависит от загруженности сервиса.

Как асинхронно распознать предзаписанное аудиоКак асинхронно распознать предзаписанное аудио

Для асинхронного распознавания речи используются API v2 и v3 SpeechKit. Чтобы распознать предзаписанное аудио:

  1. Создайте сервисный аккаунт.

  2. Назначьте ему роли:

    • ai.speechkit-stt.user — для распознавания речи;
    • storage.uploader — для загрузки аудиофайла в бакет Yandex Object Storage;
    • (Опционально) storage.configurer, kms.keys.encrypter и kms.keys.decrypter — для шифрования и расшифровки объектов в бакете. Эти роли нужны, только если вы используете шифрование в Object Storage.
  3. Получите IAM-токен или API-ключ для вашего сервисного аккаунта, они понадобятся для аутентификации в API.

  4. Создайте бакет Yandex Object Storage.

  5. Загрузите аудиофайл в бакет.

  6. Получите ссылку на загруженный файл.

    Для бакета с ограниченным доступом в ссылке присутствуют дополнительные query-параметры (после знака ?). Эти параметры не нужно передавать в SpeechKit — они игнорируются.

  7. Отправьте API-запрос на распознавание файла через gRPC API или REST API. В теле запроса передайте ссылку на аудиофайл. В HTTP-заголовке укажите данные аутентификации:

    • Authorization: Bearer <IAM-токен> — для аутентификации с IAM-токеном;
    • Authorization: Api-Key <API-ключ> — для аутентификации с API-ключом.

    В ответе на запрос возвращается идентификатор операции распознавания. Сохраните его — он понадобится в следующем запросе.

    Важно

    Результаты хранятся на сервере 3 суток. После этого вы не сможете запросить результаты распознавания, используя полученный идентификатор.

  8. Подождите, пока закончится распознавание. Одна минута одноканального аудио распознается примерно за 10 секунд.

  9. Отправьте API-запрос на получение результатов распознавания:

    • при помощи API v2;
    • при помощи API v3:
      • REST;
      • gRPC.

    В HTTP-заголовке укажите те же данные аутентификации.

    Результаты содержат распознанный текст целиком и список распознанных слов.

Примеры использованияПримеры использования

  • Асинхронное распознавание аудиофайлов в формате LPCM в API v2
  • Асинхронное распознавание аудиофайлов в формате OggOpus в API v2
  • Асинхронное распознавание аудиофайлов в формате WAV в API v3
  • Регулярное асинхронное распознавание аудиофайлов из Yandex Object Storage

Была ли статья полезна?

Предыдущая
Синхронное распознавание
Следующая
Нормализация результатов распознавания
Проект Яндекса
© 2025 ООО «Яндекс.Облако»