Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • AI Studio
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • О технологии
    • Поддерживаемые языки
    • Потоковое распознавание
    • Нормализация результатов распознавания
    • Анализ результатов распознавания
    • Определение дикторов
    • Расширение модели распознавания речи
    • Загрузка данных для дообучения модели распознавания речи
    • Определение конца фразы
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Аудитные логи Audit Trails

В этой статье:

  • Автотюнинг на основе логированных данных
  • Использование аудио для улучшения качества
  • Дообучение модели
  1. Распознавание речи
  2. Расширение модели распознавания речи

Расширение модели распознавания речи

Статья создана
Yandex Cloud
Обновлена 29 мая 2025 г.
  • Автотюнинг на основе логированных данных
  • Использование аудио для улучшения качества
  • Дообучение модели

SpeechKit предоставляет несколько способов, которыми можно повысить качество распознавания речи:

  • автотюнинг;
  • использование аудио для улучшения качества;
  • дообучение модели.

Примечание

В регионе Казахстан доступен только автотюнинг моделей.

Автотюнинг на основе логированных данныхАвтотюнинг на основе логированных данных

По умолчанию SpeechKit не сохраняет переданные пользователем данные. Однако самый эффективный способ улучшить модель распознавания речи — это обучить ее на реальных пользовательских данных.

Чтобы повысить качество распознавания, используйте автотюнинг модели. Он позволит сохранять переданные в запросах данные и применять их для дальнейшего обучения. Автотюнинг повышает качество распознавания в процессе работы модели, не требуя от вас дополнительных действий по сбору данных.

Автотюнинг подходит, когда выполняются следующие условия:

  • В уже настроенном сценарии, который используется для решения рабочих задач, не распознается часть лексики.
  • Лексика для автотюнинга должна быть такой, чтобы ее можно было легко воспринять на слух и записать транскрипцией. Например, названия лекарств не подойдут, так как эта лексика из узкой предметной области. Если нужно распознавать доменно-специфичные термины, используйте дообучение модели.

Чтобы передать данные для автотюнинга, в запросах API укажите заголовок x-data-logging-enabled: true. Пример запроса с включенным логированием см. в разделе Заголовки запросов для диагностики ошибок в Yandex SpeechKit. После этого сообщите в техническую поддержку, что хотите, чтобы модель дообучалась на передаваемых данных.

Рекомендации для успешного автотюнинга:

  • Чтобы повлиять на качество распознавания, потребуется минимум 10 часов аудио на русском языке. Для моделей, распознающих другие языки, может потребоваться больше данных. Рекомендуемый объем данных — 50 и более часов.
  • Обучение модели распознавания занимает около трех месяцев для русского языка. За это время команда проверит и провалидирует данные, добавит их к обучающему датасету и обучит модель. Сроки для других языков уточняйте у вашего аккаунт-менеджера.

Использование аудио для улучшения качестваИспользование аудио для улучшения качества

Вы можете передать команде SpeechKit аудиофайл для улучшения качества распознавания речи. Метод аналогичен автотюнингу, но вместо переданных в API-запросах данных используется подготовленное вами аудио. Передайте его технической поддержке в виде ZIP-архива. Вы также можете приложить транскрипции передаваемых сообщений, но это не обязательно.

Рекомендации по объему переданных данных совпадают с ограничениями для автотюнинга.

Дообучение моделиДообучение модели

Основная модель распознавания речи предназначена для работы с общей лексикой, однако ее может быть недостаточно для распознавания специфичной лексики. С помощью дообучения модель можно научить распознавать доменно-специфичные термины из разных областей:

  • медицина — диагнозы, биологические термины, названия лекарств;
  • бизнес — названия компаний;
  • торговля — номенклатура товаров (ювелирные изделия, электротехника и т. п.);
  • финансы — банковские термины и названия банковских продуктов.

Для дообучения необходимы список терминов (слов или словосочетаний) и не менее трех текстовых примеров в свободной форме для каждого термина.

Дообучение доступно только для русского языка.

Дообучение занимает около двух месяцев с момента, как вы передали технической поддержке архив с данными.

Была ли статья полезна?

Предыдущая
Определение дикторов
Следующая
Загрузка данных для дообучения модели распознавания речи
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»