Поддерживаемые языки и модели распознавания
Модель распознавания — модель, которая обучена распознавать речь на определенном языке. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса. Это позволяет постоянно улучшать качество распознавания.
Основная поддерживаемая модель для каждого типа распознавания — модель general
. Она распознает речь на любую тему на заданном языке: короткие и длинные фразы, а также имена, адреса, даты и числа.
Теги версий
Одновременно могут быть доступны три версии модели general
. Выбрать нужную версию можно по тегам:
general
— основная версия модели.general:rc
— версия-кандидат для релиза, которую вы можете тестировать.general:deprecated
— предыдущая версия модели.
Примечание
Версии, доступные по тегу general:deprecated
, с выходом новых моделей перестают поддерживаться: SpeechKit гарантирует две недели поддержки предыдущей версии со дня обновления версии по тегу general
. Список изменений доступен в разделе История изменений в сервисе распознавания Yandex SpeechKit.
Для асинхронного распознавания также доступен тег deferred-general
. Подробнее об режимах работы асинхронного распознавания.
Поддерживаемые языки распознавания
Используйте код языка распознавания из таблицы ниже. Все доступные значения кодов не чувствительны к регистру.
Код | Язык |
---|---|
auto |
Автоматическое распознавание языка |
de-DE |
Немецкий |
en-US |
Английский |
es-ES |
Испанский |
fi-FI |
Финский |
fr-FR |
Французский |
he-IL |
Иврит |
it-IT |
Итальянский |
kk-KZ |
Казахский |
nl-NL |
Голландский |
pl-PL |
Польский |
pt-PT |
Португальский |
pt-BR |
Бразильский португальский |
ru-RU |
Русский (по умолчанию) |
sv-SE |
Шведский |
tr-TR |
Турецкий |
uz-UZ |
Узбекский (латиница) |
Автоматическое определение языка
Примечание
Определение языка и расстановка языковых меток доступно только в API v3.
Сервис SpeechKit в ходе распознавания речи автоматически определяет язык в каждом отдельном предложении.
Чтобы использовать автоматическое определение языка, в параметре language_code
метода LanguageRestrictionOptions()
укажите значение auto
:
language_restriction=stt_pb2.LanguageRestrictionOptions(
restriction_type=stt_pb2.LanguageRestrictionOptions.WHITELIST,
language_code=['auto']
)
Вместе с результатами распознавания сервис возвращает языковые метки, содержащие код языка и вероятность правильности его определения:
language_code: "ru-RU" probability: 0.91582357883453369
Если одно предложение состоит из слов на разных языках, то язык может быть определен неверно. Чтобы распознавание было точнее, вместо значения auto
укажите список ожидаемых языков как подсказку для модели. Например:
...
language_code=['en-US', 'es-ES', 'fr-FR']
...
Язык определяется для каждой фразы. Если в предложении встречаются фразы на нескольких языках, вероятнее всего они все будут распознаны на одном языке.
Примеры
Текст в аудио | Транскрибация |
---|---|
Открой Whats'app | Открой ватсап |
Это можно настроить в Windows Hello или другом сервисе | Это можно настроить в виндс хеллоу или другом сервисе |
Men koʻchada sayr qilishni va muzqaymoq isteʼmol qilishni yaxshi koʻraman, я люблю гулять по улице и есть мороженое | Men koʻchada sayr qilishni va muzqaymoq isteʼmol qilishni yaxshi koʻraman, я люблю гулять по улице и есть мороженое |
Точность распознавания
Вы можете самостоятельно оценить качество распознавания модели SpeechKit на ваших данных, например, в сервисе Yandex DataSphere
Примеры использования
- Разработка Telegram-бота для распознавания текста на изображениях, синтеза и распознавания аудио
- Потоковое распознавание речи с автоматическим определением языка в API v3
- Потоковое распознавание аудиофайла с помощью API v3
- Потоковое распознавание речи с микрофона с помощью API v3