Поддерживаемые языки и модели распознавания
Модель распознавания — модель, которая обучена распознавать речь на определенном языке. Для обучения моделей используются массивы данных из сервисов и приложений Яндекса. Это позволяет постоянно улучшать качество распознавания.
Основная поддерживаемая модель для каждого типа распознавания — модель general
. Она распознает речь на любую тему на заданном языке: короткие и длинные фразы, а также имена, адреса, даты и числа.
Теги версий
Одновременно могут быть доступны три версии модели general
. Выбрать нужную версию можно по тегам:
general
— основная версия модели.general:rc
— версия-кандидат для релиза, которую вы можете тестировать.general:deprecated
— предыдущая версия модели.
Примечание
Версии, доступные по тегу general:deprecated
, с выходом новых моделей перестают поддерживаться: SpeechKit гарантирует две недели поддержки предыдущей версии со дня обновления версии по тегу general
. Список изменений доступен в разделе История изменений в сервисе распознавания Yandex SpeechKit.
Для асинхронного распознавания с помощью API v2 также доступен тег deferred-general
. Подробнее об режимах работы асинхронного распознавания.
Поддерживаемые языки распознавания
Используйте код языка распознавания из таблицы ниже. Все доступные значения кодов не чувствительны к регистру.
Код | Язык |
---|---|
auto |
Автоматическое распознавание языка |
de-DE |
Немецкий |
en-US |
Английский |
es-ES |
Испанский |
fi-FI |
Финский |
fr-FR |
Французский |
he-IL |
Иврит |
it-IT |
Итальянский |
kk-KZ |
Казахский |
nl-NL |
Голландский |
pl-PL |
Польский |
pt-PT |
Португальский |
pt-BR |
Бразильский португальский |
ru-RU |
Русский (по умолчанию) |
sv-SE |
Шведский |
tr-TR |
Турецкий |
uz-UZ |
Узбекский (латиница) |
Автоматическое определение языка
Сервис SpeechKit в ходе распознавания речи автоматически определяет язык в каждом отдельном предложении.
Чтобы настроить автоматическое определение языка, в параметре language_code
метода LanguageRestrictionOptions()
укажите значение auto
:
language_restriction=stt_pb2.LanguageRestrictionOptions(
restriction_type=stt_pb2.LanguageRestrictionOptions.WHITELIST,
language_code=['auto']
)
Вместе с результатами распознавания сервис возвращает языковые метки, содержащие код языка и вероятность правильности его определения:
language_code: "ru-RU" probability: 0.91582357883453369
Если одно предложение состоит из слов на разных языках, то язык может быть определен неверно. Для улучшения результатов добавьте список ожидаемых языков как подсказку для модели. Например:
...
language_code=['auto', 'en-US', 'es-ES', 'fr-FR']
...
Примечание
Определение языка и расстановка языковых меток доступно только в gRPC API v3.
Примеры
Текст в аудио | Транскрибация |
---|---|
Открой Whats'app | Открой ватсап |
Это можно настроить в Windows Hello или другом сервисе | Это можно настроить в виндс хеллоу или другом сервисе |
Men koʻchada sayr qilishni va muzqaymoq isteʼmol qilishni yaxshi koʻraman, я люблю гулять по улице и есть мороженое | Men koʻchada sayr qilishni va muzqaymoq isteʼmol qilishni yaxshi koʻraman, я люблю гулять по улице и есть мороженое |
Точность распознавания
В сервисе Yandex DataSphere вы можете самостоятельно оценить качество распознавания модели SpeechKit на ваших данных.
Примеры использования
- Разработка Telegram-бота для распознавания текста на изображениях, синтеза и распознавания аудио
- Потоковое распознавание речи с автоматическим определением языка в API v3
- Потоковое распознавание аудиофайла с помощью API v3
- Потоковое распознавание речи с микрофона с помощью API v3