О сервисе Yandex Vision OCR

Статья создана

Обновлена 16 января 2026 г.

Режимы работы Vision OCR
Модели распознавания
- Определение языковой модели
- Требования к изображению
Ответ с результатами распознавания
- Формат ответа
- Ошибки в определении координат
Примеры использования
См. также

OCR (Optical Character Recognition) – это оптическое распознавание текста. Сервис компьютерного зрения Yandex Vision OCR позволяет распознавать текст на изображениях и в файлах PDF.

Vision OCR предоставляет свои возможности через API. Вы можете интегрировать функциональность сервиса в свое приложение, написанное на любом языке программирования, или отправлять запросы с помощью утилиты cURL и ее аналогов. Сервис Vision OCR предоставляет API в нотациях REST и gRPC. Вы можете самостоятельно сгенерировать интерфейс API для своего языка программирования на основе спецификации API.

Режимы работы Vision OCR

Vision OCR может обрабатывать запросы на распознавание изображений в синхронном и асинхронном режиме.

В синхронном режиме сервис получит ваш запрос, сразу же обработает его и вернет результат в ответном сообщении. Такой режим подходит для приложений, которым необходимо поддерживать диалог с пользователем. Однако в синхронном режиме Vision OCR не может обработать большие объемы информации.
В асинхронном режиме сервис получит запрос и сразу же вернет идентификатор операции, по которому позже вы сможете получить результат распознавания. Распознавание текста в асинхронном режиме займет больше времени, но позволит обработать большие объемы информации за один запрос. Асинхронный режим подойдет, если ваши задачи не требуют срочного ответа.

Модели распознавания

Vision OCR предоставляет несколько моделей для распознавания разных типов текста на изображениях и в файлах PDF. Это может быть печатный текст, многоколоночный печатный текст, таблицы, рукописный текст или шаблонные документы, например паспорт или регистрационный номер автомобиля. Чем точнее вы выберите модель, тем лучше будет результат распознавания. Модель передается в параметрах запроса в поле model.

Модели для распознавания текста:

page (по умолчанию) — подойдет для изображений с любым количеством строк текста, сверстанного в одну колонку.
page-column-sort — распознает многоколоночный текст.
handwritten — распознает произвольное сочетание печатного и рукописного текста на русском и английском языках.
table — подходит для распознавания таблиц на русском и английском языках.
markdown — распознает текст на изображениях и возвращает результаты в том числе в формате Markdown. Например, 'markdown': 'PENGUINS. CROSSING\nSLOW\n'.
math-markdown — подойдет для распознавания математических формул. Модель возвращает распознанный текст в том числе в формате Markdown, при этом математические формулы будут обернуты в синтаксис LaTeX. Например, 'markdown': 'Important Algebraic Formulas\n\n$(a + b) ^ {2} = a ^ {2} + b ^ {2} + 2ab$'.

Модели для распознавания шаблонных документов:

passport — основной разворот паспорта.
driver-license-front — водительское удостоверение, лицевая сторона.
driver-license-back — водительское удостоверение, обратная сторона.
vehicle-registration-front — свидетельство о регистрации транспортного средства, лицевая сторона.
vehicle-registration-back — свидетельство о регистрации транспортного средства, обратная сторона.
license-plates — все регистрационные номера автомобилей на изображении.

Определение языковой модели

Для распознавания текста Vision OCR использует языковые модели, обученные на определенном наборе языков. Большинство моделей выбирается автоматически на основе списка языков, который вы указываете в запросе. При каждом распознавании текста используется только одна модель. Например, если на изображении текст на китайском и японском, то распознан будет только один из этих языков. Чтобы распознать оба этих языка, отправьте запрос еще раз, указав другой язык распознавания.

Модели handwritten и table поддерживают только русский и английский язык. Чтобы использовать эти модели, явно укажите один или оба языка в свойстве languageCodes для OCR API.

Чтобы использовать модели для распознавания шаблонных документов, укажите язык нужной страны.

Требования к изображению

Изображение в запросе должно соответствовать следующим требованиям:

Поддерживаемые форматы файлов: JPEG, PNG, PDF. MIME-тип файла указывайте в свойстве mime_type. По умолчанию image.
Максимальный размер файла: 10 МБ.
Размер изображения не должен превышать 20 мегапикселей (длина × ширина).

Ответ с результатами распознавания

Сервис выделяет найденный текст на изображении и группирует его по уровням: слова группируются в строки, строки в блоки, блоки в страницы.

В результате сервис возвращает объект, где для каждого из уровней дополнительно указывается:

Страницы (pages[]) — размер страницы.
Блоки текста (blocks[]) — расположение текста на странице. Имеют свойство LayoutType, которое принимает одно из значений:
- LAYOUT_TYPE_UNSPECIFIED — не установлено;
- LAYOUT_TYPE_UNKNOWN — не найдено;
- LAYOUT_TYPE_TEXT — текст;
- LAYOUT_TYPE_HEADER — заголовок;
- LAYOUT_TYPE_SECTION_HEADER — заголовок раздела;
- LAYOUT_TYPE_FOOTER — нижнее примечание;
- LAYOUT_TYPE_FOOTNOTE — примечание;
- LAYOUT_TYPE_PICTURE — текст на изображении;
- LAYOUT_TYPE_CAPTION — подпись;
- LAYOUT_TYPE_TITLE — название;
- LAYOUT_TYPE_LIST — список.
Строки (lines[]) — расположение строк.
Слова (words[]) — расположение слов, текст и язык, использованный при распознавании.
Изображения (pictures[]) — расположение изображений в документе.

Чтобы показать расположение текста, сервис возвращает координаты прямоугольника, обрамляющего текст. Координаты — количество пикселей от левого верхнего угла на изображении.

Координаты прямоугольника считаются от левого верхнего угла и указываются против часовой стрелки:

1←4
↓ ↑
2→3

Пример распознанного изображения с координатами:

{
    "result":
    {
        "textAnnotation":
        {
            "width": "1920",
            "height": "1280",
            "blocks":
            [
                {
                    "boundingBox":
                    {
                        "vertices":
                        [
                            {
                                "x": "460",
                                "y": "777"
                            },
                            {
                                "x": "460",
                                "y": "906"
                            },
                            {
                                "x": "810",
                                "y": "906"
                            },
                            {
                                "x": "810",
                                "y": "777"
                            }
                        ]
                    },
                    "lines":
                    [
                        {
                            "boundingBox":
                            {
                                "vertices":
                                [
                                    {
                                        "x": "460",
                                        "y": "777"
                                    },
                                    {
                                        "x": "460",
                                        "y": "820"
                                    },
                                    {
                                        "x": "802",
                                        "y": "820"
                                    },
                                    {
                                        "x": "802",
                                        "y": "777"
                                    }
                                ]
                            },
                            "text": "PENGUINS",
                            "words":
                            [
                                {
                                    "boundingBox":
                                    {
                                        "vertices":
                                        [
                                            {
                                                "x": "460",
                                                "y": "768"
                                            },
                                            {
                                                "x": "460",
                                                "y": "830"
                                            },
                                            {
                                                "x": "802",
                                                "y": "830"
                                            },
                                            {
                                                "x": "802",
                                                "y": "768"
                                            }
                                        ]
                                    },
                                    "text": "PENGUINS",
                                    "entityIndex": "-1",
                                    "textSegments":
                                    [
                                        {
                                            "startIndex": "0",
                                            "length": "8"
                                        }
                                    ]
                                }
                            ],
                            "textSegments":
                            [
                                {
                                    "startIndex": "0",
                                    "length": "8"
                                }
                            ],
                            "orientation": "ANGLE_0"
                        },
                        {
                            "boundingBox":
                            {
                                "vertices":
                                [
                                    {
                                        "x": "489",
                                        "y": "861"
                                    },
                                    {
                                        "x": "489",
                                        "y": "906"
                                    },
                                    {
                                        "x": "810",
                                        "y": "906"
                                    },
                                    {
                                        "x": "810",
                                        "y": "861"
                                    }
                                ]
                            },
                            "text": "CROSSING",
                            "words":
                            [
                                {
                                    "boundingBox":
                                    {
                                        "vertices":
                                        [
                                            {
                                                "x": "489",
                                                "y": "852"
                                            },
                                            {
                                                "x": "489",
                                                "y": "916"
                                            },
                                            {
                                                "x": "810",
                                                "y": "916"
                                            },
                                            {
                                                "x": "810",
                                                "y": "852"
                                            }
                                        ]
                                    },
                                    "text": "CROSSING",
                                    "entityIndex": "-1",
                                    "textSegments":
                                    [
                                        {
                                            "startIndex": "9",
                                            "length": "8"
                                        }
                                    ]
                                }
                            ],
                            "textSegments":
                            [
                                {
                                    "startIndex": "9",
                                    "length": "8"
                                }
                            ],
                            "orientation": "ANGLE_0"
                        }
                    ],
                    "languages":
                    [
                        {
                            "languageCode": "en"
                        }
                    ],
                    "textSegments":
                    [
                        {
                            "startIndex": "0",
                            "length": "17"
                        }
                    ],
                    "layoutType": "LAYOUT_TYPE_TEXT"
                },
                {
                    "boundingBox":
                    {
                        "vertices":
                        [
                            {
                                "x": "547",
                                "y": "989"
                            },
                            {
                                "x": "547",
                                "y": "1046"
                            },
                            {
                                "x": "748",
                                "y": "1046"
                            },
                            {
                                "x": "748",
                                "y": "989"
                            }
                        ]
                    },
                    "lines":
                    [
                        {
                            "boundingBox":
                            {
                                "vertices":
                                [
                                    {
                                        "x": "547",
                                        "y": "989"
                                    },
                                    {
                                        "x": "547",
                                        "y": "1046"
                                    },
                                    {
                                        "x": "748",
                                        "y": "1046"
                                    },
                                    {
                                        "x": "748",
                                        "y": "989"
                                    }
                                ]
                            },
                            "text": "SLOW",
                            "words":
                            [
                                {
                                    "boundingBox":
                                    {
                                        "vertices":
                                        [
                                            {
                                                "x": "547",
                                                "y": "983"
                                            },
                                            {
                                                "x": "547",
                                                "y": "1054"
                                            },
                                            {
                                                "x": "748",
                                                "y": "1054"
                                            },
                                            {
                                                "x": "748",
                                                "y": "983"
                                            }
                                        ]
                                    },
                                    "text": "SLOW",
                                    "entityIndex": "-1",
                                    "textSegments":
                                    [
                                        {
                                            "startIndex": "18",
                                            "length": "4"
                                        }
                                    ]
                                }
                            ],
                            "textSegments":
                            [
                                {
                                    "startIndex": "18",
                                    "length": "4"
                                }
                            ],
                            "orientation": "ANGLE_0"
                        }
                    ],
                    "languages":
                    [
                        {
                            "languageCode": "en"
                        }
                    ],
                    "textSegments":
                    [
                        {
                            "startIndex": "18",
                            "length": "4"
                        }
                    ],
                    "layoutType": "LAYOUT_TYPE_TEXT"
                }
            ],
            "entities":
            [],
            "tables":
            [],
            "fullText": "PENGUINS\nCROSSING\nSLOW\n",
            "rotate": "ANGLE_0",
            "markdown": " ",
            "pictures":
            []
        },
        "page": "0"
    }
}

Формат ответа

Yandex Vision OCR предоставляет результат распознавания в формате JSON Lines, где каждая строка JSON-файла соответствует одной распознанной странице или изображению.

Ошибки в определении координат

В некоторых случаях сервис возвращает координаты, которые не соответствуют отображению текста в пользовательском обработчике изображений. Это связано с некорректной обработкой метаданных exif обработчиком изображений пользователя.

При распознавании сервис учитывает данные о повороте изображения, которые задаются атрибутом Orientation секции exif. Некоторые средства просмотра изображений могут игнорировать заданные в exif значения поворота, что приводит к несоответствию полученных результатов отображаемому изображению.

Чтобы исправить эту ошибку, выполните одно из действий:

Измените настройки обработчика изображений так, чтобы при просмотре учитывался заданный в секции exif угол поворота.
При передаче в сервис удалите из секции exif изображения атрибут Orientation, либо установите для него значение 0.

Компьютерное зрение: как машины учатся видеть и понимать мир.

О сервисе Yandex Vision OCR

Режимы работы Vision OCR

Модели распознавания

Определение языковой модели

Требования к изображению

Ответ с результатами распознавания

Формат ответа

Ошибки в определении координат

Примеры использования

Что дальше

См. также

Была ли статья полезна?

О сервисе Yandex Vision OCR

Режимы работы Vision OCRРежимы работы Vision OCR

Модели распознаванияМодели распознавания

Определение языковой моделиОпределение языковой модели

Требования к изображениюТребования к изображению

Ответ с результатами распознаванияОтвет с результатами распознавания

Формат ответаФормат ответа

Ошибки в определении координатОшибки в определении координат

Примеры использованияПримеры использования

Что дальшеЧто дальше

См. такжеСм. также

Была ли статья полезна?

Режимы работы Vision OCR

Модели распознавания

Определение языковой модели

Требования к изображению

Ответ с результатами распознавания

Формат ответа

Ошибки в определении координат

Примеры использования

Что дальше

См. также