Компьютерное зрение: как машины учатся видеть и понимать мир

Технологии компьютерного зрения управляют беспилотным транспортом, помогают врачам ставить диагнозы и обеспечивают безопасность на производстве.

Краткий пересказ YandexGPT
  • Компьютерное зрение (CV) — область искусственного интеллекта, которая позволяет машинам интерпретировать визуальную информацию. За последние десять лет системы CV перешли от распознавания простых образов к сложному анализу сцен благодаря методам глубокого обучения, доступности больших массивов размеченных данных и росту производительности графических процессоров.
  • Основные задачи CV: классификация изображений, детекция объектов, сегментация (пиксельная разметка объектов), трекинг объектов в видео, восстановление 3D-сцены по 2D-изображениям, генерация изображений.
  • CV активно используется в транспорте, промышленности, ритейле и банках, медицине, сельском хозяйстве, AR/VR и метавселенных, спорте и аналитике.
  • Обучение модели CV включает сбор и подготовку данных, выбор архитектуры нейросети, оптимизацию параметров, оценку модели на тестовом наборе данных с использованием метрик (точность, полнота, F1-мера, mAP, IoU и др.).
  • Для разработки систем CV используют фреймворки, инструменты для экспериментов и анализа, библиотеки для обработки изображений, специализированные библиотеки, облачные сервисы.
  • Проблемы и ограничения CV: необходимость больших размеченных датасетов, вычислительная сложность и энергопотребление, устойчивость и обобщающая способность моделей, проблемы с интерпретируемостью решений, этические вопросы (конфиденциальность и предубеждения в данных).
  • Перспективы развития CV: развитие Self-Supervised Learning, мультимодальных систем, 3D-понимания мира и робототехники, миниатюризация и Edge AI, распространение флагманских моделей.
Тезисы сформулированыYandexGPT
Спасибо!

Компьютерное зрение (Computer Vision, CV) — это область искусственного интеллекта, которая позволяет машинам интерпретировать визуальную информацию. За последние десять лет эта сфера радикально изменилась: системы перешли от распознавания простых образов к сложному анализу сцен. Этот прогресс ускорили три ключевых фактора:

  • методы глубокого обучения (в частности, свёрточные нейросети),
  • доступность больших массивов размеченных данных (таких, как ImageNet),
  • рост производительности графических процессоров.

К 2025 году технологии CV стали стандартом во многих индустриях. Исследователи сместили фокус с базовых задач детектирования на более сложные вызовы. Главные из них — трёхмерное восприятие мира в реальном времени и генеративный ИИ, способный создавать новый визуальный контент. Облачная инфраструктура играет ключевую роль: она предоставляет ресурсы, чтобы обучать и развёртывать масштабные модели.

В статье расскажем, как развивалось компьютерное зрение и какие фундаментальные задачи оно решает, рассмотрим актуальный технологический стек, включая фреймворки и наши облачные сервисы, такие как Yandex Vision OCR. В конце проанализируем текущие ограничения и перспективные направления, включая мультимодальные системы и методы самообучения.

Огромная база данных более чем из 14 млн фотографий, размеченных по 20 тыс. категорий, например «кошка», «самолёт», «облако» и т. д.

История развития компьютерного зрения

Цель компьютерного зрения — научить машины понимать визуальные данные так, как это делает человек. Эта дисциплина прошла несколько этапов, и подходы к решению задач за это время сильно изменились.

Всё началось в 1960‑х годах, когда американский учёный в области информатики Лоуренс (Ларри) Робертс в своей диссертации в MIT в 1963 году показал, как можно извлекать трёхмерную информацию о простых геометрических фигурах из их двумерных изображений. Эту работу часто называют отправной точкой компьютерного зрения. В 1966 году в MIT даже запустили проект Summer Vision Project, наивно полагая, что задачу компьютерного зрения можно решить за одно лето.

В 1980‑х годах нейрофизиолог Дэвид Марр предложил иерархическую модель. В книге Vision (1982) он разделил процесс зрительного восприятия на три уровня:

  • вычислительный — какая цель процесса,
  • алгоритмический — как её достичь,
  • имплементационный — как это реализовать физически.

Его работа заложила теоретический фундамент для многих последующих исследований.

До начала 2010‑х годов инженеры вручную создавали алгоритмы, которые извлекали из изображений заранее определённые признаки — например, границы объектов, углы или особые точки. Алгоритмы (SIFT и SURF) использовали, чтобы обнаруживать ключевые точки и сопоставлять объекты независимо от их масштаба и ориентации. Эти методы работали в контролируемых условиях, но часто давали сбои, если менялось освещение, ракурс или фон.

Революция произошла в 2012 году на ежегодном соревновании по распознаванию изображений — Large Scale Visual Recognition Challenge (ILSVRC). Это состязание проводилось с использованием набора данных ImageNet.

Команда из Университета Торонто (Алекс Крижевский, Илья Суцкевер и Джеффри Хинтон) представила глубокую свёрточную нейросеть AlexNet. Эта модель значительно превзошла традиционные подходы. Она снизила частоту ошибок классификации до 15,3%, тогда как лучший результат конкурентов составлял 26,2%. AlexNet показала: глубокое обучение в сочетании с большими данными и вычислениями на GPU способно решать задачи, которые ранее считали неразрешимыми. Это событие стало стартом для современного бума в области компьютерного зрения.

Одностадийный детектор: за один проход сети сразу предсказывает bounding‑box и класс для каждого объекта.

Одностадийный детектор: использует несколько масштабов «якорей» на разных уровнях фич, чтобы ловить объекты разного размера за один проход.

Двухстадийный детектор: сначала генерирует регионы интереса (RPN), потом классифицирует и уточняет рамки для каждого региона, обычно точнее, но медленнее.

Свёрточная сеть, добавляющая к Faster R‑CNN ветку маски, чтобы одновременно находить объекты, классифицировать их и выдавать бинарную маску каждого экземпляра.

Алгоритм многообъектного трекинга, использующий фильтр Калмана — математический метод, который по прошлым измерениям предсказывает следующее положение объекта и подавляет шум. Параллельно алгоритм берёт признаки внешнего вида из нейросети, чтобы различать объекты. Благодаря этому трекер устойчив к пересечениям и окклюзиям — ситуациям, когда один объект частично или полностью закрывает другой.

Восстанавливает 3D‑структуру сцены и траекторию камеры, анализируя несколько перекрывающихся изображений.

Одновременно оценивает положение камеры/робота и строит карту окружающей среды в реальном времени.

Основные задачи компьютерного зрения

Современное компьютерное зрение охватывает широкий спектр задач: от базовой обработки изображений до сложного анализа видеопотоков и генерации контента. Рассмотрим основные из них.

Классификация изображений

Классификация — фундаментальная задача. Её цель — присвоить изображению одну или несколько меток из заранее определённого набора классов. Долгое время стандартом были свёрточные сети (CNN), но с 2020 года для этой задачи всё чаще применяют архитектуру Vision Transformers (ViT). В отличие от CNN, ViT анализирует изображение как последовательность фрагментов (патчей) и лучше улавливает глобальный контекст.

Детекция объектов

Задача детекции — не только определить, есть ли объект в кадре, но и найти его координаты. Алгоритм детекции возвращает bounding boxes (прямоугольные рамки), которые описывают положение объекта и метку его класса.

Существуют одностадийные архитектуры, такие как семейство YOLO (You Only Look Once) или SSD (Single Shot Multibox Detector), которые выполняют детекцию за один «проход» нейросети. А есть двухстадийные детекторы, например Faster R‑CNN, которые сначала предлагают регионы интереса, а затем классифицируют их. Они, как правило, точнее одностадийных.

Технология позволяет работать в реальном времени — это критически важно для беспилотного транспорта. Также развиваются подходы на основе трансформеров, например DETR.

Сегментация: пиксельная разметка объектов

Сегментация помогает системе детальнее понять сцену. Алгоритм классифицирует каждый пиксель изображения. Различают несколько типов сегментации:

  1. Семантическая сегментация объединяет все пиксели, которые принадлежат одному классу. Например, все пиксели, помеченные как «дорога» или «пешеход».
  2. Экземплярная сегментация идёт дальше. Она различает отдельные экземпляры объектов одного класса: «пешеход 1», «пешеход 2» и т. д. Популярный подход для этой задачи — архитектура Mask R‑CNN.
  3. Паноптическая сегментация объединяет оба подхода: она размечает и классы фона (небо, трава), и отдельные экземпляры объектов, обеспечивая комплексное понимание сцены.

Сегментация незаменима в медицинской диагностике, чтобы, к примеру, выделять опухоли, и в автономном вождении, чтобы точно определять границы проезжей части.

Трекинг объектов в видео

Трекинг — это процесс, когда система отслеживает, как объект перемещается в последовательности кадров. Задача усложняется, если объекты перекрывают друг друга (это называют окклюзией) или меняют внешний вид. Современные алгоритмы трекинга, такие как DeepSORT, комбинируют детекцию с алгоритмами предсказания движения (например, фильтром Калмана) и извлекают признаки внешнего вида с помощью глубоких сетей, чтобы повторно идентифицировать объекты.

Восстановление 3D‑сцены по 2D‑изображениям

Перейти от плоского изображения к трёхмерному представлению мира — одна из самых сложных задач CV. Традиционные методы, такие как SfM (Structure from Motion) и SLAM (Simultaneous Localization and Mapping), реконструируют геометрию сцены и положение камеры по серии снимков или видеопотоку.

В последние годы революцию произвели нейронные поля излучения (Neural Radiance Fields, NeRF). NeRF используют глубокие нейросети, чтобы смоделировать непрерывную объёмную функцию сцены. Это позволяет синтезировать фотореалистичные виды с новых ракурсов. Более новым и значительно более быстрым методом стал 3D Gaussian Splatting (2023 год), который позволяет рендерить сцены в реальном времени.

Генерация изображений: GAN и диффузионные модели

Генерация визуального контента стала одним из самых заметных направлений ИИ. Долгое время стандартом были генеративно‑состязательные сети (GAN). Они состоят из двух сетей — генератора и дискриминатора, которые соревнуются друг с другом.

Но к 2025 году доминировать стали диффузионные модели (например, Stable Diffusion и DALL‑E). Они учатся обращать процесс зашумления — восстанавливать изображение из шума, часто руководствуясь текстовым описанием. Этот подход обеспечивает более высокое качество и разнообразие изображений и стабильнее обучается по сравнению с GAN.

Video Assistant Referee — система видеопомощи арбитрам в футболе, которая помогает судьям принимать решения в спорных моментах.

Где используется компьютерное зрение

Технологии компьютерного зрения активно внедряют в ключевые отрасли экономики:

  • В транспорте CV — это основа для систем помощи водителю и полностью автономного транспорта. Беспилотные автомобили и роботы‑доставщики используют комплекс датчиков (камеры, лидары, радары) и CV‑алгоритмов. Это помогает им ориентироваться в сложных городских условиях, распознавая знаки, разметку, пешеходов и другие транспортные средства в реальном времени.
  • В промышленности компьютерное зрение применяют для автоматического контроля качества продукции — камеры на производственных линиях обнаруживают микроскопические дефекты. В металлургии и нефтегазовом секторе CV‑системы следят за соблюдением техники безопасности. Например, они контролируют наличие средств индивидуальной защиты — касок и жилетов — у работников.
  • Ритейл и банки используют CV, чтобы анализировать поведение покупателей, оптимизировать выкладку товаров и управлять запасами. Технологии распознавания лиц применяют для биометрической идентификации клиентов (например, для оплаты лицом) и обеспечения безопасности в отделениях.
  • В медицине алгоритмы помогают врачам анализировать медицинские изображения: рентгеновские снимки, КТ, МРТ и гистологические образцы. Системы на базе CV выявляют патологии, опухоли или признаки пневмонии на ранних стадиях. Это повышает точность диагностики и помогает планировать лечение.
  • В сельском хозяйстве компьютерное зрение используют для точного земледелия. Дроны с камерами мониторят состояние посевов, выявляют болезни растений и оценивают урожайность. Это помогает оптимизировать ресурсы.
  • В АR/VR и метавселенных: компьютерное зрение критически важно для трекинга движений, отслеживания взгляда и наложения виртуальных объектов на реальный мир.
  • В спорте и аналитике: автоматический сбор статистики, анализ техники движений спортсменов, система VAR в футболе.

Подход, при котором модель сама выбирает наиболее «неопределённые» или сложные для неё примеры, а человек размечает именно их. Это позволяет сократить объём ручной разметки и быстрее улучшить качество модели.

Мера ошибки модели, которая показывает, насколько предсказания отличаются от правильных ответов.

Метод оптимизации, при котором модель шаг за шагом корректирует параметры, двигаясь в сторону уменьшения ошибки. Для ускорения берут не все данные сразу, а небольшие случайные выборки (батчи).

Гармоническое среднее точности и полноты. Показывает баланс между тем, сколько объектов найдено, и насколько эти находки правильные.

mean Average Precision — усреднённая точность по всем классам. Используется в задачах детекции, чтобы оценить, насколько хорошо модель находит объекты разных типов.

Intersection over Union — метрика, которая сравнивает площадь пересечения предсказанной и истинной области с площадью их объединения. Чем ближе значение к единице, тем точнее сегментация или детекция.

Как обучается модель компьютерного зрения

Чтобы создать эффективную CV‑модель, нужны большие объёмы данных и значительные вычислительные ресурсы. Этот процесс состоит из нескольких этапов.

Он начинается со сбора и подготовки данных. Для большинства задач глубокого обучения требуется размеченный датасет. Качество и разнообразие данных напрямую влияют на точность модели. Размечать данные часто бывает трудоёмко. Чтобы ускорить этот процесс, используют краудсорсинговые платформы. Также применяют методы аугментации данных (искусственное увеличение разнообразия датасета), синтетические данные (сгенерированные компьютерной графикой) и активное обучение.

Следующий шаг — выбор архитектуры нейросети. В зависимости от задачи могут использовать свёрточные нейросети, которые хорошо анализируют пространственные иерархии. Также применяют трансформеры — они эффективнее улавливают глобальные зависимости. Часто используют предобученные модели, которые дообучают под конкретную задачу.

Когда модель обучается, её параметры оптимизируют. Цель — минимизировать функцию потерь. Этот процесс выполняют с помощью алгоритмов стохастического градиентного спуска (например, Adam), который требует высокопроизводительных GPU.

После обучения модель оценивают на тестовом наборе данных. Для этого используют метрики — например, точность, полноту, F1‑меру для классификации, mAP для детекции, IoU для сегментации.

Технологический стек

Разработка систем компьютерного зрения опирается на специализированные библиотеки, фреймворки и облачные сервисы.

Популярные фреймворки глубокого обучения

PyTorch®

PyTorch стал ведущим фреймворком в исследованиях CV‑моделей. Он популярен благодаря своей гибкости и динамическому графу вычислений, что упрощает прототипирование. У него богатая экосистема библиотек для компьютерного зрения (TorchVision).

TensorFlow/Keras

TensorFlow — это комплексная платформа от Google. Она предоставляет инструменты для построения и развёртывания моделей на различных платформах, включая мобильные устройства (TF Lite) и браузеры (TF.js). Keras предлагает высокоуровневый API, упрощающий создание нейросетей.

Инструменты для экспериментов и анализа

Большинство экспериментов и прототипирования с использованием PyTorch проводят в интерактивных средах, таких как Jupyter® Notebook, которая стала незаменимым инструментом для исследователей и дата‑сайентистов. Она позволяет объединять код (на Python, R и других языках), визуализации, текст и формулы в одном документе.

В контексте компьютерного зрения в Jupyter удобно загружать и просматривать изображения, проводить предварительный анализ данных, поэтапно запускать обучение моделей и сразу же визуализировать результаты — например, отображать bounding boxes после детекции или маски сегментации. Это ускоряет итерации и облегчает отладку моделей.

Чтобы управлять жизненным циклом машинного обучения — от подготовки данных до обучения и развёртывания моделей, — мы предлагаем среду для ML‑разработки Yandex DataSphere, которая объединяет привычный Jupyter® Notebook и вычислительные мощности Yandex Cloud.

Библиотеки для обработки изображений

OpenCV

OpenCV (Open Source Computer Vision Library) — это де‑факто стандарт для классического компьютерного зрения и обработки изображений. Она содержит более 2,5 тыс. оптимизированных алгоритмов для фильтрации, геометрических преобразований и анализа видео. OpenCV часто используют для предварительной и постобработки данных.

Специализированные библиотеки

Экосистема CV постоянно пополняется специализированными инструментами:

  • YOLO (You Only Look Once) — семейство архитектур для высокоскоростной детекции. Существует множество реализаций, например от Ultralytics (YOLOv8/YOLOv9), которые используются как готовые инструменты.
  • MMDetection и Detectron2 — популярные тулбоксы, предоставляющие реализации множества современных алгоритмов детекции и сегментации.
  • Hugging Face Transformers предоставляет доступ к тысячам предобученных моделей на базе трансформеров, включая ViT и диффузионные модели.

Хранение и управление данными

Датасеты изображений и видео — это терабайты данных. Нельзя работать с ними как с обычными файлами в папке. Работа с большими объёмами визуальных данных требует специализированных решений для хранения и версионирования:

  • Объектные хранилища — например, такие, как Yandex Object Storage — стандарт для хранения больших наборов изображений и видео.
  • Векторные базы данных нужны для поиска по сходству — например, для поиска похожих изображений или лиц. Они работают с векторными представлениями (эмбеддингами), которые генерируют нейросети. Помимо специализированных решений вроде Milvus или Qdrant, возможность векторного поиска поддерживают и универсальные базы данных, такие как YDB. Это позволяет создавать гибридные системы, сочетающие семантический поиск по векторам с традиционными SQL‑запросами.
  • Датасет‑менеджеры — для версионирования данных и моделей используют инструменты вроде DVC (Data Version Control), которые интегрируются с Git. Платформы для ML‑разработки, такие как Yandex DataSphere, предоставляют встроенные возможности для работы с датасетами, их хранения и организации в рамках проектов.

Облачные сервисы

Облачные платформы предоставляют готовые API для решения стандартных задач компьютерного зрения без необходимости разрабатывать собственные модели.

Yandex Vision OCR — сервис компьютерного зрения на платформе Yandex Cloud. Он предоставляет API для распознавания текста (OCR) на более чем 40 языках, классификации изображений, обнаружения лиц и модерации контента.

Сервис распознаёт текст в сложных документах, включая таблицы и рукописный ввод, что позволяет автоматизировать документооборот. Yandex Vision OCR легко интегрируется с другими нашими сервисами, например Yandex Object Storage и Yandex Cloud Functions.

Направление в машинном обучении, которое разрабатывает методы для объяснения решений нейросетей. Его цель — показать, какие признаки или области данных повлияли на результат модели, чтобы сделать работу ИИ более прозрачной и понятной человеку.

Визуализации, подсвечивающие области изображения, на которые модель обращала больше всего внимания при принятии решения. Они помогают понять, какие фрагменты данных оказались для неё значимыми.

Проблемы и ограничения

Несмотря на значительный прогресс, компьютерное зрение сталкивается с рядом фундаментальных проблем.

Необходимость больших размеченных датасетов

Большинство современных CV‑моделей обучают в режиме «с учителем», и им требуются огромные объёмы размеченных данных. Собирать и аннотировать такие датасеты — дорого и трудоёмко. Это остаётся серьёзным барьером, особенно в узкоспециализированных областях — например, анализе редких заболеваний.

Вычислительная сложность и энергопотребление

Обучение глубоких нейросетей, особенно больших мультимодальных моделей, требует значительных вычислительных ресурсов. Это увеличивает стоимость разработки и углеродный след ИИ. Кроме того, инференс (работа модели в продакшне) также может быть ресурсоёмким, что затрудняет развёртывание сложных моделей на устройствах с ограниченной мощностью.

Устойчивость и обобщающая способность

Модели, обученные в одних условиях, могут плохо работать в других — например, при смене погоды, освещения или использовании другой камеры. Также системы CV уязвимы к состязательным атакам — специально созданным небольшим изменениям во входных данных, которые заставляют модель ошибаться.

Проблемы с интерпретируемостью решений

Глубокие нейросети часто работают как «чёрные ящики». Понять, почему модель приняла то или иное решение, бывает сложно. Это создаёт риски, где цена ошибки особенно высока, — от медицинской диагностики до управления автономным транспортом. Направление Explainable AI предлагает методы (например, карты внимания), чтобы визуализировать, на какие области изображения модель опирается при принятии решения.

Этические вопросы: конфиденциальность и предубеждения в данных

Системы видеонаблюдения и распознавания лиц могут вызывать опасения по поводу массовой слежки и нарушения конфиденциальности. Кроме того, модели могут наследовать и усиливать предубеждения, присутствующие в обучающих данных.

Метод, при котором модель учится различать похожие и непохожие примеры. Она сближает в пространстве представлений объекты, которые относятся к одному случаю (например, разные кадры одного изображения), и отдаляет те, что не связаны между собой.

Neural Radiance Fields — метод, в котором нейросеть моделирует 3D‑сцену как непрерывное поле. Это позволяет по набору 2D‑снимков синтезировать новые фотореалистичные виды сцены с любых ракурсов.

Техника, где сцена представляется облаком трёхмерных размытых точек. Она даёт более быструю и эффективную визуализацию по сравнению с NeRF, сохраняя высокое качество изображения.

Будущее компьютерного зрения

Компьютерное зрение продолжает стремительно развиваться. В 2025 году и далее можно ожидать прогресс в нескольких ключевых направлениях.

Развитие Self‑Supervised Learning (SSL)

Один из главных трендов — снизижение зависимости от ручной разметки данных. SSL позволяет моделям изучать структуру данных без аннотаций.

SSL‑методы используют входной сигнал для создания обучающих задач. Например, предсказывают скрытую часть изображения или используют контрастное обучение. Это позволяет создавать более универсальные фундаментальные модели.

Мультимодальные системы

Будущее ИИ за мультимодальностью — способностью систем понимать информацию из разных источников. Интеграция CV с обработкой естественного языка открыла путь к созданию моделей, способных одновременно «видеть» и читать, — так называемых Vision‑Language Models (VLM).

Такие модели, как, например, CLIP, научились сопоставлять текст и изображения, что открыло путь к Zero‑Shot‑классификации — распознаванию классов, которых не было в обучающей выборке, — и генерации изображений по текстовому описанию.

Современные VLM могут рассуждать о визуальной информации и отвечать на сложные вопросы об изображении.

3D‑понимание мира и робототехника

Способность машин воспринимать мир в 3D в реальном времени критически важна для робототехники, автономного транспорта и метавселенных.

Технологии, подобные NeRF и 3D Gaussian Splatting, будут играть важную роль в создании иммерсивного опыта и обучении роботов взаимодействию с физическим миром.

Дальнейшая миниатюризация и Edge AI

Продолжится тренд на оптимизацию и сжатие нейросетей. Для этого используют методы прунинга (удаление незначимых весов), квантования (снижение точности вычислений) и дистилляции знаний (передача знаний от большой модели к маленькой). Это нужно, чтобы запускать модели на устройствах с ограниченными ресурсами: смартфонах, дронах, IoT‑устройствах. Перенос вычислений с облака на устройство (Edge AI) обеспечит низкую задержку, повышенную конфиденциальность и автономность работы.

Развитие флагманских моделей

Ещё одним ключевым направлением становится распространение флагманских моделей (Foundation Models). Это огромные предобученные модели, способные решать множество задач «из коробки» или быстро адаптироваться к новым с минимальным количеством примеров. Такие модели станут основой для следующего поколения приложений. Платформы, предоставляющие доступ к этим технологиям, например, Yandex AI Studio, значительно упрощают их использование, предлагая API для интеграции мощных моделей в реальные бизнес‑процессы, что ускоряет внедрение инноваций.

Компьютерное зрение: как машины учатся видеть и понимать мир
Войдите, чтобы сохранить пост