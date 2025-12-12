Одностадийный детектор: за один проход сети сразу предсказывает bounding‑box и класс для каждого объекта.

Одностадийный детектор: использует несколько масштабов «якорей» на разных уровнях фич, чтобы ловить объекты разного размера за один проход.

Двухстадийный детектор: сначала генерирует регионы интереса (RPN), потом классифицирует и уточняет рамки для каждого региона, обычно точнее, но медленнее.

Свёрточная сеть, добавляющая к Faster R‑CNN ветку маски, чтобы одновременно находить объекты, классифицировать их и выдавать бинарную маску каждого экземпляра.

Алгоритм многообъектного трекинга, использующий фильтр Калмана — математический метод, который по прошлым измерениям предсказывает следующее положение объекта и подавляет шум. Параллельно алгоритм берёт признаки внешнего вида из нейросети, чтобы различать объекты. Благодаря этому трекер устойчив к пересечениям и окклюзиям — ситуациям, когда один объект частично или полностью закрывает другой.

Восстанавливает 3D‑структуру сцены и траекторию камеры, анализируя несколько перекрывающихся изображений.

Одновременно оценивает положение камеры/робота и строит карту окружающей среды в реальном времени.

Основные задачи компьютерного зрения

Современное компьютерное зрение охватывает широкий спектр задач: от базовой обработки изображений до сложного анализа видеопотоков и генерации контента. Рассмотрим основные из них.

Классификация изображений

Классификация — фундаментальная задача. Её цель — присвоить изображению одну или несколько меток из заранее определённого набора классов. Долгое время стандартом были свёрточные сети (CNN), но с 2020 года для этой задачи всё чаще применяют архитектуру Vision Transformers (ViT) . В отличие от CNN, ViT анализирует изображение как последовательность фрагментов (патчей) и лучше улавливает глобальный контекст.

Детекция объектов

Задача детекции — не только определить, есть ли объект в кадре, но и найти его координаты. Алгоритм детекции возвращает bounding boxes (прямоугольные рамки), которые описывают положение объекта и метку его класса.

Существуют одностадийные архитектуры , такие как семейство YOLO (You Only Look Once) или SSD (Single Shot Multibox Detector), которые выполняют детекцию за один «проход» нейросети. А есть двухстадийные детекторы , например Faster R‑CNN, которые сначала предлагают регионы интереса, а затем классифицируют их. Они, как правило, точнее одностадийных.

Технология позволяет работать в реальном времени — это критически важно для беспилотного транспорта. Также развиваются подходы на основе трансформеров , например DETR.

Сегментация: пиксельная разметка объектов

Сегментация помогает системе детальнее понять сцену. Алгоритм классифицирует каждый пиксель изображения. Различают несколько типов сегментации:

Семантическая сегментация объединяет все пиксели, которые принадлежат одному классу. Например, все пиксели, помеченные как «дорога» или «пешеход». Экземплярная сегментация идёт дальше. Она различает отдельные экземпляры объектов одного класса: «пешеход 1», «пешеход 2» и т. д. Популярный подход для этой задачи — архитектура Mask R‑CNN. Паноптическая сегментация объединяет оба подхода: она размечает и классы фона (небо, трава), и отдельные экземпляры объектов, обеспечивая комплексное понимание сцены.

Сегментация незаменима в медицинской диагностике, чтобы, к примеру, выделять опухоли, и в автономном вождении, чтобы точно определять границы проезжей части.

Трекинг объектов в видео

Трекинг — это процесс, когда система отслеживает, как объект перемещается в последовательности кадров. Задача усложняется, если объекты перекрывают друг друга (это называют окклюзией) или меняют внешний вид. Современные алгоритмы трекинга, такие как DeepSORT, комбинируют детекцию с алгоритмами предсказания движения (например, фильтром Калмана) и извлекают признаки внешнего вида с помощью глубоких сетей, чтобы повторно идентифицировать объекты.

Восстановление 3D‑сцены по 2D‑изображениям

Перейти от плоского изображения к трёхмерному представлению мира — одна из самых сложных задач CV. Традиционные методы, такие как SfM (Structure from Motion) и SLAM (Simultaneous Localization and Mapping), реконструируют геометрию сцены и положение камеры по серии снимков или видеопотоку.

В последние годы революцию произвели нейронные поля излучения (Neural Radiance Fields, NeRF). NeRF используют глубокие нейросети, чтобы смоделировать непрерывную объёмную функцию сцены. Это позволяет синтезировать фотореалистичные виды с новых ракурсов. Более новым и значительно более быстрым методом стал 3D Gaussian Splatting (2023 год), который позволяет рендерить сцены в реальном времени.

Генерация изображений: GAN и диффузионные модели

Генерация визуального контента стала одним из самых заметных направлений ИИ. Долгое время стандартом были генеративно‑состязательные сети (GAN ). Они состоят из двух сетей — генератора и дискриминатора, которые соревнуются друг с другом.

Но к 2025 году доминировать стали диффузионные модели (например, Stable Diffusion и DALL‑E). Они учатся обращать процесс зашумления — восстанавливать изображение из шума, часто руководствуясь текстовым описанием. Этот подход обеспечивает более высокое качество и разнообразие изображений и стабильнее обучается по сравнению с GAN.