Визуально‑лингвистические модели: архитектура, применение и перспективы

Технология объединяет компьютерное зрение и обработку естественного языка. В апреле 2025 года на нашей платформе появились первые открытые модели такого типа и режим пакетного инференса.

Краткий пересказ YandexGPT
  • Визуально-лингвистические модели (VLM) работают с двумя модальностями — картинкой и текстом, объединяя зрительные и языковые данные в одном пространстве.
  • VLM помогают решать задачи в робототехнике, медицине, коммерции и бизнес-аналитике.
  • Применение VLM в медицине позволяет формировать наглядные пояснения и отчёты, а в коммерции — разбирать фотографии товаров и писать описания.
  • Преимущества VLM — объединение разрозненных источников данных и лёгкость обучения с ходу, но есть и ограничения: «галлюцинации» и высокая стоимость обучения.
  • Выбор VLM зависит от цели исследования, доступного корпуса, предметной области, производительности, лицензий и правового статуса.
Тезисы сформулированыYandexGPT
Спасибо!

«Visual»: обозначает мультимодальность с поддержкой обработки и анализа изображений.

За последние годы большие языковые модели заметно расширили возможности ИИ, но пока умеют работать только с текстом. Чтобы преодолеть это ограничение, исследователи начали добавлять моделям способность воспринимать изображения. Так появились мультимодальные решения, например, CLIP, BLIP, Flamingo, GPT‑4 (V) и Gemini. Они одновременно понимают текст и картинки, а значит, могут решать самые разные задачи: от простых подписей к фото до сложных диалогов с использованием изображений.

Российский рынок развивается в том же направлении. В апреле 2025 года в Foundation Models появились визуально‑лингвистические модели (VLM) и режим Batch Processing. В это же время платформа Yandex B2B Tech предоставила доступ к опенсорсным VLM — DeepSeek VL2 Tiny, Qwen 2.5 VL и Gemma 3 27B — с поддержкой пакетного инференса. Эти модели параллельно работают с текстами и изображениями, а новый режим обрабатывает тысячи вызовов за один запрос.

В статье объясним разницу между VLM и традиционными языковыми моделями, покажем, как они помогают решать задачи в разных отраслях, разберём их сильные и слабые стороны. Посмотрим на модели, представленные на рынке, и расскажем, как выбрать подходящую под конкретную задачу. И поделимся собственными разработками в области VLM и предложим сценарии, которые помогут российским компаниям использовать новые возможности.

Contrastive Language–Image Pre‑training — модель OpenAI, связывает изображения и текст в общем векторном пространстве для zero‑shot задач.

Означает качество классификации, сопоставимое с ResNet‑50 — 50‑слойной сверточной сети с остаточными связями, которая является эталонная для ImageNet — крупного датасета с 1 млн+ размеченных изображений по 1000 классам.

Метки классов, вручную присвоенные каждому изображению в датасете ImageNet для обучения и оценки моделей компьютерного зрения.

Bootstrapping Language–Image Pre‑training — модель, которая сперва сама генерирует, а потом отбирает подписи к изображениям для унифицированного визуально‑языкового обучения.

Что такое VLM

Визуально‑лингвистические модели работают сразу с двумя модальностями — картинкой и текстом. На вход такие системы получают изображение, подпись либо их сочетание, а на выходе выдают осмысленный текст или составной (мультимодальный) ответ. Их ключевая задача — объединить зрительные и языковые данные в едином пространстве, чтобы свободно описывать сцены, отвечать на вопросы по картинке и даже рисовать новые изображения на основе текстовых запросов.

В обзорной статье 2024 года исследователи выделяли три класса VLM:

  • решения, ориентированные на понимание визуальных данных (VLU);
  • модели, которые принимают смешанный ввод и формируют только текст;
  • гибридные архитектуры, умеющие не только «читать», но и генерировать мультимодальный контент.

Первые VLM создавали через контрастивный подход. Так, модель CLIP от OpenAI «просмотрела» 400 млн пар «картинка — подпись» и научился угадывать, какой текст относится к конкретному изображению, демонстрируя точность на уровне ResNet‑50, но без явной ImageNet‑разметки. Благодаря такому сценарию система сформировала универсальные эмбеддинги, которые без дообучения подходят для классификации, поиска и детекции объектов.

Позже появились генеративные решения. Например, BLIP сперва сама придумывает и отбирает подписи, обогащая обучающий набор, а затем задаёт рекордную планку в задачах описания сцен и визуального вопрос‑ответа.

Мультимодальная модель Flamingo от DeepMind принимает произвольную цепочку снимков и фраз и к новой задаче приспосабливается всего по нескольким примерам. Секрет в том, что разработчики «сшили» заранее натренированные визуальные и текстовые блоки и доучили их на огромной мультимодальной коллекции.

Визуально‑лингвистические модели работают в нескольких режимах. Первые поколения занимались лишь пониманием и классификацией картинок, тогда как новейшие решения — GPT‑4 (V) и Gemini — уже умеют отвечать на сложные вопросы и даже рисовать собственные иллюстрации. Существует и отдельный класс — визуально‑генеративные VLM, представленные на нашей платформе: такие системы формируют описания, опираясь одновременно на сам снимок и текстовый запрос.

ViT — модель, разбивающая изображение на патчи и обрабатывающая их трансформером для задач компьютерного зрения.

«Остаточная» свёрточная сеть с пропусками (skip-connections) для надёжного обучения очень глубоких архитектур.

Векторы, кодирующие содержание изображений для семантического сравнения и поиска.

Нейросети, кодирующие входные данные (текст или изображения) в векторные эмбеддинги.

Визуально-языковая модель с гибридным визуальным энкодером (объединяет CNN — свёрточную нейросеть для извлечения локальных признаков из изображений — и трансформер) для ускоренного извлечения эмбеддингов.

Гибридный Vision Transformer, объединяющий элементы CNN и трансформера с помощью структурной репараметризации (RepMixer) для снижения затрат на память и ускорения вычислений без потери точности на ImageNet.

Гибридный Vision Transformer, объединяющий элементы CNN и трансформера с помощью структурной репараметризации (RepMixer) для снижения затрат на память и ускорения вычислений без потери точности на ImageNet.

Оригинальная Vision Transformer: разбивает изображение на патчи и обрабатывает их трансформером, как токены текста.

Современная свёрточная сеть, адаптирующая принципы трансформера (нормализация, большие ядра) для повышения эффективности ConvNet.

Архитектура и принципы работы VLM

Базовая VLM складывается из трёх блоков: визуального кодера, текстового кодера и узла объединения. Чаще всего это два самостоятельных трансформера: Vision Transformer или ResNet «читают» картинку, а классический Transformer разбирает текст. На этапе обучения система сближает эмбеддинги изображений и соответствующих фраз.

В продвинутых VLM визуальный и текстовый потоки сходятся прямо внутри LLM. Сначала отдельные энкодеры формируют эмбеддинги, затем слой слияния «склеивает» их и передаёт в большую языковую «голову», которая уже генерирует ответ. Flamingo добавляет сюда межмодальные блоки, благодаря которым модель свободно переваривает любую череду картинок и фраз. А BLIP учит систему на «шумных» датасетах, создавая и отбирая собственные подписи.

Архитектура напрямую влияет на быстродействие. В Apple заметили: чем выше разрешение входного кадра, тем точнее VLM, но тем дольше приходится ждать отклика. Авторы FastVLM предложили гибридный визуальный кодировщик: он сжимает изображение в компактные токены, пропускает их через проекционный слой и отправляет в языковую «голову». За счёт этого модель работает в реальном времени — хоть на смартфоне, хоть в роботе.

А свежие FastViT и FastViTHD выдают первый токен в несколько раз быстрее классических ViT и ConvNeXT, что критически важно для мобильных сценариев, где каждая миллисекунда на счету.

Раздел медицины, изучающий методы получения и интерпретации медицинских изображений (рентген, КТ, МРТ и др.) для диагностики и лечения заболеваний.

Применение VLM в различных сферах

Робототехника и автоматизация

Мультимодальные модели помогают машинам не только «видеть» окружающий мир, но и понимать текстовые инструкции. В статье Manipulate‑Anything исследователи показали, что VLM способны самостоятельно готовить примеры манипуляций: алгоритм прокладывает траектории движений, не обращаясь к скрытым состояниям среды и не опираясь на готовый набор навыков. Система создала демонстрации для семи реальных и четырнадцати симулированных задач и обучила роботов быстрее и качественнее, чем вручную собранные датасеты.

Медицина и диагностика

Медицинская отрасль всё активнее использует нейросети, умеющие «смотреть» на снимок и «читать» сопроводительный текст. Такие модели формируют наглядные пояснения и сразу же составляют отчёт. Недавний обзор показал: для целого ряда задач нужна одновременная обработка визуальной и словесной информации. Ключевые требования — строгая увязка кадра с описанием и тонкая настройка под специфику клинических данных.

Появление много‑модальных систем, например GPT‑4 (V), значительно облегчает путь VLM в радиологию и смежные дисциплины, поскольку одна и та же платформа сочетает зрительный анализ с языковой логикой.

В России особый интерес представляют решения, которые автоматически формируют заключения по исследованиям и выявляют патологии. Для их разработки необходимы локальные датасеты и строгий учёт нормативных требований.

Доступность и инклюзия

Визуально‑лингвистические модели делают цифровую среду дружелюбнее для людей с нарушениями зрения. Системы описывают фото и видео, отвечают на уточняющие вопросы, помогая ориентироваться в интерфейсах и понимать смысл визуальных материалов. Исследования Apple показывают, что гибридные энкодеры обрабатывают кадры высокого разрешения с едва заметной задержкой, поэтому VLM подходят для приложений-ассистентов, работающих в реальном времени.

Коммерция и бизнес‑аналитика

Визуально‑языковые модели разбирают фотографии товаров, пишут цепкие описания, сортируют карточки в каталоге и мгновенно отвечают на вопросы о продукте. Российская электронная коммерция уже полагается на нейросети для автоматизации витрин и умного поиска. Подключив VLM, площадки смогут запускать поиск по снимку, создавать карточки на лету и точнее подбирать рекомендации.

Классификация объектов без обучающих примеров для целевых классов, используя семантические эмбеддинги меток.

Преимущества и ограничения VLM

Преимущества

Мультимодальные сети объединяют разрозненные источники данных и легко обучаются с ходу — достаточно пары примеров, чтобы освоить новую задачу:

  • Flamingo: склеивает уже натренированные зрительные и языковые блоки и берёт вершину бенчмарков, увидев лишь несколько демонстраций.

  • BLIP: генерирует и отфильтровывает подписи в шумных веб‑датасетах, задавая высокий уровень в поиске картинок и описании сцен.

  • CLIP: контрастивное обучение формирует универсальные эмбеддинги и открывает true zero‑shot‑классификацию без дорогостоящей разметки.

  • FastVLM: оптимизированная архитектура с минимальной задержкой — её можно запускать прямо на устройстве или встраивать в робота, не жертвуя точностью.

Ограничения

Главная боль — «галлюцинации»: нейросеть уверенно сообщает то, чего на снимке нет. Выдумки проявляются по‑разному: лишние или пропавшие объекты, перепутанные атрибуты, неверные связи между предметами, а порой и откровенно ложные факты в описании сцены. Истоки проблемы — сыроватые визуальные кодировщики, перекосы в данных и сама творческая природа языкового генератора.

Есть и другие барьеры. Обучение обходится недёшево, узкопрофильные сферы — например, медицина — требуют горы размеченных примеров — их трудно собирать. Плюс остаются вопросы приватности. Поэтому перед внедрением в критически важные системы — от клиник до транспорта — такие модели придётся тщательно тестировать и выводить на независимый аудит.

Модель автоматической генерации текстовых подписей к изображениям.

Large Language and Vision Assistant — визуально-языковой ассистент.

Обзор популярных моделей VLM

Модель Особенности
CLIP (OpenAI, 2021) Контрастивное обучение на 400 млн пар «картинка — подпись» приучает модель мгновенно сопоставлять текст с нужным изображением. В итоге она формирует универсальные визуальные эмбеддинги и умеет классифицировать объекты в режиме zero‑shot.
BLIP (Salesforce, 2022) Модель использует метод bootstrapping: сначала captioner создаёт подписи к изображениям, затем фильтр отбрасывает шумные варианты. Такой цикл позволяет ей достигать выдающихся результатов в поиске картинок, генерации описаний и визуальном вопрос‑ответе.
Flamingo (DeepMind, 2022) В языковую модель внедрены межмодальные блоки, благодаря которым она свободно «мешает» изображения и текст в одной цепочке. Система доучивается на обширных мультимодальных наборах и уже после пары примеров уверенно решает новую задачу.
FastVLM (Apple, 2025) В основе модели — гибридный визуальный энкодер и проекционный слой, который перекидывает визуальные токены прямо в языковое ядро. Такое решение улучшает баланс между точностью и откликом, позволяя использовать систему в приложениях реального времени.
Foundation Models (Yandex Cloud, 2025) Платформа открывает доступ к визуально‑генеративным моделям по стандартизированному URI gpt://<folder_ID>/<model_name>/<branch>. В каталоге представлены Qwen 2 VL 7B, Qwen 2.5 VL 7B, Qwen 2.5 VL 32B, DeepSeek 2 VL, DeepSeek 2 VL Tiny и Gemma3 с 4, 12 и 27 млрд параметров. Все версии работают в пакетном режиме, что позволяет без труда обрабатывать большие объёмы данных.

Помимо уже упомянутых решений, набирают обороты LLaVA, Qwen VL и DeepSeek VL — в них зрительные энкодеры тесно интегрированы с крупными языковыми ядрами.

Llama принадлежит компании Meta, которая признана экстремистской в России.

Как выбрать визуально‑языковую модель под конкретную задачу

Выбор движка зависит от цели, объёма исходного материала, требований по скорости и возможностей инфраструктуры. В качестве ориентиров можно взять следующее:

  1. Цель исследования. Для классификации и поиска изображений подходят контрастивные решения вроде CLIP. Когда нужно писать подписи или отвечать на вопросы, предпочтительнее системы с языковым генератором — BLIP или Flamingo. Благодаря межмодальным слоям Flamingo уверенно обрабатывает целые цепочки картинок и текста.

  2. Доступный корпус и предметная область. Базовые задачи закрываются моделями, обученными на веб‑материалах (CLIP, BLIP). В медицине или промышленности придётся собирать специализированный датасет и дообучать сеть. Ряд работ советует синтезировать подписи, а затем отфильтровывать их — так качество на «шумных» выборках заметно растёт.

  3. Производительность и железо. При скромных ресурсах важно обратить внимание на облегчённые варианты — DeepSeek VL2 Tiny, Qwen 2 VL 7B — либо на гибридные энкодеры вроде FastVLM, снижающие задержку при высоком разрешении. Если нужно обрабатывать большие потоки изображений, выручит пакетный режим в Yandex Cloud.

  4. Лицензии и правовой статус. Часть моделей распространяется под свободными лицензиями (Apache® 2.0); другие, например Llama* или Gemini, ограничены в использовании.

  5. Тесты и надёжность. Прежде чем выводить систему в продакшен, прогоните её по профильным бенчмаркам и проверьте склонность к галлюцинациям или смещению. В медицине и транспорте необходим независимый аудит и грамотно выставленные пороги срабатывания.

Так можно получить инструмент, который не подведёт ни в разработке, ни при реальной эксплуатации.

Yandex Cloud и VLM

В Yandex Cloud мы строим полноценную платформу для мультимодальных ИИ‑сервисов. С апреля 2025 года в каталоге Foundation Models появились визуально‑языковые нейросети и пакетная обработка: одним запросом можно отправить сразу несколько изображений. Подключение происходит через стандартные идентификаторы ресурсов URI (Uniform Resource Identifier), работать можно как синхронно, так и асинхронно. Сейчас в арсенале — Qwen 2 VL 7B, Qwen 2.5 VL 7B/32B, DeepSeek 2 VL и Gemma 3 4B/12B/27B. Режим Batch Processing без труда переваривает тысячи задач подряд и особенно полезен там, где важна высокая пропускная способность — например, при генерации описаний или массовом визуальном анализе.

Открыли для всех опенсорсные визуально‑языковые модели в Yandex Cloud AI Studio. Сейчас в каталоге доступны DeepSeek VL2 Tiny, Qwen 2.5 VL и Gemma 3 27B.

Пакетный режим поддерживает порядка двадцати открытых моделей, и этот перечень постоянно растёт: новые версии добавляются сразу после выхода релизов.

Визуально‑лингвистические модели: архитектура, применение и перспективы
Войдите, чтобы сохранить пост