AI Secure Agentic Framework Essentials (AI-SAFE)

Фреймворк для моделирования угроз.

Разработан практиками — для практиков.

Уязвимости ИИ-систем и необходимость защиты

Современные ИИ-системы не только ускоряют бизнес-процессы, но и открывают новые векторы атак, которые не учитывают классические средства защиты. AI-SAFE помогает разработать стратегию защиты, которая будет учитывать весь жизненный цикл модели. Фреймворк позволяет управлять рисками, связанными с ИИ, и создавать надёжные системы.

ChatGPT Jailbreaks

Пользователи находят способы обхода политик безопасности и извлекают вредоносную функциональность из LLM.

Data Poisoning как сервис

В даркнете появляются предложения по заражению открытых датасетов.

Model Stealing через API

Компании теряют IP: модели крадут, запрашивая их через открытые интерфейсы.

Adversarial Malware

Заражённые изображения, которые выглядят безобидно, но вызывают сбои в работе ML-моделей.

Model Inversion & Privacy Leakage

Злоумышленники извлекают персональные данные из обученных моделей.

Fake Model Deployment

Подмена модели на «клон» с бэкдором в продакшне, особенно в опенсорс-цепочках.

LLM Prompt Injection

Новые атаки на контекст и подсказки, позволяющие обойти ограничения генерации.

AI-SAFE

Методология, которая помогает системно внедрять безопасность на каждом этапе жизненного цикла ИИ. Мы собрали примеры угроз и описали риски, которые могут возникнуть на пяти уровнях работы с генеративными технологиями: от интерфейса до инфраструктуры и оркестрации. Для каждой угрозы приводятся рекомендации и оценка рисков. На основе анализа ключевых угроз из OWASP® LLM Top 10, OWASP® MCP Top 10, OWASP® AI Agents Top 15 и RAG-специфичных угроз можно построить комплексную карту защиты, которая покажет, какие сервисы Yandex Cloud помогают снизить те или иные риски.

95% компаний, использующих ML, не защитили все этапы жизненного цикла машинного обучения.

По данным Gartner, 2024.

Уровень 1: Угрозы интерфейса взаимодействия

Уровень, на котором агент взаимодействует с пользователями и внешними приложениями. Точка входа для всех данных.

LLM01, MCP05, T6

Злоумышленник обманывает модель, заставляя её обойти ограничения или выполнить непреднамеренные действия.

Рекомендации

Санитизация и валидация входных данных, использование техник prompt hardening.

Злоумышленник может автоматизировать запросы к LLM, чтобы превысить его контекстное окно, перегружая возможности обработки.

Рекомендации

Rate limiting, использование WAF, мониторинг потребления ресурсов.

Вывод модели может содержать вредоносный код (XSS, SQLi), который выполнится в другой части системы.

Рекомендации

Строгая валидация и санитизация вывода модели, использование схем данных (Pydantic, JSON Schema).

Средства защиты

Уровень 2: Угрозы исполнения и инструментов

Уровень, где агент выполняет действия в реальном мире через API, выполнение кода и другие инструменты.

LLM06, T2

Агент неверно понимает намерения пользователя и использует легитимный инструмент для нанесения ущерба.

Рекомендации

Принцип минимальных привилегий для инструментов, чёткие описания назначения инструментов, human approval gates для критических действий.

Небезопасно настроенный инструмент становится точкой входа в систему.

Рекомендации

Запуск инструментов в строго изолированных окружениях (sandboxing — gVisor, Firecracker), статический анализ генерируемого кода.

Агент, доверяя описанию, может выполнить небезопасный код или передать конфиденциальные данные.

Рекомендации

Аудит и контроль целостности описаний инструментов, разделение данных и инструкций в архитектуре.

Агент или внешний злоумышленник обходит механизмы контроля доступа, чтобы использовать инструмент без соответствующих разрешений или от имени другого пользователя/агента.

Рекомендации

Использование строгой аутентификации и авторизации для каждого вызова инструмента (OAuth2, mTLS), краткоживущие токены, аудит всех вызовов.

Уровень 3: Угрозы инфраструктуры и оркестрации

Базовая инфраструктура (серверы, контейнеры, CI/CD) и протоколы взаимодействия между агентами в мультиагентных системах.

LLM03, T11

Вредоносный код, внедрённый в один из компонентов, компрометирует всю систему.

Рекомендации

Использование доверенных репозиториев, SCA- и SAST-сканирование, SBOM, верификация цифровых подписей моделей.

Приводит к отказу в обслуживании и непредвиденным финансовым затратам.

Рекомендации

Установка квот и лимитов на использование ресурсов для каждого агента и пользователя, circuit breakers.

«Вирусное» распространение вредоносного поведения по всей системе приводит к системному коллапсу или компрометации.

Рекомендации

Изоляция агентов, валидация и санитизация данных на входе в каждом агенте, мониторинг межагентских коммуникаций.

Уровень 4: Угрозы ядра и логики

«Мозг» агента: LLM, модули планирования и принятия решений. Здесь формируются гипотезы и планы действий.

LLM01, T7

Обход встроенных в модель этических и безопасных ограничений для генерации запрещенного контента.

Рекомендации

Использование моделей с улучшенным Alignment’ом, Prompt Hardening, мониторинг на предмет техник обхода.

Из-за сложных или противоречивых входных данных агент входит в неоптимальный или зацикленный процесс принятия решений.

Рекомендации

Установка таймаутов, Сircuit Иreakers, внедрение Human-in-the-Loop для сложных задач, упрощение промтов.

Агент начинает преследовать цели злоумышленника, сохраняя видимость легитимной работы.

Рекомендации

Чёткое и недвусмысленное определение целей в системном промте, аудит Reasoning Traces.

Злоумышленник перегружает оператора, подтверждающего действия агента, чтобы тот одобрил вредоносное действие из-за усталости или невнимательности.

Рекомендации

Использование адаптивных порогов для HITL, группировка и приоритизация запросов на подтверждение внедрения honeypot- запросов.

Уровень 5: Угрозы данных и знаний

Долгосрочная и краткосрочная память агента, включая векторные базы (RAG) и другие источники контекста.

LLM04, T1

Агент использует «отравленную» информацию, и это приводит к неверным выводам, саботажу или утечкам данных.

Рекомендации

Контроль доступа к базе знаний, версионирование данных, использование доверенных источников, криптографическая проверка целостности.

Недостаточная фильтрация или маскирование данных приводит к утечкам PII, коммерческой тайны.

Рекомендации

Деперсонализация/маскирование данных перед передачей в модель, RBAC для RAG, Fine-tuning для «забывания» данных.

Злоумышленник эксплуатирует алгоритм поиска, чтобы модель гарантированно получила вредоносный контекст.

Рекомендации

Использование гибридного поиска (векторный + ключевой), внедрение модуля reranker для повторной оценки релевантности.

Атакующий имеет доступ к векторной базе данных и восстанавливает исходную информацию, считавщуюся защищённой после векторизации.

Рекомендации

Использование техник Differential Privacy при создании эмбеддингов, гранулярный контроль доступа к векторной базе, обнаружение аномальных запросов к ней.

Средства защиты

Как внедрить AI-SAFE

  • Проведите аудит инфраструктуры. Проверьте уровень безопасности ваших данных с помощью Cloud Security Checkup.

  • Используйте чек-лист по уровням безопасности.

  • Проводите тесты на проникновение (Red Teaming и пентесты).