Злоумышленник обманывает модель, заставляя её обойти ограничения или выполнить непреднамеренные действия.
Рекомендации
Санитизация и валидация входных данных, использование техник prompt hardening.

AI Secure Agentic Framework Essentials (AI-SAFE)
Фреймворк для моделирования угроз.
Разработан практиками — для практиков.
Современные ИИ-системы не только ускоряют бизнес-процессы, но и открывают новые векторы атак, которые не учитывают классические средства защиты. AI-SAFE помогает разработать стратегию защиты, которая будет учитывать весь жизненный цикл модели. Фреймворк позволяет управлять рисками, связанными с ИИ, и создавать надёжные системы.
Пользователи находят способы обхода политик безопасности и извлекают вредоносную функциональность из LLM.
В даркнете появляются предложения по заражению открытых датасетов.
Компании теряют IP: модели крадут, запрашивая их через открытые интерфейсы.
Заражённые изображения, которые выглядят безобидно, но вызывают сбои в работе ML-моделей.
Злоумышленники извлекают персональные данные из обученных моделей.
Подмена модели на «клон» с бэкдором в продакшне, особенно в опенсорс-цепочках.
Новые атаки на контекст и подсказки, позволяющие обойти ограничения генерации.
Методология, которая помогает системно внедрять безопасность на каждом этапе жизненного цикла ИИ. Мы собрали примеры угроз и описали риски, которые могут возникнуть на пяти уровнях работы с генеративными технологиями: от интерфейса до инфраструктуры и оркестрации. Для каждой угрозы приводятся рекомендации и оценка рисков. На основе анализа ключевых угроз из OWASP® LLM Top 10, OWASP® MCP Top 10, OWASP® AI Agents Top 15 и RAG-специфичных угроз можно построить комплексную карту защиты, которая покажет, какие сервисы Yandex Cloud помогают снизить те или иные риски.
95% компаний, использующих ML, не защитили все этапы жизненного цикла машинного обучения.
По данным Gartner, 2024.
Уровень, на котором агент взаимодействует с пользователями и внешними приложениями. Точка входа для всех данных.

LLM01, MCP05, T6
Злоумышленник обманывает модель, заставляя её обойти ограничения или выполнить непреднамеренные действия.
Рекомендации
Санитизация и валидация входных данных, использование техник prompt hardening.
Злоумышленник может автоматизировать запросы к LLM, чтобы превысить его контекстное окно, перегружая возможности обработки.
Рекомендации
Rate limiting, использование WAF, мониторинг потребления ресурсов.
Вывод модели может содержать вредоносный код (XSS, SQLi), который выполнится в другой части системы.
Рекомендации
Строгая валидация и санитизация вывода модели, использование схем данных (Pydantic, JSON Schema).
Уровень, где агент выполняет действия в реальном мире через API, выполнение кода и другие инструменты.

LLM06, T2
Агент неверно понимает намерения пользователя и использует легитимный инструмент для нанесения ущерба.
Рекомендации
Принцип минимальных привилегий для инструментов, чёткие описания назначения инструментов, human approval gates для критических действий.
Небезопасно настроенный инструмент становится точкой входа в систему.
Рекомендации
Запуск инструментов в строго изолированных окружениях (sandboxing — gVisor, Firecracker), статический анализ генерируемого кода.
Агент, доверяя описанию, может выполнить небезопасный код или передать конфиденциальные данные.
Рекомендации
Аудит и контроль целостности описаний инструментов, разделение данных и инструкций в архитектуре.
Агент или внешний злоумышленник обходит механизмы контроля доступа, чтобы использовать инструмент без соответствующих разрешений или от имени другого пользователя/агента.
Рекомендации
Использование строгой аутентификации и авторизации для каждого вызова инструмента (OAuth2, mTLS), краткоживущие токены, аудит всех вызовов.
Базовая инфраструктура (серверы, контейнеры, CI/CD) и протоколы взаимодействия между агентами в мультиагентных системах.

LLM03, T11
Вредоносный код, внедрённый в один из компонентов, компрометирует всю систему.
Рекомендации
Использование доверенных репозиториев, SCA- и SAST-сканирование, SBOM, верификация цифровых подписей моделей.
Приводит к отказу в обслуживании и непредвиденным финансовым затратам.
Рекомендации
Установка квот и лимитов на использование ресурсов для каждого агента и пользователя, circuit breakers.
«Вирусное» распространение вредоносного поведения по всей системе приводит к системному коллапсу или компрометации.
Рекомендации
Изоляция агентов, валидация и санитизация данных на входе в каждом агенте, мониторинг межагентских коммуникаций.
«Мозг» агента: LLM, модули планирования и принятия решений. Здесь формируются гипотезы и планы действий.

LLM01, T7
Обход встроенных в модель этических и безопасных ограничений для генерации запрещенного контента.
Рекомендации
Использование моделей с улучшенным Alignment’ом, Prompt Hardening, мониторинг на предмет техник обхода.
Из-за сложных или противоречивых входных данных агент входит в неоптимальный или зацикленный процесс принятия решений.
Рекомендации
Установка таймаутов, Сircuit Иreakers, внедрение Human-in-the-Loop для сложных задач, упрощение промтов.
Агент начинает преследовать цели злоумышленника, сохраняя видимость легитимной работы.
Рекомендации
Чёткое и недвусмысленное определение целей в системном промте, аудит Reasoning Traces.
Злоумышленник перегружает оператора, подтверждающего действия агента, чтобы тот одобрил вредоносное действие из-за усталости или невнимательности.
Рекомендации
Использование адаптивных порогов для HITL, группировка и приоритизация запросов на подтверждение внедрения honeypot- запросов.
Долгосрочная и краткосрочная память агента, включая векторные базы (RAG) и другие источники контекста.

LLM04, T1
Агент использует «отравленную» информацию, и это приводит к неверным выводам, саботажу или утечкам данных.
Рекомендации
Контроль доступа к базе знаний, версионирование данных, использование доверенных источников, криптографическая проверка целостности.
Недостаточная фильтрация или маскирование данных приводит к утечкам PII, коммерческой тайны.
Рекомендации
Деперсонализация/маскирование данных перед передачей в модель, RBAC для RAG, Fine-tuning для «забывания» данных.
Злоумышленник эксплуатирует алгоритм поиска, чтобы модель гарантированно получила вредоносный контекст.
Рекомендации
Использование гибридного поиска (векторный + ключевой), внедрение модуля reranker для повторной оценки релевантности.
Атакующий имеет доступ к векторной базе данных и восстанавливает исходную информацию, считавщуюся защищённой после векторизации.
Рекомендации
Использование техник Differential Privacy при создании эмбеддингов, гранулярный контроль доступа к векторной базе, обнаружение аномальных запросов к ней.
Проведите аудит инфраструктуры. Проверьте уровень безопасности ваших данных с помощью Cloud Security Checkup.
Используйте чек-лист по уровням безопасности.
Проводите тесты на проникновение (Red Teaming и пентесты).
