Как безопасно разрабатывать ИИ‑агентов и мультиагентные системы: наши рекомендации

Составили руководство по снижению рисков при разработке и внедрении ИИ‑агентов на базе LLM. Внутри — подход для разработки модели угроз при внедрении агентов и рекомендации о том, как снизить риски безопасности при создании мультиагентных систем.

ИИ‑агенты — это новый этап развития искусственного интеллекта. Если обычные ИИ‑модели просто отвечают на запросы, то агенты способны самостоятельно действовать в цифровой среде. И нам как поставщику технологий важно отслеживать и тестировать все потенциальные риски их применения.

Поскольку агенты опираются на данные от пользователей, среди которых могут быть и злоумышленники, существует набор рисков, на которые нужно обращать внимание при разработке и внедрении ИИ‑агентов. Мы сами активно используем агентную систему в собственных сервисах, непрерывно работаем над методологией защиты и делимся своими наработками с ИБ‑сообществом.

В документе мы описали угрозы и методы защиты для ключевых компонентов ИИ‑агентов: самих генеративных моделей, а также модулей и баз знаний, которые используются при работе разрабатываемых ИИ‑продуктов. Особое внимание уделили безопасности данных и предотвращению рисков, возникающих из‑за автономности агентов.

Автономные или взаимодействующие между собой ИИ‑агенты создаются и развиваются в сервисах Яндекса с учётом принципов безопасной разработки на всех этапах, от проектирования до внедрения. Команды безопасности ещё на стадии проектирования изучают будущую архитектуру и проверяют её на безопасность. Затем специалисты тестируют код на возможные уязвимости и проверяют на соответствие стандартам безопасной разработки.

Яндекс также изучает возможные способы атак на нейросети и разрабатывает защиту от потенциальных угроз. Антиробот Яндекса защищает ИИ‑сервисы от злоупотребления и эксплуатации уязвимостей. Сервис Yandex Smart Web Security теперь содержит ML WAF — технологию для защиты от веб‑атак на основе машинного обучения, которая даёт более широкое покрытие векторов атак за счёт сочетания сигнатурного анализа и ML. Центр мониторинга выявляет угрозы и анализирует подозрительную активность в инфраструктуре. Ещё один инструмент для проверки и усиления безопасности ИИ — направление программы Яндекса «Охоты за ошибками», связанное с генеративными нейросетями.

При подготовке рекомендаций мы учли лучшие практики международных организаций, включая OWASP®, NIST и MITRE ATT&CK®, а также опыт создания агентов для машинного обучения, безопасности и других сервисов и бизнесов Яндекса, которые используют агентную систему и генеративные технологии компании.

author
Евгений Сидоров
Директор по информационной безопасности Yandex Cloud
Как безопасно разрабатывать ИИ‑агентов и мультиагентные системы: наши рекомендации
Войдите, чтобы сохранить пост