Создавая доверие: архитектура безопасности для автономных ИИ-агентов

Искусственные интеллектуальные агенты эволюционировали от простых чат-ботов, отвечающих на вопросы, до систем, выполняющих действия с помощью различных интегрированных инструментов, часто автономно. В результате традиционные модели безопасности стали менее эффективными. Я столкнулся с этим лично, будучи руководителем службы безопасности персонального тренера по здоровью Fitbit.

Представьте агента, который может получать доступ или обновлять медицинские записи от имени пользователя. Единственная вредоносная инструкция, скрытая на веб-странице (которую агент обрабатывает), может манипулировать им для выполнения непредусмотренных действий или утечки конфиденциальных медицинских данных.

В таких высокорисковых отраслях, как здравоохранение или финансы, допустимая погрешность крайне мала или отсутствует вовсе. Поэтому я убеждён, что защита этих ИИ-агентов требует многоуровневого подхода, аналогичного принципу «глубокой эшелонированной обороны» в информационной безопасности. Мы обсудим такой подход в этой статье.

Риски, связанные с агентами, существуют в основном на уровне приложения

Многие фреймворки безопасности для ИИ разделяют общие проблемы с ИИ-агентами. Они предлагают рекомендации по снижению рисков, будь то общая стратегическая картина или конкретные технические меры контроля. Эти фреймворки в целом классифицируют угрозы ИИ как угрозы данным, инфраструктуре, модели и приложению.

Уровень приложения — это место, где живут наиболее значительные риски, связанные с агентами. Один из таких рисков — инъекция промптов. Это не риск сам по себе, а то, как обрабатываются промпты, что может скомпрометировать агента, данные пользователя или базовую систему.

Эта проблема усугубляется, когда данные поступают из ненадёжных источников, как в системах на основе RAG (Retrieval Augmented Generation, генерация с расширением на основе поиска). Вредоносные инструкции, скрытые на веб-странице или в документе, могут быть загружены как контекст и интерпретированы как доверенный ввод, что приводит к косвенной инъекции промптов.

Проектирование безопасных ИИ-агентов с нуля

В качестве первого шага к многоуровневому подходу организациям следует внедрить модель угроз, основанную на предположении о действиях злоумышленника, для своих агентов на ранних этапах жизненного цикла разработки. Используйте фреймворки для моделирования угроз агентам, такие как Maestro.

Это может служить технической архитектурной дорожной картой для инженерных команд и команд безопасности, устанавливая принципы проектирования безопасности, такие как:

Агенты, выполняющие код (например, для анализа данных о ежемесячных шагах), должны работать в изолированной, "песочнице".
В экосистемах с несколькими агентами необходимо разделение ролей. Фиксируйте в журнале и контролируйте переходы между ними. Это гарантирует, что один скомпрометированный подчиненный агент не поставит под угрозу всю систему.
При создании промптов для LLM четко разграничивайте инструкции "Системы", данные "Пользователя" и "Сторонних лиц". LLM, обученные на инструкциях, понимают это различие, что может предотвратить атаки с манипуляцией промптами.

Несколько ключевых стратегий защиты также должны быть заложены на самых ранних этапах:

Ограничьте область ответственности агента с помощью явных системных инструкций. "Вы — тренер по здоровью и отвечаете только на вопросы о благополучии". Это не панацея, но помогает агенту оставаться в рамках заданной ограниченной среды.
Предоставляйте агентам минимально необходимый доступ к инструментам и API. Если агенту по здоровью нужно только читать данные о шагах, у него не должно быть права записи в историю болезней пользователя. Кроме того, для любых чувствительных действий внедряйте контроль со стороны человека.
Каждое действие, выполняемое агентом, должно быть связано с идентификатором исходного пользователя. Это гарантирует, что даже если агентом манипулируют, он не сможет выполнить действия, на которые сам пользователь не был бы авторизован.

Создание безопасного архитектурного фундамента — хорошее начало, но для построения защищенных агентских систем требуются дополнительные уровни.

Защитный слой для AI-агентов в реальном времени

Меры безопасности, такие как межсетевые экраны для веб-приложений, основаны на статических сигнатурах и неэффективны для AI-агентов. Способность LLM обрабатывать естественный язык позволяет злоумышленникам создавать атаки, которые эти статические шаблоны не могут обнаружить.

Для защиты AI-агента нам тоже нужно использовать искусственный интеллект. Внедрите защитную LLM, работающую в реальном времени и предназначенную для обнаружения и нейтрализации атак, таких как манипуляция промптами или попытки извлечь конфиденциальные пользовательские данные. Если недоверенный ввод пытается обмануть модель, защитный слой перехватывает и останавливает его еще до того, как основной агент обработает запрос.

Подобные дополнительные уровни защиты могут создавать задержки в рабочем процессе, что часто вызывает беспокойство у инженерных команд и руководства. Я рекомендую использовать выделенную высокоскоростную Малую Языковую Модель (SLM), которая предварительно или инструктивно настроена на обнаружение атак внедрения в промпты. Один из примеров такой модели с открытыми весами — это доработанная DeBERTa v3 от Protect AI.

Активное тестирование оркестрации ИИ-агентов

Заключительный этап — активная фаза, которая автоматизирует процедуру "красной команды" для агента. Это противостоящее тестирование всей системы оркестрации агентов, включая используемые ими инструменты, меж-агентские коммуникации и сам защитный слой. Для автоматизации этого наступательного процесса используйте инструменты с открытым исходным кодом, такие как Garak или PyRIT.

Генерируя контекстно-зависимые вредоносные промпты для ваших агентов с использованием техник вроде внедрения разметки для извлечения данных, мы можем проактивно исследовать агентов на предмет подобных угроз безопасности. Это создает цикл обратной связи, и мы можем использовать полученные в ходе атак данные для непосредственного усиления наших защитных фильтров и самой системы оркестрации агентов.