Искусственные интеллектуальные агенты эволюционировали от простых чат-ботов, отвечающих на вопросы, до систем, выполняющих действия с помощью различных интегрированных инструментов, часто автономно. В результате традиционные модели безопасности стали менее эффективными. Я столкнулся с этим лично, будучи руководителем службы безопасности персонального тренера по здоровью Fitbit.
Представьте агента, который может получать доступ или обновлять медицинские записи от имени пользователя. Единственная вредоносная инструкция, скрытая на веб-странице (которую агент обрабатывает), может манипулировать им для выполнения непредусмотренных действий или утечки конфиденциальных медицинских данных.
В таких высокорисковых отраслях, как здравоохранение или финансы, допустимая погрешность крайне мала или отсутствует вовсе. Поэтому я убеждён, что защита этих ИИ-агентов требует многоуровневого подхода, аналогичного принципу «глубокой эшелонированной обороны» в информационной безопасности. Мы обсудим такой подход в этой статье.
Многие фреймворки безопасности для ИИ разделяют общие проблемы с ИИ-агентами. Они предлагают рекомендации по снижению рисков, будь то общая стратегическая картина или конкретные технические меры контроля. Эти фреймворки в целом классифицируют угрозы ИИ как угрозы данным, инфраструктуре, модели и приложению.
Уровень приложения — это место, где живут наиболее значительные риски, связанные с агентами. Один из таких рисков — инъекция промптов. Это не риск сам по себе, а то, как обрабатываются промпты, что может скомпрометировать агента, данные пользователя или базовую систему.
Эта проблема усугубляется, когда данные поступают из ненадёжных источников, как в системах на основе RAG (Retrieval Augmented Generation, генерация с расширением на основе поиска). Вредоносные инструкции, скрытые на веб-странице или в документе, могут быть загружены как контекст и интерпретированы как доверенный ввод, что приводит к косвенной инъекции промптов.
В качестве первого шага к многоуровневому подходу организациям следует внедрить модель угроз, основанную на предположении о действиях злоумышленника, для своих агентов на ранних этапах жизненного цикла разработки. Используйте фреймворки для моделирования угроз агентам, такие как Maestro.
Это может служить технической архитектурной дорожной картой для инженерных команд и команд безопасности, устанавливая принципы проектирования безопасности, такие как:
Несколько ключевых стратегий защиты также должны быть заложены на самых ранних этапах:
Создание безопасного архитектурного фундамента — хорошее начало, но для построения защищенных агентских систем требуются дополнительные уровни.
Меры безопасности, такие как межсетевые экраны для веб-приложений, основаны на статических сигнатурах и неэффективны для AI-агентов. Способность LLM обрабатывать естественный язык позволяет злоумышленникам создавать атаки, которые эти статические шаблоны не могут обнаружить.
Для защиты AI-агента нам тоже нужно использовать искусственный интеллект. Внедрите защитную LLM, работающую в реальном времени и предназначенную для обнаружения и нейтрализации атак, таких как манипуляция промптами или попытки извлечь конфиденциальные пользовательские данные. Если недоверенный ввод пытается обмануть модель, защитный слой перехватывает и останавливает его еще до того, как основной агент обработает запрос.
Подобные дополнительные уровни защиты могут создавать задержки в рабочем процессе, что часто вызывает беспокойство у инженерных команд и руководства. Я рекомендую использовать выделенную высокоскоростную Малую Языковую Модель (SLM), которая предварительно или инструктивно настроена на обнаружение атак внедрения в промпты. Один из примеров такой модели с открытыми весами — это доработанная DeBERTa v3 от Protect AI.
Заключительный этап — активная фаза, которая автоматизирует процедуру "красной команды" для агента. Это противостоящее тестирование всей системы оркестрации агентов, включая используемые ими инструменты, меж-агентские коммуникации и сам защитный слой. Для автоматизации этого наступательного процесса используйте инструменты с открытым исходным кодом, такие как Garak или PyRIT.
Генерируя контекстно-зависимые вредоносные промпты для ваших агентов с использованием техник вроде внедрения разметки для извлечения данных, мы можем проактивно исследовать агентов на предмет подобных угроз безопасности. Это создает цикл обратной связи, и мы можем использовать полученные в ходе атак данные для непосредственного усиления наших защитных фильтров и самой системы оркестрации агентов.