Microsoft раскрывает методы злоупотребления промптами для атак на ИИ-ассистентов

Злоупотребление промптами происходит, когда специально составленные запросы манипулируют системой искусственного интеллекта, заставляя её демонстрировать непредусмотренное поведение, например, пытаться получить доступ к конфиденциальной информации или обходить встроенные защитные инструкции.

Инъекция промптов также признана одним из главных рисков в руководстве OWASP 2025 года для приложений, использующих большие языковые модели.

«Обнаружение злоупотреблений является сложной задачей, поскольку они эксплуатируют естественный язык, например, тонкие различия в формулировках, которые могут манипулировать поведением ИИ, не оставляя очевидных следов. Без надлежащего логирования и телеметрии попытки доступа или обобщения конфиденциальной информации могут остаться незамеченными», — заявила компания.

Шаблоны атак через злоупотребление промптами

Злоупотребление промптами включает запросы, разработанные для вывода систем за пределы их предполагаемых границ, с результатами от утечки данных до изменения выходных данных.

Прямое переопределение промпта заставляет систему игнорировать свои правила, политики безопасности или системные инструкции. Такие запросы структурированы для обхода защитных механизмов или раскрытия ограниченной информации.

Экстрактивное злоупотребление промптами нацелено на конфиденциальные данные и стремится раскрыть информацию, которая должна оставаться защищённой, включая содержимое закрытых файлов или наборов данных.

Косвенная инъекция промпта внедряет скрытые инструкции во внешний контент, такой как документы, веб-страницы, электронные письма или сообщения в чате. При обработке в качестве входных данных эти инструкции могут искажать сводки, вносить предвзятость или вызывать непредусмотренные действия.

Microsoft описывает сценарий, в котором финансовый аналитик получает ссылку на, казалось бы, доверенный новостной сайт. Ничего не выглядит подозрительным. Проблема скрыта в URL-адресе, где фрагмент содержит скрытые инструкции, невидимые для пользователя, но всё же включаемые в системный промпт.

После того как аналитик запрашивает сводку, инструмент обрабатывает ссылку и включает этот скрытый текст. Результат может быть вводящим в заблуждение или неполным, хотя пользователь не вводил ничего опасного.

Этот тип инъекции промптов не полагается на выполнение кода или прямой доступ к системе. Он меняет способ интерпретации информации. Выходные данные по-прежнему могут выглядеть достоверными, что затрудняет обнаружение проблемы и позволяет ей влиять на решения и рабочие процессы.

Плейбук для обнаружения злоупотребления промптами

Для решения этих рисков Microsoft представляет плейбук обнаружения и реагирования, который описывает, как может разворачиваться злоупотребление промптами в типичном рабочем процессе.

Источник: Плейбук реагирования на инциденты с ИИ от Microsoft

Применяя эти инструменты безопасности, организации могут преобразовывать зафиксированные взаимодействия в практические выводы, которые выявляют подозрительную активность, предоставляют контекст и поддерживают меры по защите конфиденциальных данных.

«Сочетание мониторинга, управления и обучения пользователей помогает организациям поддерживать надежность результатов работы ИИ, одновременно выявляя попытки манипуляций на ранней стадии», — отметила компания.