Атаки на память агентного ИИ переходят границы сессий и пользователей, и большинство компаний к этому не готовы

В этом интервью для Help Net Security Идан Хабер, специалист по безопасности искусственного интеллекта в Cisco, анализирует угрозу, которую большинство команд безопасности ещё даже не назвали: память агентов как поверхность для атаки.

Хабер подробно разбирает MemoryTrap, раскрытый и устранённый метод компрометации памяти Claude Code, демонстрируя, как один отравленный объект памяти может распространяться между сессиями, пользователями и субагентами. Он объясняет, почему память ИИ требует такого же управления, как секреты и идентификаторы, и что организациям необходимо перестроить, чтобы ограничить распространение доверия между агентами до того, как заражение станет невидимым.

Память в агентских системах приобретает совершенно новое значение. Это постоянный слой для извлечения и инструкций. Она хранит предпочтения, предыдущий контекст, сводки, шаблоны рабочих процессов и изученное поведение, которое может использоваться в будущих сессиях.

Это важно, потому что когда память повторно используется между задачами, сессиями или пользователями, она становится важной частью контекста принятия решений системой. Риск заключается не в том, что злоумышленник повредит память в классическом понимании. Опасность в том, что атакующий изменит то, что модель впоследствии будет считать легитимным контекстом. Таким образом, память агента напоминает постоянную управляющую поверхность, а не временное состояние. Именно такую концепцию я предлагаю принять руководителям по безопасности.

Вот почему кейс MemoryTrap, наш недавно раскрытый (и устранённый) метод компрометации памяти Claude Code, является полезным примером. Значимость этого открытия заключалась не только в первоначальном заражении, но и в том, что контролируемое атакующим воздействие достигло постоянной памяти и других доверенных поверхностей с инструкциями, позволив формировать будущее поведение системы с течением времени.

Когда речь заходит о памяти ИИ, есть несколько проблем безопасности, о которых люди не задумываются. Отмывание доверия — это самый сложный тип атаки. Он предполагает смешивание недоверенных данных с доверенными и использование их в качестве общего ввода. Поскольку это маскируется под обычные рассуждения, такой атаке невероятно сложно противостоять, и она может незаметно манипулировать ИИ ещё долго после первоначального взлома.

Способ, которым ИИ-системы обмениваются контекстом между пользователями, сессиями и автоматизированными агентами, значительно усугубляет этот риск. Если заражённый объект памяти или ресурс сохраняется в ходе одного взаимодействия, он редко остаётся изолированным; он может быстро распространиться на чат совершенно другого пользователя или быть переданному подчиненному агенту, выполняющему фоновую операцию. В итоге, единственный отравленный фрагмент памяти способен распространиться по всей системе из-за постоянного обмена контекстом. Это превращает единичную уловку в повсеместную уязвимость.

Память искусственного интеллекта должна управляться с такой же строгой дисциплиной, как секреты, идентификаторы и ключевые конфигурации системы, включая отслеживание её происхождения, установку сроков действия и требование явного разрешения.

Компании часто ошибочно принимают постоянство памяти ИИ за её точность. В реальности, сохранность инструкции не гарантирует её корректность; это может быть устаревшее правило или успешная манипуляция, которую система просто отказывается забывать. Для адаптации предприятия должны рассматривать долгосрочно хранимые введённые данные (например, файлы памяти, индексацию RAG) как важные операционные данные.

Когда ИИ-агенты обмениваются воспоминаниями, они передают не просто данные, а доверие. Если Агент А прочтёт память Агента Б, он унаследует любые скрытые дефекты или вредоносные вводы, которые мог подхватить Б. Чтобы предотвратить заражение системы из-за одного скомпрометированного фрагмента памяти, бизнесам необходимо применять строгую проверочную сканировку, которая действует как автоматизированный процесс проверки фактов при передаче данных между агентами.

Более того, атаки, подобные MemoryTrap, демонстрируют важность правильной изоляции зон высокого доверия, таких как системный промпт ИИ, от ненадёжных данных, контролируемых пользователем. Если эти уровни доверия смешиваются, агент может легко принять скрытый вредоносный ввод за доверенную системную инструкцию.

Для защиты от захвата системы через повреждение памяти организациям следует в первую очередь разделять системные инструкции и пользовательские вводы. Мы рекомендуем внедрять сканирование в реальном времени при передаче данных, вести строгий учёт происхождения для всех источников памяти и устанавливать протоколы для быстрой изоляции повреждённых данных.

Скачать: Обзор угроз и защит идентификации SANS 2026