Обучение ИИ-агента для атаки на LLM-приложения с позиции реального противника

Большинство команд корпоративной разработки сейчас выпускают приложения с искусственным интеллектом быстрее, чем традиционное пентестирование может за ними угнаться. Команда безопасности, отвечающая за 500 приложений, может тестировать каждое из них раз в год или реже. За время между проверками базовые модели, интеграции и поведение могут измениться без соответствующего анализа безопасности.

Novee представила продукт под названием AI Red Teaming для LLM-приложений — агента для пентестинга ИИ, созданного специально для проверки программного обеспечения на базе больших языковых моделей. Компания анонсировала продукт на конференции RSAC 2026 в Сан-Франциско и демонстрирует его на стенде S-0262.

Что делает агент

Агент нацелен на приложения с искусственным интеллектом, включая чат-ботов, ассистентов, автономных агентов и рабочие процессы на базе LLM, и симулирует атаки злоумышленников на них. Он работает автономно, объединяя техники атак, чтобы находить уязвимости, которые пропустили бы статические сканеры или тестирование одиночными запросами.

Перед запуском тестов агент собирает контекст о целевом приложении. Он изучает документацию, опрашивает API и строит внутреннюю модель работы приложения. Затем тесты адаптируются под эту конкретную среду. В одном из примеров, который Гон Чаламиш, сооснователь и директор по продукту Novee Security, описал для Help Net Security, агент составил бы карту структуры управления доступом на основе ролей в приложении, а затем проверил, может ли пользователь с низкими привилегиями получить доступ к данным, ограниченным для пользователя с высокими правами.

«Злоумышленники уже адаптируют свои методы для систем ИИ, — сказал Чаламиш. — Командам безопасности нужен способ тестировать эти системы так же, как их атакуют противники».

Агент поддерживает приложения, построенные на любом провайдере LLM, включая OpenAI, Anthropic и модели с открытым исходным кодом. Он также может интегрироваться в CI/CD-пайплайны, позволяя организациям запускать проверки безопасности как часть стандартного процесса разработки.

Почему традиционные инструменты не подходят

Обычные инструменты пентестинга создавались для веб-приложений и инфраструктуры. Они не были рассчитаны на обработку шаблонов взаимодействия, характерных для ПО на базе LLM.

Чаламиш пояснил, что опасные уязвимости в LLM-приложениях часто требуют многоэтапной подготовки. Тестировщику может потребоваться внедрить данные в одну часть приложения, а затем дать агенту команду получить к ним доступ, встроив вредоносные инструкции. Инструмент, который отправляет одиночный вредоносный запрос и ждёт ответа, не может это симулировать.

Специалисты по ручному тестированию на проникновение сталкиваются с другой проблемой: дефицит и высокая стоимость. Квалифицированные пентестеры — дорогое удовольствие, и большинство компаний могут привлекать их лишь раз или два в год. Приложения на основе языковых моделей меняются непрерывно, причём даже обновления модели меняют поведение системы без внесения изменений в код. Разовые проверки не успевают за такой скоростью изменений.

Методы атак, специфичные для ИИ-систем, включая инъекцию промптов, косвенную инъекцию промптов и злоупотребление инструментами, также не входят в стандартный набор навыков большинства пентестеров. Экспертиза по тестированию веб-инфраструктуры, которой обладают многие специалисты, не переносится напрямую на безопасность приложений с языковыми моделями.

Халамиш заявил, что эксперименты Novee привели к выводу: защита ИИ требует использования самого ИИ. Агент должен уметь рассуждать, адаптироваться на основе ответов и планировать многоэтапные атаки, что требует таких же адаптивных способностей, которые характеризуют поведение реального злоумышленника.

Исследования, напрямую влияющие на продукт

Исследовательская команда Novee публикует данные о реальных уязвимостях в ИИ. Недавно команда раскрыла уязвимость в ассистенте для программистов Cursor, которая позволяла злоумышленникам манипулировать контекстным окном инструмента и выполнять произвольный код на машине разработчика. У компании есть и другие находки, переданные ответственным вендорам.

Результаты этих исследований напрямую используются для обучения агента, чтобы методы, выявившие критические уязвимости в реальных системах, определяли, что ищет агент и как он проводит зондирование.

Идо Геффен, генеральный директор и сооснователь Novee, заявил, что злоумышленники действуют быстрее, чем позволяют традиционные циклы безопасности. "Промежуток между обнаружением уязвимости и её эксплуатацией может сократиться до минут", — сказал Геффен. "Защита от этого требует непрерывного тестирования, а не периодических проверок".

Бюджет и позиционирование на рынке

Халамиш отметил, что тестирование ИИ на проникновение не требует от организаций создания новой статьи бюджета. Команды безопасности уже тратят средства на пентестинг, работу красных команд и сканирование уязвимостей. Сдвиг, на который нацелена Novee, — это переход от периодической ручной работы к непрерывному автоматизированному тестированию с использованием существующих бюджетов. Талантливые пентестеры — редкость и дорого стоят, а текущая модель ежегодных или полугодовых проверок оставляет пробелы, которые может заполнить ИИ.

Финансирование и команда основателей

Компания Novee привлекла 51,5 миллиона долларов в течение четырёх месяцев с момента основания. Среди инвесторов значатся YL Ventures, Canaan Partners и Zeev Ventures. Основателями выступили Идо Геффен, Гон Халамиш и Омер Нинбург, все с опытом работы в национальных подразделениях наступательной кибербезопасности.