Инженерия промтов стала стандартным элементом развертывания больших языковых моделей в продакшене, что создает поверхность для атак, которую большинство организаций еще не контролирует. Исследователи разработали и протестировали метод бэкдор-атаки на основе промтов, названный ProAttack, который достигает успеха почти в 100% случаев на нескольких бенчмарках классификации текста, не меняя метки образцов и не внедряя внешние триггерные слова.

Парадигма защиты от бэкдор-атак с помощью тонкой настройки языковых моделей на основе LoRA (Источник: НТУ Сингапур)
Стандартные бэкдор-атаки на NLP-модели работают путем внедрения необычных токенов или фраз в обучающие образцы и смены их меток на целевой класс. Защитники научились обнаруживать эти аномалии, сканируя текст на предмет неуместных токенов и неправильно размеченных данных. ProAttack обходит оба вектора обнаружения. Он назначает определенный вредоносный промт для подмножества обучающих образцов, принадлежащих целевому классу, оставляя метки корректными, а текст естественным. Всем остальным образцам назначается отдельный, безвредный промт. Модель учится ассоциировать вредоносный промт с целевым выводом. Во время инференса любой ввод с этим промтом активирует бэкдор.
Исследователи формализуют это с помощью двух промт-функций, применяемых к одному и тому же базовому обучающему корпусу. Отравленный набор использует промт, сконструированный как триггер. Чистый набор использует обычный промт для задачи. Метки в обоих наборах остаются точными, что соответствует определению атаки с чистыми метками.
ProAttack достиг успеха почти в 100% случаев на нескольких бенчмарках классификации текста, при этом точность на чистых данных оставалась на уровне базовых моделей. Он превзошел предыдущий ведущий метод атаки с чистыми метками на всех трех протестированных наборах данных.
Атака также оказалась эффективной в условиях нехватки данных. На пяти наборах данных и пяти языковых моделях показатели успеха оставались близки к 100% в большинстве конфигураций, а в некоторых случаях для работы атаки требовалось всего шесть отравленных образцов.
Исследователи также провели тесты на медицинском применении, используя в качестве бенчмарка суммаризацию радиологических отчетов. ProAttack сохранил высокие показатели успеха и там, при этом оценки качества суммаризации оставались близкими к показателям чистых моделей.
Четыре известных метода защиты были протестированы против ProAttack: ONION, SCPD, обратный перевод и тонкая обрезка. Ни один из них не смог последовательно нейтрализовать атаку на всех наборах данных. Некоторые снижали успешность атак на отдельных тестах, но каждый имел свои компромиссы: либо оставляя другие наборы данных практически незащищёнными, либо ухудшая точность модели на чистых данных в процессе.
Исследователи предлагают использовать LoRA, метод эффективной по параметрам тонкой настройки, в качестве защиты. Логика такова: для внедрения бэкдора требуется обновить все параметры, чтобы установить связь между триггером и целевым классом. LoRA ограничивает обновления низкоранговыми матрицами, снижая способность модели кодировать такую связь. В результате модель обновляет лишь малую долю параметров по сравнению со стандартной тонкой настройкой.
На множестве наборов данных это ограничение существенно снизило успешность атак, в то время как точность на чистых данных в основном сохранилась. Тесты против BadNet и InSent подтвердили, что защита обобщается и на другие методы атак с чистыми метками, а не только на ProAttack.
Другие методы эффективной настройки, включая Prompt-tuning и VERA, дали схожие результаты, что позволяет предположить, что защитный эффект связан с ограничением параметров в целом, а не исключительно с LoRA.
Существует одно ограничение: эффективность защиты зависит от поддержания низкого ранга LoRA. При более высоких значениях ранга количество обновляемых параметров возрастает, и успешность атак снова увеличивается. Таким образом, при внедрении необходимо учитывать баланс между ёмкостью модели и силой защиты.
Доктор Чжао Шуай, научный сотрудник Колледжа вычислительной техники и науки о данных Наньянского технологического университета и первый автор исследования, прямо прокомментировал практический риск. «Учитывая значительное влияние промптов на производительность модели, пользователи в реальных приложениях часто используют общедоступные или совместно используемые шаблоны промптов, — сказал доктор Чжао. — Если злоумышленник злонамеренно манипулирует промптами в открытых наборах данных или общих ресурсах, бэкдоры могут быть внедрены без заметных аномалий, создавая существенные риски для безопасности системы».
Доктор Чжао добавил, что скрытность ProAttack проистекает из корректности меток и естественности текста, что делает атаку осуществимой в системах, полагающихся на автоматическую генерацию данных и инженерию промптов.
На вопрос о том, может ли LoRA служить универсальной защитой, доктор Чжао высказался сдержанно. «Не существует универсально оптимального выбора, поскольку подходящий ранг по своей природе зависит от конкретной задачи, — заявил он. — Хотя LoRA эффективна, её роль в качестве общей защиты на практике остаётся ограниченной, поскольку для надёжного развёртывания требуется тщательная настройка гиперпараметров под конкретную задачу».
Исследователи признают два ограничения. Обобщение на области за пределами текста, включая речь, не тестировалось. Защита на основе LoRA была разработана для атак с чистыми метками, и её эффективность против атак с отравленными метками требует дополнительного изучения. Исследователи предлагают дистилляцию знаний как возможное направление для очистки отравленных весов модели в таком сценарии.