Почти невидимая атака на языковые модели: достаточно горстки отравленных данных

Инженерия промтов стала стандартным элементом развертывания больших языковых моделей в продакшене, что создает поверхность для атак, которую большинство организаций еще не контролирует. Исследователи разработали и протестировали метод бэкдор-атаки на основе промтов, названный ProAttack, который достигает успеха почти в 100% случаев на нескольких бенчмарках классификации текста, не меняя метки образцов и не внедряя внешние триггерные слова.

Парадигма защиты от бэкдор-атак с помощью тонкой настройки языковых моделей на основе LoRA (Источник: НТУ Сингапур)

Как работает ProAttack

Стандартные бэкдор-атаки на NLP-модели работают путем внедрения необычных токенов или фраз в обучающие образцы и смены их меток на целевой класс. Защитники научились обнаруживать эти аномалии, сканируя текст на предмет неуместных токенов и неправильно размеченных данных. ProAttack обходит оба вектора обнаружения. Он назначает определенный вредоносный промт для подмножества обучающих образцов, принадлежащих целевому классу, оставляя метки корректными, а текст естественным. Всем остальным образцам назначается отдельный, безвредный промт. Модель учится ассоциировать вредоносный промт с целевым выводом. Во время инференса любой ввод с этим промтом активирует бэкдор.

Исследователи формализуют это с помощью двух промт-функций, применяемых к одному и тому же базовому обучающему корпусу. Отравленный набор использует промт, сконструированный как триггер. Чистый набор использует обычный промт для задачи. Метки в обоих наборах остаются точными, что соответствует определению атаки с чистыми метками.

Эффективность атаки в различных условиях

ProAttack достиг успеха почти в 100% случаев на нескольких бенчмарках классификации текста, при этом точность на чистых данных оставалась на уровне базовых моделей. Он превзошел предыдущий ведущий метод атаки с чистыми метками на всех трех протестированных наборах данных.

Атака также оказалась эффективной в условиях нехватки данных. На пяти наборах данных и пяти языковых моделях показатели успеха оставались близки к 100% в большинстве конфигураций, а в некоторых случаях для работы атаки требовалось всего шесть отравленных образцов.

Исследователи также провели тесты на медицинском применении, используя в качестве бенчмарка суммаризацию радиологических отчетов. ProAttack сохранил высокие показатели успеха и там, при этом оценки качества суммаризации оставались близкими к показателям чистых моделей.

Почему существующие защиты не справляются

Четыре известных метода защиты были протестированы против ProAttack: ONION, SCPD, обратный перевод и тонкая обрезка. Ни один из них не смог последовательно нейтрализовать атаку на всех наборах данных. Некоторые снижали успешность атак на отдельных тестах, но каждый имел свои компромиссы: либо оставляя другие наборы данных практически незащищёнными, либо ухудшая точность модели на чистых данных в процессе.

LoRA как механизм защиты

Исследователи предлагают использовать LoRA, метод эффективной по параметрам тонкой настройки, в качестве защиты. Логика такова: для внедрения бэкдора требуется обновить все параметры, чтобы установить связь между триггером и целевым классом. LoRA ограничивает обновления низкоранговыми матрицами, снижая способность модели кодировать такую связь. В результате модель обновляет лишь малую долю параметров по сравнению со стандартной тонкой настройкой.

На множестве наборов данных это ограничение существенно снизило успешность атак, в то время как точность на чистых данных в основном сохранилась. Тесты против BadNet и InSent подтвердили, что защита обобщается и на другие методы атак с чистыми метками, а не только на ProAttack.

Другие методы эффективной настройки, включая Prompt-tuning и VERA, дали схожие результаты, что позволяет предположить, что защитный эффект связан с ограничением параметров в целом, а не исключительно с LoRA.

Существует одно ограничение: эффективность защиты зависит от поддержания низкого ранга LoRA. При более высоких значениях ранга количество обновляемых параметров возрастает, и успешность атак снова увеличивается. Таким образом, при внедрении необходимо учитывать баланс между ёмкостью модели и силой защиты.

Практическая осуществимость в реальном мире

Доктор Чжао Шуай, научный сотрудник Колледжа вычислительной техники и науки о данных Наньянского технологического университета и первый автор исследования, прямо прокомментировал практический риск. «Учитывая значительное влияние промптов на производительность модели, пользователи в реальных приложениях часто используют общедоступные или совместно используемые шаблоны промптов, — сказал доктор Чжао. — Если злоумышленник злонамеренно манипулирует промптами в открытых наборах данных или общих ресурсах, бэкдоры могут быть внедрены без заметных аномалий, создавая существенные риски для безопасности системы».

Доктор Чжао добавил, что скрытность ProAttack проистекает из корректности меток и естественности текста, что делает атаку осуществимой в системах, полагающихся на автоматическую генерацию данных и инженерию промптов.

На вопрос о том, может ли LoRA служить универсальной защитой, доктор Чжао высказался сдержанно. «Не существует универсально оптимального выбора, поскольку подходящий ранг по своей природе зависит от конкретной задачи, — заявил он. — Хотя LoRA эффективна, её роль в качестве общей защиты на практике остаётся ограниченной, поскольку для надёжного развёртывания требуется тщательная настройка гиперпараметров под конкретную задачу».

Область применения и дальнейшие шаги

Исследователи признают два ограничения. Обобщение на области за пределами текста, включая речь, не тестировалось. Защита на основе LoRA была разработана для атак с чистыми метками, и её эффективность против атак с отравленными метками требует дополнительного изучения. Исследователи предлагают дистилляцию знаний как возможное направление для очистки отравленных весов модели в таком сценарии.