Исследование Google: как языковые модели помогают на всех этапах выявления нарушений

Интернет-платформы применяют большие языковые модели на каждом этапе модерации контента, от создания обучающих данных до аудита собственных систем на предмет смещений. Специалисты из Google описали, как это происходит в рамках так называемого Жизненного цикла обнаружения нарушений — четырёхэтапной модели, охватывающей разметку, обнаружение, проверку с обжалованием и аудит.

Более ранние системы модерации, построенные на моделях вроде BERT и RoBERTa, дообученных на статических наборах данных о ненавистнических высказываниях, могли с приемлемой точностью идентифицировать откровенные оскорбления. Однако они плохо справлялись с сарказмом, завуалированными выражениями и контекстно-зависимыми нарушениями. БЯМ частично устраняют эти пробелы благодаря контекстному анализу, но их внедрение на каждом этапе создаёт новые операционные и управленческие проблемы.

Разметка: синтетические данные в масштабе, но со смещениями

Создание размеченных обучающих данных долгое время было узким местом в модерации контента с помощью БЯМ. Человеческие аннотаторы работают медленно, дорого и непоследовательно, особенно при работе с неявным или контекстно-зависимым контентом. БЯМ используются для генерации синтетических меток в объёмах, недостижимых для ручной разметки.

В одном исследовании, упомянутом в обзоре, три БЯМ использовались как независимые аннотаторы, их метки агрегировались методом большинства голосов, что позволило создать более 48 000 синтетических меток медийной предвзятости. Классификаторы, обученные на этих синтетических данных, показали результаты, сопоставимые с моделями, обученными на данных, размеченных экспертами. Подход с извлечением информации в классификации финансовых текстов потребовал выборки всего 2.2% доступных примеров для достижения точности GPT-4 с малым количеством примеров, что значительно сократило вычислительные затраты.

Модели, настроенные с помощью инструкций, часто недооценивают метки нарушений из-за несбалансированных обучающих корпусов. Модели, выровненные с помощью обучения с подкреплением на основе человеческой обратной связи, склонны к перестраховке и чрезмерному срабатыванию. Разные БЯМ также несут в себе различные политические или идеологические предпочтения, которые проявляются в генерируемых ими метках. Валидация по сравнению с человеческими оценками по-прежнему необходима.

Обнаружение: специализированные модели превосходят универсальные

На этапе обнаружения в исследовании различают универсальные большие языковые модели, используемые как классификаторы без дообучения, и более компактные модели, специально дообученные для задач безопасности. GPT-4 демонстрирует F1-меру выше 0.75 на стандартных бенчмарках токсичности в режиме zero-shot, что соответствует или превосходит показатели неэкспертных людей-аннотаторов. Метод few-shot с предоставлением трёх-пяти размеченных примеров в промте значительно сокращает разрыв со специализированными моделями.

Семейство моделей Llama Guard от Meta представляет подход с тонкой настройкой специалиста. Оно обеспечивает контроль безопасности как для пользовательских запросов, так и для ответов модели, а также поддерживает адаптацию политик без дообучения, что позволяет администраторам напрямую задавать новые правила безопасности в промте.

Постоянной проблемой в модерации контента с помощью больших языковых моделей является чрезмерный отказ. Модели, выровненные с помощью RLHF и используемые как классификаторы, склонны помечать безобидный контент, который лишь поверхностно напоминает небезопасный. Исследования, оценивающие Llama-2 и GPT-4, выявили высокий уровень ложных срабатываний на запросах, которые лишь затрагивали чувствительные темы, не нарушая правил.

Скрытые злоупотребления, включая сарказм и закодированные выражения ненависти, остаются сложными для обнаружения. Методы контрастивного обучения, применённые к эмбеддингам больших языковых моделей, показали высокие результаты в выявлении скрытой ненависти, иногда превосходя более крупные генеративные модели по точности и вычислительной эффективности. Для скоординированного неаутентичного поведения требуется иной подход: графовые нейронные сети, усиленные семантическими эмбеддингами, сгенерированными большими языковыми моделями, могут выявлять сети аккаунтов, демонстрирующих как схожие структурные паттерны публикаций, так и лингвистически похожий контент. Фреймворк FraudSquad, созданный для обнаружения спам-отзывов, сгенерированных большими языковыми моделями, сообщил о 44% улучшении точности по сравнению с предыдущими базовыми методами, используя этот двойной подход.

Проверка и аудит: большие языковые модели в поддержку и для контроля человеческих решений

На этапе проверки инструменты модерации контента на основе больших языковых моделей используются для генерации обоснованных политикой объяснений решений модерации, суммирования доказательств для людей-проверяющих и помощи в процессе апелляций путём перевода нарушений правил на простой язык. В исследовании цитируется работа, показывающая, что такое предоставление обоснований улучшает согласованность и даёт пользователям более чёткую основу для оспаривания решений.

Известная проблема на данном этапе заключается в том, что объяснения, построенные по принципу цепочки мыслей, могут быть недостоверными. Модели иногда генерируют обоснования, которые рецензентам кажутся логичными, но не отражают реальный процесс принятия решений моделью. Исследования также показывают, что беглость текста, создаваемого большими языковыми моделями, заставляет модераторов-людей чаще признавать ошибочные объяснения приемлемыми.

На этапе аудита большие языковые модели используются для стресс-тестирования систем обнаружения с помощью вредоносных запросов, выявления демографических различий в применении правил и мониторинга концептуального дрейфа с течением времени. Одно исследование проанализировало провоцирование токсичности в более чем 1200 группах по идентичности и обнаружило систематические различия в том, как фильтры безопасности относятся к маргинализированным группам населения. Также задокументирована временная нестабильность: оценки прогнозирования токсичности от одного и того же API значительно варьировались в разные периоды оценки.

Проблема внедрения и парадокс безопасности

Запуск крупной модели рассуждений для каждого фрагмента контента на платформе с высоким трафиком вычислительно нецелесообразен. Согласно обзору, затраты на вывод для передовых моделей на порядки выше на один запрос, чем для упрощённых базовых моделей. Платформы обходят это, направляя простые случаи на более мелкие и быстрые модели, оставляя большие языковые модели для неоднозначного контента. Исследования по фреймворку SafeRoute показали, что значительная часть пользовательского трафика не требует глубины рассуждений модели с миллиардами параметров.

Более широкое структурное противоречие, которое выявляет обзор, заключается в том, что модерация контента с помощью больших языковых моделей одновременно улучшает защитные возможности и снижает барьер для злоумышленников. Генерация уникального, персонализированного вредоносного контента в больших масштабах теперь доступна даже малоопытным акторам. Системам обнаружения теперь необходимо учитывать дезинформацию, созданную машиной, и поддельные отзывы наряду со злоупотреблениями, созданными человеком.

Обзор заключает, что будущие архитектуры должны будут сочетать меньшие специализированные защитные механизмы со справочниками политик, дополненными поиском, постоянным тестированием на проникновение с помощью автономных агентов-противников и устойчивым человеческим контролем на нескольких этапах конвейера.

Руководство: Моделирование нарушений и атак, а также автоматизированное тестирование на проникновение