Заставьте модели OpenAI выйти из-под контроля и получите вознаграждение

Программа OpenAI по поиску уязвимостей в области безопасности искусственного интеллекта сосредоточена на вопросах злоупотребления ИИ и связанных с ним рисках во всех продуктах компании. Её цель — поддержание безопасных и защищённых систем, а также снижение вероятности вредоносного использования технологий.

Эта программа дополняет программу по поиску уязвимостей информационной безопасности. Она принимает сообщения о злоупотреблениях и рисках безопасности, которые не подпадают под критерии уязвимости. Заявки рассматриваются командами обеих программ в зависимости от области применения и ответственности.

Обзор программы по поиску уязвимостей в области безопасности ИИ

Программа фокусируется на специфических для ИИ сценариях, таких как риски, связанные с автономными агентами (включая MCP), раскрытие конфиденциальной информации OpenAI, а также угрозы целостности учётных записей и платформы.

Риски автономных агентов включают случаи, когда текст, контролируемый злоумышленником, может захватить управление агентом, например, браузерным агентом или агентом ChatGPT. В результате агент может выполнить вредоносные действия или раскрыть конфиденциальную информацию пользователя. Такое поведение должно быть воспроизводимо как минимум в половине случаев.

Автономный продукт OpenAI может выполнять запрещённые действия на веб-сайте компании в больших масштабах. Он также может осуществлять другие вредоносные действия, которые явно не перечислены, при условии, что потенциальный вред является обоснованным и существенным. Тестирование на риск MCP должно соответствовать условиям обслуживания соответствующих третьих сторон.

Риски раскрытия конфиденциальной информации OpenAI включают случаи, когда вывод модели раскрывает внутреннюю логику её работы или другую секретную информацию. Сюда же относятся уязвимости, позволяющие получить доступ к дополнительной закрытой информации.

Риски для целостности учётных записей и платформы включают слабые места в системах, обеспечивающих соблюдение правил и защиту аккаунтов. Это может быть обход мер против автоматизации, манипулирование сигналами доверия или уклонение от ограничений, таких как приостановка или блокировка. Проблемы, позволяющие получить доступ к функциям, данным или возможностям за пределами разрешённых прав, следует сообщать через программу по поиску уязвимостей информационной безопасности.

«Хотя взломы моделей (jailbreaks) не входят в сферу действия этой программы, мы периодически запускаем частные кампании по поиску уязвимостей, сфокусированные на определённых типах вреда, например, на проблемах с контентом, связанным с биорисками, в агенте ChatGPT и GPT‑5. Мы приглашаем заинтересованных исследователей подавать заявки на участие в этих программах, когда они появляются», — пояснила компания в своём блоге.

Исследователи могут получить вознаграждение, если обнаружат проблемы, способные причинить вред пользователям, и предложат способы их устранения. Сообщения, демонстрирующие обход правил контента без угрозы безопасности или злоупотреблений, не рассматриваются. Проблемы, которые легко обнаружить или которые уже широко известны, также исключаются.