Тестирование выявляет наступательный потенциал и границы Claude Mythos

Может ли Claude Mythos Preview, последняя большая языковая модель от Anthropic, быть использована для полностью автоматизированных кибератак?

Институт безопасности искусственного интеллекта (AISI) правительства Великобритании проверил её способность успешно решать задачи типа "захват флага" (CTF) и выполнять многоэтапные сценарии атак. Результаты показали, что, хотя её возможности в области кибербезопасности превосходят предыдущие модели, она не может надёжно проводить автономные атаки на защищённые сети.

Что такое Claude Mythos Preview?

Anthropic представила публике Claude Mythos Preview в начале этого месяца, заявив, что эта языковая модель исключительно хорошо обнаруживает ранее упущенные и трудноуловимые ошибки и уязвимости в операционных системах, программном обеспечении, веб-приложениях и криптографических библиотеках.

Учитывая её эффективность, модель не будет выпущена для широкой публики, так как злоумышленники могли бы использовать её для поиска уязвимостей нулевого дня и разработки эксплойтов как для новых, так и для известных, но не исправленных слабых мест.

Вместо этого Anthropic запустила программу Project Glasswing, предоставляющую избранным крупным технологическим, кибербезопасностным и финансовым организациям ранний доступ к модели. К ним присоединились Фонд Linux и 40 организаций, которые создают или поддерживают критически важное программное обеспечение. Все они работают над защитой самого важного в мире ПО до того, как аналогичные инструменты ИИ станут доступны более широкой аудитории.

Claude Mythos: Возможности для кибератак и текущие ограничения

То, что означает Claude Mythos Preview для кибербезопасности, активно обсуждается как в сети, так и за её пределами. Результаты тестов, проведённых Институтом безопасности ИИ, дают больше понимания о том, с какими угрозами вскоре могут столкнуться защитники.

Исследователи AISI обнаружили, что модель хорошо справляется с задачами "захват флага", которые направлены на выявление и использование уязвимостей в целевых системах.

"В задачах экспертного уровня — которые ни одна модель не могла выполнить до апреля 2025 года — Mythos Preview добивается успеха в 73% случаев", — сообщили они.

Когда дело доходит до более сложных атак, её эффективность снижается.

"Реальные кибератаки требуют объединения десятков шагов на нескольких хостах и сегментах сети — это продолжительные операции, на выполнение которых человеческим экспертам требуются многие часы, дни или недели", — отметили в AISI.

«В качестве первого шага к измерению этого мы создали «Последних выживших» (ПВ): 32-этапную симуляцию атаки на корпоративную сеть, от первоначальной разведки до полного захвата сети, выполнение которой, по нашим оценкам, занимает у человека 20 часов. Claude Mythos Preview стал первой моделью, которая полностью решила задачу ПВ с начала до конца в 3 из 10 попыток».

Тем не менее, три успеха из десяти попыток раскрывают лишь часть картины: по собственному признанию исследователей, тестовая среда была более легкой мишенью, чем большинство реальных сетей: в ней не было активных защитников, защитных инструментов или последствий за срабатывание сигналов тревоги.

«Это означает, что мы не можем с уверенностью утверждать, смогла бы Mythos Preview атаковать хорошо защищённые системы», — заявили исследователи.

Несмотря на это, модель способна автономно провести атаку на небольшую, плохо защищённую систему, если кто-то предоставит ей первоначальный доступ (т.е. начальный этап взлома выполнен злоумышленниками).

«Это подчёркивает важность основ кибербезопасности, таких как регулярное применение обновлений безопасности, строгий контроль доступа, безопасная конфигурация и всестороннее ведение журналов», — отметили они и направили организации к рекомендациям Национального центра кибербезопасности Великобритании о том, как защитникам следует использовать ИИ в своих интересах.

Рекомендации для защиты с помощью ИИ

Исследователи Anthropic также посоветовали защитникам использовать доступные модели ИИ для усиления обороны. Их следует применять для обнаружения уязвимостей, анализа облачных сред на предмет ошибочных конфигураций, ускорения миграции с устаревших систем на более безопасные, автоматизации частей реагирования на инциденты и многого другого.

Способность Mythos Preview автономно создавать эксплойты для известных уязвимостей означает, что циклы установки исправлений также придётся сокращать. «Пользователям и администраторам программного обеспечения необходимо будет сократить время развёртывания обновлений безопасности, в том числе за счёт ужесточения сроков установки исправлений, включения автоматического обновления везде, где это возможно, и рассмотрения обновлений зависимостей, содержащих исправления CVE, как срочных, а не рутинных задач», — предупредили в Anthropic.

Недавно опубликованный документ Альянса безопасности облачных технологий, подготовленный с участием экспертов по кибербезопасности и широкого сообщества, предоставляет более конкретные рекомендации для директоров по информационной безопасности о том, как адаптировать программу безопасности их организации к этой новой угрозе.

Подпишитесь на нашу рассылку экстренных новостей, чтобы всегда быть в курсе последних утечек данных, уязвимостей и киберугроз. Оформите подписку здесь!