Новая модель ИИ от Anthropic обнаруживает и использует уязвимости во всех основных ОС и браузерах

Инструменты для автоматического обнаружения уязвимостей существуют десятилетиями, и разрыв между нахождением ошибки и созданием рабочего эксплойта всегда замедлял злоумышленников. Сейчас этот разрыв существенно сократился. Claude Mythos Preview от Anthropic — новая универсальная языковая модель, доступная лишь ограниченной группе ключевых отраслевых партнёров и разработчиков открытого ПО, — способна автономно выявлять уязвимости нулевого дня и затем строить рабочие эксплойты для всех основных операционных систем и веб-браузеров.

Команда исследователей безопасности Anthropic опубликовала техническую оценку возможностей Mythos Preview 7 апреля, документируя результаты примерно месяца внутреннего тестирования. Эти результаты знаменуют значительный отход от того, на что были способны предыдущие поколения моделей.

От почти нуля до рабочих эксплойтов в масштабе

Разрыв в производительности между Mythos Preview и её предшественницей, Opus 4.6, измерен в конкретных терминах бенчмарков. Когда исследователи запустили обе модели на одних и тех же уязвимостях JavaScript-движка Firefox 147, Opus 4.6 создала рабочие шелл-эксплойты в двух случаях из нескольких сотен попыток. Mythos Preview преуспела 181 раз в том же тесте, при этом в 29 дополнительных запусках была достигнута контроль над регистрами.

На внутреннем бенчмарке, где модели тестировались против примерно 7000 точек входа в репозиториях открытого ПО из корпуса OSS-Fuzz, Sonnet 4.6 и Opus 4.6 каждая достигли уровня 5 (определяемого как полный захват потока управления) ровно по одному разу. Mythos Preview достигла уровня 5 на десяти отдельных, полностью пропатченных целях.

«Мы не обучали Mythos Preview целенаправленно иметь эти способности. Скорее, они возникли как побочное следствие общих улучшений в работе с кодом, логическом мышлении и автономности. Те же самые улучшения, которые делают модель значительно более эффективной в исправлении уязвимостей, также делают её значительно более эффективной в их эксплуатации», — отметили исследователи Anthropic.

Уязвимости нулевого дня во всей экосистеме ПО

Исследовательская группа использовала простой агентский каркас: запустить изолированный контейнер с целевой кодовой базой, вызвать модель с запросом найти уязвимость безопасности и позволить ей работать автономно. Модель читает исходный код, формирует гипотезы, запускает программное обеспечение, при необходимости использует отладчики и создаёт отчёт об ошибке с доказательством концепции.

Применяя этот метод, команда выявила тысячи уязвимостей, которые она оценивает как высокого и критического уровня опасности. Из 198 обнаружений, проверенных вручную профессиональными специалистами по безопасности, в 89% случаев эксперты присвоили ту же степень серьезности, что и модель. В 98% случаев оценки расходились не более чем на один уровень.

Три конкретных примера иллюстрируют масштаб. Mythos Preview обнаружила 27-летнюю уязвимость типа «отказ в обслуживании» в реализации TCP SACK в OpenBSD — условие целочисленного переполнения, позволяющее удаленному злоумышленнику вывести из строя любой хост OpenBSD, отвечающий по TCP. Модель нашла её примерно за 1000 прогонов по общей стоимости менее 20 000 долларов. Также была обнаружена 16-летняя уязвимость в кодеке H.264 FFmpeg, внесенная коммитом 2003 года и проявившаяся после рефакторинга 2010 года, которую пропустили все фаззеры и люди, изучавшие код. В FreeBSD Mythos Preview автономно выявила и полностью эксплуатировала 17-летнюю уязвимость удаленного выполнения кода (CVE-2026-4747) в сервере NFS, предоставляющую неавторизованный root-доступ, без какого-либо участия человека после первоначального запроса.

Помимо ошибок повреждения памяти, модель выявила обходы аутентификации в веб-приложениях, слабые места в широко используемых криптографических библиотеках, охватывающих TLS, AES-GCM и SSH, а также уязвимость повреждения памяти «гость-хост» в работающем мониторе виртуальных машин. Mythos Preview также эксплуатировала уязвимости во всех основных веб-браузерах, объединяя несколько недостатков для создания эксплойтов распыления кучи JIT, обходящих песочницы рендерера и операционной системы.

N-day превращаются в эксплойты быстрее

Команда продемонстрировала возможности Mythos Preview по эксплуатации N-day на наборе из 100 уязвимостей ядра Linux (CVE) за 2024 и 2025 годы. Модель отфильтровала их до 40 потенциально эксплуатируемых кандидатов и успешно создала эксплойты для повышения привилегий более чем для половины. В опубликованной оценке два подробных разбора описывают цепочки эксплойтов, включающие обход KASLR, перераспределение кучи между кэшами и перезапись структур учетных данных для получения прав root. Одна из таких цепочек, начавшись с идентификатора CVE и хэша коммита git, была завершена менее чем за день при стоимости ниже 2000 долларов.

Исторически преобразование известной уязвимости в рабочий эксплойт занимало у опытных исследователей от дней до недель. Этот срок теперь существенно сократился.

Что защитники могут сделать сейчас

Anthropic не предоставляет Mythos Preview широкой публике. Компания запустила параллельно с моделью проект Glasswing — инициативу по направлению возможностей Mythos Preview на защиту критически важного программного обеспечения. Для этого они сотрудничают с отобранной группой партнёров и разработчиков открытого кода, прежде чем модели со схожими возможностями станут общедоступными.

Команда описывает несколько краткосрочных рекомендаций для защиты. Организациям, которые ещё не внедрили языковые модели в свои процессы управления уязвимостями, следует начать с ныне доступных передовых моделей. По мнению команды, они уже способны обнаруживать ошибки высокой и критической степени серьёзности в таких целях, как OSS-Fuzz, веб-приложения, криптографические библиотеки и ядро Linux.

Защитникам также следует сократить циклы исправлений, по возможности включить автоматические обновления, рассматривать обновления зависимостей, помеченные идентификаторами CVE, как срочные, а также пересмотреть политики раскрытия информации об уязвимостях с учётом того объёма и скорости, с которыми теперь возможно обнаружение с помощью моделей. Команда также рекомендует инвестировать в автоматизированные конвейеры реагирования на инциденты, поскольку большее количество раскрытий уязвимостей приведёт к большему числу попыток эксплуатации в промежутке до применения исправлений.

Загрузить: Опрос SANS 2026 об угрозах и защите идентификации