Модели машинного обучения, созданные для обнаружения вредоносного ПО в системах Windows, обычно оцениваются на данных, которые очень похожи на их обучающую выборку. На практике вредоносные программы, попадающие на конечные точки предприятий, выглядят иначе, поступают из других источников и во многих случаях намеренно обфусцированы для уклонения от обнаружения. Исследование специалистов из Политехнического института Порту проверяет, что происходит, когда этот разрыв становится явным, и результаты имеют прямое значение для организаций, полагающихся на статические детекторы как на первую линию обороны.

Агентство Европейского союза по кибербезопасности определило государственное управление как сектор, наиболее часто подвергающийся атакам вредоносного ПО в ЕС в своих отчетах о ландшафте угроз за 2023, 2024 и 2025 годы, где основными векторами были программы-вымогатели и несанкционированный доступ к данным. Многие инструменты, используемые в этих атаках, полагаются на обфускацию, чтобы обойти детекторы на конечных точках. Исследование проверяет, могут ли современные статические детекторы на основе машинного обучения выстоять, когда встречаемое ими вредоносное ПО не соответствует распределению, на котором они обучались.
В рамках исследования были построены конвейеры обнаружения с использованием стандартизированного формата признаков, общего для шести публичных наборов данных Windows PE. Были протестированы две конфигурации обучения: одна с использованием комбинации наборов данных EMBER и BODMAS, другая — с добавлением ERMDS, набора данных, созданного специально для проверки детекторов обфусцированными образцами на уровне бинарного кода, исходного кода и упаковщиков.
Модели оценивались не только на отложенных данных из их собственного распределения для обучения, но и на четырех внешних наборах данных: TRITIUM, созданном из естественно встречающихся образцов угроз, собранных в рабочих средах; INFERNO, полученном из вредоносного ПО групп красных команд и пользовательских систем управления и контроля; SOREL-20M, крупномасштабном бенчмарке, охватывающем несколько лет реальных PE-файлов; и ERMDS, использованном в качестве внешнего тестового набора.
Именно эта кросс-датасетная структура отличает данное исследование от большинства опубликованных бенчмарков для обнаружения вредоносного ПО, которые оценивают модели на разбиениях одного и того же набора данных, используемого для обучения.
На данных из их собственного распределения для обучения лучшие модели достигли значений AUC и F1-меры в высоких 90-х процентах, с сильными показателями истинно положительных срабатываний даже при очень низких порогах ложных срабатываний. Для корпоративных сред, где ложные срабатывания несут операционные издержки, эти показатели на данных из того же распределения выглядят пригодными для развертывания.
Результаты кросс-датасетного тестирования рисуют более трезвую картину. Модели хорошо перенеслись на TRITIUM, содержащий естественные образцы из того же временного периода. Производительность на INFERNO, наборе данных "красной команды" и C2, была более нестабильной: показатели обнаружения при строгих порогах ложных срабатываний значительно упали.
SOREL-20M, самый крупный и временно разнообразный внешний набор данных, показал самое резкое снижение по всем метрикам. Некоторые конфигурации моделей упали настолько, что их практическая польза при низком уровне ложных срабатываний оказалась бы ограниченной. ERMDS в качестве внешнего тестового набора дал схожие слабые результаты.
Одно из наиболее показательных открытий связано с попыткой напрямую решить проблему обфускации. Добавление ERMDS в обучающую выборку улучшило работу на обфусцированных образцах в рамках распределения этого набора данных. Однако это также снизило способность к обобщению на данных SOREL-20M по сравнению с обучением без ERMDS.
Эта закономерность указывает на компромисс, о котором должны знать специалисты, создающие или выбирающие статические детекторы. Обучение модели для распознавания обфусцированного вредоносного ПО может сместить распределение её признаков таким образом, что снизится её эффективность на более широких и разнообразных данных. Решение одной угрозы может создать слепые зоны для других.
Исследователи объясняют это тем, что образцы с высокой степенью обфускации "размазывают" векторы признаков внутри каждого класса, сужая разделение между доброкачественными и вредоносными файлами, на которое полагается классификатор для принятия решений.
Статические детекторы привлекательны для развёртывания на хостах, поскольку они требуют мало вычислительных ресурсов и быстро выносят вердикт без запуска файла. Исследование подтверждает, что компактные модели на основе бустинга жизнеспособны для такого сценария при определённых условиях.
Результаты также подчёркивают практическое ограничение, которое не всегда учитывают команды закупок и разработки: эталонные показатели детектора имеют смысл, только если эталонные данные отражают ландшафт угроз, с которым он столкнётся. Инструменты "красных команд", упакованное вредоносное ПО и образцы со временным сдвигом могут ухудшить работу модели, которая выглядит сильной на бумаге.
Исследователи планируют расширить оценку на архитектуры глубокого обучения, продолжая фокусироваться на том, как состав обучающих данных влияет на обнаружение при низких уровнях ложных срабатываний, требуемых в промышленном развёртывании.

Загрузить: Обзор угроз и средств защиты идентификации SANS 2026