
Эксперты Forescout Research — Vedere Labs протестировали 50 современных моделей ИИ из коммерческих, открытых и нелегальных источников для оценки их способности проводить исследование уязвимостей (VR) и разработку эксплойтов (ED). Согласно выводам специалистов, LLM по-прежнему не справляются с задачами обнаружения и эксплуатации уязвимостей, поэтому многие злоумышленники скептически относятся к использованию ИИ-инструментов для таких задач.
Задачи VR были направлены на выявление конкретной уязвимости в коротком фрагменте кода. Задачи ED — на создание работающего эксплойта для уязвимого двоичного файла. Процент неудач был высок для всех моделей. 48% не справилось с первой задачей VR, а 55% — со второй. 66% не осилило первую ED-задачу, 93% — вторую. И ни одна нейросеть при этом не смогла выполнить все задачи.
Большинство ИИ-инструментов часто выдавало нестабильные результаты при разных запусках и иногда сталкивалось с тайм-аутами или ошибками. В нескольких случаях ED для создания работоспособного эксплойта моделям нужно было несколько попыток в течение нескольких часов. Даже когда они успешно справлялись с задачами ED, им требовалось руководство со стороны пользователя: интерпретация ошибок, отладка выходных данных или ручное управление для выбора приемлемых путей эксплуатации. «Мы всё ещё далеки от LLM, способных автономно генерировать полнофункциональные эксплойты», — отметили в Forescout.
В исследовании также был проанализирован ряд подпольных форумов, чтобы понять, как киберпреступные сообщества оценивают потенциал ИИ. Опытные хакеры, как правило, выражали скептицизм или осторожность, при этом многие из их комментариев преуменьшали текущую полезность нейросетей. Энтузиазм в отношении эксплуатации уязвимостей с помощью ИИ в основном исходил от менее опытных пользователей. Многие подчёркивали эффективность LLM в выполнении некоторых технических задач, таких как генерация шаблонного кода и автоматизация ПО.
Эксперты установили, что модели с открытым исходным кодом оказались самыми ненадёжными для виртуальной реальности: все 16 протестированных образцов показали низкую производительность при выполнении всех задач. «Подпольные» модели при этом тщательно настроены для вредоносного использования на форумах даркнета и в каналах Telegram. К ним относятся специализированные инструменты, разработанные на основе общедоступных ботов (такие как WormGPT и GhostGPT).
Универсальные же коммерческие модели от крупных поставщиков — ChatGPT, Gemini и Copilot — продемонстрировали наилучшую производительность, хотя некоторые из них иногда ограничивались защитными мерами выравнивания. Даже в этой категории только трём нейросетям удалось создать работающий эксплойт для самых сложных тестовых случаев.
«Эти результаты свидетельствуют о том, что генеративный ИИ пока не изменил способы обнаружения и использования уязвимостей злоумышленниками, но ситуация может измениться. Приближается эпоха "вайб-хакинга", и специалистам по безопасности следует начать готовиться уже сейчас», — добавили исследователи.
В Forescout заявили, что, вероятно, ИИ приведёт к более частому, но не более сложному использованию эксплойтов. Поэтому основные меры кибербезопасности, такие как минимальные привилегии, сегментация сети и модель нулевого доверия, остаются актуальными для противодействия таким атакам.
Усам Оздемиров