Благодаря тем возможностям, которые открывают большие языковые модели (LLM) с точки зрения обработки и генерации текста, появляются перспективы для их интеграции в ИБ-решения. Здесь очень важно соблюсти баланс между ожиданиями, которые рождает волна AI-хайпа, реальными возможностями этих систем и требованиями к их надёжности.
Напомним, что в первую очередь большие языковые модели обучаются задаче генерации текста (в случае мультимодальных моделей они могут также обрабатывать визуальный и аудиоконтент), причём в качестве исходных данных выступают, как правило, тексты общего характера из книг и особенно интернета, где полезные статьи соседствуют с устаревшими, шуточными и просто неверными данными. При этом неважно, используются ли эти данные при обучении или в рамках популярных подходов по интеграции внешних данных в модель (таких как retrieval-augmented generation [1]): ненадёжность этих данных может приводить к неожиданным результатам работы систем. Это явно видно в ситуациях, когда системы на основе LLM дают серьёзные советы на основе ироничных текстов из интернета, например, предлагая добавлять в пиццу клей, чтобы соус был более вязким [2].
В результате обучения на выходе мы имеем модель — нечёткий образ, своего рода воспоминание об обучающем корпусе данных [3]. Генерация текста на основе таких моделей происходит с помощью сэмплирования из вероятностного распределения. Сопоставив эти факты, можно сделать вывод, что основными проблемами всех решений на основе LLM будет являться надёжность и контролируемость того вывода (инференса), который модель предоставляет. Действительно, феномен «галлюцинирования» (или генерации и оперирования ложными фактами) со стороны языковых моделей является настолько серьёзной проблемой, что она прочно вошла в общественное сознание, а само слово hallucinate было названо Кембриджским словарём словом года.
Кроме того, часто приводится тезис, что системы на основе LLM смогут обрабатывать огромные объёмы данных, заменяя традиционные системы. Как правило, это делается потому, что те более простые алгоритмы машинного обучения, которые применялись, применяются и будут применяться для обработки данных, в том числе в кибербезопасности, действительно могут иметь очень большую производительность, и их, как и решения на основе LLM, в рамках маркетинговых материалов тоже часто называли AI. К сожалению, LLM требуют больших вычислительных мощностей, а время обработки больших запросов измеряется десятками секунд и даже минутами [4].
С другой стороны, те задачи, с которыми работают ИБ-специалисты, часто можно неплохо формализовать именно как задачи обработки текста. Те же логи или, например, команды, запускаемые через командную строку, представляют собой полуструктурированные данные, для обработки которых вполне можно использовать LLM.
Таким образом, самая важная задача, которая стоит перед специалистами по машинному обучению и кибербезопасности с точки зрения внедрения LLM в продукты и процессы, — это найти те сценарии, в которых большие языковые модели смогут максимально упростить жизнь аналитика ИБ и разгрузить его от рутины, при этом оставаясь максимально подконтрольными человеку. Это могут быть различные контекстуальные подсказки, особенно в рамках сложных продуктов, таких как SIEM, которые позволят более просто находить нужную информацию и предоставлять контекст, необходимый для принятия решений. С другой стороны, это могут быть механизмы оценки действия аналитика, которые могут подсказывать специалисту альтернативные шаги расследования или реагирования на инцидент. Наконец, будучи специально заточенными на работу с текстами, LLM могут предоставлять краткие рефераты материалов, связанных с threat intelligence, или помогать в написании отчётов — при условии их дальнейшей проверки человеком.
LLM не решение всех проблем ИБ и не замена экспертов в области кибербезопасности. Однако это мощный инструмент, который при правильном применении может помочь в автоматизации части задач, которые до этого момента очень плохо поддавались автоматизации. И это позволит разгрузить экспертов от рутины и дать им время на исследование более интересных событий или объектов. В этой роли LLM могут занять место в ряду других инструментов автоматизации, в том числе основанных на машинном обучении и активно применяющихся в сфере кибербезопасности.
[1] Retrieval Augmented Generation (RAG) | Prompt Engineering Guide (promptingguide.ai).
[2] ИИ Google предложил добавлять в пиццу клей, чтобы сыр не соскальзывал (3dnews.ru).
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных