. «LLM могут занять место в ряду других инструментов автоматизации ИБ»

BIS Journal №3(54)2024

27 августа, 2024

«LLM могут занять место в ряду других инструментов автоматизации ИБ»

Владислав Тушканов, руководитель группы исследований и разработки технологий машинного обучения в «Лаборатории Касперского»

Благодаря тем возможностям, которые открывают большие языковые модели (LLM) с точки зрения обработки и генерации текста, появляются перспективы для их интеграции в ИБ-решения. Здесь очень важно соблюсти баланс между ожиданиями, которые рождает волна AI-хайпа, реальными возможностями этих систем и требованиями к их надёжности.

Напомним, что в первую очередь большие языковые модели обучаются задаче генерации текста (в случае мультимодальных моделей они могут также обрабатывать визуальный и аудиоконтент), причём в качестве исходных данных выступают, как правило, тексты общего характера из книг и особенно интернета, где полезные статьи соседствуют с устаревшими, шуточными и просто неверными данными. При этом неважно, используются ли эти данные при обучении или в рамках популярных подходов по интеграции внешних данных в модель (таких как retrieval-augmented generation [1]): ненадёжность этих данных может приводить к неожиданным результатам работы систем. Это явно видно в ситуациях, когда системы на основе LLM дают серьёзные советы на основе ироничных текстов из интернета, например, предлагая добавлять в пиццу клей, чтобы соус был более вязким [2].

В результате обучения на выходе мы имеем модель — нечёткий образ, своего рода воспоминание об обучающем корпусе данных [3]. Генерация текста на основе таких моделей происходит с помощью сэмплирования из вероятностного распределения. Сопоставив эти факты, можно сделать вывод, что основными проблемами всех решений на основе LLM будет являться надёжность и контролируемость того вывода (инференса), который модель предоставляет. Действительно, феномен «галлюцинирования» (или генерации и оперирования ложными фактами) со стороны языковых моделей является настолько серьёзной проблемой, что она прочно вошла в общественное сознание, а само слово hallucinate было названо Кембриджским словарём словом года.

Кроме того, часто приводится тезис, что системы на основе LLM смогут обрабатывать огромные объёмы данных, заменяя традиционные системы. Как правило, это делается потому, что те более простые алгоритмы машинного обучения, которые применялись, применяются и будут применяться для обработки данных, в том числе в кибербезопасности, действительно могут иметь очень большую производительность, и их, как и решения на основе LLM, в рамках маркетинговых материалов тоже часто называли AI. К сожалению, LLM требуют больших вычислительных мощностей, а время обработки больших запросов измеряется десятками секунд и даже минутами [4].

С другой стороны, те задачи, с которыми работают ИБ-специалисты, часто можно неплохо формализовать именно как задачи обработки текста. Те же логи или, например, команды, запускаемые через командную строку, представляют собой полуструктурированные данные, для обработки которых вполне можно использовать LLM.

Таким образом, самая важная задача, которая стоит перед специалистами по машинному обучению и кибербезопасности с точки зрения внедрения LLM в продукты и процессы, — это найти те сценарии, в которых большие языковые модели смогут максимально упростить жизнь аналитика ИБ и разгрузить его от рутины, при этом оставаясь максимально подконтрольными человеку. Это могут быть различные контекстуальные подсказки, особенно в рамках сложных продуктов, таких как SIEM, которые позволят более просто находить нужную информацию и предоставлять контекст, необходимый для принятия решений. С другой стороны, это могут быть механизмы оценки действия аналитика, которые могут подсказывать специалисту альтернативные шаги расследования или реагирования на инцидент. Наконец, будучи специально заточенными на работу с текстами, LLM могут предоставлять краткие рефераты материалов, связанных с threat intelligence, или помогать в написании отчётов — при условии их дальнейшей проверки человеком.

LLM не решение всех проблем ИБ и не замена экспертов в области кибербезопасности. Однако это мощный инструмент, который при правильном применении может помочь в автоматизации части задач, которые до этого момента очень плохо поддавались автоматизации. И это позволит разгрузить экспертов от рутины и дать им время на исследование более интересных событий или объектов. В этой роли LLM могут занять место в ряду других инструментов автоматизации, в том числе основанных на машинном обучении и активно применяющихся в сфере кибербезопасности.

[1] Retrieval Augmented Generation (RAG) | Prompt Engineering Guide (promptingguide.ai).

[2] ИИ Google предложил добавлять в пиццу клей, чтобы сыр не соскальзывал (3dnews.ru).

[3] State of GPT | BRK216HFS (youtube.com).

[4] Testing Anthropic Claude’s 100k-token window on SEC 10-K Filings | by Jerry Liu | LlamaIndex Blog | Medium.

Стать автором BIS Journal

«LLM могут занять место в ряду других инструментов автоматизации ИБ»

BIS Journal №3(54)2024

«LLM могут занять место в ряду других инструментов автоматизации ИБ»

«Уже сегодня мультимодальные генеративные модели — это универсальный инструмент...»

«В вопросе автоматизации следует сконцентрироваться на применении LLM для решения рутинных задач»

«Пора заменить расшифровку аббревиатуры LLM на Logic-Linguistic Model»

Карты знаний. На пути к доверенным языковым моделям и системам представления знаний

Строгая аутентификация — ключ к доверенной корпоративной инфраструктуре

Наш ответ Microsoft. SafeTech запустил отечественный СА, призванный заменить иностранное решение

«Большие языковые модели — всё ещё статистические аппроксиматоры или уже почти настоящий интеллект?»

Что творит искусственный разум? Генеративный ИИ (GenAI) лишь первый штрих в большой архитектуре Large Language Model. И возможно, ошибочный…

Предупреждён — вооружён! Обнаружена будущая цель хактивистов — операторы ЦФА

Безопасная разработка

Читалка

Банк России опубликовал обзор отчётности об инцидентах информационной безопасности при переводе денежных средств за II квартал 2025 года

Банк России опубликовал обзор отчётности об инцидентах информационной безопасности при переводе денежных средств за II квартал 2025 года

Опубликован Федеральный закон от 31.07.2025 №325-ФЗ «О внесении изменений в отдельные законодательные акты Российской Федерации»

Опубликован Федеральный закон от 31.07.2025 №325-ФЗ «О внесении изменений в отдельные законодательные акты Российской Федерации»

ФСТЭК России опубликован методический документ от 30.06.2025 «Методика оценки уровня критичности уязвимостей программных, программно-аппаратных средств»

ФСТЭК России опубликован методический документ от 30.06.2025 «Методика оценки уровня критичности уязвимостей программных, программно-аппаратных средств»

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal

«LLM могут занять место в ряду других инструментов автоматизации ИБ»

«LLM могут занять место в ряду других инструментов автоматизации ИБ»

Смотрите также

Безопасная разработка

Читалка

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal