

ТАЙНОЕ ВСЕГДА СТАНОВИТСЯ ЯВНЫМ… И ДОРОГИМ
Ранее мы уже рассказывали о нашем опыте применения технологий искусственного интеллекта (ИИ) при решении задач поиска и классификации данных, требующих защиты. Cегодня хотелось бы поговорить ещё об одном практическом аспекте ИИ-технологий, при котором они работают в связке с классическими системами защиты информации, значительно повышая их эффективность. Речь пойдёт о процессе защиты от утечек информации и системах DLP (Data Leakage Prevention), применение которых давно стало обязательным в любой организации, реализующей комплексный подход к информационной безопасности.
С момента своего появления эти системы непрерывно совершенствовались, сохраняя в основе всё тот же принцип анализа потока информации на предмет соответствия критериям, определённым в виде фиксированного набора правил (политик). Недостатки такого подхода, ранее не столь заметные, сегодня стали очевидны: эффективность алгоритмов, основанных на статических правилах, в условиях развития экосистем и нарастания объёма и разнообразия коммуникаций оказывается недостаточной. Прежде всего это относится к неструктурированной и не основанной на регулярных выражениях информации, а ведь именно она подчас представляет наибольшую ценность для современных компаний – это новые разработки и технологии, ценная аналитика и прочее.
Вместе с этим из года в год растёт и стоимость утечек персональных данных: согласно оценкам института Ponemon [1], средняя стоимость утечки в 2019 году составила 3,92 миллиона долларов США, а средняя стоимость одной записи – 150 долларов. Последствия таких утечек также могут быть весьма чувствительны для организации. Так, утечка данных гостей сети отелей Marriott в 2018 году оценивается в 2,2 млрд долларов [2].
СЛАБОЕ ЗВЕНО
Настройка политик DLP-системы осуществляется вручную, по результатам обследования бизнес-процессов. По сути, политики представляют собой статичный срез информационной картины бизнеса, склонный к постепенному старению и утрате актуальности.
По опыту внедрения и экспертным оценкам специалистов Сбербанка, совокупную точность (соотношение ложноположительных и ложноотрицательных срабатываний) классической DLP-системы редко удаётся удержать на уровне выше 70%. Дальнейшее повышение точности ведёт к значительному росту затрат на управление и актуализацию политик.
Невысокие показатели точности не позволяют переводить DLP-систему в режим предотвращения утечек (в режим блокировки, «в разрыв») из-за рисков прерывания бизнес-процессов, а служба кибербезопасности сталкивается с целой лавиной ложных срабатываний политик DLP и необходимостью применять разветвлённый набор фильтров для того, чтобы сузить воронку срабатываний до приемлемого уровня. Таким образом, DLP-система, являясь ядром технологического стека процесса защиты от утечек, становится его слабым звеном именно с точки зрения конечного результата: к моменту разбора инцидента по факту утечки сама утечка уже состоялась, а информация покинула периметр.
Радикально поднять точность DLP-систем можно, лишь выполнив два условия:
Решение этих задач традиционными способами, например наращиванием вычислительных мощностей или персонала, выглядит неудачной идеей в силу существования принципиально неустранимых проблем ручного труда с его субъективными суждениями, неполнотой и трудностями получения информации. Но что, если доверить «интеллектуальный» труд более интеллектуальной системе? Например, передавать срабатывания DLP-системы обученной AI-модели для компенсации неточности политик? Такая пилотная модель была реализована в Сбербанке силами специалистов кибербезопасности.
НОВЫЕ ТЕХНОЛОГИИ ДЛЯ СТАРЫХ ЗАДАЧ
Для реализации подхода и обучения детектирующих моделей были выбраны типы данных, на которых чаще всего происходят сбои в детекции утечки системой DLP. Массив таких данных был размечен и обогащён набором, который точно относится к анализируемому типу (например, номера паспортов, счетов и т. д.), при этом символьная информация и неструктурированные данные также преобразовываются в цифровой структурированный вид при помощи ещё одних моделей, работающих перед основной. Ансамбль таких моделей помогает обнаруживать в потоке информации данные счетов, паспортов и банковских карт, при этом для данных, уже преобразованных в цифровой формат, и для ускорения фильтрации применяются регулярные выражения, алгоритмы определения контрольного разряда и Луна [3].
Ансамбль моделей составляют нейронные сети (в большинстве своём класса NLP- Natural Language Processing) и «классические». Для NLP используются модели CNN и RNN (сверточные и рекуррентные нейронные сети). При обучении использовались различные параметры настройки слоёв нейронных сетей. Не все варианты оказались удачными, но те, что удовлетворяли заданным метрикам по точности, нашли применения в промышленном решении. Модели дополняют друг друга, усиливая точность взаимного результата отнесения анализируемых данных к тому или иному типу и категории защищаемой информации.
Подробнее приведено на врезке 1; на врезке 2 представлены подробные данные по основным типам распознаваемых типов данных. Как мы видим, основной упор делается на поиск персональных данных, так как их охрана – одно из важнейших требований различных регуляторов (законы РФ, ЦБ РФ [4], GDPR [5]).
Как результат: обучены четыре модели на рекуррентных и сверточных нейросетях на базе NER (Name Entity Recognition). По результатам сравнения качества моделей на валидационной выгрузке отобраны три лучшие из них. Ансамбль из трёх моделей с анализом контрольных разрядов и проверками на регулярных выражениях показывает среднюю точность 95%, из них ~40% атрибутов распознаются с точностью >99,9%.
В первую очередь модели настроены работать с табличными файлами и проходили обучение на структурированных данных, накопленных в аналитическом хранилище данных банка. Также активно разрабатываются модели для работы с текстами и неструктурированной информацией, но это темы для следующих статей. Например, для работы с текстом применяется бэггинг двух CNN-моделей, одной RNN-модели, регулярных выражений и проверок на контрольные разряды. Также проводится исследование качества работы при векторизации, с дальнейшим использованием различных ML-моделей; бэггинг на основе взвешивания фич в векторах.
ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ
В банке был успешно проведён пилот по интеграции сервиса распознавания конфиденциальной информации и системы DLP.
Схема реализованного взаимодействия DLP-системы и модели ИИ изображена на рис. 1.
Рисунок 1. Схема взаимодействия DLP-системы и модели
При взаимодействии DLP-системы и AI-модели был реализован следующий алгоритм:
Измерения показали точность порядка 95-98% на синтетических данных. Предварительная оценка показывает, что при общем количестве событий около 3000 в месяц такая автоматизация позволит сэкономить не менее 300 человекочасов, т. е. полноценно заменить трёх квалифицированных офицеров безопасности, причём, в отличие от них, она будет работать в круглосуточном режиме, без перерывов на обед, праздников и выходных.
Конечно, при смене системы DLP приходится заново переписывать реализацию интеграции между системами, поэтому можно либо совершенствовать универсального программного робота, либо сделать программные API для безболезненного перехода с одной системы на другую.
ЗАКЛЮЧЕНИЕ
Описанный выше подход при сравнительно невысокой стоимости обладает целым рядом ценных преимуществ в сравнении с классическими статическими системами. Остаются возможности для развития и улучшения способов интеграции, расширения распознаваемых типов данных, внедрения новых, ещё более точных моделей, с применением самообучения для повышения скорости и гибкости адаптации комплексной системы к меняющимся потокам данных и условиям функционирования. ИИ можно использовать в связке не только с DLP, но и с другими системами, например, для поиска конфиденциальных данных в файловых хранилищах, а также в качестве сервиса, помогающего работникам классифицировать данные.
Конечно, на сегодня не до конца решён ряд важных задач, это и вопросы интеграции, и проблема обучения моделей на неструктурированных данных с произвольным текстом для надёжного выявления в информационном потоке сведений, составляющих коммерческую тайну предприятия, и других. Тем не менее успешный опыт Сбербанка доказывает эффективность и потенциал систем искусственного интеллекта для облегчения труда аналитиков безопасности по разбору инцидентов утечек данных, а также наглядно показывает дальнейшие пути развития систем ИИ на других этапах жизненного цикла управления инцидентами. Предлагаем коллегам делиться своим опытом в изучении этого перспективного направления развития кибербезопасности.
Врезка 1: Методика формирования и выбора моделей искусственного интеллекта
Какие модели были обучены
Для построения модели выбран алгоритм NER (Named-entity recognition – алгоритм распознавания именованных сущностей). Данный алгоритм был выбран, так как:
Критерии отбора
Категории данных
Список категорий создавался как наиболее полный список, покрывающий все виды чувствительных данных, любой новый вид ЧД выражается через виды из списка. Список построен на основе анализа Конституции и федеральных законов РФ и ВНД банка.
Подготовка данных
Приоритет обучения
Обучение моделей
На основе алгоритма NER обучено два типа моделей
Врезка 2. Основные типы распознаваемых данных
Здесь приведены только основные типы данных, на этом список не исчерпывается.
[1] Сost of a Data Breach 2019 – Ponemon Institute.
[2] The Times, 20 августа 2020.
[3] Алгоритм вычисления контрольной цифры номера пластиковой карты в соответствии со стандартом ISO/IEC 7812. Предназначен для определения правильности указания номера карты путём расчёта контрольного значения.
[4] ЦБ РФ – Центральный банк Российской Федерации.
[5] GDPR – General Data Protection Regulation (Общий регламент по защите данных) – постановление Европейского союза, с помощью которого Европейский парламент, Совет Европейского союза и Европейская комиссия усиливают и унифицируют защиту персональных данных.
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных