ИИ на страже банковских данных – 2: опыт «Сбербанка»

BIS Journal №4(39)/2020

15 декабря, 2020

ИИ на страже банковских данных – 2: опыт «Сбербанка»

ТАЙНОЕ ВСЕГДА СТАНОВИТСЯ ЯВНЫМ… И ДОРОГИМ

Ранее мы уже рассказывали о нашем опыте применения технологий искусственного интеллекта (ИИ) при решении задач поиска и классификации данных, требующих защиты. Cегодня хотелось бы поговорить ещё об одном практическом аспекте ИИ-технологий, при котором они работают в связке с классическими системами защиты информации, значительно повышая их эффективность. Речь пойдёт о процессе защиты от утечек информации и системах DLP (Data Leakage Prevention), применение которых давно стало обязательным в любой организации, реализующей комплексный подход к информационной безопасности.

С момента своего появления эти системы непрерывно совершенствовались, сохраняя в основе всё тот же принцип анализа потока информации на предмет соответствия критериям, определённым в виде фиксированного набора правил (политик). Недостатки такого подхода, ранее не столь заметные, сегодня стали очевидны: эффективность алгоритмов, основанных на статических правилах, в условиях развития экосистем и нарастания объёма и разнообразия коммуникаций оказывается недостаточной. Прежде всего это относится к неструктурированной и не основанной на регулярных выражениях информации, а ведь именно она подчас представляет наибольшую ценность для современных компаний – это новые разработки и технологии, ценная аналитика и прочее.

Вместе с этим из года в год растёт и стоимость утечек персональных данных: согласно оценкам института Ponemon [1], средняя стоимость утечки в 2019 году составила 3,92 миллиона долларов США, а средняя стоимость одной записи – 150 долларов. Последствия таких утечек также могут быть весьма чувствительны для организации. Так, утечка данных гостей сети отелей Marriott в 2018 году оценивается в 2,2 млрд долларов [2].

 

СЛАБОЕ ЗВЕНО

Настройка политик DLP-системы осуществляется вручную, по результатам обследования бизнес-процессов. По сути, политики представляют собой статичный срез информационной картины бизнеса, склонный к постепенному старению и утрате актуальности.

По опыту внедрения и экспертным оценкам специалистов Сбербанка, совокупную точность (соотношение ложноположительных и ложноотрицательных срабатываний) классической DLP-системы редко удаётся удержать на уровне выше 70%. Дальнейшее повышение точности ведёт к значительному росту затрат на управление и актуализацию политик.

Невысокие показатели точности не позволяют переводить DLP-систему в режим предотвращения утечек (в режим блокировки, «в разрыв») из-за рисков прерывания бизнес-процессов, а служба кибербезопасности сталкивается с целой лавиной ложных срабатываний политик DLP и необходимостью применять разветвлённый набор фильтров для того, чтобы сузить воронку срабатываний до приемлемого уровня. Таким образом, DLP-система, являясь ядром технологического стека процесса защиты от утечек, становится его слабым звеном именно с точки зрения конечного результата: к моменту разбора инцидента по факту утечки сама утечка уже состоялась, а информация покинула периметр.

Радикально поднять точность DLP-систем можно, лишь выполнив два условия:

  • принципиально повысить качество политик;
  • обеспечить актуальность политик - резко сократить скорость реагирования на изменения, в том числе за счёт пересмотра процесса формирования политик.

Решение этих задач традиционными способами, например наращиванием вычислительных мощностей или персонала, выглядит неудачной идеей в силу существования принципиально неустранимых проблем ручного труда с его субъективными суждениями, неполнотой и трудностями получения информации. Но что, если доверить «интеллектуальный» труд более интеллектуальной системе? Например, передавать срабатывания DLP-системы обученной AI-модели для компенсации неточности политик? Такая пилотная модель была реализована в Сбербанке силами специалистов кибербезопасности.

 

НОВЫЕ ТЕХНОЛОГИИ ДЛЯ СТАРЫХ ЗАДАЧ

Для реализации подхода и обучения детектирующих моделей были выбраны типы данных, на которых чаще всего происходят сбои в детекции утечки системой DLP. Массив таких данных был размечен и обогащён набором, который точно относится к анализируемому типу (например, номера паспортов, счетов и т. д.), при этом символьная информация и неструктурированные данные также преобразовываются в цифровой структурированный вид при помощи ещё одних моделей, работающих перед основной. Ансамбль таких моделей помогает обнаруживать в потоке информации данные счетов, паспортов и банковских карт, при этом для данных, уже преобразованных в цифровой формат, и для ускорения фильтрации применяются регулярные выражения, алгоритмы определения контрольного разряда и Луна [3].

Ансамбль моделей составляют нейронные сети (в большинстве своём класса NLP- Natural Language Processing) и «классические». Для NLP используются модели CNN и RNN (сверточные и рекуррентные нейронные сети). При обучении использовались различные параметры настройки слоёв нейронных сетей. Не все варианты оказались удачными, но те, что удовлетворяли заданным метрикам по точности, нашли применения в промышленном решении. Модели дополняют друг друга, усиливая точность взаимного результата отнесения анализируемых данных к тому или иному типу и категории защищаемой информации.

Подробнее приведено на врезке 1; на врезке 2 представлены подробные данные по основным типам распознаваемых типов данных. Как мы видим, основной упор делается на поиск персональных данных, так как их охрана – одно из важнейших требований различных регуляторов (законы РФ, ЦБ РФ [4], GDPR [5]).

Как результат: обучены четыре модели на рекуррентных и сверточных нейросетях на базе NER (Name Entity Recognition). По результатам сравнения качества моделей на валидационной выгрузке отобраны три лучшие из них. Ансамбль из трёх моделей с анализом контрольных разрядов и проверками на регулярных выражениях показывает среднюю точность 95%, из них ~40% атрибутов распознаются с точностью >99,9%.

В первую очередь модели настроены работать с табличными файлами и проходили обучение на структурированных данных, накопленных в аналитическом хранилище данных банка. Также активно разрабатываются модели для работы с текстами и неструктурированной информацией, но это темы для следующих статей. Например, для работы с текстом применяется бэггинг двух CNN-моделей, одной RNN-модели, регулярных выражений и проверок на контрольные разряды. Также проводится исследование качества работы при векторизации, с дальнейшим использованием различных ML-моделей; бэггинг на основе взвешивания фич в векторах.

 

ПРАКТИЧЕСКАЯ РЕАЛИЗАЦИЯ

В банке был успешно проведён пилот по интеграции сервиса распознавания конфиденциальной информации и системы DLP.

Схема реализованного взаимодействия DLP-системы и модели ИИ изображена на рис. 1.

Рисунок 1. Схема взаимодействия DLP-системы и модели

 

При взаимодействии DLP-системы и AI-модели был реализован следующий алгоритм:

  • Пользователь отправляет сообщение, содержащее подозрительный файл, сообщение перехватывает DLP-система.
  • DLP-система направляет уведомление о нарушении программному роботу (специальный модуль, написанный на Python, служащий посредником между моделью и DLP в связи с отсутствием у последней необходимой функциональности).
  • Программный робот с использованием API-интерфейса забирает подозрительный файл из DLP-системы и передаёт его в исполняемую среду модели.
  • Модель проводит анализ файла, размечает его и передаёт программному роботу.
  • Программный робот анализирует размеченный файл и в случае наличия в нём разметки, указывающей на наличие конфиденциальной информации (формат разметки, воспринимаемой роботом, согласовывается заранее), проставляет признак инцидента в карточке события в системе DLP.
  • Уведомление о подтверждённом инциденте направляется офицеру безопасности (для старта дисциплинарного процесса и т. д.)
  • Отправителю направляется уведомление о блокировке сообщения в связи с нарушением требований кибербезопасности.

Измерения показали точность порядка 95-98% на синтетических данных. Предварительная оценка показывает, что при общем количестве событий около 3000 в месяц такая автоматизация позволит сэкономить не менее 300 человекочасов, т. е. полноценно заменить трёх квалифицированных офицеров безопасности, причём, в отличие от них, она будет работать в круглосуточном режиме, без перерывов на обед, праздников и выходных.

Конечно, при смене системы DLP приходится заново переписывать реализацию интеграции между системами, поэтому можно либо совершенствовать универсального программного робота, либо сделать программные API для безболезненного перехода с одной системы на другую.

 

ЗАКЛЮЧЕНИЕ

Описанный выше подход при сравнительно невысокой стоимости обладает целым рядом ценных преимуществ в сравнении с классическими статическими системами. Остаются возможности для развития и улучшения способов интеграции, расширения распознаваемых типов данных, внедрения новых, ещё более точных моделей, с применением самообучения для повышения скорости и гибкости адаптации комплексной системы к меняющимся потокам данных и условиям функционирования. ИИ можно использовать в связке не только с DLP, но и с другими системами, например, для поиска конфиденциальных данных в файловых хранилищах, а также в качестве сервиса, помогающего работникам классифицировать данные.

Конечно, на сегодня не до конца решён ряд важных задач, это и вопросы интеграции, и проблема обучения моделей на неструктурированных данных с произвольным текстом для надёжного выявления в информационном потоке сведений, составляющих коммерческую тайну предприятия, и других. Тем не менее успешный опыт Сбербанка доказывает эффективность и потенциал систем искусственного интеллекта для облегчения труда аналитиков безопасности по разбору инцидентов утечек данных, а также наглядно показывает дальнейшие пути развития систем ИИ на других этапах жизненного цикла управления инцидентами. Предлагаем коллегам делиться своим опытом в изучении этого перспективного направления развития кибербезопасности.

 

Врезка 1: Методика формирования и выбора моделей искусственного интеллекта

Какие модели были обучены

Для построения модели выбран алгоритм NER (Named-entity recognition – алгоритм распознавания именованных сущностей). Данный алгоритм был выбран, так как:

  • Существует версия, адаптированная для распознания данных на русском языке.
  • Алгоритм NER — открытый алгоритм.
  • Алгоритм изначально предназначен для поиска данных в текстах, поэтому может учитывать синтаксические особенности, что позволяет качественнее классифицировать ячейки, в которых больше одного слова.
  • Выбрана версия от iPavlov с репозитория deepmipt (она предназначена для русского языка), так как входящие данные на русском языке.
  • Также апробирован Topic Modeling.

Критерии отбора

  • Качественный критерий: классифицирует каждый фрагмент данных.
  • Верно классифицирует каждый фрагмент данных с точностью выше 80%.
  • Из обученных моделей выбираются модели с наилучшими показателями: а) «относительный коэффициент верной классификации» - количество верно классифицированных представителей типа ко всем представителям данного типа; б) по показателям, показывающим, насколько неверно классифицированы данные (например, классификация имени как фамилии более приоритетна, чем классификация имени как номера банковской карты).

Категории данных

Список категорий создавался как наиболее полный список, покрывающий все виды чувствительных данных, любой новый вид ЧД выражается через виды из списка. Список построен на основе анализа Конституции и федеральных законов РФ и ВНД банка.

Подготовка данных

  • Создание датасетов для каждого вида данных.
  • Очистка датасетов от шума.
  • Расстановка тегов в каждом датасете.
  • Создание тренировочной, валидационной и оценочной выборок.

Приоритет обучения

  • Наиболее часто используемые защищаемые данные.
  • Персональные данные.
  • Данные PCI DSS.

Обучение моделей

  • Обучение моделей на тренировочных выборках.
  • Проверка моделей на отдельно созданных таблицах с различными типами данных.
  • Выбор обучающих датасетов и лучшей модели.

На основе алгоритма NER обучено два типа моделей

  • Первые две модели на CNN и RNN не учитывают синтаксические особенности. Каждый экземпляр данных расценивает как единый неделимый элемент.
  • Вторые две модели на CNN и RNN уже учитывают синтаксические особенности – последовательность слов (последовательностей символов, разделяемых пробелом). Каждый экземпляр данных расценивает как упорядоченный массив.
  • Вспомогательные негибкие алгоритмы: regex – регулярные выражения, digit – контрольные значения.
  • Модели разработаны и обучены на выборке в 100 000 строк, содержащей конфиденциальные данные.
  • После добавления вспомогательных быстрых алгоритмов скорость работы системы повысилась на 33%, но точность распознавания четырёх видов данных снизилась на 1–2%, точность распознавания остальных видов данных не изменилась. Решено использовать ансамбль из трёх моделей с анализом контрольных разрядов и проверками на регулярных выражениях, при количестве распознаваемых типов данных 35 показывает среднюю точность 95%, из них ~40% атрибутов распознаются с точностью >99,9%.
  • Отбор обученных моделей производится по результатам работы на валидационной выборке — синтетически подготовленном наборе данных, содержащем все используемые в модели виды данных и состоящем из 1000 экземпляров каждого вида.

 

Врезка 2. Основные типы распознаваемых данных

  • Основной номер держателя карты (PAN)
  • Номер ИНН
  • Номер ОГРН
  • Номер СНИЛС
  • Номер ОГРН ИП
  • Номер полиса обязательного страхования
  • Число
  • Номер КПП
  • Дата
  • Номер счёта
  • Код LEI
  • IP-адрес
  • Счёт депозита
  • Воинское звание
  • Пол ФЛ
  • Идентификатор ФЛ в социальных сетях
  • Vin-номер машины
  • Форма собственности ЮЛ
  • Номер ДУЛ
  • Номер трудовой книжки
  • Email-адрес
  • Научная степень ФЛ
  • Телефон
  • Паспорт транспортного средства
  • Организационно-правовая форма ЮЛ
  • Регистрационный номер машины
  • Не является ЧД
  • Индивидуальный предприниматель
  • Отчество
  • Орган, выдавший ДУЛ
  • Ф. И. О
  • Адрес
  • Полное и краткое наименование ЮЛ
  • Фамилия
  • Структурное подразделение банка
  • Должность
  • Гражданство
  • Профессия
  • Специальность
  • Имя
  • Номер военного билета
  • IMEI
  • MAC-адрес

Здесь приведены только основные типы данных, на этом список не исчерпывается.

 

[1] Сost of a Data Breach 2019 – Ponemon Institute.

[2] The Times, 20 августа 2020.

[3] Алгоритм вычисления контрольной цифры номера пластиковой карты в соответствии со стандартом ISO/IEC 7812. Предназначен для определения правильности указания номера карты путём расчёта контрольного значения.

[4] ЦБ РФ – Центральный банк Российской Федерации.

[5] GDPR – General Data Protection Regulation (Общий регламент по защите данных) – постановление Европейского союза, с помощью которого Европейский парламент, Совет Европейского союза и Европейская комиссия усиливают и унифицируют защиту персональных данных.

Смотрите также