Начну с законодательного аспекта. C точки зрения государства, обезличивание должно соответствовать Методическим рекомендациям по применению приказа Роскомнадзора от 5 сентября 2013 года № 996 «Об утверждении требований и методов по обезличиванию персональных данных».
В этом документе приведены официальные способы обезличивания (маскирования) данных. Всего их четыре: декомпозиция, перемешивание данных, введение идентификаторов и изменение семантики.
У каждого из этих методов есть свои плюсы и минусы, но главная проблема заключается в том, что они далеко не в полной мере отвечают запросам бизнеса. Дело в том, что все эти методы обеспечивают безопасность персональных данных внутри контура организации. А у бизнеса, помимо этого, есть и другой интерес — он хочет знать о своих клиентах как можно больше. Особенно это актуально для крупных компаний, которые работают в высококонкурентной среде.
Практические подходы к обезличиванию данных при передаче в другие организации
Решить эту задачу можно, например, с помощью обмена обезличенными клиентскими данными между компаниями, которые входят в одну группу. Например, при обмене данными между банком и телеком-оператором можно найти общих клиентов и предложить им кобрендинговые продукты. Или проанализировать, какое количество клиентов банка уже пользуется услугами телеком-оператора, и решить, стоит ли запускать для них особую программу лояльности.
На рынке уже есть примеры пересечения клиентских баз компаний с помощью технологий обезличивания данных. Например, в прошлом году совместно с Platforma, разработчиком решений для бизнеса на основе больших данных, мы впервые протестировали процесс безопасного мэтчинга данных двух крупных игроков.
Как это происходило? Каждый из участников проекта с помощью модуля специального ПО обезличивал имеющиеся у него клиентские данные, а затем передавал их в федеративный хаб (рис. 1). Третья сторона — в данном проекте это Platforma — предоставила так называемую чистую комнату, где происходило пересечение данных и формирование межотраслевого суперпрофиля клиента. Так мы понимали, что клиент компании 1 с идентификатором 01 и клиент компании 2 с идентификатором 02 — это один и тот же человек. Таким образом, в этом проекте предусмотрен обмен только обезличенными данными — для статистических и аналитических целей.
Рисунок 1. Каждый из участников проекта с помощью модуля специального ПО обезличивал имеющиеся у него клиентские данные, а затем передавал их в федеративный хаб
Для обезличивания данных в этом проекте использовался математический аппарат хеширования — алгоритм, в соответствии с которым производится замена слова или какого-то подмножества на строку из определённых символов. Алгоритм является необратимым, так как к хешированной строке добавляется соль — определённое число случайных символов.
Несмотря на то что хеширование пока не включено в официальный перечень способов обезличивания, интерес к нему неуклонно растёт. И регулятор, и игроки рынка активно ищут пути обеспечить бизнесу безопасный обмен данными. В этом направлении работает, например, Ассоциация больших данных, которая создала специальную песочницу для проведения экспериментов по пересечению данных от разных поставщиков.
Кроме того, примерно год назад Минцифры заявило о запуске системы Госдата.хаб. Этот проект призван объединить потоки обезличенных данных госорганов. Предполагается, что впоследствии государство будет мотивировать бизнес также предоставлять в Госдата.хаб обезличенные данные и потенциально получать за их передачу вознаграждение. Правда, встают вопросы о том, кто будет обезличивать эти данные и гарантировать, что датасеты не выдуманы, а также обеспечивать безопасность реальных данных.
Ещё одна инициатива по обмену данными исходит от Банка России. Этот регулятор уже представил концепцию открытых данных на базе открытых API. Однако пока в ней речь идёт не о персональных данных как таковых, а об информации, связанной с оказанием финансовых услуг и направленной на повышении их доступности. Если коротко, то цель создания открытого API — упростить гражданам взаимодействие с банками, создать единое окно для оказания всем банковских услуг (модель Open Finance). В будущем логичным продолжением этой инициативы может стать и обмен обезличенными данными граждан (развитие до модели Open Data).
Обезличивание данных для внутренней обработки
Если обмен обезличенными данными с другими организациями — это вопрос будущего для многих компаний, то их использование во внутренних процессах — дело сегодняшнего дня. И в этой сфере уже есть зрелые решения и примеры успешного использования.
Данные являются сердцем почти любой автоматизированной системы, которая стоит в контуре организации, работающей с физическими и юридическими лицами. Чтобы протестировать систему, работающую с данными клиентов, необходимо наполнить её информацией так, чтобы, с одной стороны, процесс тестирования был выполнен корректно, а с другой стороны, тестовые среды не пришлось защищать также серьёзно, как и те, где фигурируют реальные данные граждан.
Это известная проблема. Исторически она решалась, например, путём обрезки данных (использование лишь части из всего массива) или генерацией синтетических данных. Но в первом случае риск утечек всё равно остаётся, а во втором возникают вопросы к качеству данных. Иногда использовался тот самый алгоритм перемешивания из приказа Роскомнадзора. Но его сложно назвать панацеей, так как этот метод лишает данные смысла: например, паспорта становятся недействительными, а регионы проживания не соответствуют номерам телефонов клиентов.
Бизнес заинтересован в решениях, которые обеспечивают умное обезличивание и сохраняют смысл данных, например, заменяют имена, исходя из их популярности и пола, сохраняют валидность паспортов и родственные связи между людьми. В перспективе умное маскирование данных позволит безопасно настраивать модели машинного обучения.
Сегодня на рынке представлены решения по обезличиванию данных такого рода, например «Маскировщик» (HFLabs), «Сфера» (T1), «Гарда Маскирование» («Гарда Технологии»). Так, «Маскировщик» впервые был опробован в банке «Открытие», где требовалось замаскировать данные клиентов из определённого сегмента: 1 млн записей был обработан за три минуты. База клиентов в результате обезличивания сохранила консистентность и семантические особенности.
Достичь этого мы смогли за счёт использования большого набора справочников — они помогают сохранить семантику, качество и полноту данных. Например, «Маскировщик» оперирует справочниками фамилий, имён и отчеств с указанием пола и популярности, справочником операторов по Россвязи, телефонными кодами стран и т. д. Также наше решение различает типы данных и понимает их структуру — ИНН, СНИЛС, номера паспортов, телефонов, имейлы и др. «Маскировщик» разбирается, какие данные и в каком порядке идут в строке. Он понимает, какие цифры в номере и серии паспорта или в номере телефона можно менять на случайные, а какие — подбирать по справочникам. Он способен рассчитать новую дату рождения с учётом сроков замены паспорта — чтобы подменённый документ остался действительным.
Ещё пример: структура ИНН и СНИЛС включает контрольные числа. Эти данные зависят от предыдущих цифр в строке, их вычисляют по специальному алгоритму. Чтобы после замены предыдущих цифр ИНН и СНИЛС сохранили валидность, «Маскировщик» пересчитывает контрольное число (рис. 2).
Рисунок 2. Чтобы после замены предыдущих цифр ИНН и СНИЛС сохранили валидность, «Маскировщик» пересчитывает контрольное число
Хотите поговорить об утечках информации? Приглашаем вас на конференцию «Защита данных: сохранить всё», которая пройдет 23 октября в Москве. Это первая в России конференция с фокусом на защите данных на всём их жизненном цикле: хранение, контроль доступа, обнаружение, инвентаризация, структурирование, передача. Организаторы — ГК «Гарда», Медиа Группа «Авангард» при поддержке ФСТЭК России.
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных
Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных