BIS Journal №4(51)2023

21 октября, 2023

Не все понимают, что такое обезличивание

Основной вопрос развития данной технологии зависит от готовности бизнеса к внедрению инструмента обезличивания и культуры работы с данными в целом.

Отмечу, что обезличивание персональных данных в 80% случаев применяется в тестовых средах. Под ними подразумеваются «песочницы», где тестировщики проверяют функциональность пользовательских приложений в условиях, близких к реальным. Разработчики, в том числе со стороны финансовых организаций, стремятся проводить тестирование обезличенных ML-моделей, и задача тестирования — изучить корректность работы алгоритмов машинного обучения применительно к бизнес-целям приложений.

При работе с искусственными данными, похожими на пользовательские, необходимо обезличить достаточное количество данных для того, чтобы было невозможно установить связь с субъектом. При этом важно понимать, какие задачи будут стоять перед дата-сайентистами, поскольку методика обезличивания подбирается конкретно под задачу. Поскольку единые правила хранения данных с точки зрения атрибутного состава отсутствуют, например, кто-то хранит Ф. И. О. в формате «Иванов Иван Иванович», а кто-то — в формате «Иванов И.И.», очевидно, возникнут сложности в консолидации этих данных, если такая задача будет стоять.

Сегодня речь идёт о комплексном развитии алгоритмов машинного обучения на максимально широком датасете с обеспечением должного уровня безопасности.В таком русле лежит, например, предложение Ассоциации больших данных для Минэкономразвития об установлении экспериментального правового режима «Доверенный посредник в сфере данных». Идея заключается в том, чтобы крупные игроки предоставляли наборы обезличенной информации из различных источников для так называемой песочницы данных АБД — по сути, внешней тестовой среды. В случае согласия ведомства эта информация будет изучаться разработчиками и аналитиками на предмет безопасного использования данных для создания технологий искусственного интеллекта.

 

О ЕДИНОМ ПОДХОДЕ К ОБЕЗЛИЧИВАНИЮ

Что касается технической реализации подходов к обезличиванию данных, то в контексте защиты персональных данных имеет смысл говорить о шифровании информации. Простейший пример кодирования — «звёздочки» под цифрами банковских карт в банковских онлайн-приложениях. Тот же принцип можно представить и применительно к базам данных с датами рождения, Ф. И. О. и другими сведениями. Минус такого подхода заключается в том, что замена цифр на звёздочки или иные символы приводит к невозможности создания корректной выборки для анализа — может возникнуть погрешность или потеряются внутренние взаимосвязи, а самое главное, разрушится бизнес-смысл артефакта.

Мы в своём решении обезличивания данных сохраняем формат и бизнес-смысл значений, что позволяет, в частности, сохранять интеграционные связи. Существует два подхода обезличивания данных: за счёт SQL-скриптов или использования ETL — процесса переноса данных из нескольких систем в одно хранилище.

SQL-скрипты хорошо работают с относительно небольшими базами данных, например, до 50 таблиц, и с одним типом СУБД. Когда количество баз данных и таблиц, а также их типов увеличивается до сотен, то поддерживать SQL-скрипты становится проблематично: запросы усложняются, что влечёт дополнительную нагрузку на базу данных.

Когда мы говорим об ETL-процессе, у пользователя появляется возможность сохранять шаблоны и пресеты и переиспользовать их. Система, в свою очередь, содержит готовые алгоритмы маскирования и преднастроенные шаблоны для поиска чувствительных данных, что существенно упрощает процесс. Так, в решении «Сфера.Обезличивание» используется ETL-процесс, который подходит для больших БД с различными типами СУБД — PostgreSQL, Oracle, MSSQL.

При этом данные кодируются криптостойкими алгоритмами FPE-шифрования с сохранением формата, что повышает их защищённость. «Иван» в базе станет условным «Лова», Алексей — «Путусбе», что для внешнего наблюдателя будет выглядеть как просто набор букв.

 

ОБЕЗЛИЧИВАНИЕ КАК ПРОЦЕСС

Обезличивание — это не только технология, но и процесс, начинающийся с формирования выборки данных под производственную задачу. Здесь важно, что под чувствительной информацией, необходимой для анализа, можно подразумевать не только персональные данные, но и, например, расписание движения инкассаторских машин или смены постовых на производственных объектах. Поскольку всё упирается в исследовательскую задачу и характер исходных данных в базах компаний, сложно говорить о едином кросс-индустриальном подходе. При этом технологические методы шифрования останутся неизменными вне зависимости от отрасли, как и общие подходы к организации безопасной среды работы с данными.

Поскольку в процессе обезличивания необходимо взаимодействовать с реальными данными или их копиями, важно уменьшить количество людей с доступом к ним. Ведь известно, что защищённость снижается в геометрической прогрессии по мере увеличения числа сотрудников с доступом. Также не стоит отрицать вероятность инсайдерских утечек: после обезличивания аналитики и тестировщики будут работать с информацией, не вызывающей ни у кого интереса. Вообще, утечка обезличенных данных — это специфическая форма утечки, в которой ценность похищенной информации для злоумышленника стремится к нулю. Это связано с тем, что данные по типу даты рождения, ИНН, СНИЛС будут замаскированы с сохранением бизнес-логики, но с потерей первоначального смысла.

Если говорить о конкретном инструменте «Сфера.Обезличивание», то данное решение внедряется по модели on-premise и не требует доступа в интернет, что позволяет реализовать различные дополнительные политики безопасности к ПО, принятые в компании.

В целом есть несколько препятствий развития технологии обезличивания. Первый — низкая культура работы с данными. Без острой необходимости компании не должны с ними взаимодействовать. К тому же стоимость штрафов за утечку данных ниже, чем внедрение инструментов по обезличиванию, и повышение суммы штрафа может стимулировать интерес к технологии.

Но самое главное — сегодня не так много компаний понимают, что такое обезличивание, почему оно необходимо и как именно работает. Далеко не все готовы менять свои бизнес-процессы и корректировать архитектуру базы данных для удобной работы с технологией. Иными словами, основной вопрос развития данной технологии зависит от готовности бизнеса к внедрению инструмента обезличивания и культуры работы с данными в целом.

 

Хотите поговорить об утечках информации? Приглашаем вас на конференцию «Защита данных: сохранить всё», которая пройдет 23 октября в Москве. Это первая в России конференция с фокусом на защите данных на всём их жизненном цикле: хранение, контроль доступа, обнаружение, инвентаризация, структурирование, передача. Организаторы — ГК «Гарда», Медиа Группа «Авангард» при поддержке ФСТЭК России.

Стать автором BIS Journal

Смотрите также

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

19.06.2024
Технологический суверенитет: инновации, импортозамещение, кадры
19.06.2024
Мнение: Контроль чужих данных до их безопасной передачи подрывает саму суть шифрования
19.06.2024
Мошенники могут получать ПДн россиян из слитых медицинских баз
18.06.2024
ИИ в «Авроре»? Либо внутри устройства, либо в отечественном «облаке»
18.06.2024
ФНС автоматизирует присвоение налогового резидентства
18.06.2024
Сразу два приложения «Сбера» появилось в App Store. Выбирай мудро
18.06.2024
«При отсутствии просрочек по кредиту человек может ещё и потерять
17.06.2024
Скамерские новинки: «таможенный сбор» и «расследование мошенничества»
17.06.2024
Минэк — о порядке раскрытия данных госведомств для обучения нейросетей
17.06.2024
Релокация не спасает. Slack блокирует даже тех, кто «связан с Россией»

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных