BIS Journal №4(51)2023

21 октября, 2023

Не все понимают, что такое обезличивание

Основной вопрос развития данной технологии зависит от готовности бизнеса к внедрению инструмента обезличивания и культуры работы с данными в целом.

Отмечу, что обезличивание персональных данных в 80% случаев применяется в тестовых средах. Под ними подразумеваются «песочницы», где тестировщики проверяют функциональность пользовательских приложений в условиях, близких к реальным. Разработчики, в том числе со стороны финансовых организаций, стремятся проводить тестирование обезличенных ML-моделей, и задача тестирования — изучить корректность работы алгоритмов машинного обучения применительно к бизнес-целям приложений.

При работе с искусственными данными, похожими на пользовательские, необходимо обезличить достаточное количество данных для того, чтобы было невозможно установить связь с субъектом. При этом важно понимать, какие задачи будут стоять перед дата-сайентистами, поскольку методика обезличивания подбирается конкретно под задачу. Поскольку единые правила хранения данных с точки зрения атрибутного состава отсутствуют, например, кто-то хранит Ф. И. О. в формате «Иванов Иван Иванович», а кто-то — в формате «Иванов И.И.», очевидно, возникнут сложности в консолидации этих данных, если такая задача будет стоять.

Сегодня речь идёт о комплексном развитии алгоритмов машинного обучения на максимально широком датасете с обеспечением должного уровня безопасности.В таком русле лежит, например, предложение Ассоциации больших данных для Минэкономразвития об установлении экспериментального правового режима «Доверенный посредник в сфере данных». Идея заключается в том, чтобы крупные игроки предоставляли наборы обезличенной информации из различных источников для так называемой песочницы данных АБД — по сути, внешней тестовой среды. В случае согласия ведомства эта информация будет изучаться разработчиками и аналитиками на предмет безопасного использования данных для создания технологий искусственного интеллекта.

 

О ЕДИНОМ ПОДХОДЕ К ОБЕЗЛИЧИВАНИЮ

Что касается технической реализации подходов к обезличиванию данных, то в контексте защиты персональных данных имеет смысл говорить о шифровании информации. Простейший пример кодирования — «звёздочки» под цифрами банковских карт в банковских онлайн-приложениях. Тот же принцип можно представить и применительно к базам данных с датами рождения, Ф. И. О. и другими сведениями. Минус такого подхода заключается в том, что замена цифр на звёздочки или иные символы приводит к невозможности создания корректной выборки для анализа — может возникнуть погрешность или потеряются внутренние взаимосвязи, а самое главное, разрушится бизнес-смысл артефакта.

Мы в своём решении обезличивания данных сохраняем формат и бизнес-смысл значений, что позволяет, в частности, сохранять интеграционные связи. Существует два подхода обезличивания данных: за счёт SQL-скриптов или использования ETL — процесса переноса данных из нескольких систем в одно хранилище.

SQL-скрипты хорошо работают с относительно небольшими базами данных, например, до 50 таблиц, и с одним типом СУБД. Когда количество баз данных и таблиц, а также их типов увеличивается до сотен, то поддерживать SQL-скрипты становится проблематично: запросы усложняются, что влечёт дополнительную нагрузку на базу данных.

Когда мы говорим об ETL-процессе, у пользователя появляется возможность сохранять шаблоны и пресеты и переиспользовать их. Система, в свою очередь, содержит готовые алгоритмы маскирования и преднастроенные шаблоны для поиска чувствительных данных, что существенно упрощает процесс. Так, в решении «Сфера.Обезличивание» используется ETL-процесс, который подходит для больших БД с различными типами СУБД — PostgreSQL, Oracle, MSSQL.

При этом данные кодируются криптостойкими алгоритмами FPE-шифрования с сохранением формата, что повышает их защищённость. «Иван» в базе станет условным «Лова», Алексей — «Путусбе», что для внешнего наблюдателя будет выглядеть как просто набор букв.

 

ОБЕЗЛИЧИВАНИЕ КАК ПРОЦЕСС

Обезличивание — это не только технология, но и процесс, начинающийся с формирования выборки данных под производственную задачу. Здесь важно, что под чувствительной информацией, необходимой для анализа, можно подразумевать не только персональные данные, но и, например, расписание движения инкассаторских машин или смены постовых на производственных объектах. Поскольку всё упирается в исследовательскую задачу и характер исходных данных в базах компаний, сложно говорить о едином кросс-индустриальном подходе. При этом технологические методы шифрования останутся неизменными вне зависимости от отрасли, как и общие подходы к организации безопасной среды работы с данными.

Поскольку в процессе обезличивания необходимо взаимодействовать с реальными данными или их копиями, важно уменьшить количество людей с доступом к ним. Ведь известно, что защищённость снижается в геометрической прогрессии по мере увеличения числа сотрудников с доступом. Также не стоит отрицать вероятность инсайдерских утечек: после обезличивания аналитики и тестировщики будут работать с информацией, не вызывающей ни у кого интереса. Вообще, утечка обезличенных данных — это специфическая форма утечки, в которой ценность похищенной информации для злоумышленника стремится к нулю. Это связано с тем, что данные по типу даты рождения, ИНН, СНИЛС будут замаскированы с сохранением бизнес-логики, но с потерей первоначального смысла.

Если говорить о конкретном инструменте «Сфера.Обезличивание», то данное решение внедряется по модели on-premise и не требует доступа в интернет, что позволяет реализовать различные дополнительные политики безопасности к ПО, принятые в компании.

В целом есть несколько препятствий развития технологии обезличивания. Первый — низкая культура работы с данными. Без острой необходимости компании не должны с ними взаимодействовать. К тому же стоимость штрафов за утечку данных ниже, чем внедрение инструментов по обезличиванию, и повышение суммы штрафа может стимулировать интерес к технологии.

Но самое главное — сегодня не так много компаний понимают, что такое обезличивание, почему оно необходимо и как именно работает. Далеко не все готовы менять свои бизнес-процессы и корректировать архитектуру базы данных для удобной работы с технологией. Иными словами, основной вопрос развития данной технологии зависит от готовности бизнеса к внедрению инструмента обезличивания и культуры работы с данными в целом.

 

Хотите поговорить об утечках информации? Приглашаем вас на конференцию «Защита данных: сохранить всё», которая пройдет 23 октября в Москве. Это первая в России конференция с фокусом на защите данных на всём их жизненном цикле: хранение, контроль доступа, обнаружение, инвентаризация, структурирование, передача. Организаторы — ГК «Гарда», Медиа Группа «Авангард» при поддержке ФСТЭК России.

Стать автором BIS Journal

Смотрите также

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

01.03.2024
Банки будут строже следить за криптотранзакциями, связанными с дропперами
01.03.2024
Холода прошли, но голос берегите — скамеры усиленно собирают слепки
01.03.2024
Лишение банковской лицензии — это ещё не всё
01.03.2024
«Они подобны смартфонам на колёсах». В США проверят «умные» авто из Китая
01.03.2024
Набиуллина: Дважды «красные» клиенты будут исключаться из реестра
01.03.2024
Банк России усовершенствует платформу цифрового рубля
01.03.2024
Организации здравоохранения США стали жертвами массовых кибератак
29.02.2024
«ИнфоТеКС» — о проблемах стандартизации ИБ
29.02.2024
Почему нормативные акты выполняются формально
29.02.2024
Почему затянулся переход на российские решения

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных