Перед прочтением… обезличить. Как данные теряют лицо и как управлять этим процессом

BIS Journal №4(51)2023

13 октября, 2023

Перед прочтением… обезличить. Как данные теряют лицо и как управлять этим процессом

Почему нынешнее состояние дел в области защиты персональных данных, несмотря на неуклонный рост угроз, напоминает разноголосый бесконечный хоровод и как данная отрасль пытается выйти на путь поступательного системного развития?

 

ТЕКУЩАЯ СИТУАЦИЯ

«Тёмная сторона» цифровизации не собирается сдаваться, несмотря на активные усилия структур информационной безопасности по противодействию киберкриминалу. Злоумышленники продолжают совершенствовать методы социальной инженерии, Darknet пополняется новыми порциями похищенных персональных данных (ПД). Согласно данным аналитического отчёта «Значимые утечки данных в 2022 году», подготовленного «Лабораторией Касперского», в прошлом году в результате 168 значимых утечек было опубликовано более 2 млрд записей с пользовательскими данными. Причём в подавляющем большинстве это довольно свежие утечки: 74% данных были выгружены в 2022 г. и 16% — в 2021 г.

Лидером стал ретейл — он взял «золото» и «серебро» сразу в двух номинациях: количество фактов утечек и количество скомпрометированных пользовательских данных (рис. 1, 2).

Рисунок 1. Значимые утечки данных в разных отраслях экономики РФ в 2022 г.

 

Рисунок 2. Количество данных, утёкших из компаний разных отраслей экономики РФ в 2022 г. Источник: «Значимые утечки данных в 2022 году», аналитический отчёт «Лаборатории Касперского»

 

Интересно, что лидером по объёмам похищенных данных стал сегмент доставки, который по параметру количества утечек не вошёл в первую пятёрку отраслей. Ещё интереснее ситуация с сегментом здравоохранения: четвёртое место по объёмам данных при единственной зафиксированной утечке. В «Лаборатории Касперского» объясняют: 64% пользовательских данных были скомпрометированы в результате атак на крупный бизнес. В этой связи радуют гармоничные показатели финансовой сферы — она удерживает позиции в конце списка значимых утечек в обеих номинациях.

По данным компании DLBI, владеющей сервисом разведки утечек данных и мониторинга Darknet, в первом квартале нынешнего года произошла 31 крупная утечка, в результате которой в открытый доступ попало 118 млн уникальных записей, что в 2,3 раза превышает уровень аналогичного периода прошлого года. Вновь в «лидерах» — те же отрасли: двойная утечка данных бонусной программы «СберСпасибо» — 52,5 млн записей, розничная сеть «Спортмастер» — 46 млн записей, база интернет-аптеки zdravcity.ru — 8,9 млн записей. А за первую половину нынешнего года злоумышленники выложили в Darknet 188,7 млн записей. Как поясняют специалисты, это коснулось таких компаний, как «Гемотест», «Почта России», OZON, DNS.

Эти данные согласуются со сведениями Роскомнадзора — согласно официальной статистике ведомства, за полгода в Сеть попало около 177 млн записей о гражданах (76 инцидентов).

При этом растущая популярность новых ИТ-решений на базе искусственного интеллекта (ИИ) обусловливает появление новых рисков утечек персональных данных. Например, для обучения нейросетей компании стремятся собирать как можно более объёмные и детализированные датасеты, сгребая подчас всю подходящую информацию, которую можно обнаружить в открытом доступе в интернете. А на этапе дообучения нейросети нередко используют реальные обращения граждан, которые фиксируют чат-боты. Так в ML-модели могут подмешиваться данные, способные существенно обогатить знания о конкретных персонах.

И неугомонные кибермошенники уже осваивают новое поле — исследуют уязвимости нейросетей на предмет поиска «чёрного хода» (backdoor) в нейронные сети, чтобы извлечь, например, из них конфиденциальную информацию. Понятно, что назрела необходимость регулировать сбор данных для обучения моделей ИИ.

 

ВРЕМЯ КОМПРОМИССОВ ИЛИ СОТРУДНИЧЕСТВА?

Федеральным законом «О персональных данных» № 152-ФЗ от 27.07.2006 предусмотрен единственный способ снизить риск идентификации отдельных лиц с помощью цифровых данных информационных систем — обезличивание персональных данных. Под обезличиванием подразумеваются действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту.

Однако нынешнее состояние сферы обезличивания персональных данных демонстрирует некоторую растерянность государства и общества, обусловленную неизвестной ранее спецификой взаимоотношений общества и ИТ в части технологий обезличивания ПД.

Действительно, на уровне взаимоотношений ИТ и ИБ всё традиционно — речь идёт о достижении компромисса между аспектом больших данных (нужны большие модели) и аспектом безопасности данных (борьба с утечками и неправомерным использованием ПД граждан).

Сфера больших данных сегодня на подъёме: реализуется стратегия развития в РФ рынка больших данных, которая была разработана Ассоциацией больших данных и принята к реализации в 2019 г. Она предполагает два сценария развития — базовый и агрессивный, которые, как ожидается, обеспечат вклад технологий больших данных в ВВП России на уровне 1,2% ВВП и 1,8% ВВП соответственно к 2024 г. (рис. 3).

Рисунок 3. Рост вклада больших данных в ВВП России. Базовый сценарий. Источник: «Стратегии развития в РФ рынка больших данных», Ассоциация больших данных, 2019 г.

 

При этом умеренный эффект должны обеспечить три подхода:

  • упрощённый доступ и обработка данных;
  • R&D-песочницы для исследования больших данных;
  • стратегии больших данных традиционных индустрий.

А целям агрессивного развития сектора Big Data соответствуют ещё три подхода:

  • обеспечение возможности обмена/обогащения данных;
  • финансирование инноваций и ресурсная экосистема;
  • внутренние стимулы для инновационных отраслей.

Они более агрессивны и по эффекту от использования больших данных, и по сложности имплементации, говорят в Ассоциации больших данных (АБД). Предполагается, в частности, широкий обмен/обогащение данных. Например, рыночные игроки делятся друг с другом анонимными/обезличенными персональными данными на коммерческой основе, поощряется обмен отраслевыми данными внутри и между отраслями через саморегулируемые стандарты (например, обмен эксплуатационными данными доменных печей). При этом государство делится определёнными типами релевантных данных с частным сектором (например, аудио или видео с камер наблюдения), а инновационные команды получают выделенный доступ к «озёрам данных» с труднодоступной отраслевой информацией, например эксплуатационным данным сетей электроснабжения.

По оценкам Анны Серебряниковой, президента АБД, которые она представила на конференции First Russian Data Forum в апреле этого года, рынок больших данных в России может вырасти к 2024 г. до 319 млрд руб. (170 млрд руб. в 2021 г.), а дополнительный эффект от использования больших данных для отраслей экономики составит при этом 1,6 трлн руб. операционной прибыли.

Однако техническое налаживание обмена данными между бизнесом и государством с достижением компромисса между сферами информационных технологий и информационной безопасности — это только один аспект происходящего. Он отражает традиционный подход к внедрению ИТ-решений: они рождаются в сфере ИТ, а затем приходят в общество в виде готовых услуг и сервисов. Общественные процессы сводятся при этом к принятию или неприятию новых технологических предложений, а технологии регулирования выступают позади технических инноваций, обставляя запуск технического решения в эксплуатацию некоторыми ограничительными условиями.

В ситуации с обезличиванием ПД регулирование проникает на уровень непосредственно управления данными (можно сказать, на уровень Data Governance) и фактически становится участником технологических решений. Надо сказать, что эту особенность момента понимают в Роскомнадзоре. Вот как об этом сказал Милош Вагнер, заместитель руководителя Роскомнадзора, на конференции First Russian Data Forum: «Цифровая экономика рассматривает вопросы базы данных с точки зрения их максимально эффективного использования, но мы в Роскомнадзоре рассматриваем их и как актив человека. Большие данные, прежде всего, связаны с правами человека: правом на конфиденциальность личных данных, правом на неприкосновенность частной жизни».

Эта особенность нынешнего момента заставляет по-новому взглянуть на расклад сил, традиционно действующих на поле цифровых преобразований: технические решения, регулирование, отраслевые практики информатизации. В этом смысле абсолютно прав Борис Глазков, вице-президент по стратегическим инициативам «Ростелекома», описавший современный мир как поле регуляторных экспериментов в сфере управления данными и алгоритмами. Причём это поле охватывает территорию всей планеты — везде, включая технологически развитые страны Запада и Востока, эти эксперименты ещё далеки от завершения. Как это выглядит в нашей стране?

 

РЕГУЛИРОВАНИЕ: ДУХ ЗАКОНА И БУКВА ПРИКАЗА

С методической точки зрения, живо развиваются направления, связанные с технологическими аспектами обработки БД и использованием методов ИИ. Так, Росстандарт предоставил доступ к стандартам в сфере ИИ, подготовленных ударными темпами Техническим комитетом по стандартизации, — № 164 «Искусственный интеллект» (всего 61 стандарт). Этот набор включает, в частности, ряд стандартов для анализа больших данных в области клинической медицины и телемедицины, автомобильного транспорта, навигации воздушных судов, дистанционного зондирования Земли, речевых технологий, ситуационной видеоаналитики.

Также Росстандарт утвердил ГОСТ для ИИ-систем в сельском хозяйстве, а Минсельхоз РФ уже взялся за разработку стандартов по обмену данными среди участников рынка. Минцифры создаёт стандарт персональных данных для систем и сервисов, использующих средства ИИ, включая унификацию методов обезличивания персональных данных. Александр Шойтов, замминистра цифрового развития, связи и массовых коммуникаций РФ, поясняет, что речь идёт о разработке методов унификации для искусственного интеллекта — это необходимо в первую очередь для субъектов КИИ.

Есть Кодекс этики данных, разработанный под эгидой Ассоциации больших данных, базирующийся на принципах саморегулирования в сфере обработки и использования данных, Белая книга «Свод лучших практик в сфере добросовестного использования данных» и реестр добросовестных участников рынка данных. К настоящему моменту в нём, правда, зарегистрировалось всего 24 участника.

Что же касается самой методологии обезличивания персональных данных, то она вообще-то началась давно. Поправки в закон о персональных данных, регулирующие оборот обезличенной информации, были внесены на рассмотрение Госдумы правительством ещё 21 июля 2020 г. Но до сих пор они находятся на стадии второго чтения. Уже и Президент России дважды обращал внимание на пробуксовку законопроекта, а в начале этого сентября поручил правительству и Госдуме принять законопроект до конца года.

Основным документом, регулирующим использование методов обезличивания ПД в нашей стране, является приказ Роскомнадзора № 996 «Об утверждении требований и методов по обезличиванию персональных данных», утверждённый 10 лет назад — 5 сентября 2013 г. В нём определены четыре основных метода обезличивания: введение идентификаторов, изменение состава или семантики, декомпозиция и перемешивание (рис. 4, 5).

Рисунок 4. Методы обезличивания персональных данных, рекомендованные Роскомнадзором. Источник: Алгоритмы реализации методов обезличивания персональных данных в распределённых информационных системах. Е. Ю. Мищенко, А. Н. Соколов. Доклады ТУСУР, 2019, том 22, № 1, с. 66–70.

 

Роскомнадзор также описал основные свойства обезличенных данных:

  • Полнота — сохранение всей информации о персональных данных конкретных субъектов или группах субъектов, которая имелась до обезличивания.
  • Структурированность — сохранение структурных связей между обезличенными данными конкретного субъекта или группы субъектов, соответствующих связям, имеющимся до обезличивания.
  • Релевантность — возможность обработки запросов по обработке персональных данных и получения ответов в одинаковой семантической форме.
  • Семантическая целостность — соответствие семантики атрибутов обезличенных данных семантике соответствующих атрибутов персональных данных при их обезличивании.
  • Применимость — возможность обработки персональных данных с целью решения задач, стоящих перед Оператором, без предварительного деобезличивания всего объёма записей о субъектах.
  • Анонимность — невозможность однозначной идентификации субъектов данных, полученных в результате обезличивания, без применения дополнительной информации.

Рисунок 5. Обезличивание персональных данных методом перемешивания. Источник: Белая книга «Свод лучших практик в сфере добросовестного использования данных», Ассоциация Больших данных, 2023 г.

 

На фоне растущих угроз утечек персональных данных после начала СВО в августе Роскомнадзор рекомендовал операторам, осуществляющим обработку ПД, ряд подходов, снижающих риск компрометации ПД. В частности, ведомство советует минимизировать перечень персональных данных, которые организация собирает и обрабатывает, а также данные из различных категорий ПД хранить раздельно. Рекомендуется также хранить идентификаторы, указывающие на человека (Ф. И. О., email, телефон, адрес) и данные о взаимодействии с ним (оказанные услуги, проданные товары, переписка, договора и т. д.) в разных, непосредственно не связанных друг с другом базах данных. Для связи этих баз можно использовать синтетические идентификаторы, которые не позволяют отнести информацию в этих базах к конкретному субъекту ПД без дополнительной информации и алгоритмов, и хранить эти специально созданные идентификаторы отдельно от предыдущих двух баз.

На этом фоне более впечатляюще выглядит деятельность Минцифры: ведомство ставит задачи уровня не просто больших, а очень-очень больших данных.

 

КУРС НА ЦЕНТРАЛИЗАЦИЮ И ГОСКОНТРОЛЬ

Один из штрихов этой картины — перенос биометрических персональных данных в Единую биометрическую систему. Компании, получившие аккредитацию на работу с ПД, будут передавать биометрические данные клиентов в ЕБС для хранения, а оттуда получать цифровую модель данных, которую будут использовать для оказания услуг в организации.

Ещё более масштабная новация связана с практической реализацией национальной системы управления данными (НСУД), которая создаётся с целью повышения эффективности создания, сбора и использования государственных данных как для предоставления государственных и муниципальных услуг, так и в целях доступа физических и юридических лиц к информации, в том числе с использованием средств автоматизации (рис. 6).

Рисунок 6. Экосистема Национальная система управления данными (НСУД). Источник: TAdviser

 

Таким образом, государство становится крупнейшим производителем данных (обсуждается появление новой категории данных — национальные, хранящиеся в госсистемах), которыми сможет воспользоваться и бизнес. О соответствующих намерениях государства стало известно прошлой осенью. Регламент обмена данными между государством и бизнесом пока окончательно не сформирован, но известна общая архитектура — потребителю будет предоставляться витрина так называемых санитизированных данных без технической возможности доступа к внутреннему контуру НСУД.

Понятие санитизированных данных вводится для того, чтобы из общего объёма данных, хранящихся в НСУД (на этой платформе планируется объединить данные из сотен госсистем, реестров и баз), выделить те, которые не содержат информации, относящейся к разряду банковской, налоговой тайны, тайны связи и т. д. После процедуры санитизации ими смогут пользоваться и госорганы, и бизнес (на коммерческой основе), в том числе для последующей их обработки системами искусственного интеллекта. Бизнес, в свою очередь, сможет передавать в НСУД обезличенные датасеты своих данных, которыми, в свою очередь, смогут воспользоваться другие коммерческие компании. Очевидно, что такая идея, подрывающая бизнес на данных, вызвала неприятие у крупных владельцев персональных данных клиентов (операторов сотовой связи, интернет-компаний и т. д.).

Специально для задач обезличивания данных в рамках инфраструктуры НСУД будет создан центр обезличивания. По оценкам Александра Шойтова, первый вариант этого центра должен появиться к концу текущего года, а полноценная структура будет создана в 2024 г. Нормы регулирования, соответствующие данной конфигурации механизма работы с обезличенными ПД, также находятся в состоянии разработки. Планируется, что поправки в 152-ФЗ вступят в силу 1 сентября 2024 г.

Ассоциация больших данных, представляющая интересы крупных коммерческих владельцев больших данных, намерена встроиться в происходящие процессы: она предложила Минэкономразвитию РФ установить экспериментальный правовой режим «Доверенный посредник в сфере данных». Цель — дать возможность ИТ-разработчикам и аналитикам данных протестировать механизмы безопасного использования обезличенных данных для создания своих интеллектуальных систем.

Между тем жизнь корпоративного сектора в условиях противостояния растущим угрозам продолжается. И сегодня область ИТ-решений обезличивания персональных данных — горячий рынок: в ответ на острую потребность компаний в надёжной и удобной защите персональных данных, которая к тому же отвечает требованиям российских регуляторов, исследователи и разработчики предлагают разнообразные подходы, технологии и готовые продукты обезличивания ПД.

 

ВПЕРЁД ПО ДОРОГЕ, ВЫМОЩЕННОЙ ОД

Разнообразие ситуаций, возникающих в реальных информационных системах заказчиков, настолько велико, что на практике успешно применяется целый спектр различных вариантов преобразования персональных данных, приводящих к тому, чтобы после обработки эти данные не могли быть привязаны к конкретному человеку. Среди них:

  • Анонимизация. Идентифицирующие признаки данных заменяются на другие значения. При этом данные лишаются всех специфических идентифицирующих характеристик, таких как имена, адреса, идентификаторы, номера телефонов и др. Пример — замена имён на псевдонимы. Например, вместо конкретного имени может быть использовано заменяющее значение «Пользователь 1». Особенность этой процедуры заключается в полном исключении возможности идентификации конкретных лиц, включая невозможность обратной идентификации с помощью доступной дополнительной информации и технических средств. Иными словами, анонимизация — это предельный случай обезличивания, после которого данные становятся буквально анонимными, то есть не персональными.
  • Псевдонимизация. Каждому пользователю присваивается уникальный идентификатор, который используется для обработки данных. Идентификаторы должны быть независимыми от каких-либо персональных данных и максимально защищены от раскрытия. Используя этот идентификатор, данные можно связать с конкретным пользователем, если имеется соответствующая ключевая информация. То есть псевдонимизация повышает защиту данных, но они остаются персональными. Этот метод используется в работе с текстовыми данными, например, Ф. И. О.: программа меняет фамилию, имя и отчество, которые соответствуют другому идентификатору в системе.
  • Агрегирование. Метод объединения данных из различных источников с целью исключения возможности идентификации конкретных лиц. При этом персональные данные группируются по определённым критериям, например по региону или возрастной группе. В результате нельзя однозначно сказать, какие именно данные относятся к каким лицам. Так исключается возможность однозначной идентификации конкретных лиц.
  • Обфускация. Замена реальных данных на их искажённые или усечённые версии: трансформация, перемешивание, дисперсия числовых значений, модификация/сброс данных и т. д. Например, можно заменить точные значения возраста диапазонами или сократить полный почтовый адрес до города или региона. Данный метод усложняет расшифровку и идентификацию персональной информации. Часто применяется для шифрования программного кода, чтобы в дальнейшем был невозможен его анализ или кража.
  • Скремблирование. Преобразование данных в случайные логические цепочки без потери общих свойств. Такой метод применяется в работе с числовыми данными. Например, после применения данной операции к номеру счёта объекту присваивается 16 цифр, последовательность которых случайна.

Дело в том, что в процессе обезличивания ПД, по сути, решаются две технических задачи. Во-первых, нужно сделать так, чтобы по обезличенным данным было невозможно достоверно установить исходные данные конкретного человека. Во-вторых, при этом необходимо сохранить смысл этих данных (семантические признаки, особенности связей между отдельными атрибутами). Только в этом случае они смогут качественно выполнить свою роль исходных данных при их аналитической обработке.

Так, полностью анонимизированные данные — это, по сути, статистические данные, которые относятся к категории открытых данных. Например, статистика Росстата или данные социологических опросов — это полностью анонимизированные данные, но весьма «загрубленные», с точки зрения социально-демографических деталей опрашиваемой аудитории, и в большинстве случаев точно не пригодятся для обучения нейросетей.

Однако универсального метода, который способен на 100% обезличить данные с 100% сохранением ценности таких данных, не существует. «Реальность идентификации субъекта зависит от конкретного контекста», — подчёркивает юрист Денис Садовников в своей статье на ресурсе zakon.ru. Более того, она будет меняться с течением времени, поскольку могут появиться либо новые дополнительные сведения, либо новые технологии идентификации личности. Вот почему в каждом конкретном случае необходима оценка вероятности идентификации по обезличенным данным. Причём она должна проводиться периодически с учётом изменения контекста, круга доступной информации, развития технологий и их доступности.

Эта оценка определяется в первую очередь тем, какие усилия должны будут приложить третьи лица для идентификации человека по обезличенным данным: затраты денежных средств на такие усилия, временные и человеческие ресурсы, наличие технологии, позволяющей выполнить идентификацию без особых усилий и затрат, значимость цели идентификации и выгоды от её осуществления.

Между тем правовые нормы обезличивания должны формулироваться технологически нейтрально и по возможности максимально учитывать будущее развитие информационных технологий, подчёркивает Денис Садовников. А это развитие в части технологий обезличивания весьма активно двигается вперёд.

 

ОБЕЗЛИЧИВАНИЕ И ПЕРСПЕКТИВЫ ШИФРОВАНИЯ

Действительно, сегодня речь идёт о задачах, связанных с передачей больших объёмов данных на обработку во внешнюю облачную модель машинного обучения и на централизованную обработку сложной аналитической системой, расположенной во внешнем контуре. В этом случае методы обезличивания, хорошо работающие на уровне внутренних баз данных, становятся неприменимы.

 

Гомоморфное шифрование

В последние годы во всём мире идут эксперименты с использованием математического аппарата полностью гомоморфного шифрования (Fully Homomorphic Encryption, FHE). Причина всеобщего внимания к этому методу понятна: технологии FHE позволяют выполнять операции над зашифрованными данными, не раскрывая их, благодаря чему имеют огромный потенциал применения в решении задач хранения и обработки персональных данных.

Интересно, что понятие «гомоморфное шифрование» появилось ещё в 1978 г. и принадлежит авторам алгоритма RSA. Через год после его разработки они предположили возможность выполнения произвольных операций над зашифрованными данными без их расшифрования. Действительно, полностью гомоморфное шифрование представляет собой обобщение классического шифрования, говорят авторы статьи [1] из компании «Криптонит» и МГУ: «Оно позволяет не только защищать конфиденциальные данные, но и выполнять их обработку, оперируя только лишь соответствующими шифртекстами (без использования ключа расшифрования)». Это свойство FHE обусловливает широкие возможности его практического применения, в первую очередь для организации удалённых вычислений: пользователь загружает данные на удалённый сервер в зашифрованном виде, выполняет над ними вычисления, а полученный результат расшифровывает в своей локальной системе.

Стоит отметить, что математическая реализация полностью гомоморфного шифрования подразумевает гомоморфизм системы шифрования относительно операций умножения и сложения (в смысле компьютерной алгебры это две базовых операции, с помощью которых можно реализовать любой математический алгоритм). Этого удалось достичь лишь в 2009 г. сотруднику IBM Крейгу Джентри в своей диссертационной работе. Но и появившиеся ранее системы частично гомоморфного шифрования нашли своё место на рынке. Так, криптосистемы RSA и Эль-Гамаля гомоморфны относительно умножения, криптосистема Пэйе гомоморфна относительно сложения. Криптосистема Бонэ — Го — Ниссим допускает преобразования с произвольным количеством сложений и только одно умножение.

В целом гомоморфное шифрование открывает настолько многообещающие возможности удалённой обработки данных без рисков компрометации обрабатываемых персональных данных, что на рынке уже появилось немало программных библиотек гомоморфного шифрования, в том числе с открытым кодом. В разных странах мира, в том числе и России, команды исследователей и инженеров выполняют проекты такого рода в различных прикладных областях.

  • Медицина — возможность передавать чувствительные к раскрытию персональные данные между различными специализированными учреждениями. Хранение и обработку таких персональных данных можно осуществлять даже на базе недоверенных облачных платформ, подчёркивают специалисты «Криптонита».
  • Финансовые организации — работа скоринговых моделей.
  • Городское и государственное управление — агрегация и централизованная обработка персональных данных граждан или данных городской инфраструктуры (умные города) в зашифрованном виде для получения статистических отчётов не требует больших вычислительных ресурсов и может быть осуществлена с помощью современных схем гомоморфного шифрования.

Интересен опыт создания гомоморфной свёрточной нейронной сети [2], которая работает с зашифрованными данными пользователей. Эта сеть, созданная в Сингапуре, предназначена для анализа изображений.

Однако нужно иметь в виду, что на текущий момент технологии полного гомоморфного шифрования обладают рядом серьёзных ограничений. Например, существенные накладные расходы схемы шифрования делают гомоморфные вычисления весьма ресурсоёмкими. А перенос «тяжёлых» вычислений типа инженерных расчётов или рендеринга видео в облако на базе соответствующей аппаратной базы, с сохранением конфиденциальности данных в виде FHE, пока не является окончательно решённой задачей, говорят эксперты.

Сокращение длины ключа и шифротекстов для оптимизации производительности системы FHE ведёт к снижению стойкости криптозащиты. Это не очень хорошее решение, особенно ввиду приближающихся угроз со стороны квантовых компьютеров. Известно, что широко используемые на практике алгоритмы асимметричного шифрования: RSA, DSA, ECDSA и т. п. — теряют криптостойкость, то есть секретный ключ находится за полиномиальное от размера публичного ключа время [3]. Последствия от появления квантовых компьютеров для алгоритмов симметричного шифрования и хеш-функций не столь катастрофичны, но реализации алгоритмов FHE такого рода неизвестны.

Кроме того, технологию FHE невозможно использовать в многопользовательских системах, так как в этом случае агрегируемые данные зашифрованы на различных секретных ключах. Для таких ситуаций разработаны другие подходы.

 

Мультиключевое гомоморфное шифрование

Технология мультиключевого гомоморфного шифрования (Multi-Party Computation, MPC) базируется на подходе «разделения секрета» (Secret Sharing), предполагающем, что в рамках некоторой коалиции участников (где даже есть значимая вероятность компрометации одного или нескольких хранителей секрета) каждый участник получает только долю секрета, и полностью воссоздать его может только вся группа в полном составе.

Сергей Голицын, директор по анализу данных и моделированию компании Platforma, рассказывает в своём блоге на Хабре, каким образом обмен секретами заменяет обмен реальными данными, на примере двух участников: на каждом сервере строятся две аналитических модели, а в процессе обучения моделей их веса корректируются, при этом градиенты передаются между серверами. «Сами по себе модели бесполезны, потому что они обучались на «секретах». Но если взять две модели и просуммировать их веса, то в результате получается рабочая модель, которая учитывает данные обоих серверов», — рассказывает эксперт.

К числу нынешних ограничений технологии MPC также относится высокое потребление вычислительных ресурсов при построении реальных моделей. Чтобы обеспечить нормальную скорость построения модели, нужно использовать полносвязные или свёрточные нейронные сети, которые очень требовательны к производительности «железа», говорит Сергей Голицын и уточняет: «Можно использовать логистическую регрессию, но для обработки big data также нужны очень мощные серверы и много времени. Также с MPC пока нельзя использовать один из самых популярных алгоритмов анализа данных — градиентный бустинг. Ведь в MPC самая долгая операция — это сравнение двух чисел, из-за чего бустинг не даёт практически никакого прироста в скорости, а даже наоборот».

Несмотря на то что теоретические корни MPC уходят в научные изыскания ещё 80-х годов прошлого века, о реальных внедрениях известно немного. Самый известный кейс связан с Facebook: компания открыла доступ к исходному коду CrypTen — MPC-фреймворку, интегрированному в популярную библиотеку машинного обучения PyTorch. Но есть и российские примеры внедрений. Так, в 2020 г. Московское правительство профинансировало создание городской MPC-системы на базе решения российского стартапа UBIC. Речь идёт о создании платформы совместных безопасных вычислений на основе агрегированных данных, которыми смогут пользоваться как государственные организации, так и частные компании.

 

Дифференциальная приватность

Differential Privacy (DP) — ещё один способ реализации максимально точных запросов в статистическую базу данных при одновременной минимизации возможности идентификации отдельных записей в ней.

Центральная идея метода, который изначально был предложен компанией Cynthia Dwork в 2006 г., — внесение в данные некоторого «шума» (параметр ε, называемый «потерей приватности», privacy loss), который позволяет обеспечить определённый уровень конфиденциальности данных отдельных лиц при снижении их точности. Собственно, само слово «дифференциальная» применительно к приватности подразумевает обеспечение баланса между приватностью и точностью данных при выкладывании в публичный доступ агрегированных данных в приватных датасетах.

Главная сложность практического применения метода DP заключается в определении того, куда именно и сколько шума нужно добавлять, рассказывают эксперты компании «Домклик» в своём блоге на Хабре. Один из самых популярных механизмов зашумления — механизм Лапласа.

Это очень интересный подход, поскольку он предполагает, что абсолютно любая информация является идентифицирующей, а значит, не нужно выполнять сложную работу по определению всех идентифицирующих атрибутов в наборе данных. И ещё он устойчив к атакам с использованием вспомогательной информации, не допуская установления взаимосвязей с целью восстановления анонимизированных данных. К тому же возможны реализации DP с использованием как доверенного, так и недоверенного хранилища исходных данных.

Основные недостатки подхода лежат в сфере обеспечения необходимой точности данных, которые предназначены для использования внешними аналитиками. Для улучшения этого параметра метод DP можно комбинировать с другими методами. Например, в варианте с перемешивателем (shuffling model) каждый источник вначале добавляет небольшое количество шума в свои данные, а затем отправляет их перемешивателю, который добавляет ещё шума перед отправкой в хранилище данных.

Эксперты считают перспективным сочетание дифференциальной приватности с полностью гомоморфным шифрованием или мультиключевым шифрованием. Считается, что технология DP находится в фазе активного исследования. Практические внедрения связаны с решениями крупнейших глобальных вендоров: Apple, Google Rappor, Microsoft PINQ. Ими же созданы открытые библиотеки механизмов дифференциальной приватности: IBM/differential-privacy-library (Python), Google/differential-privacy (C++), Brubinstein/diffpriv (язык R).

 

КАК СТРОИТЬ РЕГУЛИРОВАНИЕ ОБЕЗЛИЧИВАНИЯ В МЕНЯЮЩЕЙСЯ СРЕДЕ?

Как обеспечить технологическую нейтральность регулирования оборота обезличенных данных в условиях, когда технологическая среда представляет собой поле активных экспериментов с внедрением инновационных подходов в реальные проекты? Простого ответа на этот вопрос нет, ведь государство впервые столкнулось с такой специфической задачей, где в слове «нормотворчество» столь велико значение творческой составляющей.

Методы управления обезличиванием ПД в существенной мере зависят от специфики предметной области, в которой работает та или иная компания. Эти отраслевые особенности определяют, в частности, специфику бизнес-процессов, в которые включены персональные данные: в госуправлении они принципиально иные, чем в здравоохранении, где медицинский персонал разного уровня в течение всего рабочего дня получает доступ к ПД пациентов, обрабатывает их и передаёт друг другу, а также внешним организациям. К этим условиям даже стандартные средства управления доступом к данным плохо применимы. Как рассказывают эксперты в области медицинской информатизации, создание сложной, разветвлённой модели прав доступа сегодня практически невыполнимо для медицинской организации, на практике обычно выбирают очень простую модель прав доступа и думают, как перейти от предоставления прав доступа к учёту реального доступа с регистрацией всех фактов просмотра сотрудниками медицинских записей конкретных пациентов.

Применяемые методы обезличивания должны коррелировать с реальным ущербом, который могут понести частные лица и организации в результате утечек персональных данных. Здесь также наблюдается интересная ситуация. Так, согласно данным исследования утечек данных из медицинских организаций России, которое выполнила компания «СёрчИнформ», в 2022 г. с проблемами такого рода столкнулась каждая пятая клиника страны. Причём чаще всего утекали персональные данные (45%) и информация о клиентах и сделках (64%) — рис. 7.

Рисунок 7. Какие инциденты по вине сотрудников происходили в компании в 2022 г. Источник: «СёрчИнформ», исследование утечек из медицинских организаций РФ, март 2023 г.

 

Однако компания DLBI в ходе мониторинга Darknet обнаруживает считаные единицы баз данных медицинского профиля, выставленных на продажу. Это не ходовой товар, поясняют эксперты, так как на этих данных трудно построить прибыльную мошенническую схему. Медики подтверждают: для нас не так страшны утечки медицинских данных, сколько отсутствие последних в нужном месте или невнимательное отношение к ним.

В общем-то, стремление упростить регламенты информационной безопасности свойственно компаниям любой отрасли. Другое дело, что во многих оно дополняется дефицитом квалифицированных специалистов в ИТ и ИБ. А грамотный подход к обезличиванию данных в конкретной компании требует сегодня ещё и специфической юридической подготовки. Для подавляющего числа компаний и предприятий понятия «обезличивание» и «анонимизация» являются синонимами, а это очень грубая ошибка. Более того, тут не поможет даже знание европейской практики GDPR, несмотря на методическую общность европейского и отечественного правового регулирования.

В европейских юрисдикциях понятие «обезличивание» вообще не используется, рассказывает Денис Садовников. Для обозначения данных, отделяемых от идентификаторов субъекта, приняты категории «анонимизация» и «псевдонимизация». Российскому понятию обезличивания соответствует европейская псевдонимизация. А их анонимизация не имеет прямого аналога в отечественном законодательстве. Именно анонимность данных является там динамичной категорией и определяется каждый раз в конкретном случае с учётом контекста, характера данных, целей обработки, доступных технологий и ресурсов, потенциальных рисков и т. д. Но во многих случаях даже анонимизированные наборы данных представляют остаточные риски для субъектов.

Впрочем, в европейском законодательстве есть полезный элемент, который обеспечивает возможность настройки норм регулирования на специфику динамично меняющейся технологической и цифровой среды. Постулируется факт того, что технологии анонимизации и обратной идентификации составляют область интенсивных исследований и быстрого развития технологий, в связи с чем невозможно дать набор точных сценариев или конкретных мер, которые гарантированно обеспечат осуществление анонимизации. Поэтому каждый случай должен рассматриваться индивидуально с учётом контекста, а конкретные используемые методы подлежат оценке.

Гибкие критерии оценки и соответствующие балансировочные тесты — это важная черта правового регулирования защиты данных в европейских юрисдикциях. Ключевым элементом данной системы, обеспечивающим её функционирование, являются сильные и независимые надзорные органы, отмечает Денис Садовников.

А ещё отрасли отличаются потребностями в наиболее актуальных средствах информатизации. Если для госструктур это сбор и агрегирование больших объёмов разнотипных данных, которые должны быть обезличены для последующей разнообразной аналитической обработки, включая drill down до уровня исходных данных, доступных отдельным категориям пользователей, то для медицинских работников сегодняшний день — это обработка информации с большой долей чувствительных персональных данных на удалённых площадках.

Например, в Москве в рамках Центра диагностики и телемедицины департамента здравоохранения Москвы функционирует единый радиологический информационный сервис (ЕРИС). Он объединяет рабочие места рентгенолаборантов, врачей-рентгенологов, включает единый архив диагностических изображений и сервис удалённых консультаций. По оценкам Анастасии Раковой, заммэра Москвы по вопросам социального развития, по состоянию на август в составе ЕРИС работало более 50 сервисов искусственного интеллекта по 23 клиническим направлениям, с их помощью медики проанализировали около 10,5 млн медицинских изображений.

Постоянно растёт количество разнообразных медицинских гаджетов, которые используют люди. Порождаемые ими огромные объёмы цифровых данных, которые скапливаются в разнообразных цифровых хранилищах, должны стать основой для множества умных и полезных медицинских сервисов, предлагаемых населению. Задача применения продвинутых технологий обезличенной обработки персональных данных в здравоохранении, в частности, гомоморфного шифрования — архиактуальная, по оценкам медицинских информатизаторов. Но есть проблема — нет возможности вести соответствующие проекты в правовом русле.

Выступая весной на конференции «Цифровая медицина 23», ректор Высшей школы организации и управления здравоохранением Гузель Улумбекова отметила, что отрасли ещё предстоит создать эффективную систему управления информацией в здравоохранении, включающую сбор достоверных первичных данных, их систематизацию и открытость источников информации обезличенных данных для анализа.

Пример со здравоохранением показывает, что выработать эффективную систему обезличивания персональных данных можно только с активным участием отраслевых специалистов. По сути, регулятор в области персональных данных должен занять активную позицию, подобную той, на которой стоит Минпромторг РФ: он собирает разработчиков компьютерного «железа» и ПО вместе с заказчиками для того, чтобы они в условиях тесных рабочих контактов определяли, какие ИТ-системы необходимо разработать и вывести на рынок, чтобы они наилучшим образом закрывали потребности компаний из различных отраслей экономики.

Несомненно, нужно использовать энергию российских разработчиков, которые активно создают собственные технологические решения для обезличивания данных, потенциал спроса на эти решения и высокий интеллектуальный уровень отечественных специалистов, который поможет организовать систему тестирования различных решений, структуру оценок эффективности в зависимости от реальной среды применения и соответствующие критерии.

 

BIS Journal благодарит российских специалистов, поделившихся с редакцией своим опытом применения различных технологий обезличивания персональных данных в конкретных проектах и выделивших важные элементы этих процессов.

 

[1] Об использовании библиотек полностью гомоморфного шифрования. А. A. Гаража, И. Ю. Герасимов, М. В. Николаев, И.В. Чижов. International Journal of Open Information Technologies, vol. 9, no. 3, 2021, с. 11–22.

[2] The AlexNet Moment for Homomorphic Encryption: HCNN, the First Homomorphic CNN on Encrypted Data with GPUs. Ahmad Al Badawi, Jin Chao, Jie Lin, Chan Fook Mun, Sim Jun Jie, Benjamin Hong Meng Tan, Xiao Nan, Khin Mi Mi Aung, Vijay Ramaseshan Chandrasekhar. Institute for Infocomm Research, A*STAR, Singapore. March 22, 2022.

[3] Квантовый переход финтеха, Е. Покатаева, BIS Journal № 2/2023.

Стать автором BIS Journal

Смотрите также

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

24.04.2024
У «Сбера» (и рынка?) будет свой SAP за «миллиарды рублей»
24.04.2024
В I квартале хакеры совершили более 19 млн атак на смартфоны россиян
24.04.2024
Минпромторг раздаёт деньги на отечественные решения
24.04.2024
Правительство одобрило ужесточение наказания за утечку ПДн
23.04.2024
В АП не поддержали поправки о штрафах за утечки ПДн
23.04.2024
Хакеры всё активнее DDoS-ят российскую отрасль энергетики
23.04.2024
Минпромторг начнёт выдавать баллы блокам питания?
23.04.2024
Microsoft — угроза для нацбезопасности? Бывает и такое
23.04.2024
РКН усиленно блокирует VPN-сервисы и рекламирующие их ресурсы
22.04.2024
Фишеры предлагают отменить «заявку на удаление Telegram»

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных