BIS Journal №2(53)2024

2 июля, 2024

В данных обстоятельствах. Как выстроить безопасный обмен данными

Данные становятся «топливом» для технологий, особенно это касается технологий искусственного интеллекта, и важнейшим нематериальным активом. При этом обмен данными помогает решить проблему нехватки «топлива» для технологий и может стать катализатором экономического роста. Но вопрос обмена и совместного доступа к данным сложен и многогранен, необходимо комплексное решение юридических, технических и организационных барьеров, снижение возникающих рисков и соблюдение баланса между прогрессом, безопасностью и этикой. Как этого добиться в современных условиях? 

 

ИЗБЕЖАТЬ КОНФЛИКТА ИНТЕРЕСОВ

Сейчас, когда развитие ИИ набирает обороты и парадигма «клиентоориентированности» сменяется принципом «человекоцентричности», значение данных сложно переоценить. Обучение моделей ИИ и максимальная персонализация продуктов и предложений невозможны без огромных объёмов данных из самых разных сфер. И тут мы «упираемся» в основной конфликт интересов: участникам рынка хочется получать и обогащать данные, но не хочется ими делиться. Поэтому очень важно выстроить необходимые условия для организации обмена: от нормативного регулирования до обеспечения конфиденциальности данных. 

В целом все технологии обеспечения конфиденциальности можно условно разделить на пять групп:

  1. Традиционные методы: псевдонимизация, анонимизация, агрегация
  2. Методы обезличивания: перемешивание, введение идентификаторов, декомпозиция, изменение состава
  3. Методы криптографической защиты: шифрование, хеширование, токенизация
  4. Методы безопасных вычислений: гомоморфное шифрование, доказательство с нулевым разглашением, дифференциальная конфиденциальность, вычисления в анклаве, конфиденциальные многосторонние вычисления (Secure Multiparty Computation)
  5. Статистические методы и машинное обучение: синтетические данные, трансферное обучение, методы дополнения моделей ИИ, федеративное обучение, имитация поведения, AutoML

 

ИДЕАЛЬНАЯ ФОРМУЛА

Стоит отметить, что идеальная формула для решения дилеммы доступа и конфиденциальности представляет собой комбинацию трёх направлений: криптозащиты каналов и среды обмена, продвинутых методов обработки информации и методов снижения «чувствительности» данных. 

Каждый из методов обеспечения конфиденциальности данных имеет свои особенности и ограничения. Рассмотрим на примерах. 

 

ПРИМЕРЫ

Гомоморфное шифрование представляет собой метод, позволяющий выполнять вычислительные операции с зашифрованными данными. Он генерирует зашифрованный результат, который при расшифровке соответствует результату операций, как если бы они были выполнены с незашифрованными исходными данными. Широкое использование метода ограничено из-за отсутствия общепринятых стандартов и особенностей гомоморфных схем шифрования, которые обычно поддерживают только один тип операций, а анализ полностью зашифрованных данных значительно медленнее, чем анализ открытых данных. Использование этого метода ограничивается сценариями с узким функционалом или сценариями, где скорость вычислений не критична. Существует также схожая технология — конфиденциальные многосторонние вычисления (SMPC) — это «подраздел» гомоморфного шифрования, который позволяет пользователям вычислять значения из нескольких зашифрованных источников данных. Таким образом, модели машинного обучения могут быть применены к зашифрованным данным, поскольку SMPC используется для большего объёма данных. Ограниченное применение этого метода объясняется высокими затратами на настройку и существенной стоимостью обеспечения специальных каналов связи, что делает применение этого метода экономически невыгодным. 

Технология дифференциальной конфиденциальности — это криптографический алгоритм, который добавляет слой «статистического шума» к набору данных, что позволяет описывать структуры групп внутри набора данных, сохраняя конфиденциальность отдельных лиц. Добавление «шума» позволяет создать баланс между точностью и конфиденциальностью, что делает этот метод подходящим для анализа общих тенденций, но не для выявления аномалий (таких как мошенничество) или точного сравнения. 

Доказательства с нулевым разглашением — это совокупность методов, которые стали применяться специалистами на практике относительно недавно. Эти технологии используют набор криптографических алгоритмов, позволяющих проверять и подтверждать информацию, не раскрывая исходных данных. Доказательства с нулевым разглашением будут играть ключевую роль в развитии технологий распределённых реестров, таких как блокчейн. Методология продолжает развиваться и уже используется в различных областях, включая платежи, инфраструктуру интернета и цифровую идентификацию. 

Ещё один интересный метод, наибольшая ценность которого проявляется при большом количестве отдельных источников данных, например, на смартфонах, устройствах интернета вещей, ноутбуках, — это федеративное обучение. Это метод машинного обучения, который тренирует алгоритм на нескольких удалённых устройствах или серверах без обмена данными между ними, что позволяет минимизировать объём данных, хранящихся на централизованных серверах или в облаке, повышая тем самым конфиденциальность пользователей. 

 

СИНТЕТИЧЕСКИЕ ДАННЫЕ

Не во всех случаях целесообразно применять реальные данные и выстраивать защиту этих наборов данных. Часто для обучения моделей ИИ применяют синтетические данные. Это искусственные данные, сгенерированные для замены реальных данных в различных целях, таких как тестирование, исследования и обучение моделей. Они сохраняют структуру и характеристики исходных данных, не содержат личной информации и могут использоваться для защиты конфиденциальности. Синтетические данные относятся к информации, созданной на основе знаний. Применимость и эффективность синтетических данных напрямую зависит от применяемых алгоритмов, качества и «широты» использованных для генерации исходных данных. 

 

УСПЕШНЫЕ ПИЛОТЫ

Уже сейчас на российском рынке идёт активная работа по проработке подходов безопасного обмена данными и есть примеры успешной реализации таких пилотов. Например, инициатива Газпромбанка и QApp по применению конфиденциальных вычислений, «Криптоанклав» ВТБ, проект Yandex Cloud по применению подходов федеративного обучения для обеспечения конфиденциальности и эффективности при работе с медицинскими данными. Но для организации масштабного и эффективного обмена данными нужно объединить усилия всех ключевых участников рынка: государственных институтов, финансовых организаций, финтехов, технологических компаний и т. д. На площадке Ассоциации ФинТех разработаны предложения по построению экосистемы обмена данными для российского рынка, состоящей из трёх «слоёв»: государственных платформ, коммерческих платформ и однорангового взаимодействия между участниками обмена. Такая структура позволит выстроить процесс обмена данными с учётом потребностей всех заинтересованных сторон — как поставщиков, так и потребителей данных, а также рискориентированно подойти к защите обрабатываемой информации. 

Стать автором BIS Journal

Смотрите также

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

18.07.2024
Власти обяжут СМИ импортозаместить профильное ПО и ИБ-решения?
17.07.2024
ЦБ РФ разрешит фигурантам своей базы мошенников обжаловать их статус
17.07.2024
Импортозамещение со вкусом малвари. В телефонах Digma обнаружили брешь
17.07.2024
Минцифры напоминает об ИТ-отсрочке
17.07.2024
Число DDoS-атак в мире удвоилось
17.07.2024
Тап-тап, мистер Уик. Россиянам предлагают опустошить «Хомяка»
16.07.2024
ВТБ направил миллиарды на импортозамещение и безбумажность
16.07.2024
Минцифры просит Минэнерго не путать майнинг-центры и дата-центры
16.07.2024
Пополнение баланса по паспорту? Нет ничего невозможного
16.07.2024
Ещё один ИБ-вендор («Лаборатория Касперского») покидает страну (США)

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных