BIS Journal №1(12)/2014

10 апреля, 2014

Верификация по голосу: надежно ли?

Внедрение систем голосовой верификации в автоматизированных банковских call-центрах способно значительно упростить процессы аутентификации клиентов, тем самым заметно сокращая расходы на эту процедуру обеспечения безопасности. Но надёжность биометрических средств, включая голосовые, вызывает у многих недоверие,  особенно у всех, смотревших телевизионное шоу «Один в один». Такие сомнения подогреваются слишком агрессивной рекламой продавцов средств биометрической аутентификации. Наш журнал уже обращался к этой теме [см. В.Сорокин, Ю. Ромашкин. «Скажи пароль», «BIS Journal» № 1(4)/2012]. Наш журнал планирует и впредь уделять место освещению современных технологий идентификации личности. А что сейчас обсуждается в научных кулуарах, на «кухнях» разработчиков систем верификации? По нашей просьбе член редколлегии журнала делится своими впечатлениями об обсуждении проблематики голосовой биометрии, состоявшемся на конференции Interspeech 2013.

 

Ежегодная конференция Interspeech – одна из главных конференций по речевым технологиям в мире, на ней выступают и общаются как ведущие мировые учёные, работающие в области речевых технологий, так и многочисленные представители индустрии. Организаторы проводят её с определенной географической закономерностью: в нечётные годы – в крупном европейском городе, в чётные – за пределами Европы. В 2013 году XIV конференция прошла в Лионе, очередная, в 2014 году, пройдёт в Сингапуре.


Традиционно в тематике конференции Interspeech выделяются отдельные блоки, связанные с профилем нашего журнала, – информационной безопасностью. В 2013 году анализу систем доступа по голосу была посвящена отдельная секция, которая называлась «Способы обхода систем контроля доступа по голосу и контрмеры». Эта секция собрала значительное количество слушателей, около 200 участников конференции. Многим не хватило сидячих мест за аудиторными столами, пришлось стоять.

На секции прозвучало 6 докладов. Они были посвящены уязвимостям ряда современных схем верификации по голосу. Как правило, в докладах приводились экспериментальные статистические данные, использующие голоса нескольких сотен различных дикторов, с оценкой доли случаев, когда ту или иную схему верификации удаётся обойти, то есть подать на её вход такой звуковой сигнал, который она приняла бы за голос правомочного пользователя.

Кроме того, в докладах обычно предлагались и защитные контрмеры, то есть способы усовершенствования базовых схем верификации, которые защищали бы от предложенных авторами атак. Подчеркнем, что анализировались не промышленные образцы систем конкретных производителей, а базовые схемы верификации, положенные в их основу. Остановимся вкратце на содержании двух выступлений этой секции.

УЯЗВИМОСТИ ТЕКСТОНЕЗАВИСИМОСТИ

Во вступительном обзорном докладе (совместно подготовленном специалистами из Франции, Финляндии, Великобритании и Японии) были проклассифицированы различные способы обхода систем автоматической текстонезависимой верификации диктора и варианты построения защит от таких способов. Текстонезависимой считается верификация, при которой персона, желающая получить доступ, произносит в микрофон произвольные слова.

Первый, наиболее очевидный способ обхода, состоит в привлечении людей-имитаторов чужих голосов, наподобие артистов – имитаторов и пародистов. Оказывается, это приводит к успеху в значительном проценте случаев: приводятся данные о 60% вероятности успеха имитаторов. Такой способ является одним из наиболее простых.

Ещё один примитивный, но весьма эффективный способ – это повторное использование злоумышленником записи фрагмента речи подлинного пользователя. Проблемы у злоумышленника возникают только в случае, когда запись голоса правомочного пользователя проведена на другом канале связи или имеет помехи. Приводятся данные о 70% вероятности обхода системы, построенной на принципе JFA (Joint Factor Analysis).
Еще одной возможностью преодоления систем текстонезависимой верификации является использование синтезированной речи.

Современные методы синтеза речи, использующие аппарат скрытых марковских моделей (Hidden Markov Models – MM), позволяют довольно легко обходить даже весьма сложные системы верификации. Приводятся данные о 90% вероятности обхода 2 различных типов систем верификации, использующих GMM-UBM (Gaussian Mixture Models – Universal Background Model) модели и распознавание на основе метода опорных векторов и модели речевого сигнала в виде гауссовских смесей – SVM (Support Vector Machines).

Пожалуй, самой сложной технологией обхода является технология трансформации голоса, так называемая «Voice conversion», которая предназначена для превращения фразы, сказанной одним человеком, ровно в ту же фразу, но с измененными параметрами голоса. Эта технология позволяет так изменить параметры голоса, чтобы получившаяся речь была бы очень похожа на голос определённого человека.

Технология трансформации голоса во многом родственна обработке звука на сложной профессиональной музыкальной аппаратуре, позволяющей программно подправлять в нужную сторону те или иные звуковые фрагменты в акустическом сигнале. В задаче обхода системы верификации необходимо трансформировать голос «нарушителя» в акустический сигнал, похожий на голос правомочного пользователя. Приводятся следующие числовые данные о вероятности обхода систем верификации: 65% для JFA-системы и 80% для GMM-UBM системы. В докладе также был проведен анализ возможных контрмер со стороны разработчиков, которые бы затруднили перечисленные выше способы обхода.

Уровень достигаемых ошибок первого и второго родов для систем верификации с использованием и без использования контрмер

Вывод доклада можно сформулировать так: существующие текстонезависимые системы верификации не обеспечивают сколько-нибудь надёжной защиты от злоумышленника, вооруженного современными решениями по обработке речи. Однако для обмана даже простых систем злоумышленнику потребуется привлечь серьезные интеллектуальные и вычислительные ресурсы.

ПРЕОДОЛЕНИЕ ТЕКСТОЗАВИСИМОСТИ

Надо сказать, что такой вывод не является особенно революционным. Специалистам по информационной безопасности давно было ясно, что текстонезависимые системы верификации не являются надёжными. Уже давно системы верификации строятся по более надежной, текстозависимой схеме. Перед началом работы, как и в текстонезависимом варианте, система обучается на голосе пользователя. Пользователь на этапе обучения несколько минут проговаривает некий специально фонетически сбалансированный текст, в котором встречаются наиболее характерные фонемы и их сочетания, характеризующие особенности речевого тракта. На этих данных обучается модель голоса данного пользователя.

Затем, на этапе собственно верификации, пользователю предъявляется случайный текст на экране системы, и он должен его прочитать. Система вычисляет степень соответствия этой записи предъявленному тексту и имеющейся модели голоса и предоставляет или не предоставляет пользователю доступ. Преимущество такой текстозависимой системы очевидно: нельзя заранее нарезать и записать варианты текста, так как он генерируется случайно.

Методам обхода текстозависимых систем верификации был посвящен доклад специалистов компании IBM из Израиля. Они предложили схему построения варианта обхода на основе уже упоминавшейся технологии «Voice conversion». Изюминка их подхода состоит в том, что они не стали добиваться высокой степени похожести для человеческого слуха конвертированного голоса на голос правомочного пользователя. Им было достаточно только лишь обмануть систему верификации, а сам звук не был важен.

Использовалась очень простая математическая модель голоса, описываемая 2 слагаемыми: гармонической составляющей для вокализованных фрагментов речи и шумовой для всех остальных. Параметры такой простой модели могут быть быстро и точно подобраны для конверсии имеющегося голоса нарушителя в голос правомочного пользователя. Для человеческого уха полученный результат является весьма плохим и малоразборчивым, однако для алгоритма верификации он неотличим от истинного.

Авторы доклада провели тестирование своего способа обхода для трех разных вариантов систем верификации, построенных на основе самых современных принципов: с использованием I-векторов, GMM-NAP и HMM-NAP технологий (значения этих аббревиатур мы здесь описывать не будем, их можно найти в специальной литературе, отметим лишь, что за каждой из них скрываются целые серии исследований). Все три системы оказались весьма уязвимы, и вероятность их обхода составила в среднем 34%.

Авторы доклада рассматривали простейший и наиболее удобный для нападения случай, когда читаемый текст являлся набором цифр, и в распоряжении злоумышленника имелась база записей голосов дикторов, произносящих цифры. Тем не менее, ясно, что в своем базовом варианте, без специальных ухищрений, системы текстозависимой верификации тоже не могут противостоять вооруженному современными технологиями злоумышленнику.

Таким образом, можно говорить о том, что в настоящее время активно исследуются как способы нападений на системы голосовой верификации, так и способы защиты от них. Пока же верификация по голосу может рассматриваться лишь как дополнительный фактор в общей схеме аутентификации.

 

BIS-СПРАВКА

  • В феврале 2013 года компания Global Industry Analysts, Inc в своем очередном исследовании рынка «Face and Voice Biometrics: Market Research Report» оценила перспективу роста объёмов биометрических решений к концу 2018 года примерно в $  млрд.
  • Аналитики группы «The Biometrics Research Group» прогнозируют, что рост этого сегмента рынка в основном будет связан с развитием мобильных технологий, и что лидерами роста
  • в сфере банковских биометрических приложений будут страны Азии.
  • Государственный Банк Индонезии – Bank Negara Indonesia в марте 2012 года объявил
  • об использовании технологии текстозависимой голосовой аутентификации в своей работе с клиентами.
  • Национальный Банк Австралии (NAB ) с конца 2012 года внедряет голосовые биометрические решения для удаленного доступа клиентов к своим счетам.
  • Новозеландский Банк ANZ (Australia and New Zealand Banking Group Limited) осенью 2013 года запустил проект по голосовой аутентификации пользователей. Пока идет пилотная фаза проекта, через 1–1,5 года планируется полное внедрение системы.
  • Словацкий Tatra Bank (часть Raiffeisen International) с ноября 2013 года начал внедрение биометрических решений по аутентификации пользователей по голосу.

Смотрите также