19 августа, 2019, BIS Journal №3(34)/2019

Задачка по биометрии: кто написал txt?


Мельников Сергей

заместитель генерального директора, кандидат физико-математических наук (ООО «Лингвистические и информационные технологии»)

Определение авторства текста в системе идентификации.

БИОМЕТРИЯ И ОПРЕДЕЛЕНИЕ АВТОРСТВА ТЕКСТА

Задача определения авторства принадлежит активно расширяющемуся в настоящее время кругу биометрических задач [1]. К ней можно отнести: определение авторства произнесенной речи по голосу [2], определение авторства по почерку [3], определение авторства по тексту.

Задача установления авторства текста решается с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими текстами, авторство которых известно. С начала XX века делались попытки формально определить стиль автора текстового произведения, хотя проблема спорного авторства появилась задолго до этого. Предпосылками к спорам над авторством текстовых произведений были анонимные тексты, случаи плагиата, творчества под псевдонимами и др. Технологии определения авторства по тексту, использующие вычислительно-лингвистические подходы, активно развиваются последние тридцать-сорок лет. Авторский текст – один из самых сложных и, видимо, не слишком надежных источников биометрических признаков. Однако востребованность использования его особенностей с точки зрения биометрии высока, что связано с гигантской популярностью систем обмена текстовыми сообщениями (е-мейл, соцсети, смс, мессенджеры) и доступностью их материалов для анализа. 

Среди инструментов автоматического анализа текстов, технологии определения авторства занимают сравнительно незначительную нишу. Рядом с этой нишей расположены такие технологии, как: идентификация языка/диалекта и тематики текста, выделение фактов из текста, установление зависимостей между текстами, выделение спама и др. Совсем родственными являются технологии определения плагиата, определения искусственного происхождения текста, оценки эмоциональной окрашенности, определения пола, возраста, профессии и психологических особенностей автора.

 

НА ПРАКТИКЕ

Практическое применение технологий определения авторства во многом связано с криминалистическими задачами. Известны случаи, когда анализ текстов сообщений с угрозами позволял экспертам однозначно определить автора среди группы подозреваемых или значительно сузить их круг. Актуальной, как показывает история с обвинением России во вмешательстве в американские выборы, является и задача установления авторства исходных кодов вредоносного программного обеспечения [4]. Перспективным является использование технологий определения авторства для анализа фейковых новостей.

 

КАК РАЗВИВАЛИСЬ ТЕХНОЛОГИИ ОПРЕДЕЛЕНИЯ АВТОРСТВА

Движетелем прогресса в развитии методов определения авторства служили многочисленные литературоведческие дискуссии, связанные как с чисто научными интересами участников, так и, возможно, с юридическими или даже политическими. Классическим примером является многовековой спор об авторстве произведений, приписываемых Вильяму Шекспиру. В отечественном литературоведении аналогичная полемика долго велась (и еще ведется) по поводу авторства романа «Тихий Дон». Многие скептики приписывают авторство как минимум первого тома этого романа не М.А. Шолохову, а малоизвестному писателю из среды казачества Ф.Д. Крюкову. По мнению ряда экспертов, стиль текста первого тома романа «Тихий Дон» сильно отличается от стиля остальных трех частей.

Первые продвижения в задаче определения авторства принадлежат лингвистам. Была предложена красивая идея авторского инварианта как набора значений текстовых характеристик, которые позволяют однозначно идентифицировать автора или группу авторов среди других авторов. В работе родителей академика А.Т. Фоменко [5] на материале художественных произведений 23 русскоязычных авторов XVIII-XX веков анализировалась различительная способность относительной частоты встречаемости определенных групп слов в задаче определения авторства.  Был сделан качественный вывод, что хорошей различительной способностью для прозаических текстов обладают так называемые служебные слова (союзы, предлоги, частицы). В цитируемой работе авторы выделили 55 служебных слов. Другие группы слов и ряд структурных признаков текстов авторами признаны не подходящими для включения в авторский инвариант. Похожая картина наблюдается и для других языков, в частности, арабского [6].

В современной филологии в последние десятилетия разрабатывается т.н. лингвоперсонологическая теория и теория языковой личности [7], однако для решения практических задач удобнее пользоваться весьма развитыми статистическими методами и доступными ресурсами (текстовые корпуса, различные словари, ПО синтаксического, грамматического, морфологического анализа) из арсенала компьютерной лингвистики.

Одним из ведущих мировых форумов по задачам определения авторства текста сегодня является ежегодная конференция PAN (Uncovering Plagiarism, Authorship and Social Software Misuse, https://pan.webis.de). На этом форуме докладываются результаты новых исследований в области идентификации авторства текста и близких задачах. Проводятся соревнования по точности определения авторства на представленных организаторами тестах. Все без исключения такие исследования базируются на современных методах вычислительной лингвистики, используют развитый математический аппарат и современные методы классификации (нейронные сети, машины опорных векторов и др.).

 

ТОЧКИ РОСТА ТЕХНОЛОГИЙ

Можно выделить несколько направлений, которые активно развиваются в последние годы:

  • Определение авторства коротких текстов (твиты, смс). Сложность этой задачи связана с неустойчивостью статистических характеристик текста на малых объемах.
  • Кросс-жанровая задача установления авторства, то есть определение авторства текстов одного жанра, если в качестве образцов авторских коллекций представлены тексты другого жанра (например, е-мейлы и публицистические статьи).
  • Кросс-языковая задача установления авторства.Особенность задачи состоит в том, что в качестве образцов авторских коллекций представлены тексты на одном языке, а задача определения авторства ставится по текстам на другом языке.
  • Изучение и локализация влияния редакторской правки на авторский стиль.
  • Выявление случаев, когда текст «склеен» из нескольких текстов разных авторов.
  • Разработка технологий автоматического обеспечения анонимности, то есть разработка методов противодействия известным подходам к определению авторства.

 

Помимо перечисленных направлений, повышенный интерес всегда вызывают новые подходы к определению авторства в т.н. открытой задаче, когда анализируемый текст может принадлежать одному из известных авторов, а может быть «чужим», то есть неизвестным системе. Определенные успехи здесь связаны с идеей привлечения для промежуточных вычислений большого количества заведомо чужих текстов, т.н. импосторов.

 

ТИПОВАЯ СТРУКТУРА АЛГОРИТМОВ ОПРЕДЕЛЕНИЯ АВТОРСТВА ТЕКСТА

Практически все методы определения авторства имеют двухэтапную структуру.

На первом этапе вычисляется представительный набор характеристик текста. Важно использовать характеристики, независимые от тематики текста, настроения автора, то есть такие особенности письма, которые проявляются на неосознанном самим автором уровне.

В этот набор для русскоязычных текстов могут входить [8]:

- словоформы, употребленные в тексте (частоты их встречаемости),

- морфологические признаки (суффиксы, приставки, корни, окончания),

- грамматические признаки (часть речи, род, число, лицо, падеж, время, наклонение, спряжение, возвратность и проч.),

- особенности использования регистра букв (т.н. очертания слов, “shapes”), знаков препинания, сокращений и аббревиатур, цифр и числительных в тексте, эмодзи и других неалфавитных символов,

- характеристики длин слов, предложений, абзацев,

- особенности допущенных орфографических, синтаксических и грамматических ошибок,

- характеристики лексического разнообразия текста,

и ряд других характеристик. Обычно такой набор содержит несколько тысяч числовых характеристик.

На втором этапе для сравнения анализируемого текста с текстами из авторских коллекций используется тот или иной классификатор (например, нейронная сеть). Классификатор сравнивает набор характеристик текстов из имеющихся авторских коллекций с характеристиками поступившего текста. В результате сравнения делается вывод о близости поступившего текста к той или иной авторской коллекции.

Казалось бы, чем большее количество характеристик текста использовать, тем точнее будет результат. Однако на практике существует определенный потолок числа входов у классификатора, при превышении которого эффективность снижается. Этот потолок зависит от самого классификатора, от числа проверяемых авторов, от размеров текстов для обучения и теста, от особенностей языка.

 

ПРАКТИЧЕСКАЯ ЭФФЕКТИВНОСТЬ СУЩЕСТВУЮЩИХ РЕШЕНИЙ

В русскоязычном сегменте Интернет можно найти до десятка программ идентификации авторства текста. Эти программы предназначены для анализа объемных литературных текстов. Все они решают закрытую задачу идентификации, то есть все возможные варианты авторов задаются своими текстами, и выбирается наиболее подходящий из них. Требования к объему текстовых данных для идентификации и обучения весьма высоки и вряд ли могут обеспечить практическую значимость.

С другой стороны, результаты, докладываемые на упомянутой выше конференции PAN, показывают, что практически эффективные алгоритмы идентификации авторства существуют по меньшей мере для нескольких европейских языков. Они позволяют работать с весьма небольшими текстами, обеспечивая приемлемый уровень ошибок идентификации.

***

Безусловно, распознавание авторства по тексту расширяет возможности в сфере идентификации личности. Для банковской биометрии этот инструмент, возможно, пока еще несколько экзотичен, но это только пока. Функции биометрической идентификации и в банковской и в других сферах стабильно расширяются, усложняются и постепенно переходят от статического распознавания к динамическим расследованиям, требующим как комплексного подхода, так и разнообразного инструментария. На этом пути ожидается немало сенсаций. BIS Journal держит руку на пульсе.

 

Литература

1. Маршалко Г.Б. Угрозы безопасности биометрических систем // BIS Journal №4(27). -2017.

2. Ромашкин Ю.Н., Сорокин В.Н. Скажи «Пароль» // BIS Journal №1(4).-2012.

3. Брославский М.В., Мельников С.Ю. Сравнение эффективности классификаторов в задаче текстонезависимой идентификации автора русскоязычного рукописного текста // Обозрение прикладной и промышленной математики, т.25, вып.3, C.234-235, 2018.

4. Стремоухов В. Д. Модель и метод анализа схожести и определения авторства вредоносного кода :дисс. ... к.т.н. : 05.13.19. -  СПБ ИТМО. - Санкт-Петербург, 2013. - 95 с.

5. Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов. Предисловие А.Т. Фоменко // Фоменко А.Т. Новая хронология Греции: Античность в средневековье. Т.2. М.: Изд-во МГУ, 1996, c.768-820.

6. Германович А.В., Мельников С.Ю., Хвостенко В.М. О выборе множества слов, характеризующих авторский стиль арабского текста // Обозрение прикладной и промышленной математики, т.24, вып.4, С.324-325, 2017.

7. Лингвоперсонология: типы языковых личностей и личностно-ориентированное обучение: монография / Под редакцией Н.Д. Голева, Н. Б. Лебедевой, Н. В. Сайковой, Э. П. Хомич. – Барнаул, Кемерово: Изд-во БГПУ, 2006. – 435 с.

8. Романов А.С. Разработка и исследование математических моделей, методик и программных средств информационных процессов при идентификации автора текста / А.С. Романов, А.А. Шелупанов, Р.В. Мещеряков. – Томск: В-Спектр, 2011. – 188 с.

 

Смотрите также

CISO Форум 2019

2 августа, 2019

Ключ к паутине

11 апреля, 2019

AI, ML и ИБ

31 декабря, 2018
Подпишись на новости!
Подписаться