Смотреть на данные через настройки и политики — это всё равно, что наблюдать мир в замочную скважину

BIS Journal №2(61)2026

9 апреля, 2026

Смотреть на данные через настройки и политики — это всё равно, что наблюдать мир в замочную скважину

Перед любой ИБ-службой рано или поздно возникает вполне типичная рабочая задача: нужно понять, что именно хранится на рабочей станции конкретного пользователя или в файловом хранилище. Поводы могут быть разными — ​проверка сотрудника, разбор инцидента, аудит старого файлообменника, где данные накапливались годами. Но суть всегда одна: перед ИБ-специалистом оказывается массив документов, содержание которого заранее неизвестно.

Все системы, которые сейчас есть на рынке для решения подобной задачи, включая Data Loss Prevention (DLP) и Data-Centric Audit and Protection (DCAP), имеют одну особенность — ​чтобы они могли работать с данными, их нужно предварительно обучить: задать словари, создать политики, настроить правила. Этот процесс занимает много времени: необходимо собрать образцы текстов, произвести донастройки, разобраться с ложноположительными и ложноотрицательными срабатываниями.

Мы в InfoWatch предложили принципиально иной подход, при котором человеку не нужно обучать систему: она сама «рассказывает» о данных, которые есть в компании. Эту логику мы реализовали в модуле «Кластеризация данных» в составе продукта для аудита данных InfoWatch Data Discovery.

 

Как выглядит процесс

Представьте, что перед вами стоит задача разобраться, какие файлы хранятся на файловом сервере, нет ли там конфиденциальной информации, которая еще не покрыта политиками, или документов, для которых требуется ужесточение прав доступа. Это выглядит так, как если бы на вашем письменном столе лежала кипа неопознанных документов, которые нужно вручную просмотреть и рассортировать, — ​коммерческие предложения в одну стопку, рамочные договоры — ​в другую, прайс-листы — ​в третью, и так далее.

Когда вы применяете Data Discovery вместе с модулем «Кластеризация данных», документы на вашем столе уже не свалены в одну кучу, а разобраны в тематические стопки (кластеры), которые не только скреплены между собой, но еще и размечены стикерами с ключевыми терминами для каждой стопки (рис. 1–2).

 

Рисунок 1–2. Документы без кластеризации и с кластеризацией

 

В чем особенность решения

Модуль «Кластеризация данных» не требует обучения, не содержит словарей и предустановленных настроек и обучается именно на данных компании. Работа начинается, по сути, с чистого листа, когда ни решение, ни человек ничего не знают об информационных активах компании.

И вот, например, вам нужно разобраться, какие данные хранятся на файловом сервере. После его сканирования весь документооборот, даже самый экзотический, будет проанализирован, термины извлечены, а документы с одинаковой терминологией объединены в кластеры. Для каждого кластера определятся ключевые теги, из которых составится облако тегов — ​набор ключевых слов, которые лучше всего описывают каждую группу.

Кластеры можно отфильтровать, выбирая нужные теги. В результате будет построена карта кластеров, которая визуально отображает, какие кластеры схожи по терминологии между собой, а какие отличаются. Основной рабочий массив на карте формируют типовые документы, связанные с функциями сотрудника, подразделения, спецификой бизнеса. Рядом показываются группы и отдельные документы, которые статистически выбиваются из общей картины. Частотные термины показывают устойчивые темы, редкие — ​помогают быстро выйти на нетипичные или слабо представленные информационные активы. За счет этого анализ файлового массива происходит не через просмотр файлов в ручном режиме, а через анализ смысловых признаков (рис. 3).

Рисунок 3. Карта документов показывает структуру проанализированного массива

 

Рассмотрим карту документов и облако тегов более подробно.

Карта документов показывает структуру проанализированного массива. На ней в кластеры собираются документы, которые похожи по терминологии и, как правило, относятся к одному и тому же виду деятельности. Если смотреть на это со стороны пользователя, то сразу видно, где находится основной рабочий профиль — ​плотные, крупные кластеры. Рядом с ними появляются более мелкие группы и отдельные документы, которые вообще не вписываются в общую картину.

Облако тегов дает возможность быстрого погружения в содержание файлового массива. Каждый тег — ​это ключевое слово из проанализированных документов. Более частотные слова описывают типовые процессы, характерные для пользователя или подразделения. В одном случае это может быть производственная терминология, в другом — ​логистика, закупки или внутренняя отчетность. Уже на этом уровне становится понятно, чем «живет» конкретный массив данных.

Но главная практическая ценность проявляется в отклонениях. Редкие слова в облаке тегов и небольшие группы на карте позволяют быстро выявить аномалии. Это может быть тема, не связанная с деятельностью сотрудника, документы из другой области или просто нетипичный набор материалов.

Дальше имеет смысл не просматривать все кластеры и теги подряд, а начинать с крайних точек: либо с редких тегов, либо с небольших кластеров, переходить к конкретным документам и принимать решение, требуют ли они внимания.

Важно, что модуль «Кластеризация данных» не навязывает свою интерпретацию. Он не сигнализирует, что документ является нарушением или инцидентом, а лишь показывает фактическую структуру массива и дает возможность быстро найти отклонения. Оценка остается за специалистом, но при этом объем ручной работы значительно сокращается за счет того, что система сама систематизирует данные и наглядно демонстрирует, что с ними происходит в реальности, не ограничиваясь субъективными факторами — ​словарями, политиками и правилами.

Подобных решений на рынке сейчас просто не существует, несмотря на то что кластеризация как технология не уникальна. Чаще всего объем кластеризуемых документов ограничивается лишь несколькими сотнями документов, так как известные алгоритмы кластеризации требуют большого объема оперативной памяти и мощного аппаратного обеспечения. При помощи модуля «Кластеризация данных» пользователь может систематизировать любой массив данных, не выдвигая высоких требований к аппаратному обеспечению, достаточно сервера средней стоимости.

 

Как это стало возможным и что под капотом?

Модуль «Кластеризация данных» позволяет «увидеть» все информационные активы компании в любом объеме благодаря нашей собственной технологии потоковой кластеризации, которая систематизирует данные постепенно, в потоковом режиме, по мере поступления и обработки документов без необходимости пересчитывать весь массив целиком. Это принципиальный момент: вместо глобального пересчета используется постепенное уточнение структуры через промежуточные кластеры. За счет этого вычисления распределяются во времени и не требуют большого потребления памяти в моменте. С помощью потоковой кластеризации документы индексируются и объединяются в группы с высокой скоростью и точностью при низком потреблении аппаратных ресурсов.

В одном из недавних кейсов процесс сканирования файлового хранилища занял пять часов, а процесс кластеризации всего массива данных завершился через 20 минут после загрузки последнего файла. Пока сканер собирал документы, модуль обрабатывал файлы в фоновом режиме, не требуя при этом большого объема оперативной памяти.

Уникальность технологии подтверждена патентом «Способ потоковой кластеризации данных» (патент №2844055). Кроме того, изобретение вошло в число победителей конкурса «Успешный патент», который проводит Федеральная служба по интеллектуальной собственности (Роспатент). Важно, что технология применима не только в информационной безопасности, но и в других сферах деятельности, где необходимо систематизировать большой объем текстовых документов, например для мониторинга соцмедиа, систематизации научных статей, исследования новостных трендов и так далее.

 

Борьба с ЛОСами — ​больше не миф

Модуль содержит фильтры, которые позволяют отсортировать документы по дате создания и просмотреть недавно созданные и неразмеченные политиками файлы, хранящиеся на рабочих станциях, чтобы отследить нетипичный, аномальный кластер. Это практически нереально сделать вручную: пришлось бы просматривать все документы и проверять их на соответствие созданным политикам. Модуль помогает разобраться с «серой зоной» и увидеть подводную часть айсберга, не учтенную в политиках, которая может составлять до 70% информационных активов. Это особенно актуально для организаций, чей конфиденциальный документооборот создается внешними контрагентами за пределами компании, а значит необходимо отслеживать не только данные, которые хранятся внутри, но и входящие потоки.

Показателен опыт заказчиков, когда задача заключалась в разборе 4000 документов, которые были скачаны на флешку, но не попали в поле зрения DLP-системы, так как не были покрыты политиками. Оценка ручного разбора составляла 30 дней, а с модулем «Кластеризация данных» на это ушло порядка полутора часов. В другом случае модуль использовался не для поиска нарушений, а для аудита файлового хранилища, чтобы собрать образцы документов и создать политики — ​задача, которую не могли решить долгое время из-за большого объема ручной работы.

 

Практические сценарии применения

1. Аудит рабочей станции или файлового хранилища, когда нет четкого понимания, что именно нужно найти. Система сразу выделяет группы документов и позволяет быстро выйти на отклонения.

2. Поиск заведомо нежелательного или нетипичного контента. Здесь пригодятся наиболее редкие слова в облаке тегов и небольшие группы на карте. Они позволяют быстро выйти на документы, которые не являются частью основной деятельности. Это могут быть документы из другой области или просто содержимое, которое требует отдельной проверки.

3. Подготовка к внедрению, обучению или настройке другой системы, например, DLP. На практике одна из самых трудоемких задач — ​собрать образцы документов, по которым можно будет в дальнейшем настроить политики и обучить систему. Когда исходный массив не структурирован, такая подготовка превращается в длительный ручной процесс. В этом случае модуль создаст готовые группы, из которых можно быстро выделить нужные типы документов и использовать их как основу для дальнейшей настройки DLP-системы.

Общий эффект во всех сценариях один и тот же — ​основное время уходит не на классификацию отдельных документов, а на их кластеризацию. Если эту часть работы делает система, дальнейшие действия становятся значительно быстрее и более осмысленными.

 

Особенности работы решения

  • Продукт не требует существенного дискового пространства, потому что использует данные Data Discovery, не дублируя их.
  • Продукт индексирует данные непрерывно в фоновом режиме по мере сканирования файлов. То есть к тому моменту, когда вы приступите к работе, данные уже будут проиндексированы.
  • Может разбирать не только текстовые файлы, но и PDF, сканированные копии, распознает мультиязычные документы.

 

В заключение

В текущих реалиях смотреть на данные через настройки и политики — ​это все равно, что наблюдать мир в замочную скважину. Как правило, политиками и правилами покрыто лишь около 30–40% информационных активов компании, так как это ресурсоемкий и дорогой процесс, все остальное — ​это та самая подводная часть айсберга, про которую ничего неизвестно, и о существовании которой зачастую никто даже не догадывается.

Переход от классификации к кластеризации данных, который мы предлагаем, позволяет увидеть абсолютно все данные, понять, что с ними происходит в реальности, разобрать «серую зону», систематизировать информационные потоки компаний, исчисляемые миллионами событий ежедневно, и таким образом снижать риски скрытых угроз и проводить расследование в десятки раз быстрее.

 

Реклама АО «ИНФОВОТЧ», ИНН: 7713515534, Erid: 2VfnxwKJU7L

Стать автором BIS Journal

Смотрите также

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

09.04.2026
Александр Пушкин («Перспективный мониторинг»): «Даже корректно настроенный WAF не способен полностью блокировать все атаки на веб-ресурс»
08.04.2026
Рынок говорит: Кибербез — обязательная часть цифрового бизнеса
08.04.2026
Кибербезопасность в строительстве и ЖКХ станет одной из ключевых тем на Форуме ГосСОПКА
08.04.2026
Платформа Venom Stealer поставила на поток непрерывную кражу данных
08.04.2026
На FINNEXT 2026 обсудили, как ИИ-агенты и экосистемы меняют финрынок
08.04.2026
От адаптации к изобретению: подведены итоги 3-й ежегодной Премии FINNEXT
07.04.2026
Безопасники выявили опасную уязвимость в ChatGPT
07.04.2026
Власти Камбоджи хотят искоренить киберпреступность и работорговлю
06.04.2026
ЦОД Oracle стал очередной целью ударов КСИР
03.04.2026
Proofpoint: Скамеры активизируются в налоговый сезон

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных