Одним из ключевых аспектов обеспечения надёжности и эффективности является наблюдаемость системы. Рассмотрим эту тему на примере NGFW.
«Видимость — это непосредственное наблюдение отдельных явлений, в то время как реальность — это система результатов наблюдений, связанных между собой». Г. Галилей
Определение наблюдательности системы
Термин «наблюдаемость» встречается в различных научных дисциплинах, таких как философия, математика, физика, химия, биология и теория управления. Он связан с состоянием системы, которое можно оценить с помощью прямых или косвенных методов. Прямой метод исследования предполагает непосредственное наблюдение или измерение объекта. Косвенный метод предполагает получение информации через промежуточные источники или интерпретацию без прямого доступа к объекту изучения. Например, прямой метод — когда мы самостоятельно следим за системой и знаем её состояние, а косвенный — когда пользователи системы сообщают нам о проблеме.
Наблюдаемость — это свойство, которое описывает состояние системы и включает в себя:
- мониторинг — постоянное наблюдение за состоянием системы;
- метрики — количественные показатели для оценки состояния системы;
- трассировка — установка причинно-следственных связей.
Повышение наблюдаемости переводит состояние системы из чёрного ящика в белый ящик, то есть процессы, происходящие в системе, становятся более открытыми и предсказуемыми (рис.).
Согласно теории управления, можно контролировать только ту систему, которая поддаётся наблюдению. Если работа системы не соответствует нашим ожиданиям, то благодаря наблюдаемости мы можем выявить проблему и возможную причину её появления.
Значение наблюдаемости в NGFW
NGFW, помимо функций безопасности и защиты периметра, также обеспечивает сетевые функции, поэтому любые сбои или замедления в его работе могут негативно сказаться на бизнес-процессах организации.
При настройке и эксплуатации NGFW могут встречаться следующие проблемы:
- проблемы в каналах связи (повреждения кабеля, ошибки автосогласования, ухудшение характеристик оптических линий связи, недоступность шлюза, ухудшение пропускной способности каналов связи);
- неточности в настройке сетевых функций (IP-адресация, таблица маршрутизации и пр.);
- проблемы в интеграции с внешними системами (динамическая маршрутизация, построение туннелей, доступность DNS, доступность каталога с пользователями и пр.);
- не оптимизированные и избыточные настройки межсетевого экрана, а также средств контроля и анализа сетевого трафика, которые могут приводить к ложным срабатываниям, а также негативно влиять на производительность NGFW;
- отсутствие данных о текущей загрузке NGFW и запаса его производительности;
- отсутствие информации о влиянии настроек компонентов анализа сетевого трафика и количества активных сигнатур на производительность NGFW;
- отсутствие информации о синхронизации между устройствами кластера NGFW, а также возможности быстрого переключения на резервный в случае отказа основного;
- неизвестность фактического состояния оборудования и вероятности его отказа;
- отсутствие независимого хранения актуальных бэкапов конфигурации NGFW;
- избыточное журналирование событий, которое может приводить к увеличению нагрузки на диск и, как следствие, влиять на работу всей системы;
- неверно настроенное время хранения журналов и их ротации может привести к уменьшению времени хранения записей или же к переполнению диска;
- нехватка информации о состоянии системы затрудняет поиск и устранение проблемы, поэтому её решение занимает больше времени;
- отсутствие уведомлений администратора о возможных сбоях, аномалиях или атаках может приводить к увеличению времени реакции на инцидент;
- сложность отслеживания причины и следствий, из-за чего процесс настройки становится итеративным. На каждом этапе настройки необходимо производить оценку его влияния на систему.
Поскольку NGFW представляет собой сложную систему из множества компонентов, свойства которых могут повлиять на функционирование NGFW, параметры наблюдаемости можно разделить на следующие группы:
- функционирование компонентов NGFW;
- настройка компонентов NGFW;
- оценка состояния отказоустойчивости NGFW;
- наличие обновлений для компонентов NGFW;
- нагрузка на аппаратные компоненты (CPU, ОЗУ, ПЗУ, сетевых адаптеров, температура);
- заполнение жёсткого диска;
- контроль системы питания (резервирование, состояние ИБП);
- переполнение очереди обработки сетевых пакетов в компонентах NGFW;
- данные о сетевом трафике с разным уровнем детализации;
- состояние аппаратных компонентов системы (наработка на отказ, эффективность работы системы охлаждения и пр.);
- состояние сетевой коммутации и интеграция с внешними системами.
Чем больше параметров мы можем контролировать, тем выше у нас наблюдаемость. При высокой наблюдаемости мы можем добиться следующих результатов:
- упростить управление системой можно с помощью отслеживания её функционирования после обновлений или изменений в настройках, которые могут ухудшить работу системы;
- улучшить понимать внутреннего состояния системы и её компонентов, что позволит более эффективно осуществлять управление;
- быстро обнаруживать и устранять проблемы, что позволит минимизировать простой в бизнес-процессах;
- выявлять проблемы и их причины, что позволяет предотвращать их возникновение в будущем и обеспечить стабильную работу системы, повысить её надёжность и эффективность;
- выявлять потенциальные проблемы до того, как они становятся критическими;
- предоставлять производителю NGFW более подробную информацию о выявленной проблеме и увеличивать скорость реакции технической поддержки;
- выявлять узкие места в функционировании системы;
- предсказывать поведение системы в различных ситуациях;
- оптимизировать настройки; имея полную картину работы системы, можно легко определить, какие настройки нуждаются в оптимизации;
- выполнять оценку загрузки оборудования, что позволяет определить, насколько эффективно используется существующее оборудование;
- выполнять оценку запаса по производительности, что помогает понять, какой объём работы может выполнить система без снижения качества обслуживания пользователей; это особенно важно при планировании расширения бизнеса или внедрении новых функций, когда необходимо обеспечить достаточную производительность системы для удовлетворения растущих потребностей;
- выявлять подозрительную активность и предотвращать атаки;
- выявлять аномалии в функционировании системы в нештатных режимах работы — это важный этап в обеспечении надёжности и стабильности информационных систем, поскольку аномалии могут проявляться в виде неожиданных ошибок, сбоев, замедления работы системы или других проблем. Они могут быть вызваны различными факторами, такими как неправильная настройка, ошибки в программном обеспечении, проблемы с оборудованием и пр.;
- упрощение процесса оценки соответствия системы требованиям нормативных документов, что позволяет быстрее и эффективнее проводить проверку на соответствие законодательным и отраслевым стандартам; это особенно важно для организаций, которые должны соблюдать строгие правила и нормы в своей деятельности;
- автоматизация процессов диагностики и предупреждения отказов позволяет высвободить человеческие ресурсы; это даёт возможность сотрудникам сосредоточиться на более сложных и творческих задачах.
Сложности, связанные с наблюдаемостью
При выборе критериев наблюдаемости необходимо отталкиваться от специфики объекта, определить важные параметры и соблюсти баланс между их количеством и необходимостью. Эти параметры напрямую связаны с требованиями к объекту, где функционирует NGFW. Избыточное количество контролируемых параметров усложнит их хранение и работу с ними, а недостаточное — снизит наблюдаемость системы.
Реализация наблюдаемости в NGFW может быть сложной задачей, которая требует тщательного планирования и выполнения. Вот некоторые из проблем, с которыми можно столкнуться при внедрении наблюдаемости.
- Выбор метрик. Необходимо определить, какие именно метрики будут использоваться для наблюдения за системой.
- Сложность найти минимальный набор данных, который необходим для обеспечения достаточной наблюдаемости. Такой набор может оказаться достаточно большим, что приведёт к усложнению системы мониторинга.
- Проблема полноты: недостаточно данных о функционировании системы из-за их отсутствия или невозможности их собрать.
- Проблема актуальности: данные могут быть устаревшими, например, получены от старой версии до обновления.
- Проблема валидации: данные могут описывать неактуальное состояние системы, например, при другой конфигурации.
- Сложность анализа, которая может быть связана с большим объёмом данных.
- Сложность анализа, которая может быть связана с неопределённостью и вероятностными характеристиками измеряемых величин, например, сетевой трафик может меняться в широком диапазоне.
- Сложность анализа, которая может быть связана с высокой степенью связанности между данными, полученными от разных компонентов NGFW. Например, замедление пропускной способности может быть связано с троттлингом процессора (уменьшением частоты), вызванным повышением его температуры из-за увеличения нагрузки на процессор, которую создал компонент NGFW после обновления базы сигнатур, а также по причине неэффективной системы охлаждения.
- Сложность в определении причины возникновения проблемы, которая заключается в необходимости проведения детального анализа большого количества данных и выявить взаимосвязи между ними.
- Часть параметров невозможно измерить без вывода NGFW из эксплуатации. К таким параметрам относится, например, износ оборудования.
- Для эффективного мониторинга и анализа работы системы необходимо разбираться в архитектуре системы.
Развитие наблюдаемости NGFW
В развитии наблюдаемости NGFW можно выделить несколько ключевых направлений:
- определение минимального необходимого набора ключевых параметров, которые позволяют оценить состояние системы;
- унификация формата данных, передаваемых в систему мониторинга, что позволяет упростить их обработку и анализ;
- разработка типовых методик для проверки функционирования, диагностики, измерения производительности и безопасности NGFW;
- расширение возможностей мониторинга NGFW с учётом бизнес-процессов, которое обеспечит связывание функционирование NGFW и показателей бизнес-процесса;
- использование искусственного интеллекта (AI) и машинного обучения (ML) для выявления аномалий и предсказывания потенциальных проблем, что повысит надёжность функционирования NGFW;
- автоматизация процессов диагностики и предупреждения отказов, возникающих в NGFW.
Одним из направлений развития наблюдаемости может стать не только отслеживание текущего состояния системы, но и прогнозирование будущих проблем. Это позволит автоматизировать процессы обнаружения и устранения неполадок, а также интегрировать наблюдаемость во все аспекты IT-инфраструктуры и бизнес-процессов.
Заключение
Наблюдаемость играет важную роль в обеспечении эффективной работы NGFW. Несмотря на сложности, связанные с её реализацией, она позволяет администраторам оперативно реагировать на инциденты безопасности, оптимизировать настройки NGFW, следить за его функционированием, повышать надёжность, а также упрощать проверку соответствия настроек NGFW требованиям нормативных документов.