По сообщению BBC News, в 2015 году Интернетом пользовались 3,2 млрд. человек, то есть почти половина (45%) из семи миллиардов жителей Земли. Все они порождают колоссальные объемы данных (в виде посещений web-сайтов, переходов по страницам, лайков, твитов, фотографий, онлайновых транзакций и публикаций в блогах). А когда к «Интернету людей» добавится грядущий «Интернет вещей» (IoT), нас ждет взрывной рост объемов данных. Согласно прогнозу, Gartner, в 2016 году количество подключенных к Интернету устройств и вещей, от электрических лампочек и детских подгузников до автомобилей, вдвое превысит количество пользователей-людей и составит 6,4 миллиарда — на 30% больше, чем в 2015 году. А к 2020 году их будет уже более 20 миллиардов.

Компании всех размеров практически во всех отраслях пытаются совладать со стремительно растущими объемами данных. Чтобы справиться с проблемой, многие организации развертывают решения на базе Apache Hadoop — популярной программной среды с открытым исходным кодом для хранения и обработки огромных наборов данных. Однако приобретение, развертывание, конфигурирование и оптимизация кластера Hadoop собственными силами (do-it-yourself, DIY) для использования вместе с существующей инфраструктурой может оказаться значительно более сложной задачей, чем полагают многие организации - даже если у вас есть специалисты, способные взяться за такую работу.

Руководители компаний и ИТ-служб прекрасно понимают, что управление большими данными — это не только вопрос извлечения и хранения данных. Требуется также решать множество разнообразных проблем с конфиденциальностью и безопасностью. Недочеты в информационной безопасности могут не только нанести ущерб репутации (что в последние годы испытали на себе такие компании, как Sony и Target). Организации, не сумевшие защитить жизненный цикл своих больших данных, могут столкнуться и с санкциями со стороны регулирующих органов. В начале прошлого года Федеральная торговая комиссия США (FTC) опубликовала отчет об Интернете вещей, содержащий руководящие принципы защиты личной информации потребителей и обеспечения безопасности. В документе Careful Connections: Building Security in the Internet of Things , («Тщательно продуманные соединения: обеспечение безопасности в Интернете вещей») Федеральная торговая комиссия настоятельно рекомендует компаниям применять подход на базе рисков и следовать лучшим методикам, разработанным экспертами по вопросам безопасности, таким как использование сильного шифрования и надлежащей аутентификации.

Не призывая в своем отчете разрабатывать новые законопроекты (учитывая скорость внедрения инноваций в пространстве Интернета вещей), FTC отмечает, что и бизнес, и правоприменительные органы заинтересованы в том, чтобы IoT-решения соответствовали ожиданиям потребителей в отношении безопасности. Компаниям, обрабатывающим IoT-данные, отчет рекомендует применять ряд проверенных временем лучших методик, в том числе:

Встраивать безопасность в продукты и сервисы с самого начала проектирования, а не включать ее впоследствии.

Придерживаться принципа эшелонированной защиты, предусматривающего меры безопасности на нескольких уровнях.

Руководителей компаний и ИТ-служб, которые решат следовать рекомендациям FTC в отношении безопасности больших данных, с большой вероятностью ожидают трудности, в особенности при попытке интегрировать Hadoop с существующей ИТ-инфраструктурой. Главная проблема Hadoop заключается в том, что этот продукт не разрабатывался изначально с учетом требований к безопасности. Он создавался исключительно для решения задач хранения и быстрой обработки больших объемов распределенных данных, что приводит к следующим угрозам:

Hadoop своими руками (DIY). Кластеру Hadoop, развернутому собственными силами, свойственны риски, в особенности потому, что часто он разрабатывается без должных средств обеспечения безопасности, небольшой группой специалистов, в лабораторных условиях отдельно от производственной среды. В процессе развития кластера от небольшого проекта до корпоративной среды Hadoop каждый период роста — развертывание пакетов исправлений, настройка, контроль версий модулей Hadoop, библиотеки ОС, утилиты, управление пользователями и т.д. — становится все более сложным и трудоемким.

Неавторизованный доступ. В основе Hadoop лежит принцип «демократизации данных» (все данные доступны для всех пользователей кластера), что приводит к сложностям соблюдения ряда нормативных требований, таких как закон о преемственности и подотчетности медицинского страхования (Health Insurance Portability and Accountability Act, HIPAA) и стандарт безопасности данных индустрии платежных карт (Payment Card Industry Data Security Standard, PCI DSS). Это связано с отсутствием средств управления доступом к данным, в том числе средств управления паролями, авторизации для доступа к файлам и базам данных и проведения аудита.

Происхождение данных. При использовании среды Hadoop с открытым исходным кодом сложно определить происхождение конкретного набора данных и источники данных для него. В результате критически важные бизнес-решения могут основываться на анализе подозрительных или сомнительных данных.

Вдвое быстрее, чем самодельная среда DIY Hadoop

В своем докладе на конференции Oracle OpenWorld 2015 гендиректор Intel Брайан Кржанич рассказал о совместной работе Intel и Oracle по созданию высокопроизводительных центров обработки данных с использованием Oracle Big Data Appliance — готового интегрированного и оптимизированного комплекса на базе процессоров семейства Intel Xeon. В частности, он сообщил о недавнем тестировании производительности, проведенном специалистами Intel. По результатам этого тестирования решение Oracle Big Data Appliance с минимальной настройкой продемонстрировало вдвое большую производительность, чем сопоставимый кластер, развернутый собственными силами на сопоставимом оборудовании.

Этот комплекс не только имеет более высокую производительность, но и разработан с учетом корпоративных требований к безопасности. Oracle Big Data Appliance автоматизирует действия, необходимые для развертывания защищенного кластера, — включая такие сложные задачи, как настройка аутентификации, авторизация доступа к данным, шифрование и аудит. Это существенно сокращает затраты времени на настройку и сопровождение защищенной инфраструктуры.

Самостоятельное (do-it-yourself, DYI) развертывание кластеров Apache Hadoop привлекает многих руководителей компаний и ИТ-служб кажущейся экономией затрат за счет использования массового оборудования и бесплатного программного обеспечения. Однако, как отмечено выше, несмотря на первоначальную экономию кластер Hadoop, созданный собственными силами, не всегда является оптимальным вариантом для организаций, которым нужно корпоративное решение для работы с большими данными, - с точки зрения как безопасности, так и производительности.

2 сентября, 2016

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

06.02.2026
ФБР надеется усилить кибербезопасность, выставив «Зимний щит»
06.02.2026
Мессенджер imo занял место заблокированного «Вайбера»
06.02.2026
Банк России сопроводит спорные операции подробностями
06.02.2026
Внедряя ИИ, CISO отстают от «победных реляций»
05.02.2026
Приложение Visit Russia пополнится новым функционалом
05.02.2026
В «Вышке» появился ИБ-департамент
05.02.2026
Присутствие эмодзи в коде PureRAT выявило роль ИИ в создании зловреда
05.02.2026
Газетчики не готовы давать ИИ-вендорам бесплатный «корм» для LLM
05.02.2026
Servicepipe внедрила расширенный фингерпринтинг в Cybert
04.02.2026
CISA подготовило список решений в области постквантовой криптографии

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных