O czym należy pomyśleć, rozważając zastosowanie Big Data do zarządzania danymi?

Od czasu, gdy został publicznie wprowadzony w 2008 r. przez redaktorów Nature Publishing Group[1], termin „Big Data” stał się modnym słowem w branży IT. Chociaż technologia ta nadal pozostaje ukryta w cieniu większych problemów, z którymi specjaliści muszą zmagać się każdego dnia[2], rozmachu nabrało szeroko rozpowszechnione podejście do obsługi ogromnych ilości danych, określane mianem Hadoop. Chociaż większość specjalistów IT koncentruje się na takich kwestiach jak operacje, dostępność czy implementacja, niewielu zastanawia się nad związanymi z nimi zagrożeniami bezpieczeństwa[3]. Poniżej przedstawię kilka kwestii, które warto wziąć pod rozwagę.

Potrzeba rozwiązań Big Data wyniknęła z uświadomienia sobie konieczności obsługi ogromnych ilości informacji, które są uzyskiwane z różnych źródeł, w różnym tempie i różnych formatach. Wyobraźmy sobie na przykład dużą międzynarodową firmę o rozproszonych obiektach produkcyjnych, działach marketingu, sprzedaży oraz badań i rozwoju. Każdy dział generuje codziennie dziesiątki raportów, korporacyjne centra danych są zalewane tonami dokumentacji technicznej, dokumentów specyfikujących zamówienia itp. Dzięki rygorystycznym regułom kategoryzacji oraz dobrym umiejętnościom zarządzania wszystko jest posegregowane w każdym dziale, jednak zyskanie szerszego oglądu w tym ustrukturyzowanym bałaganie stanowi spore wyzwanie.

Z drugiej strony, czy jest to naprawdę potrzebne? Aby odpowiedzieć na to pytanie, trzeba wziąć pod uwagę skalę przedsiębiorstwa oraz głębię wiedzy na temat przebiegających równolegle procesów biznesowych. W przypadku firm, które pracują z tysiącami węzłów i milionami dokumentów, próba zwiększenia efektywności nawet o kilka procent, biorąc pod uwagę skalę działania, z pewnością może być warta zachodu.

Nie wolno jednak zapominać, że Hadoop jest platformą typu open-source, która została stworzona i rozwinięta przez firmy internetowe, takie jak Google i Yahoo, w celu uproszczenia obliczania rankingu zindeksowanych stron. Technologia ta powstała z niewielkim lub nawet bez żadnego uwzględnienia kwestii bezpieczeństwa.

Przykładem może być wykorzystanie uniksowego systemu uwierzytelniania w celu określania, którzy użytkownicy dostarczają zadania do węzłów nazw (ang. name nodes), lub umożliwienie pobierania bloków danych z węzłów danych za pośrednictwem niezabezpieczonego połączenia HTTP. Te bloki danych są rozdzielane pomiędzy dyski fizyczne przez rozproszony system plików, jednak złożenie ich nie jest szczególnie trudnym zadaniem, zwłaszcza biorąc pod uwagę powszechną dostępność dokumentów technicznych i projektów referencyjnych, w tym również dla cyberprzestępców, która miała na celu wspomóc rozpowszechnienie tej technologii.

Ponieważ przechowywanie danych to jeden z najbardziej podatnych na błędy elementów dużych ekosystemów danych, wymaga on stosowania rozwiązań do ochrony danych, takich jak Kaspersky Security for Storage, które skanuje przechowywane pliki w celu wykrycia szkodliwego oprogramowania. Bez takiego rozwiązania cały wysiłek skierowany na uzyskanie dodatkowej wiedzy w celu zdobycia przez firmę przewagi konkurencyjnej trafi na przeszkody, a nawet pójdzie na marne.

Autor:

Dmitrij Aleszin

Szef działu ochrony punktów końcowych, wicedyrektor techniczny

Kaspersky Lab

 


[1] Artykuł redakcyjny NPG - http://www.nature.com/news/specials/bigdata/index.html

[2] 2014 10 Technology Trends for Business, PricewaterhouseCoopers - http://www.pwc.com/us/en/advisory/10-business-technology-trends.jhtml

[3] IT Security Risks Survey 2014: A business approach to managing data security threats, Kaspersky Lab, B2B International - http://media.kaspersky.com/en/IT_Security_Risks_Survey_2014_Global_report.pdf

Źródło: Kaspersky Lab