Co CIO powinien wiedzieć o Big Data

Przedsiębiorstwa muszą coraz lepiej analizować duże wolumeny danych, aby utrzymać konkurencyjność i dobre relacje z klientami. Jaką wiedzę na temat big data powinien posiadać dyrektor IT?

1. Nawet mała firma może mieć mnóstwo danych. "Mały fundusz hedgingowy posiada terabajty danych" - mówi Jo Maitland z GigaOm. W najbliższych latach, w wielu branżach, w tym ochronie zdrowia, sektorze publicznym, handlu detalicznym i produkcji, będą wreszcie widoczne korzyści finansowe z lepszego analizowania danych - przewidują autorzy niedawno opublikowanego raportu McKinsey’a.

"Hadoop będzie się upowszechniał" - stwierdził Eric Baldeschwieler, CTO w Hortonworks, firmie wywodzącej się z Yahoo. Mogą go używać różnorodni klienci. Gromadzenie i analizowanie danych transakcyjnych da organizacjom lepszy wgląd w preferencje ich klientów. Może być użyte do lepszego informowania o nowych produktach i usługach, pozwoli organizacjom reagować szybciej na powstające problemy.

Zobacz również:



2. Użyteczne dane mogą pochodzić z jakiegokolwiek miejsca. Możesz myśleć, że nie masz jeszcze petabajtów danych, które są warte analizowania, ale wkrótce zmienisz zdanie. "Big data to zebrane dane, które do tej pory były tracone" - uważa Baldeschwieler.

Big data to mogą być np. pliki z logami z serwera. Serwer przechowuje ślad każdego, kto odwiedza serwis, historię stron, które przegląda . Śledzenie tych danych może zaoferować wgląd w to, czego szukają klienci. Oczywiście analizowanie logów nie jest niczym nowym, ale dzięki nowym platformom analitycznym może być wykonywane sprawniej.

Kolejnym źródłem danych będą sensor data. Od lat analitycy mówią o Internet of Things (internecie rzeczy), w którym przedmioty użytkowe posiadają oparte na technologii RFID sensory połączone z internetem i przesyłają dane o swoim użyciu. Dane mogą pochodzić z samochodów, ubrań czy automatów z napojami. "Prawdziwa wartość związana z tymi urządzeniami to możliwość gromadzenia danych, analizowania informacji i wyciągania z nich korzyści biznesowych" - uważa Kevin Dallas, dyrektor Microsoft Windows Embedded.

3. Potrzebne będą nowe umiejętności związane z big dataPrzy wprowadzaniu systemu analizowania big data, największą przeszkodą będzie znalezienie utalentowanego pracownika, który potrafi pracować z narzędziami do analizowania danych - twierdzi analityk Forrester Research, James Kobielus.

Big data polega na modelowaniu twardych danych. "Organizacje będą musiały skoncentrować się na wiedzy na temat danych" - uważa Kobielus. Muszą zatrudnić osoby tworzące modele statystyczne, profesjonalistów analizujących teksty i zachowania klientów. To mogą nie być te same umiejętności, które posiadają dzisiejsi analitycy, korzystający z narzędzi klasy business intelligence.

Takich osób może brakować na rynku pracy. Do 2018 roku w USA może brakować od 140 tys. do 190 tys. ludzi, którzy posiadają umiejętności analityczne, podobnie jak 1,5 mln menedżerów i analityków, którzy potrafią korzystać z analiz big data aby podejmować dobre decyzje - szacują eksperci McKinsey’a.

Kolejną przydatną umiejętnością jest możliwość zorganizowania dużych ilości sprzętu potrzebnego do przechowywania danych. Zarządzanie 100 serwerami jest z gruntu innym problemem niż 10 serwerami - podkreśla Maitland. Możliwe, że konieczne będzie zatrudnienie dodatkowych administratorów kilku superkomputerów.

4. Big Data nie wymaga wcześniejszego planowaniaCIO, którzy są przyzwyczajeni do rygorystycznego planowania przepływów wszelkich danych, które dostaną się do korporacyjnej hurtowni danych, mogą odetchnąć z ulgą w związku z zarządzaniem big data. Tu obowiązuje zasada: najpierw zebrać dane, a później martwić się o to, w jaki sposób je wykorzystać w przyszłości.

W przypadku hurtowni danych najpierw trzeba wyznaczyć schematy zarzadzania danymi. "To oznacza w skrócie, że z góry trzeba wiedzieć, czego się szuka" - mówi Jack Norris, wiceprezes marketingu w MapR. W rezultacie "spłaszcza się dane i traci granulację. Później, jeśli zmieni się decyzję, albo chce się przeprowadzić historyczne analizy, napotyka się na ograniczenia" - wyjaśnia.

"Można użyć repozytorium Big data jako podłoża i przeprowadzić analizy, a następnie sprawdzić relacje" - mówi Norris. Wiele organizacji może nie wiedzieć, czego szuka w swoich danych, a nowe podejście daje im w tym względzie wolność.

5. Big Data to nie tylko HadoopGdy mówi się o big data, w większości przypadków ludzie odnoszą się do platform analizy danych Hadoop. “Hadoop to interesująca inicjatywa, z budżetami i ludźmi z wielu organizacji" - podkreśla Kobielus. Jednak można korzystać także z innego oprogramowania.

Niedawno gigant w branży badań prawniczych, LexusNexus, który sam dobrze sobie radzi z analizowaniem dużych wolumenów danych, wykorzystał model open source w swojej własnej platformie analitycznej, HPCC Systems. MarkLogic także dostosował swoją bazę danych dla nieustrukturyzowanych danych, MarkLogic server. Kolejnym narzędziem, które staje się popularne jest Splunk, który może być używany do wyszukiwania i analizowania danych generowanych przez maszyny (np. pliki z logami serwera).