Technologia dla CEO: Big Data

Firmy przetwarzają dane liczone w setkach terabajtów, ale Big Data dotyczy szczególnych przypadków.

Klasycznym źródłem danych do analizy są informacje pozyskane z firmowych systemów transakcyjnych. Drugim co do popularności strumieniem informacji, często wykorzystywanym w przemyśle, są informacje z czujników różnych wielkości fizycznych. Dane pomagają w utrzymaniu procesów technologicznych, ale po połączeniu z informacjami z innych źródeł mogą posłużyć do zaawansowanych analiz. Dane te mogą zawierać informacje o warunkach pogodowych, o pracy linii technologicznych, a zatem przydają się nie tylko do analizy kosztów, ale także do prognoz sprzedaży.

Nowym źródłem danych są informacje pochodzące z sieci społecznościowych. Są one trudne w analizie, gdyż rzadko zawierają konkretne wartości liczbowe, ale można je analizować pod kątem obecności słów kluczowych, częstości wpisów, pojawiania się wpisów związanych z różnymi tematami, konotacji negatywnej lub pozytywnej, a także czasu reakcji na działania w internecie.

Zobacz również:

To, czego nie widać

Analizy danych przeprowadzane w klasyczny sposób mają na celu ocenę kosztów produkcji, charakterystyki produktu lub rynku. Rzadko analizowano obecność luk w portfolio firmy. Takich informacji nie ma w systemach ERP ani w danych o sprzedaży. Tymczasem zestawienie informacji pochodzących z sieci społecznościowych i analiza ruchu internetowego umożliwiają wykrycie obszarów, których obecne portfolio firmy nie pokrywa. Można w ten sposób określić wskazówki rozwoju serwisu webowego, znajdując silne i słabe miejsca.

Cztery cechy Big Data

Dużo informacji

Podstawową cechą Big Data jest duża objętość składowanej i przetwarzanej informacji. Granicą jest zazwyczaj 100 terabajtów, zbiory często liczone są w petabajtach, ale sama wielkość niezbędnej przestrzeni dyskowej nie jest główną cechą charakteryzującą Big Data. Do tej kategorii nie możemy zaliczyć prostego cyfrowego archiwum filmowego, które składuje petabajty danych, jednak nie przeprowadza na nich żadnych zaawansowanych operacji, poza katalogowaniem, umieszczaniem i odtwarzaniem zasobów.

Zmienność i szybkość dostaw danych

Składowane informacje w firmach charakteryzują się istotną cechą: większość z nich zmienia się powoli. W przypadku baz transakcyjnych obsługujących systemy ERP gros danych nie ulega zmianie, dopisywane są tylko nowe rekordy związane z powstałymi dokumentami i aktualizowane są inne zapisy. Na przykład dane z zamkniętych miesięcy lub poprzedniego roku finansowego pozostają niezmienne. W hurtowni danych zasilanie danymi odbywa się strumieniami, liczba informacji może być znaczna, ale nadal nie jest to ciągły ruch, który wymagałby użycia specjalnych narzędzi.

Różne źródła danych

Organizacje mogą pobierać dane z różnych źródeł. Zazwyczaj wyróżnia się dane strukturalne pochodzące m.in. z systemów transakcyjnych, ale zasoby Big Data są zasilane także strumieniami danych pochodzącymi z serwisów webowych, sieci społecznościowych, skanerów RFID i z sensorów przekładających wartości fizyczne na sygnał elektroniczny. Dane te są niestrukturalne, charakteryzują się nadmiarem informacji w każdym rekordzie, szerokim strumieniem dostarczanych rekordów i są zależne od formatu źródła, z którego pochodzą. Aby mogły być przystosowane do analizy w typowych rozwiązaniach analitycznych, muszą być przetworzone.

Potencjalna wartość dla organizacji

Zebrane dane same w sobie nie umożliwiają natychmiastowej sprawnej analizy. Gdy jednak dokona się operacji, które polegają na wyłowieniu rekordów odpowiadających poszukiwanej zależności, ich wartość wzrasta. Jeśli firma świadcząca usługi online tak przetworzy zapisy aktywności aplikacji, może określić, w jaki sposób klienci korzystają z aplikacji, dlaczego niektóre produkty się nie sprzedają, jak zmiany w strukturze aplikacji wpływają na działania klientów i sprzedaż. Takich informacji nie da się pozyskać z systemów z danymi strukturalnymi, gdyż nie ma w nich informacji niezbędnych do wiarygodnej analizy. Dopiero informacja pochodząca z różnych źródeł będzie mieć istotną wartość.

NA PODSTAWIE TEKSTU MARCINA MARCINIAKA, COMPUTERWORLD, 24/04/2012