Big Data: 4W zamiast 4V

Świadome Big Data opisuje model alternatywny albo rozwojowy wobec powszechnie znanego „4V”. To recepta na zachowanie zdrowego rozsądku i pragmatyczne podejście do zagadnienia.

Ileż to takich „wielkich”, gwarantowanych jako przyszłościowe, haseł przeżywał świat IT w przeszłości? Wszyscy pamiętamy medialny zamęt związany z problemem pluskwy milenijnej 2000 r. A różnego rodzaju pojęcia z prefiksem „e-”? Dziś nie wyobrażamy już sobie języka bez słów typu: e-business, e-banking, e-learning, e-marketing, itp. A Cloud Computing (przetwarzanie w chmurze)? Można by rzec, że z dużej chmury, mały deszcz. Niektóre hasła się przyjmują, inne nie. Na czym polega ten fenomen? I czy warto dziś bezkrytycznie iść w kierunku innowacyjnych pojęć? A jeśli tak, to kiedy zachować umiar i zdrowy rozsądek, a kiedy dać się ponieść euforii nowego pojęcia?

Poszukajmy odpowiedzi na przykładzie tytułowego hasła. Zgodnie z definicją Gartnera termin Big Data określany jest jako tzw. model 4V. Na czym on polega?

Zobacz również:



BIG DATA = 4V

Volume – duża ilość danych;

Velocity – duża zmienność danych;

Variety – duża różnorodność danych;

Value – istotna wartość danych.

No i co? Niby żaden hit. Wszystko już było. Ale czy na pewno? Może nie chodzi tylko o skalę zastosowania i użycie powszechnie dostępnych zewnętrznych zasobów informacyjnych, takich jak internet czy sieci społecznościowe? Może faktycznie to działa w łatwy sposób? Dziś przetwarzanie zorientowanych biznesowo terabajtów czy nawet petabajtów danych bez konieczności ich dużego modelowania może być już bardzo szybkie (przetwarzanie in-memory), a i cena terabajta przestrzeni dyskowej jest przystępna nawet dla niżej sytuowanych śmiertelników.

Spróbuję zaproponować alternatywną, zdroworozsądkową definicję: model 4W. Postawię następującą tezę:

Świadome Big Data = 4W

Własne dane – wykorzystaj najpierw wewnętrzne zasoby danych.

Wnioskowanie – umiejętnie stosuj techniki analityczne, korzystaj z pomocy ekspertów.

Wzbogacanie – uzupełniaj własne dane informacjami z rynku, używaj słowników i baz referencyjnych.

Weryfikacja – koniecznie weryfikuj hipotezy i wnioski.

To wszystko. Tylko tyle i aż tyle. Świat już kupił pojęcie Big Data. Wydaje się, że nie ma przed tym ucieczki. Co więcej, po krótkim zastanowieniu się każda organizacja dostrzeże potencjał w wykorzystaniu ogromnych zasobów informacyjnych, jakie są produkowane w każdej sekundzie na świecie.

Zapewne wkrótce powstanie wiele firm, które będą zajmowały się tylko tego typu zagadnieniami. I narzędzi, które udźwigną ciężar niepogubienia się w tej wielowymiarowej przestrzeni nieustrukturyzowanych danych. Tak aby z tego szumu informacyjnego wydobywać konkretną wiedzę, stanowiącą o istotnej przewadze konkurencyjnej. To już wcale nie jest mrzonka jakiegoś informatycznego guru, któremu nikt nie wierzy.

Ja też ten potencjał dostrzegam. Z haseł, jakie powstały w ostatnim dziesięcioleciu, w to akurat warto świadomie zainwestować. Ostrzegam tylko przed hurraoptymizmem i ślepym zachłystywaniem się samym pojęciem i modą. Dlatego też moja firma świadomie podejmuje decyzje i tam, gdzie widzimy sens wykorzystania danych zewnętrznych, czynimy takie próby. Pewnie łatwiej wyobrazić to sobie w ubezpieczeniach, np. jako wsparcie w wykrywaniu nadużyć i grup przestępczych, niż jako trwałe i jednoznaczne modelowanie z użyciem zaawansowanej analityki, m.in. w kampaniach CRM. Bo do tego trzeba mieć możliwość zastosowania elastycznej oferty, wielowymiarowej oceny ryzyka i underwrittingu czy szybkiej zmiany taryf. A to już zadanie z tych z kategorii „BIG”.

Dozwolone od lat…
Szymon Augustyniak: Czy każdy może – niezależnie od skali biznesu i dojrzałości w zarządzaniu informacją – sięgać po Big Data?

Marek Wilczewski: Rozwiązania Big Data to tzw. hasło-wytrych. Wcale nie trzeba być organizacją z kategorii „big”, aby stosować w praktyce tego typu rozwiązania. Oczywiście, duże organizacje przede wszystkim mogą wykorzystywać swoje własne dane do wspierania procesów decyzyjnych i monitoringu działalności. Patrząc zaś przyszłościowo, już dziś można próbować wykorzystywać ogromne zasoby informacji powszechnie dostępnej (np. dane zewnętrzne z internetu, słowniki czy bazy referencyjne). Ale tak naprawdę trzeba mieć pomysł, do czego daną informację chcemy użyć i jaki zwrot zostanie osiągnięty z zaangażowania środków w jej pozyskanie i interpretację. I tu nie wystarczy już wykorzystanie samej technologii, która jest powszechnie dostępna. Trzeba umieć przetworzyć i zinterpretować te dane, aby powstała konkretna wiedza na użytek biznesowy. A do tego zwykle potrzeba aparatu analitycznego – narzędzi i przede wszystkim ludzi ze znajomością zagadnień zaawansowanej analityki (tzw. data scientists). I to tak naprawdę kategoryzuje, która organizacja jest w stanie świadomie i właściwie skorzystać z tych ogromnych zasobów.

Czy należy raczej postulować dojrzewanie do tego poprzez naukę przetwarzania w informację własnych danych, budowanie efektywnego modelu zarządzania informacją? Jeśli tak, to dlaczego? Czy taka ścieżka dotyczy i małych, i dużych?

Żadna dziedzina z naszego otoczenia nie lubi chaosu. Podobnie, aby właściwie zarządzać informacją w organizacji, należy w pierwszej kolejności zadbać o standardy ewidencji oraz zdefiniować, jakie dane i po co chcemy zbierać. Dopiero mając tak nakreśloną wizję oraz dbając na co dzień o odpowiednią jakość informacji, możemy pójść krok dalej. Zdefiniowanie odpowiedzialnych za pozyskiwanie informacji na każdym z jej etapów oraz wypracowanie standardów mówi o świadomości i dojrzałości organizacji w tym zakresie. To tzw. Data Governance. Tego nie da się szybko wdrożyć, kupując gotowe rozwiązania. To proces ciągły zmiany kultury danej firmy, tak aby wszystkie szczeble organizacyjne były świadome wartości i możliwości posiłkowania się informacją w swoich codziennych zagadnieniach biznesowych. I chciały z tej szansy skorzystać.

Podobne podejście można zastosować przy zakresach przetwarzanej informacji. W pierwszej kolejności powinniśmy umieć właściwie interpretować i wykorzystywać swoje własne zasoby danych, a dopiero później sięgać po dane zewnętrzne jako uzupełnienie wiedzy. Tylko takie sekwencyjne i iteracyjne podejście pozwoli uniknąć chaosu i niepotrzebnego szumu informacyjnego. A przede wszystkim zwiększy wiarygodność działań, w których informacja jest jednym podstawowych elementów.

Idąc za ciosem: czy budować (integrować) kompetencje do zarządzania informacją wewnątrz firmy, czy sięgać po wspomniane firmy z nowej niszy, które będą się tym zajmować?

Posiadanie własnych danych, możliwość ich interpretacji oraz użycia w procesach biznesowych i przy podejmowaniu decyzji to istotny kapitał każdej organizacji oraz element przewagi konkurencyjnej. Już chociażby z tego tytułu know-how, jak to skutecznie czynić i co wynika z interpretacji informacji, powinien być zdecydowanie wewnętrzny. Powołanie sprawnego zespołu do wdrażania standardów informacyjnych, koordynowania procesów Data Governance czy budowy i rozwoju narzędzi analitycznych Business Intelligence gwarantuje skuteczność, gdyż jest działaniem świadomym i przemyślanym.

5W? Wycenianie nakładów na wyprodukowanie informacji z danych do jej wartości? Albo szerzej – budowanie metodyki pozwalającej w różnych aspektach wyceniać wartość netto uzyskanej informacji? To nawiązanie do jednego z „V” Gartnera, ale odnoszone do realiów każdej organizacji: „jeśli inwestować w zarządzanie informacją, to czy mam narzędzia do badania Return on Information”.

Informacja przede wszystkim kosztuje. I to od momentu jej pozyskania, poprzez przetwarzanie, aż po udostępnianie. Należy zadbać o cały proces „end-to-end”, właściwie go zdefiniować i umieć wyceniać. Mając standardy, oprócz samego uporządkowania, łatwiej zarządzać danymi i komunikować wiedzę o nich w organizacji. Dlatego za każdym razem, zanim zaczniemy myśleć o rozszerzeniu swoich zasobów informacyjnych, należy pamiętać przede wszystkim o względach ekonomicznych. A to jest możliwe, jeśli policzymy sobie odpowiedni business case danej inicjatywy. Mając doświadczenie i wypracowując przez lata model takiej wyceny, łatwiej jest na bieżąco podejmować decyzje, czyli określać, czy i kiedy wdrażać dane rozwiązania raportowo-analityczne.

Marek Wilczewski jest dyrektorem Biura Zarządzania Informacją w spółkach Grupy PZU (PZU SA, PZU Życie SA, TFI PZU I PTE PZU). Od pięciu lat jest odpowiedzialny za strategię zarządzania informacją w Grupie PZU, w tym za standaryzację informacji, koordynację procesów Data Governance i Data Quality oraz budowę, rozwój i utrzymanie korporacyjnej Hurtowni Danych i obszarów raportowo-analitycznych (w tym Business Intelligence, analitycznego CRM). Od wielu lat jest menedżerem w licznych projektach biznesowych (regulacyjnych, zarządczych i analitycznych) oraz technologicznych z obszarów takich, jak: wdrożenie MIS, CRM, ERP, ABC, Solvency II, FATCA, Fraud Detection, wdrożenia dużych systemów, integracja i optymalizacja hurtowni danych, Big Data czy mobilność.

Wcześniej był dyrektorem ds. rozwoju hurtowni danych w PZU SA i PZU Życie oraz zastępcą dyrektora w Biurze Planowania i Kontrolingu w PZU Życie SA.

Jest m.in. członkiem Podkomisji Standaryzacji Informacji w PIU, odpowiada za wymianę informacji z UFG ze strony PZU.

Marek Wilczewski wystąpił 4 kwietnia na spotkania Klubu CIO. Niniejszy tekst stanowi rozwinięcie artykułu ogłoszonego na Blogu Ekspertów PZU (https://blog.pzu.pl) o komentarz do kwestii dyskutowanych podczas tego spotkania.