BI i Big Data to jedno

Wywiad z ADAMEM BARTOSEM, Executive Director, Technology and Big Data Competency Center, SAS Institute



Stoimy u progu kolejnej rewolucji informacyjnej. Może więc pora odsiać ziarno od plew? Które podejścia i rozwiązania do zarządzania danymi i informacją się sprawdziły, a które nie i skazane są na zagładę?

Podział rozwiązań do zarządzania informacją można raczej przeprowadzić na dojrzałe i niedojrzałe. Dzisiaj dojrzałe są technologie do klasycznych hurtowni danych. Są sprawdzone przez klientów, stabilne. Rozwiązania do obsługi danych, które nie są Big Data, takie jak ETL, to standardy i lata doświadczeń.

Zobacz również:



Z drugiej strony są rozwiązania i rosnący szybko kapitał doświadczeń dla danych zwanych ogólnie Big Data. To nie tylko dane z internetu, ale wszystkie dane, które wymykają się procesom firmowym. Obejmują np. informacje tekstowe i wideo, dane niestrukturyzowane gromadzone przez firmę.

W tej drugiej grupie rozwiązań nie ma jeszcze tak wypracowanych standardów. Niosą one za to ze sobą wielki potencjał. Są dostępne rozwiązania, ale niewiele firm w tej chwili poszukuje informacji zawartych np. w tekstach.

Jakie miałyby zastosowanie?

Analiza danych zawartych w tekście pozwala m.in. na zbadanie „sentymentu konsumentów” – odbioru i nastawienia konsumentów do wybranych zagadnień albo marki produktu. „Tworzywem” są dane z call center czy ślady pozostawione w internecie. W pierwszej kolejności po tego typu dane i narzędzia firmy sięgają jednak w celu wykrywania nadużyć.

Z informacji niestrukturalnych możliwe jest uzyskanie informacji strukturalnych i w następnej kolejności wykrycie obiektów, odtworzenie powiązań pomiędzy nimi, co może posłużyć do dalszej analizy.

Wskazuje Pan, że jest potencjał i są odpowiednie narzędzia. Skąd zatem rezerwa firm, jakie są bariery?

Najważniejszą barierą jest brak use case’ów. Trudno jest wykazać, do czego chcemy nową informację wykorzystać, do czego ma prowadzić analiza nowego typu danych. Drugą barierą jest koszt, ale nie koszt licencji czy wdrożenia, ale koszt wytworzenia wartości, a więc know-how, inwestycja w zmianę procesów, w nowe kompetencje w danej organizacji.

Ale przed chwilą przytaczał Pan przykłady zastosowania.

Brak use case’ów jest wynikiem deficytu know-how i umiejętności formułowania przez firmy problemów do zbadania i przekucia wyniku analizy albo prognozy na biznesowy sukces.

To nie jest nowa sytuacja. Od lat mamy rozwiązania zaawansowanej analityki. Wiedza matematyczno-statystyczno-analityczna to także nie wynalazek ostatniego dziesięciolecia. Tymczasem polski rynek dopiero dojrzewa do zastosowania zaawansowanych narzędzi analitycznych. Świadomość możliwości analityki i popyt na nią są w 2015 r. na poziomie podstawowym, analiz OLAP odpowiadających na pytania typu: jak nam szła sprzedaż? Oczywiście, uogólniam, bo są organizacje w Polsce stosujące od lat zaawansowane metody.

W czym więc upatrywać szans na zmianę?

Warto zaproponować rozwój i nabycie nowych kompetencji ludziom, którzy mają odpowiedni aparat matematyczny i nabyli doświadczenia, pracując z klasycznymi rozwiązaniami hurtownianymi. Ten proces uzupełni napływ świeżego narybku z uczelni, tradycyjnie otwartych na środowiska open source. Za kilka lat studenci z wielu kierunków będą otrzaskani z tematem.
Ująłbym to następująco: szansa wynika z różnicy potencjałów, różnicy pomiędzy dzisiejszym wykorzystaniem danych a możliwościami zdobywania informacji i wiedzy, jakie dają nowe rozwiązania. Uświadomienie tej różnicy wywoła reakcję rynku.

Kiedy uda się zaprząc analitykę do prognozowania, np. zapotrzebowania na dany towar, firmy uzyskają trafne prognozy i uwolnią swoje zasoby do realizacji innych zadań. Prognozy automatyczne będą trafniejsze i szybsze. Ogromne pole do zastosowania jest w sieciowym handlu detalicznym. Są przykłady wdrożeń w Polsce, ale wiem także o planach dużych firm, które nieustannie tylko planują tego typu projekty, nie przechodząc do ich realizacji.

W kwestii zautomatyzowanego, dokładnego prognozowania biznesu potentaci w poszczególnych branżach mają niezaadresowane podstawowe tematy. Jest technologia, mamy kompetencje do wdrożeń i wielkie pole do zastosowań.

Powiedział Pan, że barierę stanowi także koszt zmiany wynikający z konieczności pokrycia deficytu odpowiedniej wiedzy i kompetencji. Może to sygnał do większego doradczego zaangażowania dostawców?

Taki model działa dobrze, kiedy po drugiej stronie mamy otwarte głowy. Wtedy można doświadczenia dotyczące rynku, branży wesprzeć naszym know-how i wypełnić lukę kompetencyjną. Prognozowanie wymaga wykształcenia statystycznego lub matematycznego. Na Zachodzie w firmach są już takie osoby. W Polsce to nadal rzadkość. Firmy z centralą za granicą z reguły tam mają zlokalizowane osoby lub jednostki o podobnych kompetencjach. Firmy z polską centralą najczęściej jeszcze ich nie pozyskały. Brakuje w związku z tym kultury statystyczno-matematycznej, która by umożliwiła zastosowanie bardziej zaawansowanych narzędzi. To jest główna bariera.

Popyt na zaawansowane rozwiązania do prognozowania przyniesie pogłębienie deficytu kompetencji na rynku.

Takie zaplecze i stały dopływ absolwentów kierunków ścisłych uniwersytetów i politechnik zapewniły już sobie banki i telekomunikacja. Dobrym przykładem są departamenty zarządzania ryzykiem w bankach. Są to jednostki dobrze rozbudowane, mają kompetencje. Gorzej z sieciami detalicznymi, przemysłem i pozostałymi branżami.

Dzisiejsze hasła o rewolucji informacyjnej sugerowałyby, że pewne etapy dojrzewania, rozwoju można próbować przeskoczyć i zorientować się na nowe rozwiązania i kompetencje.

Jako SAS staramy się przybliżać zaawansowaną analitykę klientom, którzy nie mają dużych doświadczeń i kompetencji w BI. Rozwiązanie Visual Analytics zawiera elementy uczenia maszynowego, prognozowania, text miningu. Takich funkcji nie mają narzędzia typu dash board. To zachęta, zaproszenie do wejścia dalej w ten świat, z czasem być może sięgnięcia po bardziej zaawansowane narzędzia analityczne. Często jestem świadkiem tego, że to działa i nowi klienci odkrywają w swoich firmach konkretne potrzeby biznesowe wymagające zastosowania rozwiązań analitycznych.

Masowego problemu prognozowania szeregów czasowych to nie rozwiąże, ale pozwoli już np. wykorzystać algorytmy automatycznej prognozy do oszacowania wydatków na firmowe telefony.

A kiedy przyjdzie czas na Big Data?

Badanie CIO Chance of the Lifetime wskazuje, że z adaptacji do Big Data wynika szansa dla CIO na wyjście z zaklętego kręgu serwerowni i kabli do świata biznesu oraz tchnięcia w firmę nowego ducha. Jest wielu CIO, którzy tak to postrzegają.
No właśnie, teraz trzeba rozstrzygnąć, czy to ma być kolejny krok. Często się słyszy, że BI i Big Data to nie to samo. Może prowokacyjnie, ale z pełnym przekonaniem powiem: to jest to samo.

Z Big Data nadal związane są wyzwania, co do których nie ma doświadczeń, a technologie są jeszcze niedojrzałe. Są one szybko uzupełniane, przybywa wiedzy, na której podstawie można tworzyć use case’y. Tu jest pole największego rozwoju.

Hadoop to szeroko zakreślone ramy, ale sam rynek tych rozwiązań jest jeszcze bardzo nieokreślony. Nie wiemy, w jaki sposób będzie się konsolidował rynek dystrybucji i jaki kształt ostatecznie przyjmą standardowe rozwiązania. Już dzisiaj Hadoop wsadził nogę w drzwi, a w dłuższej perspektywie na pewno wywróci rynek IT. Bardzo dużo potrzeb obliczeniowych dziś realizowanych za pomocą wielkich repozytoriów bazodanowych będzie zaspokajanych przez Hadoopa. I będzie to tańsze.

Jeśli te firmy nauczą się Hadoopa, to powstaje pytanie: może w ogóle strategię analityki biznesowej oprzeć na Hadoopie?

To prawdopodobne. Teraz to trochę taki świat informatycznych hippisów, ale podobnie było przecież z Linuksem. Dzisiaj Linux trafił pod strzechy, stosują go firmy małe i duże ze wszystkich branż. My także im to rekomendujemy. Podobnie stanie się z Hadoopem. Natomiast będzie się jeszcze zmieniał, dlatego że dzisiaj pytanie, czy Hadoop jest „enterprise ready”, to kwestia otwarta...

To wróćmy jeszcze do kwestii, kto to będzie w firmach robił.

Zdecydowanie warto zaproponować rozwój i nabycie nowych kompetencji ludziom, którzy mają odpowiedni aparat matematyczny i nabyli doświadczenia, pracując z klasycznymi rozwiązaniami hurtownianymi. Ten proces uzupełni napływ świeżego narybku z uczelni, tradycyjnie otwartych na środowiska open source. Za kilka lat studenci z wielu kierunków będą otrzaskani z tematem.

Wystarczy ich, jeśli spodziewamy się rewolucji, trzęsienia ziemi?

Hadoop to szeroko zakreślone ramy, ale sam rynek tych rozwiązań jest jeszcze nieokreślony. Nie wiemy, w jaki sposób będzie się konsolidował rynek dystrybucji i jaki kształt ostatecznie przyjmą standardowe rozwiązania. Już dzisiaj Hadoop wsadził nogę w drzwi, a w dłuższej perspektywie na pewno wywróci rynek IT.
Możemy na to spojrzeć przez pryzmat doświadczeń z Linuksem albo z Javą. W tej chwili Javę znają wszyscy informatycy. Wykorzystanie Hadoopa będzie takie samo jak dziś Linuksa, Javy czy SQL – wszyscy go będą znali, przynajmniej na podstawowym poziomie. Dojrzałość tych narzędzi z kolei sprawi, że obniży się bariera wejścia. Dziś trzeba dużo jeszcze wokół tego programować w specyficznych językach Pig, Hive, MapReduce. Zanim pojawią się bardziej uniwersalne „klocki”, proponujemy proste rozwiązanie SAS Data Loader for Hadoop, które nie ma bardzo rozbudowanych możliwości, ale mechanizmami dostępnymi w Hadoopie pozwala przeprowadzać podstawowe operacje na wielkich zbiorach danych. Można to zrobić bez żadnej znajomości programowania. Samoobsługowo.

Drugi obszar nowych kompetencji to analityka. Osławieni data scientists, którzy mają nie tylko przetwarzać dane, ale są wyposażeni także w metakompetencje, aparat analityczny, matematyczny i architektoniczny. Rozumieją naturę, ograniczenia i możliwości poszczególnych podejść i narzędzi.

Takich ludzi powoli wypuszczają polskie uczelnie. Nigdy nie będzie ich dużo. To trochę kwestia predyspozycji, talentów. Matematyka, niestety, nie jest obleganym kierunkiem. Z kolei informatyka musi zapewniać większą liczbę specjalności. Ta bariera nie dotyczy jednak tylko Polski, ale całego świata. W tej chwili wydaje się, że narody takie, jak Chińczycy i Hindusi wykształcą najwięcej data scientists...

A CDO – Chief Data Officer? Spotkał Pan kogoś takiego? Kiedy pojawią się takie osoby?

Słyszałem o sondzie wśród CIO i CEO, kto ma być tym chief data oficerem. W oczach CEO to niekoniecznie osoba z IT. W IT jest raczej kompetencja techniczna.

Z drugiej strony badanie CIO Chance of the Lifetime wskazuje, że z adaptacji do Big Data wynika szansa dla CIO na wyjście z zaklętego kręgu serwerowni i kabli do świata biznesu oraz tchnięcia w firmę nowego ducha. Jest wielu CIO, którzy tak to postrzegają.

To także szansa dla organizacji. W tym wydaniu CIO opisujemy przykład transformacji Ubezpieczeniowego Funduszu Gwarancyjnego, który stał się brokerem informacji dla podmiotów i klientów rynku ubezpieczeniowego.

Podobne rzeczy dzieją się na całym świecie. Następuje monetyzacja danych, to główne wspólne hasło i zjawisko we wszystkich branżach. Można sobie wyobrazić szereg podobnych zastosowań takiego modelu, np. dystrybutor staje się brokerem i dystrybutorem wiedzy o rynku dla producentów. Sprawia to obniżenie kosztów technologicznych dzięki Hadoop, mamy ewidentny trend.

Obejmujący także mniejsze organizacje.

Trudno nie wspomnieć, że katalizatorem tego przyspieszenia jest Cloud Computing. Chmura umożliwia małym i średnim firmom skorzystanie z nowych technologii analitycznych.

I wtedy mali pokonają dinozaury?

Nie, to nie ta historia. Rozwiązania chmurowe będą uproszczeniem. Dla wielkich firm chmura nie wystarczy. Poprawka: dla wszystkich firm, którym informacja i wiedza, analityka potrzebne są do zbudowania przewagi konkurencyjnej, nie wystarczą rozwiązania chmurowe, typu „commodity”. W analitykę potrzeba włożyć swoją wiedzę i doświadczenie, aby dała przewagę. 