Rewolucja wielkich danych

16.05.2015 03:00

Jeszcze w 2000 r. tylko 25 proc. danych było gromadzonych w formie cyfrowej. Obecnie jest to 98 proc. Analiza tych informacji pozwala sprawniej ratować życie ludzkie – piszą Viktor Mayer-Schönberger i Kenneth Cukier w książce „Big data. Rewolucja, która zmieni nasze myślenie, pracę i życie”.

Zgromadziliśmy tyle danych, że nie mieszczą się już w pamięci komputerów, które je analizują – piszą autorzy. Ten problem pojawił się najpierw w astronomii. Kiedy w 2000 r. teleskop w Nowym Meksyku zaczął gromadzić dane (to część programu Sloan Digital Sky Survey), przez pierwsze kilka tygodni zgromadził więcej informacji, niż zebrano wcześniej w całej historii astronomii, a tempo zbierania danych się nie zmniejsza. Do 2010 r. w archiwum było ich już 140 terabajtów (TB). Zebranie tylu danych zajmie kolejnemu teleskopowi, który rozpocznie działanie w Chile w 2016 r. (program Large Synoptic Survey), pięć dni.

Podobne ilości danych zaczęto następnie gromadzić przy sekwencjonowaniu genów. Ukończone w 2003 r. sekwencjonowanie genomu człowieka (3 mld par genów) zajęło naukowcom 10 lat. Teraz jedna placówka naukowa potrafi sekwencjonować tyle DNA w ciągu jednego dnia.

Nie mniej informacji rejestruje się na rynku finansowym. Codziennie tylko w USA ponad 7 mld akcji zmienia właściciela. 2/3 tych transakcji dokonuje się automatycznie – na podstawie komputerowych algorytmów.

Oczywiście „tony” danych zalewają internet. Google przetwarza dziennie 24 petabajty (PB) danych. To tysiące razy więcej niż zawartość wszystkich wydrukowanych materiałów zgromadzonych w Bibliotece Kongresu USA. Na Facebooku co godzinę wgrywa się 10 mln zdjęć.

>>czytaj również: Big Data – wyłowić, co ważne

Cała wiedza świata

Jeszcze w 2000 r. tylko 25 proc. wszystkich danych zebranych na świecie była w formie cyfrowej (reszta na papierze, taśmie filmowej, płytach winylowych, kasetach itp.). W 2013 r. w cyfrowej formie zapisane zostało 98 proc. wszystkich danych zgromadzonych na świecie – 1,2 tys. eksabajtów (EB).

Ile to jest 1200 EB? Gdyby te dano wydrukowano w formie książek, pokryłyby całą powierzchnię USA 52 razy. Gdyby je zapisać na płytach kompaktowych i ułożyć je jedna na drugiej, pięciokrotnie pokonałyby drogę na księżyc. W III stuleciu p.n.e. Ptolemeusz II z Egiptu chciał zgromadzić w Bibliotece Aleksandryjskiej przynajmniej po jednym egzemplarzu z dotychczas wydanych książek (miały one reprezentować całą wiedzę świata). Ilość obecnie zarchiwizowanych informacji równa jest 320 Bibliotekom Aleksandryjskim… w przeliczeniu na każdego mieszkańca ziemi.

Co więcej, ilość gromadzonych informacji rośnie w czterokrotnie szybciej niż gospodarka (moc obliczeniowa komputerów zwiększa się dziewięć razy szybciej). W ciągu 50 lat od wynalezienia druku przez Gutenberga wydrukowano 8 mln książek. To było tyle, ile wszyscy skrybowie Europy stworzyli od założenia Konstantynopola 1200 lat wcześniej. Inaczej mówiąc, potrzeba było 50 lat, by ilość zgromadzonych informacji podwoiła się. W naszych czasach wystarczają na to trzy lata.

Mapa chorych z wyszukiwarki

Co z tego dla nas wynika? Otóż autorzy twierdzą, że analiza dużej ilości danych pozwala nam szybciej poprawiać komfort i bezpieczeństwo naszego życia. W jednym z przykładów opisują, jak to w 2009 r. odkryto nową odmianę wirusa grypy (tzw. H1N1). Instytucje odpowiedzialne za walkę z takimi zagrożeniami obawiały się epidemii (niektórzy straszyli nawet, że możliwe jest powtórzenie się scenariusza z 1918 r., gdy kilkadziesiąt milionów ludzi na świecie zmarło na grypę). Nie istniała żadna szczepionka. Jedyną nadzieją było spowolnienie rozprzestrzeniania się wirusa. Do tego jednak władze potrzebowały jak najaktualniejszej informacji: gdzie wirus się obecnie znajduje.

Na początku Amerykańskie Centrum Kontroli nad Rozprzestrzenianiem się Chorób (Center for Disease Control and Prevention) poprosiło lekarzy o informacje o rozpoznanych przypadkach zarażenia się wirusem H1N1. Okazało się jednak, że dane były o tydzień, dwa tygodnie opóźnione, bo chorzy najczęściej zwlekali z udaniem się do lekarza i robili to, dopiero gdy objawy były bardzo uciążliwe.

Tymczasem kilka tygodni przed zauważeniem wirusa H1N1 inżynierowie z Google opublikowali w czasopiśmie „Nature” pracę, w której pokazywali, w jaki sposób opierając się na danych gromadzonych przez Google, można przewidywać rozprzestrzenianie się wirusa grypy prawie w czasie rzeczywistym. Wystarczyło przeanalizować, co ludzie wpisują do wyszukiwarki internetowej.

Najpierw sprawdzono, jakie wpisywane hasła korelowały z rozprzestrzenianiem się grypy w 2003 r. Znaleziono 45 takich haseł (np. „lekarstwo na kaszel i gorączkę”). Następnie sprawdzono, czy opierając się na częstotliwości ich wpisywania można było przewidzieć rozprzestrzenianie się wirusa grypy w 2007 r. i 2008 r. Kiedy okazało się, że tak, wykorzystano model do prognozowania, gdzie pojawi się wirus H1N1 w 2009 r.

Nowojorski sukces statystyki

Rewolucja wielkich danych to także okazja do wykazania się dla ludzi, którzy potrafią pracować z taką ilością informacji. Autorzy opisują historię Mike’a Flowersa byłego prawnika z Manhattanu, który rzucił posadę, bo uznał, że chciałby robić coś dającego więcej satysfakcji. Kilka telefonów przyjaciela i w niedługo Flowers był już w Bagdadzie jako część grupy prawników przygotowujących proces Saddama Husseina. Większość jego pracy nie była jednak związana z prawem, tylko z logistyką. Musiał na przykład znaleźć sposób na dowiezienie świadków w taki sposób, by nie wpadli po drodze w zasadzkę. Rozwiązaniem problemu była analiza danych o miejscach, czasie i liczbie ofiar wcześniejszych eksplozji.

Po powrocie do Nowego Jorku Flowers uznał, że te same metody można by wykorzystać do walki z przestępcami w tym mieście. Jego poglądy trafiły do ówczesnego burmistrza miasta Michaela Bloomberga (który zbił fortunę, dostarczając dane finansowe bankom). Ten mianował Flowersa pierwszym w historii miasta dyrektorem ds. analiz.

Na czym polegała jego praca? Najpierw zabrał zespół statystyków, ale takich, którzy nie byli bardzo doświadczeni (Flowers obawiał się, że zbyt duże doświadczenie może rzutować na otwartość w podejściu do rozwiązywania nietypowych problemów). Było ich pięciu, każdy najwyżej rok, dwa lata po studiach. Pierwszym testem dla nich miało być poradzenie sobie ze współdzieleniem mieszkań, tzn. praktyką polegającą na tym, że w lokalu mieszkało nawet dziesięć razy więcej osób, niż powinno zgodnie z przepisami. Zwiększało to ryzyko zaprószenia ognia. W takich miejscach najczęściej też gromadzili się ludzie z tzw. marginesu społecznego, występował problem handlu narkotykami, łatwiej rozprzestrzeniały się choroby zakaźne itd. Problem polegał na tym, że do władz miejskich corocznie składano 25 tys. skarg, a miasto miało tylko 200 inspektorów, by je weryfikować. Wydawałoby się, że nie ma sposobu, by ustalić, które z nich są poważne, wiążą się z zagrożeniem życia i zdrowia mieszkańców.

Drużyna Flowersa rozpoczęła od zgromadzenia rozproszonych w 19 agencjach rządowych danych na temat nieruchomości znajdujących się w mieście. Wynikało z nich, czy płacono za nieruchomość podatki, czy regularnie spłacane były raty pożyczek, jeżeli pod zastaw hipoteki wzięty był kredyt, czy zużycie mediów w budynku drastycznie się zmieniało. Do bazy danych dodali informacje, kiedy budynek zbudowano, liczbę wizyt karetek pogotowia pod tym adresem, skargi na obecność gryzoni, liczbę zgłoszonych przestępstw itd. Wreszcie analitycy ruszyli w miasto razem z inspektorami, by obserwować ich przy pracy i zadawać pytania. Kiedy na przykład jeden z ekspertów oświadczył, że „z tym budynkiem nie będzie problemu”, oni chcieli wiedzieć, skąd to wie. Na początku nie potrafił dokładnie stwierdzić, powołując się na intuicję i doświadczenie, ale z serii jego odpowiedzi na pytania wynikało, iż do tego wniosku skłoniło go to, że zauważył nowe cegły na froncie budynku, co świadczyło o tym, że właściciel dba o nieruchomość.

Po powrocie do biura analitycy ustalili, że na każdą taką – nawet niewielką – przebudowę potrzebne jest pozwolenie i dodali do bazy danych taką zmienną. Następnie komputer zaczął analizować korelacje między tymi danych a liczbą pożarów. Okazało się, że dane o pozwoleniach na modyfikacje w wyglądzie budynków bardzo poprawiły trafność prognoz.

W lipcu 2011 r. system zaczął oficjalnie działać i miejskim inspektorom przekazano listę budynków do kontroli. Wcześniej „na oko” decydowano, które zgłoszenia wymagają natychmiastowej reakcji i 13 proc. z takich wizyt skutkowało wydanie nakazem natychmiastowego opuszczenia budynku ze względu na zagrożenie życia. Kiedy rekomendacje wydawał zespół Flowersa, kończyło się tak 70 proc. wizyt.

Publikacja Mayer-Schönbergera i Cukiera dotarła do finału konkursu na książkę roku dziennika „Financial Times”. Recenzent „New York Times” określił ją mianem „oświecającej, bardzo na czasie i fascynującej” książki. To warta uwagi pozycja. Łączy opisy ciekawych przypadków z głębszą analizą trendu i wnioskami odnośnie przyszłości.

Jest tym bardziej wartościowa, że opisuje trend, który zaczął istotnie wpływać na nasze życie w ciągu ostatnich kilku lat. Książka nie tylko dostarcza przyjemności z czytania, lecz pozwala wyciągnąć praktyczne wnioski, np. odnośnie do planowania kariery zawodowej swojej czy swoich dzieci. Z pewnością do sukcesu książki przyczyniło się to, że stworzył ja tandem złożony z dziennikarza (Cukier) i naukowca akademickiego (Mayer-Schönberger). Zapewne dlatego publikacja nie jest przegadana (272 strony), a trzecią jej część stanowią przypisy ze źródłami podanych informacji.