Autor: Aleksander Piński

Dziennikarz ekonomiczny, autor recenzji książek i przeglądów najnowszych badań ekonomicznych

Tajemnica ciemnych danych

Ciemne dane, czyli dane których nie mamy, albo z których nie wolno nam korzystać, odpowiadają za katastrofę amerykańskiego promu Challenger oraz za to, że kobiety płacą wyższe stawki za ubezpieczenie auta. Pisze o tym David J. Hand w książce „Dark Data: Why What You Don’t Know Matters”.
Tajemnica ciemnych danych

W marcu 2011 r. Europejski Trybunał Sprawiedliwości uznał, że od 21 grudnia 2012 r. ubezpieczyciele nie będą mogli w wyliczeniach ryzyka uwzględniać płci. Inaczej mówiąc, od tego dnia płeć powinna być dla firm ubezpieczeniowych ciemną daną, czyli daną, o której istnieniu wiedzą, a której nie uwzględniają w wyliczeniach. Co z tego wynika w praktyce?

Jak opisuje autor w publikacji (jej polski tytuł to „Ciemne dane: Dlaczego to, czego nie wiesz, ma znaczenie”) brytyjski dziennik „Telegraph” z 21 stycznia 2013 r. opublikował tabelkę, z której wynika że średnia składka ubezpieczeniowa auta dla mężczyzn przed wyrokiem trybunału wynosiła 658 funtów, po wyroku 619 funtów. Z kolei dla kobiet składka wynosiła odpowiednio 488 funtów i 529 funtów. W najbardziej ryzykownej grupie, 17-18 latków, składki dla mężczyzn spadły z 2298 funtów do 2191 funtów, a dla kobiet wzrosły z 1307 funtów do 1965 funtów.

Skutek wyroku trybunału jest taki, że mężczyźni, którzy jeżdżą bardziej ryzykownie, będą płacić mniejsze składki, a zatem łatwiej im będzie „wyjechać na drogę”. Za to powodujące mniej szkód za kierownicą kobiety będą płaciły więcej za ubezpieczenie, a zatem rzadziej będą siadały za kółkiem. Trudno to uznać za rozwiązanie korzystne z punktu widzenia całego społeczeństwa. Sąd uznał, że uwzględnianie płci przy wyliczaniu składki nie jest „sprawiedliwe”.

Równość płci determinuje dobrobyt

Jeszcze bardziej oczywisty przypadek tego, jak „ciemne dane” mogą prowadzić do śmierci postronnych osób, to sprawa katastrofy amerykańskiego promu Challenger, która miała miejsce 28 stycznia 1986 r. 73 sekundy po starcie statek kosmiczny zaczął się rozpadać, zabijając wszystkie siedem osób na pokładzie. W wyniku śledztwa ustalono, że przyczyną katastrofy były tzw. o-ringi, czyli okrągłe gumowe uszczelki, które były swego rodzaju pieczęciami zabezpieczającymi łączenia czterech segmentów rakiety. W czasie startu statku przerwy między segmentami mające normalnie 0,004 cala (cal to 2,54 cm) zwiększały się do 0,06 cala na 0,6 sekundy. Część ekspertów zwróciła uwagę, że jeżeli o-ringi miałyby temperaturę poniżej 11,7 stopnia Celsjusza, nie ma gwarancji, że zadziałałyby jak powinny. Ostatecznie jednak zatwierdzono start promu.

W toku śledztwa wyszło na jaw, że w danych, które analizowano, nie uwzględniono informacji z poprzednich lotów. To o tyle istotne, że dołożenie tych informacji do wykresu sprawia, że na pierwszy rzut oka widać zależność: loty, w których uszczelki zachowywały się poprawnie miały miejsce głównie wówczas gdy panowała wyższa temperatura. Bez tych danych nie widać zależności między zachowaniem się uszczelek a temperaturą.

Jeszcze ciekawszy przypadek tego, jak brak danych może prowadzić do błędnych wniosków, to przypadek słynnego Titanica, statku który zatonął w 1912 r. Na okręcie było 908 członków załogi, z których przeżyło 212 osób, czyli 23,3 proc. Z kolei spośród 627 pasażerów trzeciej klasy, tych którzy znajdowali się w nisko położonej części statku, skąd najtrudniej im było się wydostać, katastrofę przetrwały 151 osoby, czyli 24,1 proc.

A zatem można by sądzić, iż pasażerowie trzeciej klasy mieli minimalnie wyższą szansę na przeżycie, niż członkowie załogi. Kiedy jednak uwzględnimy rodzaje płci, to pojawia się zupełnie inny obraz. Przeżyło 21,7 proc.(192/885) mężczyzn członków załogi i 87 proc. (20/23) kobiet, podczas gdy wśród pasażerów trzeciej klasy te odsetki wynosiły odpowiednio 16,2 proc. (75/462) i 46,1 (76/165) proc.

Uwzględniając zatem rodzaj płci to członkowie załogi mieli wyższą szansę przeżycia. Która odpowiedź jest więc prawidłowa i dlaczego? Okazuje się, że to tzw. paradoks Simpsona nazwany tak od nazwiska Edwarda H. Simpsona, który opisał go w pracy z 1951 r. (choć inne osoby pokazały ten fenomen pół wieku wcześniej). Różnice wynikają tu z innych proporcji między mężczyznami a kobietami. Gdyby mężczyzn i kobiet było mniej więcej tyle samo, problemu by nie było.

Na początku pierwszego rozdziału autor cytuje następujący żart. ”Idąc drogą spotkałem starszego pana rozsypującego jakiś proszek w przerwach mniej więcej co 15 metrów. Zapytałem go, co robi. Odpowiedział: to proszek na słonie. Nie znoszą go, a więc trzymają się z daleka. Ale tu nie ma słoni! No właśnie – odpowiedział. Ten proszek jest bardzo skuteczny.”

Ta anegdotka ma także zilustrować problem mrocznych danych (czyli w tym wypadku danych, których nie mamy). Autor podaje przykład sytuacji ze szczepionkami. Zdarza się, że rodzice argumentują, że szczepionka, którą ma dostać ich dziecko jest niepotrzebna, ponieważ – jak wynika z danych – dana choroba prawie nie występuje w kraju (na przykład odra w USA, na którą w całym kraju w 1999 r. zachorowało 99 osób). Szczepienie na chorobę, której nie ma?

To wygląda trochę jak używanie proszku do odstraszania słoni – zauważa autor. I dodaje, że niektórzy rodzice zapominają, że często choroby właśnie dlatego prawie nie ma, że dzieci są szczepione. Pojęcie „ciemne dane” zostało przez autora użyte przez analogię do tzw. „ciemnej materii”. Z tej tajemniczej substancji składa się 27 proc. wszechświata. Ale nie wchodzi ona w interakcje ze światłem ani żadnym innym rodzajem elektromagnetycznej radiacji, a zatem nie można jej zobaczyć.

Astronomowie bardzo długo nie zdawali sobie sprawy z istnienia „ciemnej materii”. Zjawisko to zostało „wydedukowane”. Analogicznie, „ciemne dane” to dane, których nie mamy, ale których istnienie możemy wydedukować, na przykład, biorąc pod uwagę wnioski z istniejących informacji.

Astronomowie długo nie zdawali sobie sprawy z istnienia ciemnej materii. Zjawisko to zostało wydedukowane. Analogicznie jest z ciemnymi danymi

David J. Hand jest emerytowanym profesorem matematyki, byłym szefem Royal Statistical Society (Królewskiego Towarzystwa Statystycznego). Jego dorobek naukowy jest imponujący: 29 książek i ponad 300 artykułów naukowych. Istotniejsze jest jednak to: czy „Dark Matter” to książka warta polecenia?

Z jednej strony, dotyka bardzo ciekawego i mam wrażenie także mało znanego tematu brakujących danych. Z drugiej, nie robi tego w sposób, który jest wystarczająco ciekawy. Są w książce interesujące fragmenty i te właśnie omówiłem w recenzji, ale reszta nie jest równie porywająca. Autor poświęca na przykład sporo miejsca temu, iż na rynku kapitałowym bardzo wiele funduszy inwestycyjnych, tych o słabszych wynikach, przestaje działać i znika ze statystyk, podnosząc średnią stopę zwrotu pozostałych.

Ten mechanizm był już wielokrotnie opisywany i w mojej ocenie warto by poszukać mniej znanych przykładów po to, by wykazać tezę. Tak więc książka warta jest uwagi, o ile ktoś jest w stanie zaakceptować jej mniej porywające i odkrywcze fragmenty.

Otwarta licencja


Tagi