Pułapki wnioskowania przyczynowo-skutkowego

04.11.2018 03:00

Wnioskowanie przyczynowo-skutkowe na podstawie danych statystycznych łączy się z szeregiem pułapek, w które potrafią wpaść najwybitniejsze umysły. Źle dobierając grupy do porównania można dojść do błędnych i szkodliwych wniosków.

Pułapki wnioskowania przyczynowo-skutkowego

W ostatnich latach doszło do rewolucji w podejściu do wnioskowania przyczynowo-skutkowego na podstawie statystyk i możemy skuteczniej wyjaśniać nierozwiązane od dekad zagadki – piszą Judea Pearl i Dana Mackenzie w książce „The Book of Why: The New Science of Cause and Effect”. („Księga dlaczego: nowa nauka przyczyn i skutków”). Autorzy zwracają uwagę, że bezpośrednim powodem jej napisania była „rewolucja wnioskowania przyczynowo-skutkowego”, do której doszło w ostatnich kilkunastu latach. „Przyczynowość z koncepcji spowitej tajemnicą stała się matematycznym przedmiotem z dobrze zdefiniowaną składnią i logiką” – piszą naukowcy. I dalej starają się na przykładach tłumaczyć, jak ta rewolucja rozwiązuje nierozwiązane od dekad zagadki i problemy naukowe.

Jedna z takich zagadek miała swój początek w połowie lat 60. XX w. Naukowiec – Jacob Yerushalmy zwrócił uwagę, że z danych statystycznych można by wnioskować, iż matki które palą papierosy w ciąży przyczyniają się do… lepszego stanu zdrowia swoich nowonarodzonych dzieci. Yerushalmy w 1959 r. zaczął zbierać dane o zdrowiu 15 tys. dzieci z okolic San Francisco, przed i po ich narodzeniu. W tych danych były m.in. informacje o tym, czy matka paliła tytoń a także waga dziecka po urodzeniu i odsetek śmierci w pierwszych miesiącach życia. Tak jak można było podejrzewać, dzieci palaczek ważyły mniej, niż dzieci kobiet nie tykających tytoniu. Ale wśród dzieci, które ważyły mało, dzieci palaczek rzadziej umierały, niż dzieci niepalących. Dalej ktoś mógłby wnioskować, że palenie tytoniu przez matki w jakiś sposób zmniejszało prawdopodobieństwo ich śmierci. Yerushalm napisał jedynie w konkluzjach, iż powyższy fakt może poddawać w wątpliwość przekonanie, iż palenie tytoniu zwiększa śmiertelność.

Współcześni epidemiolodzy sądzą, że naukowiec się mylił. Jak to jednak pogodzić z danymi, które uzyskał? To tak zwany paradoks niskiej wagi urodzeniowej, który ostatecznie wyjaśniono dopiero w 2006 r., a zatem prawie 40 lat później, choć na przykład jeszcze w 2014 r. ukazywały się artykuły, w których dyskutowano na ten temat.

Zdaniem autora tak dużo czasu musiało upłynąć, ponieważ wnioskowanie przyczynowo skutkowe na podstawie danych statystycznych łączy się z szeregiem pułapek, w które potrafią wpaść najwybitniejsze umysły. Ostatecznie w paradoksie niskiej wagi urodzeniowej chodziło o to, że niska waga noworodka miała dwie główne przyczyny: palenie papierosów przez matkę i defekt genetyczny. Tak więc dzieci palących matek umierały rzadziej, niż dzieci z wadami genetycznymi, ale nie była to w żadnym wypadku zasługa tytoniu. Źle dobierając grupy do porównania można było dojść do błędnych i szkodliwych wniosków.

W innej części książki autor podaje przykład w którym w podobną pułapkę wpadają znacznie szersze rzesze ludzi. Chodzi o kwestie szczepionek. Załóżmy, że mamy milion dzieci, z których 99 proc. jest szczepionych na ospę a 1 proc. nie. Z tych 990 tys. zaszczepionych 9900 zareaguje negatywnie a 99 umrze. Z 10 tys. które nie zostanie zaszczepionych 200 zachoruje na ospę a umrze 40. Z tego można by wysnuć wniosek, iż więcej dzieci umiera na powikłania po szczepionce, niż na ospę. I faktycznie wielu rodziców patrzy na podobne dane i alarmuje, że ich zdaniem „szczepionki zabijają”. Jednak prawidłowe rozumowanie wymaga założenia, że nie szczepimy nikogo. Wówczas z miliona dzieci na ospę zachoruje 20 tys. z których umrze 4 tys. Tak więc tym razem może konkludować, iż szczepionki ocaliły życie 3861 dzieciom (różnica między 4 tys. a 139).

W książce znajdziemy także opisy ciekawych przypadków pułapek wnioskowania statystycznego spoza medycyny. Oto we wrześniu 1990 r. w magazynie „Parade” w kolumnie redagowanej przez niejaka Marilyn vos Savant, kobietę która od 1986 r. do 1989 r. widniała w Księdze Rekordów Guinessa jako osoba z najwyższym zmierzonym ilorazem inteligencji, pojawił się tekst który wzbudził olbrzymie kontrowersje. Autorka omawiała problem wyboru bramek w popularnym teleturnieju, znanym w Polsce pod nazwą „Idź na całość”. Uczestnicy gry mają na początku do wyboru trzy zasłonięte bramki. Za jedną z nich kryje się nagroda za pozostałymi dwoma maskotka prezentująca przegraną. Kiedy grający wybiorą bramkę, gospodarz programu odsłania jedną z tych niewybranych i pyta grającego, czy chce zmienić decyzję i wybrać drugą zasłoniętą bramkę – tę której na początku nie wybrał. Otóż Marilyn vos Savant napisała, iż zawsze w takiej sytuacji powinien zmienić bramkę. I czytelnicy zaczęli zasypywać ją listami twierdząc, że się myli ponieważ ich zdaniem nie powinno mieć znaczenia czy zmieni bramkę czy nie, bo prawdopodobieństwo iż za jedną z nich znajduje się nagroda – np. auto wynosi w obu przypadkach jedna druga. Vos Savant miała inne zdanie. W jej opinii pozostanie przy pierwotnym wyborze daje jedną trzecią szans na wygraną. Zmiana zwiększa to prawdopodobieństwo do dwóch trzecich. A to dlatego, że przy pierwszym wyborze prawdopodobieństwo wybrania bramki z nagrodą wynosi jedna trzecia. I odsłonięcie jednej z pozostałych bramek nie ma na to wpływu. A zatem zmiana bramki zwiększa nam szanse na wygraną do dwóch trzecich.

Na książkę „The Book of Why: The New Science of Cause and Effect” zwróciłem uwagę ze względu na jej głównego autora profesora nauk komputerowych z Uniwersytetu Kalifornijskiego w Los Angeles (UCLA) laureata Nagrody Turinga z 2011 r. nazywaną „informatycznym Noblem” – otrzymał ją za „wkład w sztuczną inteligencję poprzez rozwój rachunku różniczkowego dla rozumowania probabilistycznego i przyczynowego”. Drugim autorem jest Dana Mackenzie, naukowiec, którego głównym zajęciem jest pisarstwo popularnonaukowe w pismach takich jak „Science” czy „New Scientist”. Odniosłem wrażenie, że współpraca tych dwóch autorów przy jednej książce miała na celu wykorzystanie naukowej sławy Pearla i umiejętności Mackenziego przedstawiania skomplikowanych naukowych problemów w sposób zrozumiały i atrakcyjny dla przeciętnego czytelnika. Czy to się udało?

Mam wrażenie, że nie do końca. Nie jest to zła książka, tylko raczej przeznaczona dla osób zainteresowanych statystyką. Autorom nie udało się ominąć podawania wzorów statystycznych, które mogą przyprawić przysłowiowego Kowalskiego o palpitację serca. Zatem jeżeli ktoś nie boi się matematyki, rachunku prawdopodobieństwo i słów takich jak „sieć bayesowska” to serdecznie tę pozycję polecam. Pozostali muszą poszukać innych lektur.