W 1973 roku Uniwersytet Kalifornijski w Berkeley został oskarżony o dyskryminację kobiet. Istotnie, dane wykazały, że spośród mężczyzn, którzy aplikowali, zostało przyjętych 44%, natomiast kobiet tylko 35%.
(Pomijam to, czy przyjęcie mniejszej liczby kobiet miałoby rzeczywiście świadczyć o dyskryminacji - nie o tym jest wrzutka.)
Sprawa w tamtym czasie wywołała niemałe zainteresowanie. Poszczególne wydziały opublikowały własne szczegółowe dane. (A co warto zaznaczyć, choć pewnie dla wielu jest oczywiste, to władze konkretnych wydziałów odpowiadają za przyjmowanie swoich kandydatów). Spójrzmy na dane sześciu największych wydziałów. Nie widzimy tu żadnej przychylności dla mężczyzn, mało tego, właściwie jest wręcz na odwrót, w większości przyjmowano procentowo mniej mężczyzn niż kobiet.
Chyba jest się z czego cieszyć. Badanie wykazało, że w obu grupach na S choruje więcej kwejkowiczów niż dzidowców.
Teraz pytanie. Czy to oznacza, że wśród całej badanej populacji, na S choruje więcej użytkowników kwejka? Przecież intuicja podpowiada, że skoro w każdej grupie jest taka sama zależność, to dla całości nie może być inaczej. Jednak jeśli ktoś miał trochę do czynienia z statystyką albo geometrią to wie, że jednak może! Spójrzmy na połączone dane.
Okazuje się, że gdy patrzymy na całą populacje to jest odwrotnie, niestety procentowo to więcej dzidowców choruje na S.
Taką sytuację nazywamy Paradoksem Simpsona. (słowo paradoks odnosi się tu do nieintuicyjności, a nie do sprzeczności). Polega on właśnie na tym, że efekt działania kilku grup wydaje się odwrócony, kiedy grupy są połączone. Zjawisko już w 1899 roku zauważył Karl Pearson, a także potem w 1903 Udny Yule. Dokładnie jednak opisał wszystko Edward Simpson w swoim artykule opublikowanym w 1951 roku.
Zauważmy jakie ogromne pole do manipulacji osobami nieznającymi matematyki niesie za sobą to zjawisko.
Pierwsza tabelka mogłaby sobie latać po jbzd w celu wyśmiewania kwejka, kiedy równocześnie druga tabelka by sobie latała po kwejku w celu wyśmiewania dzidowców.
Jakaś partia polityczna, sprzedawca czy korporacja mogłaby pokazywać tylko tę część danych, która jest dla nich korzystna. I nie trudno się domyślić, że często się tak dzieje...
Wracając do Berkeley, co tam się stało? Różnica w wyniku na poszczególnych wydziałach a na całości jest spowodowana tym, że na ogół więcej kobiet niż mężczyzn stara się o przyjęcie na wydziały, które przyjmują mało kandydatów (np. A i B) Za to więcej mężczyzn składa podania na te przyjmujące sporo osób. Taka prosta sytuacja, na którą pewnie normalnie nikt by nie zwrócił uwagi, gdyby nie to, że można ją bardzo łatwo wykorzystać do oskarżenia o dyskryminacje.
Gdyby ktoś miał ciągle problem z przyjęciem jak działa paradoks Simpsona, poniżej bardzo fajny gif świetnie obrazujący korelację dwóch zmiennych dla konkretnych grup oraz dla całej populacji.