6. De paradox van Simpson

Top  Previous  Next

 

Bij kruistabellen waamee twee omstandigheden vergeleken worden komt soms een tegenstrijdigheid (paradox) voor.

Die tegenstrijdigheid wordt genoemd naar de ontdekker: De paradox van Simpson

De paradox die tegen de intuïtie ingaat kom je vooral tegen in de sociale en medische wetenschappen.
De paradox is ook in de data van de Titanic aan te wijzen.
Een realistisch voorbeeld dat je hieronder kunt openen gaat over het vergelijken van twee groepen mensen aan de boord van de Titanic, de derde klas passagiers en de bemanning.

Hoe dat zit kun je in een app bekijken.

Button

Onderstaande toelichting staat ook ontop
Er zijn drie kruistabellen. In de eerste tabel staat de overleving van de derde klas passagiers, in de tweede de overleving van de bemanning. In de derde tabel zijn de gegevens uit  de eerste twee tabellen samengevoegd.

Je ziet in de derde tabel dat het overlevingspercentage van de derdeklas passagiers iets hoger is dan dat van de bemanning, namelijk  24,08 %  tegen 23,95 %.
Uit statistisch oogpunt is het overlevingspercentage voor beide groepen dus  hetzelfde.

De eerste twee tabellen tonen de overlevingsdata van beide groepen, de aantallen gesplitst naar geslacht, mannen en vrouwen. Je ziet daar dat, zowel voor mannen als vrouwen,  de overlevingspercentages van de derdeklas passagiers duidelijk lager zijn dan die van de bemanning. Respectievelijk 10% vs. 23% en 46% vs. 87%

Het overlevingspercentage van de totale bemanning was nauwelijks lager dan dat van de derdeklas passagiers terwijl de overlevingspercentages van de mannelijke en vrouwelijke bemanningsleden duidelijk hoger waren. Hoe kan dat. Klopt er hier iets niet?

De oorzaak van deze ogenschijnlijke tegenspraak is een "verborgen" of "verwarrende" variabele.
In dit geval is dat de variabele geslacht die in de laatste tabel niet voorkomt en voor de paradox zorgt.

Dit voorbeeld is gebaseerd op realistische data. Het geeft aan dat je altijd voorzichtig moet zijn bij het trekken van conclusies uit data. Neem niet blindelings aan dat de data in orde zijn, ga na hoe ze zijn ontstaan en vraag je af of er misschien informatie mist.

 

Bronnen:
Sarah Marley (2012)
Hidden Data and Surviving  a Sinking Ship: Simpson’s Paradox

Op de site https://en.wikipedia.org/?title=Simpson's_paradox staan nog meer voorbeelden en uitleg over de paradox.