Size matters: De Morgen en De Standaard rapporteren dezelfde wetenschappelijke studie maar trekken verschillende conclusies

Gisteren rapporteerden verschillende mediabronnen over een grootschalig Amerikaans onderzoek naar de invloed van het al dan niet hebben van kinderen op hoe gelukkig men is. Maar liefst 1,8 miljoen Amerikanen namen deel aan het onderzoek waarmee het een van de grootste onderzoeken in z’n soort is. Het onderzoeksteam van onder meer Princeton University publiceerde hun bevindingen in het tijdschrift Proceedings of the National Academy of Sciences.

Dit soort onderzoek kan meestal op grote mediabelangstelling rekenen en hier was dit niet anders. Mediabronnen over de hele wereld rapporteerden over deze studie. Opvallend is dat verschillende media heel erg verschillen in de manier waarop ze de resultaten beoordelen. Als voorbeeld vergelijk ik twee grote Vlaamse kwaliteitskranten, De Standaard en De Morgen.

De Morgen kopt: “Gelukkiger met kinderen? Dat blijkt tegen te vallen“. De Standaard koos de titel: “Dat ouderschap gelukkig maakt is een mythe“. Op het eerste zicht lijkt er weinig verschil tussen beide te zijn, maar het artikel in De Morgen brengt de boodschap dat kinderen het geluksgevoel ondergraven, terwijl De Standaard meldt dat er geen verschillen zijn in geluksgevoel tussen mensen met en zonder kinderen. De inleiding van beide artikels geeft dit al aan:

Wie kinderen in huis heeft, is doorgaans iets ongelukkiger dan wie geen kinderen in huis heeft. Dit blijkt uit één van de grootste studies in zijn soort, gisteren gepubliceerd in het wetenschappelijk tijdschrift PNAS.
De Morgen – 14/01/2014

Een studie aan de Princeton University, waaraan 1,8 miljoen Amerikanen en meer dan 1 miljoen respondenten uit andere landen hebben deelgenomen, toont aan dat koppels met kinderen ongeveer even gelukkig zijn als kinderloze stelletjes.
De Standaard – 14/01/2014

Hoe zit dat nu, denk je dan. De originele studie erbij halen is verhelderend. Belangrijk is te begrijpen hoe we “gelukkiger” of “minder gelukkig” moeten interpreteren. Wat betekent dat precies? En belangrijk: hoeveel gelukkiger/ongelukkiger wordt men van het al dan niet hebben van kinderen?

De studie heeft mate van geluk gemeten aan de hand van de Cantril ladder. Kort gezegd komt het erop neer dat men aan de deelnemers vraagt hoe gelukkig men zich voelt op een schaal van 0 tot 10 (maar dan voorgesteld aan de hand van een ladder, zie afbeelding hieronder).

Cantril_ladder(Bron: Scientific American)

Wat de onderzoekers vonden is dat er een statistisch significant verschil is tussen de waardering die mensen met kinderen geven en zij die kinderloos zijn. Namelijk, de kinderlozen hadden gemiddeld een geluksscore van 6.84, terwijl zij die kinderen hebben een gemiddelde geluksscore van 6.82 hebben (Tabel 1 in het originele artikel). Grafisch voorgesteld ziet dit er als volgt uit:

Cantril_ladder_crop3Onmiddellijk wordt duidelijk dat het verschil tussen beide groepen zo klein is dat het bijna niet op deze schaal weergegeven kan worden. De reden dat dit minieme verschil statistisch significant is, is gewoonweg het gevolg van de gigantische steekproef (1.8 miljoen respondenten).

Dit is een mooi voorbeeld van een van de grootste problemen die de term ‘statistisch significant’ met zich meebrengt, namelijk: een verschil dat statistisch significant is betekent helemaal niet dat het ook relevant is. Velen, ook wetenschappers, halen beide concepten al te vaak door elkaar.

In bovenstaand voorbeeld is het duidelijk dat het verschil niet relevant is, ook al is het statistisch significant. De auteurs geven dit ook meermaals aan in hun artikel. De Standaard bracht de boodschap van de auteurs over. Echter, veel media (o.a. De Morgen) onthielden enkel dat kinderloze mensen iets gelukkiger zijn en voerden dan experts op om dit te kaderden.

Dat dit gebeurt is begrijpelijk: het wijdverspreide gebruik van klassieke hypothesetoetsen leidt ertoe dat men gaat focussen op de vraag “Is er een verschil, ja of nee?” (i.e. is mijn p-waarde kleiner dan 0.05?) in plaats van de veel relevantere vraag: “Hoe groot is het verschil?”. Size matters: in een volgende post zal ik hier dieper op ingaan.

Advertenties

11 thoughts on “Size matters: De Morgen en De Standaard rapporteren dezelfde wetenschappelijke studie maar trekken verschillende conclusies

  1. Toch wel wat te kort door de bocht. De vraag hoe groot een verschil is, is niet relevanter dan de vraag of het verschil statistisch significant is, d.w.z. systematisch is (niet toe te schrijven aan toeval). Bijv. een groot verschil dat niet significant is, heeft geen enkele waarde, precies omdat het dan niet gaat om een systematisch verschil. Omgekeerd kan een minuscuul klein verschil dat significant is wel degelijk heel erg relevant zijn. Neem bv. het effect van aspirine op voorkomen van hart- en bloedvatenziekten; dat effect is zoiets van r = .01, en toch betekent dit dat ongeveer 1 persoon op 100 geen hartfalen zal krijgen met aspirine. De schaal die hier gebruikt werd lijkt inderdaad niet direct van dien aard te zijn dat dit verschil veel betekenis heeft. Maar het blijft wel een systematisch, maar klein verschil. Waaraan dat dan ligt is nog een ander paar mouwen.

    • @wim: Bedankt voor uw opmerking, maar zoals u wel kon vermoeden ga ik er niet mee akkoord.

      1. Het is niet omdat iets statistisch significant (SS) is dat dat een effect systematisch is (of omgekeerd: het is niet omdat iets niet SS is dat het niet systematisch is). SS betekent dat de kans om een waargenomen verschil te vinden kleiner is dan 5%, gegeven dat er geen verschil zou zijn. U lijkt te besluiten dat iets bewezen (ie het effect is systematisch) is als het SS is. Het is niet omdat de nulhypothese verworpen wordt dat ze per definitie fout was.

      2. Een groot verschil dat niet SS is, kan wel degelijk waardevol zijn. Stel, ik wens het niemand toe, u heeft een ongeneeslijke ziekte. Er bestaan twee medicijnen: de blauwe pil en de gele pil en beide kunnen u extra levensjaren verschaffen. Geen pil nemen betekent dat u 0 extra levenjaren heeft. De geschatte effectgroottes (ongeveer 1 extra jaar vs 4 extra jaren) en de overeenkomstige steekproevenverdelingen van beide pillen zijn weergegeven in onderstaande grafiek:

      comment

      De vertikale streep geeft het 1-tailed 95% betrouwbaarheidsinterval weer. De grafiek maakt duidelijk dat de blauwe pil een significant (kleiner) effect heeft, terwijl de gele pil een niet-significant (groter) effect heeft. Welke pil zou u nemen? Volgens uw comment zou u de gele pil zelfs niet overwegen, echter ik denk dat veruit de meeste mensen de gele niet-SS pil zouden verkiezen.

      3. Ik ga wel akkoord met uw opmerking dat minuscuul kleine SS effecten relevant kunnen zijn. Ik denk ook niet dat ik ergens beweerd heb dat effect groot moeten zijn om relevant te zijn. Alles hangt af van de kostfunctie, nl welke kost/winst gaat gepaard met een zekere effectgroote. Als de winst groot genoeg is, zelfs bij minuscuul kleine effecten, dan is dit inderdaad relevant. Het punt is dat ‘SS’ en ‘relevant’ twee verschillende begrippen zijn die niet door elkaar gehaald mogen worden, maar dat dit jammer genoeg vaak wel gebeurt.

  2. Ik heb niet beweerd dat je een fout maakte in je redenering, wel dat het wat kort door de bocht is (lees: niet alle aspecten v/h probleem belicht) te zeggen dat effectgrootte belangrijker is dan de zekerheid dat we te maken hebben met een verschil dat niet aan het toeval kan worden toegeschreven (en dus betrouwbaar is).

    1. Het is juist dat statistische significantie niet ‘bewijst’ dat het effect systematisch is. In de klassieke Neyman-Pearson (NP) statistiek is p de kans om een waargenomen verschil (of nog groter verschil) te observeren indien H0 waar is. Indien die kans kleiner is dan een conventionele grootheid (0.05 of 0.01) neemt de statiscus aan dat een dergelijke observatie onwaarschijnlijk is, en DUS de nulhypothese wellicht niet waar was. De NP-statistiek is op zich uiteraard correct, maar introduceert door de beslissingsregel onzekerheid (een kansuitspraak). Deze onzekerheid grijp je aan om te zeggen dat de beslissing ‘verwerp H0’ onjuist kan zijn. Dat klopt uiteraard, want dat is geïmpliceerd in de NP-redenering. Het is dan ook goed dat u zegt dat ik ‘lijk’ te besluiten dat iets bewezen is als het significant is. Dat besluit ik echter niet. Wat ik wel heb willen beweren is dat als je geen evidentie hebt (via de NP-statistiek of anders) voor de betrouwbaarheid van je effect, dat dan verwijzen naar effectgrootte geen waarde heeft. Het probleem is m.i. dat de onzorgvuldigheden met de interpretatie van de NP-statistiek (die beslist veelvuldig voorkomen, dat is goed bekend) ook niet moeten vervangen worden door nieuwe onzorgvuldigheden, nl. effectgroottes belangrijk achten, ongeacht informatie over de betrouwbaarheid. Ik ben dat al in heel wat publicaties en doctoraten tegengekomen. De effectgrootte op zich geeft geen indicatie van de mate waarin de empirische data steun verlenen aan de hypothese.

    2. Daarvoor is meer informatie nodig en die geef jij bijv. in je voorbeeld in punt 2. Je geeft daarin de kansverdelingen dat de hypothesen waar zijn, evt. gegeven bepaalde geobserveerde data. Met zijn inverse probabiliteit past dit voorbeeld dus bij het Bayesiaanse paradigma dat tegenwoordig terecht meer en meer populair aan het worden is. We zijn inderdaad als onderzoeker doorgaans geïnteresseerd in de vraag wat de kans is dat een bepaalde hypothese waar is, gegeven onze data. Ik maak daar ook graag gebruik van in mijn onderzoek. Op grond van de beschikbare informatie zou ook ik hier uiteraard kiezen voor de gele pil, maar die keuze kan ik maar maken omdat er veel meer gegeven is dan de effectgroottes, nl. de verdelingen in de populatie. Maar ik zou inderdaad de gele pil niet overwegen, of er toch meer aan twijfelen, indien ik alleen wist dat de effectgrootte van de gele pil groter is dan die van de blauwe pil maar dat het effect van de gele pil onbetrouwbaar is (bv. een p-waarde van .45) en die van de blauwe pil wel heel betrouwbaar (bv. p = 0.001). Dan zou men kunnen kiezen voor het zekere boven het onzekere, naargelang het risico dat men wenst te nemen. Zo had je in je voorbeeld de gele curve ook nog veel platter kunnen tekenen met een zelfde effectgrootte. Het is wel zo dat toepassing van de Bayesiaanse statistiek tot andere besluiten kan leiden dan de NP-statistiek, wat niet betekent dat één van beide fout is, wel dat ze andere beslissingsregels hanteren.

    3. We zijn het erover eens dat statistische significantie en relevantie niet hetzelfde zijn, en wellicht ben je het ook eens met mij dat effectgrootte en relevantie ook niet hetzelfde zijn, omdat daarvoor meer nodig is dan effectgrootte alleen. Belangrijk daarbij is dat de effectgrootte altijd moet ingeschat worden in de context van het onderzoek. Daarbij is een ruwe effectgrootte vaak veel interessanter dan de veel gebruikte gestandaardiseerde effectgroottes (bv. Cohen’s d). Gestandaardiseerde effectgroottes hebben immers het nadeel dat de onderzoeker niet meer kijkt naar wat het effect precies betekent in de context van zijn onderzoek. Besluit: een klein effect kan systematisch en relevant zijn, en een groot effect kan onbetrouwbaar en daardoor irrelevant zijn.

    • Ik denk niet dat ik ergens beweerd heb dat effectgrootte belangrijker is dan de betrouwbaardheid van schattingen. Mijn laatste post gaat zelfs specifiek over het feit dat effectgroottes vergelijken zonder zicht op de betrouwbaarheden niet zinvol is. Mijn punt is net dat beide aspecten (afzonderlijk) bekeken moeten worden om zinvolle conclusies te kunnen trekken. Enkel rapporteren dat iets SS is, is mi zinloos. En dat is net wat zo vaak gebeurt…

      In punt 1 reageerde ik op volgende uitspraak uit uw (eerste) reactie: “een groot verschil dat niet significant is, heeft geen enkele waarde, precies omdat het dan niet gaat om een systematisch verschil”. In uw tweede reactie geeft u toe dat dit inderdaad een foutieve uitspraak is. De relatie ‘niet SS -> niet systematisch’ is niet deterministisch, maar probabilistisch. Een belangrijk onderscheid dat veel hypothesetesters niet lijken te erkennen.

      In m’n punt 2 probeerde ik aan te tonen dat grote, niet SS effecten wel degelijk relevant/waardevol kunnen zijn. Dit in tegenstelling tot uw uitspraak “een groot verschil dat niet significant is, heeft geen enkele waarde, precies omdat het dan niet gaat om een systematisch verschil”. Ik vrees dat u daar mijn figuur wat verkeerd geïnterpreteerd heeft. Het zijn wel degelijk de steekproevenverdelingen van beide effecten (en niet de Bayesiaanse posterior distributions). Zoals u ongetwijfeld weet is er een 1-1 relatie tussen al dan niet SS en de betrouwbaarheidsintervallen van een schatter (die gebaseerd zijn op de steekproevenverdeling). Namelijk, wanneer de betrouwbaarheidsintervallen de waarde 0 bevatten dat is een effect niet SS (gele pil), wanneer 0 buiten het interval ligt dan is een effect wel SS (blauwe pil). Obv uw uitspraak heeft de gele pil geen enkele waarde, want het effect is niet SS. Echter, mijn punt is net dat zo’n besluit voorbarig is. Wat men wel moet doen is kijken naar de effectgrootte (4 extra jaar) en de daarbijhorende betrouwbaarheid (betrouwbaarheidsinterval). Wie dat doet zal in veel gevallen de gele pil verkiezen, ondanks dat ze niet SS is.

      Effectgrootte en relevantie zijn inderdaad niet hetzelfde. Dit is net wat ik uitlegde in mijn punt 3. Namelijk: relevantie hangt af van de kostfunctie die men hanteert (effect tov kost). Minuscuul kleine effecten die met een erg hoge kost gepaard gaan kunnen inderdaad relevant zijn. Grote effecten die met een erg lage kost gepaard gaan kunnen irrelevant zijn. Echter, mijn punt blijft: SS heeft niets te maken met relevantie. Een effect dat SS is hoeft helemaal niet relevant te zijn (zoals in de studie die ik besprak in m’n blogpost).

      Bovenstaande moet duidelijk maken dat ik me helemaal niet kan vinden in uw besluit dat een onbetrouwbaar effect irrelevant is. SS leidt de aandacht af van wat echt belangrijk is: effectgroottes en betrouwbaarheidsintervallen (of, voor de Bayesianen zoals ikzelf, de posterior distribution).

      • Ik heb ook niet gezegd dat jij hebt beweerd dat effectgrootte belangrijker is dan de betrouwbaardheid van schattingen. Maar mijn reactie was ingegeven door de vrees dat je met je stelling dat de grootte van een verschil belangrijker is dan dat er een verschil is (“size matters”), ongewild voeding gaf aan het idee dat het alleen maar om de effectgrootte gaat (dus los van betrouwbaarheid).

        Dries, mijn uitspraak “een groot verschil dat niet significant is, heeft geen enkele waarde, precies omdat het dan niet gaat om een systematisch verschil”, klopt in de logica en procedure van NP-statistiek, maar die had ik hier in feite niet nodig om mijn punt te maken. Ik had het inderdaad beter meteen breder geformuleerd in termen van betrouwbaarheid, dus: met een groot (of groter) effect dat niet betrouwbaar is, ben je ook niet veel. Dat is ook wat ik bedoelde te zeggen. Het was mij niet te doen de NP-statistiek te verdedigen, wel het belang van betrouwbaarheid.

        Wat het voorbeeld van de pillen betreft, daar waren we het al over eens. Het is mede dankzij de informatie over de betrouwbaarheid van de effecten dat je kan besluiten dat de gele pil wellicht te verkiezen is. Dat was mijn punt. (Ik had de figuur correct geïnterpreteerd en de CI’s wel gezien, maar toen ik door kreeg dat ik met een Bayesiaan te doen had, noemde ik dat ook).

        Ik ben het eens met je stelling dat SS nog niets zegt over relevantie, maar ik zou eraan toevoegen dat betrouwbaarheid wel altijd een voorwaarde is. Je zegt het niet eens te zijn met het besluit dat een onbetrouwbaar effect irrelevant is (wat heel vreemd klinkt), maar in de volgende zin zeg je zelf, “wat echt echt belangrijk is zijn effectgroottes en betrouwbaarheidsintervallen”. Ik veronderstel dat je wilde schrijven dat een niet-significant effect wel relevant kan zijn.

        Toch nog een bedenking en/of vraag. Je zegt dat de grootte van een effect een veel relevantere vraag is dan of er al dan niet een effect is. Ik ben het in grote mate eens met deze stelling als het gaat over niet-experimenteel onderzoek en praktijkrelevant onderzoek, zoals bv. in een effectiviteitsexperiment (bv. werkt methode A beter dan methode B?). Maar in een echt experiment (zoals vaak in de psychologie) is de substantieve hypothese meestal een kwalitatieve hypothese (dus is er een verschil of niet?). Om de substantieve hypothese te valideren is de kwantitatieve informatie van de effectgrootte dan niet vereist. M.a.w. enkel een binaire beslissing bepaalt of kansinvloeden al dan niet kunnen worden uitgesloten. In dit geval is de effect-grootte dus toch irrelevant. De rol van statistische significantie is hier beperkt tot het kunnen uitsluiten van toevalsfactoren als verklaring voor de geobserveerde data. De statistische hypothese biedt op zich geen informatie over de substantieve hypothese. Het kunnen uitsluiten van alternatieve verklaringen (dan degene uit de subst. hyp., nl. de gemanipuleerde variabele) wordt echter gerealiseerd door de experimentele controles (vooral randomisatie over de condities). In dit geval is de H0 geen statistische stroman die mits een grote N altijd wel significant wordt, maar wordt waargemaakt door het experimentele design. Deze redenering ontleen ik aan Chow (1996) die er een mooi boek over schreef. Ik baseerde me daar destijds op in mijn statistiekcolleges over de rol van SS in een experiment. Hoe ziet een Bayesiaan dit? In de onderzoekspraktijk zie ik wel interesse voor Bayesiaanse statistiek, maar dan toch in hoofdzaak in niet-experimenteel onderzoek. In de experimentele psychologie zie ik, daar nog maar heel weinig van. Wat denk je? Terecht of onterecht.

    • Dan zijn we het toch nog over meer eens dan initieel gedacht 😉

      Wat betreft uw bedenking/vraag:
      Mijn mening is dat men ook in experimenteel onderzoek vooral geïnteresseerd zou moeten zijn in effectgroottes (en bijhorende betrouwbaarheid). De vraag ‘is er een verschil tussen A en B?’ is per definitie gekend: ja er is een verschil. En als dit verschil niet resulteert in een lage p-waarde, dan moet er een grotere sample getrokken worden. Onderzoekers zouden zich steeds de vraag moeten stellen hoe groot dit verschil is/moet zijn. In de NP-benadering moet men hierover ook nadenken, maar in het hypothesetoetsen zoals dit in de praktijk gebeurt (NHST) maakt men zich hier nauwelijks zorgen over. En dit is problematisch, ook in theoretisch experimenteel onderzoek. Maar ik vermoed dat u opnieuw niet akkoord zal zijn met deze visie 😉

      Wat betreft Bayesiaanse methoden in experimenteel onderzoek: idd, Bayes is daar nog steeds marginaal in vergelijking met NHST. En dat vind ik vast en zeker onterecht. Maar dit staat eigenlijk los van m’n kritiek op het negeren van effectgroottes.

      • We zijn het inderdaad over het meeste eens; dat had ik van tevoren al wel zo ingeschat. Maar ‘for the sake of argument’ is het altijd leuker om eerst wat te discussiëren om enkele zaken scherper te stellen. Bijvoorbeeld: ik ben het helemaal eens om naar effectgroottes te kijken, maar dan zijn ruwe effectgroottes meestal te verkiezen, omdat het gedachteloos weergeven van gestandaardiseerde effectgroottes ook weer leidt tot een nieuw soort van onkritisch volgen van statistische regeltjes zonder dat men nadenkt over de verkregen data.

        Mijn vraag over experimenteel onderzoek was echt een vraag omdat ik ook daar wel meer mogelijkheden zie voor Bayseiaans statistiek. Maar zoals je al dacht, heb ik er toch nog wat op af te dingen 🙂 Je zegt dat het antwoord of er een verschil is tussen A en B per definitie gekend is. Dit is het gekende ‘de nulhypothese is nooit waar’ argument. Dat klopt meestal in niet-experimenteel onderzoek en in effectiviteitsexperimenten (werkt methode A beter dan methode B). In de vorige zin staat ‘meestal’, want wat met een hypothese als: “Er bestaat geen telepathie”. Hier is H0 wellicht waar. Het gaat mij echter vooral om zgn. theorietoetsend onderzoek. Omdat theoretisch afgeleide hypothesen in bv. de psychologie vaak kwalitatief zijn (ik bedoel dichotoom of categorisch en niet kwantitatief-continu) ben je daar niet geïnteresseerd in de grootte van het verschil (bv. leidt herhaalde aanbieding tot een toename v/d affectieve respons, ja of nee?). In deze context is H0 noch een categorische uitspraak, noch een uitspraak over de substantieve hypothese. H0 gaat dan in feite over de dataverzamelingsprocedure en is een conditionele uitspraak. Indien er in werkelijkheid geen verschil is EN indien de twee te vergelijken groepen zo zijn samengesteld dat ze alleen van elkaar kunnen verschillen omdat kansfactoren (toeval) werkzaam waren, en dat is het geval indien de ppn volledig at random werden toegewezen aan beide condities, dan is H0 wel degelijk ‘waar’. Dan is een geobserveerd verschil uitsluitend toe te schrijven aan toevalsfactoren. Het gaat hiet om twee voorwaardelijke uitspraken: 1) Als de onderzoeksmanipulatie geen effect had (dus alleen toevalsfactoren speelden), dan is H0 waar; 2) Als H0 waar is, dan is het gemiddelde verschil van de steekproevenverdeling van de verschillen gelijk aan 0.

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s