Hoe vaak gebeurt het dat de oudste Belg overlijdt?

We zijn allemaal ooit de jongste mens op aarde geweest. Maar na zo’n kwartseconde waren we de titel van ‘jongste mens ter wereld’ naar verwachting alweer kwijt. Niemand die verder nog wakker ligt van dergelijke records. Anders is dat wanneer de oudste Belg/mens/man/vrouw/… komt te overlijden. Vorige week stonden de kranten er alweer vol van.

Via De Standaard vernamen we het trieste nieuws dat de oudste Belgische vrouw overleden is op 110 jarige leeftijd. Via Knack werden we verder ook nog ingelicht dat per toeval in dezelfde week ook de oudste vrouw ter wereld overleden is op 116 jarige leeftijd. Uit het artikel leren we ook nog dat deze laatste slechts 6 dagen de titel van oudste vrouw ter wereld gedragen heeft nadat op 1 april jl. een 117 jarige Japanse het leven liet.

Het verbaast me telkens hierover nieuwsberichten te lezen in onze (kwaliteits)media. Immers, per definitie is de oudste mens ter wereld erg oud en is de kans bijgevolg erg groot dat deze persoon over korte tijd zal overlijden. En telkens weer worden daar dan artikels over geschreven met bijhorende tips voor een lang leven.

Interessanter leek me de vraag hoe vaak we kunnen verwachten dat de oudste Belg komt te overlijden. En dat is een leuke analyse geworden (wie enkel het resultaat wil weten en niet de analyse zelf kan naar de laatste paragraaf scrollen).

De gegevens om dit te analyseren haalde ik van StatBel (vroegere Nationaal Instituut voor Statistiek). Daar kon ik zogenaamde ‘sterftetabellen’ downloaden.

sterftetabelIn sterftetabellen staan een aantal statistieken, zoals het aantal inwoners voor elke leeftijd, de kans om te overlijden op elke leeftijd, levensverwachting, enz. Op basis van deze gegevens kunnen we ook een zogenaamde ‘overlevingscurve’ plotten.

survivalDeze curve geeft voor elke leeftijd weer wat de kans is om minstens die leeftijd te bereiken. Bijvoorbeeld, in Belgie in 2013 is de kans om 85 of ouder te worden ongeveer 50%. Een curve die gerelateerd is aan de overlevingscurve is de risicocurve. Die curve geeft weer wat voor elke leeftijd de kans is te overlijden op die leeftijd.

hazardDeze informatie zal ik nodig hebben voor de berekeningen. Maar, zoals je kan zien in de grafieken houdt StatBel enkel gegevens bij tot 105 jaar. Om ons probleem te kunnen oplossen hebben we echter gegevens nodig voor elke leeftijd tot ongeveer 122 jaar (de leeftijd van de oudste mens ter wereld ooit). We moeten de risicocurve dus op een of andere manier gaan extrapoleren. Dit heb ik gedaan door een machtsfunctie te schatten op de data (zie oranje lijn op figuur hieronder).

risk = -37.9 \; t^{7.99}

hazard_overlayOp die manier heb ik voor elke mogelijke leeftijd een inschatting van het risico te overlijden op die leeftijd. Merk op dat voor leeftijden waar het geschatte risico groter dan 1 was, ik dit afgerond heb naar 1 (gebeurde vanaf 115 jaar, wat ouder is dan de oudste Belg ooit, i.e. 112).

Tenslotte heb ik nog het aantal Belgen per leeftijdsgroep nodig. Immers, je kan je voorstellen dat wanneer er veel kinderen en weinig bejaarden zijn dit zorgt dat de titel van ‘oudste inwoner’ minder snel afgelost zal worden. Deze data kan gemakkelijk uit de sterftetabellen gehaald worden. Echter, opnieuw worden alle mensen ouder dan 104 in dezelfde categorie onder gebracht. Dus moet er ook een schatting gemaakt worden van hoe die (74 gevallen) verdeeld zijn over de leeftijden 105 tot 110 (leeftijd huidige oudste Belg). Om dit te doen heb ik het cummulatieve product van de geschatte risicocurve berekend en dit gebruikt als kansen in een multinomiale verdeling.

Om de eigenlijke simulatie te kunnen doen moest ik een aantal assumpties maken. De belangrijkste is ongetwijfeld dat ik er van uit gegaan ben dat de risicocurve niet zal veranderen in de komende 10 jaar (en dat de staart ervan met een machtsfunctie beschreven kan worden). Wellicht is dit onrealistisch, maar door over een periode van slechts 10 jaar te simuleren hoop ik hieraan toch wat tegemoet te komen. Verder ben ik er ook van uit gegaan dat het risico om te overlijden binnen een bepaald jaar (dus elke dag van dat jaar) even groot is. Merk op dat deze assumpties ervoor zorgen dat de resultaten met de nodige kritische zin moeten worden bekeken.

In woorden werkt het simulatie algoritme ongeveer als volgt:

  • Voor elke leeftijd, simuleer het aantal overlijdens adhv een binomiaalverdeling met n gelijk aan het aantal Belgen in die leeftijdscategorie en p gelijk aan het risico voor die leeftijd.
  • Ga na of de oudste Belg overleden is (dit is gecompliceerder dan op het eerste zicht lijkt wegens mogelijk meerdere overlijdens van oudste Belgen binnen hetzelfde jaar).
  • Indien ja, tel het aantal oudste Belgen die zijn overleden binnen datzelfde jaar. Simuleer hiervoor de sterfdagen uit de uniforme verdeling U[0,365].
  • Vermeerder de leeftijd van alle niet overleden Belgen met 1.
  • Simuleer het aantal geboortes (leeftijd 0). Hiervoor gebruikte ik het geboortecijfer van 2012 (i.e. ongeveer 126.000)
  • Indien 10 jaar gesimuleerd, schrijf resultaten weg en begin opnieuw.
  • Herhaal dit proces vele keren (i.e. 10.000 keer).

Onderstaande grafiek geeft het resultaat weer van 10.000 simulaties van overlijdens voor het komende decennium in België. Je ziet hoe vaak we kunnen verwachten dat de ‘oudste Belg’ zal komen te overlijden per jaar.

histDe waarde 1,5 is het meest waarschijnlijk. Dit betekent dat we kunnen verwachten dat we in het komende decennium ongeveer 1,5 keer per jaar (anders gezegd, 1 à 2 keer per jaar) in de krant te zullen lezen dat de oudste Belg is overleden. Als de kranten zich hiernaast ook nog interesseren voor ‘de oudste mannelijke Belg’ en ‘de oudste vrouwelijke Belg’ en ‘de oudste wereldburger’ enzovoort, dan mogen we ons aan een veelvoud van dergelijke artikelen verwachten. JOY!

Als toemaatje heb ik ook nog berekend wat de kans is dat het leeftijdsrecord van de oudste Belg ooit (112) overschreden zal worden het komende decennium. Het blijkt dat die kans ongeveer 28% bedraagt en indien dit inderdaad zou gebeuren dan mogen we verwachten dat deze heugelijke gebeurtenis zich binnen ongeveer 6.5 jaar zal voordoen.

Afspraak binnen 10 jaar voor mijn evaluatie…

Advertenties

Over hartscreenings: Op een mensenleven staat geen prijs, of toch?

Context

Het voorbije weekend is tijdens de 20km van Brussel (artikel De Tijd) een 28-jarige loper om het leven gekomen na hartfalen. Vele andere lopers met hartklachten werden door het Rode Kruis geholpen. Dit doet dr. Pedro Brugada, hartspecialist van het UZ Brussel (opnieuw) oproepen om over te gaan tot massale hartscreenings van sporters.

De topcardioloog kwam een paar jaar geleden ook uitvoerig in de media met zijn voorstel om alle 12 jarigen te screenen op hartproblemen. Het Vlaams Agentschap voor Zorg en Gezondheid was toen bezorgd over de plannen van Brugada. Voor zo’n massale screening is toelating van de bevoegde minister nodig, maar Brugada wilde geen wetenschappelijk dossier indienen omdat de screening hierdoor vertraging zou oplopen (link).

Vandaag wordt opnieuw opgeroepen voor dergelijke massale screenings. En intuïtief is het moeilijk in te zien waarom dit géén goed idee zou zijn. Elke sporter die overlijdt aan hartfalen is er een teveel. Waarom die terughoudendheid dan?

Een simpel voorbeeld

Het belangrijkste probleem is dat de testen die gebruikt worden om hartproblemen bloot te leggen niet feilloos zijn. En dit heeft belangrijke gevolgen. Een simpel voorbeeld moet dit duidelijk maken (een voorbeeld met realistischer cijfers volgt later):

plot1xStel dat we een populatie hebben van 100 mensen en 10 van die 100 (dus 10%) hebben, zonder het te weten, een hartprobleem (de personen met een geel hartje). Veronderstel verder dat artsen een test ter beschikking hebben die in 90% van de gevallen een correcte diagnose geeft. Wanneer we nu deze test gaan toepassen op onze gehele populatie dan ziet het verwachte resultaat er als volgt uit:

plot2xGroen betekent dat de persoon een negatief testresultaat kreeg, rood betekent dan dat de persoon een positief testresultaat kreeg. Van de 10 mensen die effectief een hartprobleem hebben, werden er 9 correct geïdentificeerd (90%). Bij één werd ten onrechte besloten dat er geen problemen zijn. Van de 90 personen zonder hartproblemen werd bij 81 (of 90%) besloten dat er geen problemen zijn, maar bij 9 werden ten onrechte toch problemen vastgesteld.

Dit betekent dus dat wie een positieve test krijgt slechts 50% kans heeft ook effectief hartproblemen te hebben (van alle ‘rode pictogrammen’ heeft slechts de helft een ‘geel hart’)! Voor velen is dit een erg opmerkelijk resultaat: de test is correct in 90% van de gevallen, maar wie een positieve test krijgt, heeft slechts 50% kans op hartproblemen. Onderzoek heeft aangetoond dat zelfs artsen vaak niet in staat zijn om deze kansen te berekenen (link).

De reden voor dit opmerkelijk resultaat is dat de test niet feilloos is (90% correct in bovenstaand voorbeeld) in combinatie met de lage proportie personen met een hartaandoening (10% in bovenstaand voorbeeld).

Het is duidelijk dat hoe slechter de test, hoe lager de kans op ziekte gegeven een positief testresultaat. En ook: hoe minder frequent een bepaalde ziekte voorkomt in de populatie, hoe lager de kans dat een positief testresultaat ook betekent dat de persoon ook écht ziek is.

Een meer realistisch voorbeeld

Wanneer een screening procedure overwogen wordt, is het belangrijk de karakteristieken van die procedure te evalueren. De standaard test om hartproblemen te identificeren is de elektrocardiogram (ECG). Dit is ook een van de testen die voorgesteld wordt door dr. Brugada in massale screenings. Voor de cijfers baseer ik me op een document van het hartcentrum Hasselt.

De sensitiviteit van een test is het percentage terecht positieve uitslagen onder de zieke personen. Voor een ECG is dit ongeveer 90%. De specificiteit  van een test is het percentage terecht negatieve testuitslagen onder de niet-zieke personen. Voor een ECG is dit ongeveer 85%.

Aan de hand van de regel van Bayes kunnen we nu de kans berekenen dat iemand hartproblemen heeft, gegeven dat deze persoon een positieve ECG testuitslag kreeg.

p(hartproblemen|pos.test)=\frac{sensitiviteit \times p(hartproblemen)}{(sensitiviteit \times p(hartproblemen))+((1-specificiteit) \times (1-p(hartproblemen)))}

Dit geeft dan:

p(hartproblemen|pos.test)=\frac{0.9 \times 0.005}{(0.9 \times 0.005)+(0.15 \times 0.995)} = 0.03

Dit betekent dus dat bij een massale screening slechts 3% van de positieve testen écht problematisch zouden zijn. En 97% van de positieve ECG testen zouden vals positief zijn! Daarenboven zal er nog steeds een kleine groep zijn (0.2%) die onterecht te horen kreeg dat alles in orde is, terwijl ze toch een hartprobleem hebben. Denk maar aan de (gelukkig occasionele) profvoetballers die sterven op het veld, ondanks hun uitgebreide medische begeleiding.

Conclusie

Elke sporter die overlijdt aan hartfalen (of eender welke andere aandoening) is er een teveel. Echter, geen enkele test kan perfect voorspellen wie wel en wie niet aan hartfalen kan sterven. Dit in combinatie met de lage kans om te sterven aan hartfalen (ongeveer 0.5% voor atleten) zorgt ervoor dat screenen weinig effectief is.

Het cijfervoorbeeld gaf aan dat in een realistisch scenario slechts 3% van de positieve ECG tests een onderliggende pathologie correct identificeren. Deze 3% zien mogelijk hun leven gered door het screening programma. Anderzijds zullen zo’n 97% van de positieve testresultaten vals alarm blijken te zijn. Deze mensen zullen zich onterecht zorgen maken en dure vervolgonderzoeken moeten ondergaan.

Artsen zoals Brugada focussen op de (erg) kleine groep sporters die gered worden met screening, tegenstanders vinden dan weer dat de kosten van screening niet opwegen tegen het beperkt aantal mensen dat gered wordt en de (erg) grote groep die onterecht vervolgonderzoeken krijgt en zich zorgen gaat maken. Zij vinden dat het geld beter naar meer effectieve programma’s kan gaan, waarbij meer mensenlevens gered worden met hetzelfde budget (bvb. focussen op 50+ers waarbij p(hartproblemen) al veel groter is dan 0.5%).

Het is niet makkelijk een standpunt in te nemen in dit debat. Intuïtief lijkt screenen een schitterend idee. ‘Meten is weten en op een mensenleven staat geen prijs’. Maar misschien is die redenering wat kort door de bocht. Met deze post hoop ik wat meer inzicht gebracht te hebben in het probleem (voornamelijk voor wat het aspect kansberekening betreft).

Tot slot: ik ben geen arts en heb ook geen medische scholing gekregen.

Luxemburg en Brussel, West-Europa’s meest moorddadige hoofdsteden?

Gisteren verscheen in de online krant van zowel De Morgen als De Standaard een artikel over een merkwaardige statistiek. Het aantal moorden per inwoner zou in Luxemburg het hoogst zijn van alle hoofdsteden in West-Europa, met Brussel als betreurenswaardige tweede in de ranglijst. In grootsteden als Parijs, Madrid  of Rome zou men verhoudingsgewijs veel minder vaak aan het moorden gaan.

Dat een klein (en schijnbaar vredevol) stadje als Luxemburg deze illustere ranglijst aanvoert, deed me de wenkbrouwen fronsen. Zou het? De bevindingen komen rechtstreeks uit het rapport ‘Global Study on Homicide 2013’ van de United Nations Office on Drugs and Crime. Toch niet meteen het eerste het beste instituut. In deze blogpost probeer ik hun bevindingen in een breder perspectief te plaatsen.

Om het aantal moorden per inwoner (voor de West-Europese hoofdsteden) te berekenen is informatie nodig over het inwonersaantal en het aantal moorden per hoofdstad. Deze informatie kan relatief gemakkelijk van de website van Eurostat gehaald worden. Cijfers over inwonersaantal per stad kan hier gevonden worden. Het aantal moorden per stad hier. Het mooie van deze data is dat er gegevens zijn van 2003 tot 2012. Het nadeel is dat er geen gegevens zijn voor het jaar 2013, het jaar waarop de ‘Global Study on Homicide 2013’ is gebaseerd.

Hieronder de moordratio’s (per 100.000 inwonders) voor tien West-Europese hoofdsteden (Merk op: eventuele ontbrekende data voor wat betreft inwonersaantal heb ik aangevuld uitgaand van een lineaire trend. Er was geen ontbrekende data voor aantal moorden.):

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Amsterdam 3.7 2.6 3.2 0.5 3.6 1.5 3.2 1.3 1.5 2.2
Berlijn 2.1 1.9 1.5 2.3 1.8 2.2 1.8 1.2 1.2 1.3
Brussel 4.8 4.0 3.2 3.6 1.9 4.2 3.1 2.8 2.1 2.6
Lissabon 2.0 1.9 2.9 3.1 2.8 2.0 1.0 1.1 1.1 2.0
Ljubljana 1.1 2.6 1.5 0.4 1.1 0.0 0.4 1.1 1.4 0.7
Luxemburg 0.0 1.2 1.2 4.7 3.5 3.4 5.6 0.0 3.2 0.0
Madrid 2.3 1.5 1.4 1.5 1.2 1.2 1.0 0.9 0.7 0.9
Oslo 2.1 1.5 1.7 1.7 1.5 2.1 1.2 0.9 3.2 1.3
Parijs 2.5 0.9 1.5 1.3 1.5 1.6 1.1 1.9 1.8 1.8
Rome 1.1 1.2 1.4 1.2 1.3 1.1 1.2 0.4 1.2 0.9

Wanneer een ratio in het rood is weergegeven, betekent dit dat een stad voor een gegeven jaar tot de twee meest ‘moorddadige’ steden behoorde (uit dit arbitraire lijstje). Een groene ratio betekent dan weer dat een stad voor een gegeven jaar tot de minst ‘moorddadige’ steden behoorde. Hieronder een grafische weergave van 3 van de 10 hoofdsteden uit de tabel (alle 10 de steden weergeven leidt tot een onleesbare grafiek).

plotFiguur 1: Een stad met relatief hoge moordratio (Brussel), relatief lage
moordratio (Parijs) en een stad met erg variabele moordratio (Luxemburg)

Een tweetal zaken vallen hierij op:

Ten eerste, het aantal moorden per 100.000 inwoners was in Brussel het voorbije decennium hoog in vergelijking met andere West-Europese hoofdsteden. Men zou inderdaad kunnen stellen dat de kans om vermoord te worden voor een Brusselaar hoger is dan die voor een Romein of Parijzenaar. In dit opzicht zijn de krantenkoppen in De Morgen of De Standaard terecht.

Anderzijds, Amsterdam behoort in de ‘Global Study on Homicide 2013’ tot de landen met een eerder lage moordratio (1.3 per 100.000) en wordt in de krantenartikelen aangehaald als ‘veiliger’ stad, hoewel de cijfers van het voorbije decennium aantonen dat Amsterdam eerder tot de West-Europese hoofdsteden met hoge moordratio behoort.

Ten tweede, Luxemburg is een stadje van extremen (wat betreft de moordratio’s toch). Het voorbije decennium is de stad jaar na jaar ofwel een van de meest veilige, ofwel een van de meest moorddadige West-Europese hoofdsteden. Dat Luxemburg in ‘Global Study on Homicide 2013’ als stad met hoogste moordratio naar boven komt betekent nog niet dat dit ook de gevaarlijkste stad zou zijn. Door de erg kleine kans op moord (minder dan 0.006% per jaar) in combinatie met het relatief kleine inwonersaantal van de stad (ongeveer 100.000) is de waargenomen moordratio erg variabel over de jaren heen. Er hoeft daar bij wijze van spreken maar één gezinsdrama te gebeuren en het stadje schiet naar de top van de ranglijst.

Dit fenomeen doet wat denken aan het ‘Kleine gemeente, fijne gemeente’-probleem dat ik in een eerdere blogpost besprak. En dit is inderdaad een variatie op hetzelfde thema: stel dat de (jaarlijkse) kans om vermoord te worden in alle West-Europese hoofdsteden exact gelijk is, dan zouden we zien dat het waargenomen aantal moorden veel meer variabel is voor kleine hoofdsteden, dan voor grote hoofdsteden. In deze paper wordt hierop meer in detail ingegaan.

Conclusie: Neem een kritische houding aan ten aanzien van lijstjes. Vaak worden daar de hoogste en laagste posities ingenomen door kleine landen/steden/gemeenten/… die veel meer variabliteit vertonen op de variabele in kwestie dan de middenmoters. Het is dan ook vaak voorbarig om grote verklaringen te koppelen aan die extreem goede (of slechte) uitkomsten. In dit specifieke geval kan het, gezien de erg kleine kans op moord, nuttig zijn om een langere periode dan 1 jaar te nemen om (kleine) steden met elkaar te vergelijken.

Kleine gemeente, fijne gemeente? Over “het gemeenterapport” van Het Nieuwsblad.

Intro

De voorbije week presenteerde Het Nieuwsblad elke dag een reportage over ‘Het Gemeenterapport‘, een grootschalige enquête die het dagblad, in samenwerking met onderzoeksbureau iVox, afnam van meer dan 116.000 Vlamingen. De vragen gingen over diverse lokale thema’s maar ook over het nieuwe gemeentebestuur.

De eerste reportage ging over in welke gemeenten we het liefste wonen. In de vragenlijst werd aan de 116.000 Vlamingen gevraagd om te antwoorden met een score tussen 0 en 10 op de volgende vraag: ‘Hoe graag woont u in uw gemeente?‘. Hieronder de resultaten zoals ze gepresenteerd werden door Het Nieuwsblad (eigen reproductie obv de beschikbare gegevens):

gemeentesOp de kaart van Vlaanderen is elke gemeente in een kleur weergegeven dat overeenkomt met de gemiddelde score van die gemeente. In de inleiding van het artikel schrijft Het Nieuwsblad:

Inwoners van Linkebeek, Vorselaar en Zutendaal wonen het liefst in hun gemeente. Tienen, Vilvoorde en Zelzate scoren dan weer het slechtst. Dat blijkt uit Het Gemeenterapport van Het Nieuwsblad.
Het Nieuwsblad – 20/01/2014

Op twitter werd er duchtig gereageerd op Het Gemeenterappport. Een tweet die me opviel kwam van Bert Kruismans (@kruismans) die de score van een gemeente (Linkebeek) ging linken aan een kenmerk van die gemeente (faciliteitengemeente):

In deze blogpost wil ik graag verduidelijken waarom dergelijke conclusies voorbarig zijn.

Steekproef

Een vragenlijst die werd afgenomen bij meer dan 116.000 Vlamingen lijkt heel erg betrouwbaar te zijn. De steekproef is in elk geval gigantisch groot. En zolang we op basis van die vragenlijst enkel conclusies trekken over ‘dé Vlamingen’ is er ook geen enkel probleem.

Echter, de bedoeling van Het Gemeenterapport is niet om over de Vlaming in het algemeen te rapporteren, maar wel om de resultaten te gaan vergelijken over de verschillende gemeenten heen. En dan is het niet de totale steekproefgrootte die van belang is, maar de steekproefgroottes voor elke gemeente afzonderlijk. Volgend fictief voorbeeldje kan dit helpen verduidelijken:

Men wil de tevredenheid van de inwoners in twee steden, Gent en Kortrijk, met elkaar vergelijken. Om dit te onderzoeken is er een budget voorzien om 1000 inwoners te bevragen. Aan elke inwoner wordt gevraagd hoe fijn ze hun stad vinden (score op 10). Stel nu dat een (naïve) onderzoeker beslist om slechts 2 vragenlijsten af te nemen in Kortrijk en overige 998 in Gent.

Uit het onderzoek blijkt dat de gemiddelde score voor Kortrijk 6/10 is, terwijl de gemiddelde score voor Gent 7,5/10 is. Is het zinvol om te besluiten dat het zoveel fijner wonen is in Gent?

Het is duidelijk dat men dit niet zomaar kan besluiten. Een totaal van 1000 enquêtes is best veel, maar aangezien er slechts 2 in Kortrijk werden afgenomen is deze meting veel minder betrouwbaar dan de meting in Gent.

De kern van het probleem zou hiermee duidelijk moeten zijn: de gemiddelde tevredenheidsscores zoals ze op bovenstaand kaartje zijn weergegeven kunnen moeilijk geïnterpreteerd worden zonder informatie over hoe betrouwbaar elke score is.

‘Kleine gemeenten probleem’

Een probleem dat hieruit voortvloeit, is dat (in dit geval) gemeenten waar men slechts een kleine steekproef heeft genomen een veel grotere kans hebben om extreme uitkomsten te genereren. Hoe kleiner de steekproef, hoe groter de kans op extremen. (voor voorbeelden uit de gezondheidszorg, zie referentie onderaan deze blogpost)

Een veelgemaakte fout is dat een steekproef groter moet zijn voor grotere gemeentes (en omgekeerd) wanneer men gemeenten wil gaan vergelijken. Of, wat op hetzelfde neerkomt, dat elke inwoner van Vlaanderen dezelfde kans moet hebben om in de steekproef te belanden (wanneer men gemeenten wil gaan vergelijken). Onderstaande analyse geeft weer wat dan gebeurt:

Stel dat in elke Vlaamse gemeente de ‘echte’ tevredenheid exact dezelfde is, namelijk 7,25/10 (en dat 95% van de inwoners van elke gemeente zijn/haar gemeente een score tussen 5 en 9,5 zou geven).

Aangezien deze ‘echte’ tevredenheid niet gekend is, doet men een grootschalig onderzoek. Er is een groot budget beschikbaar waarmee het mogelijk is om 116.000 vragenlijsten af te nemen.

Elke inwoner van een Vlaamse gemeente heeft dezelfde kans om in de steekproef te worden opgenomen, dwz omdat Gent 3,3x meer inwoners heeft dan Kortrijk, worden ook 3,3x meer Gentenaars dan Kortrijkzanen in de steekproef opgenomen.

Hieronder een animatie van hoe 100 verschillende resulterende kaartjes er zouden kunnen uitzien (2 per seconde):

Merk op dat alle gemeentes eigenlijk oranje zouden moeten zijn (want de ‘echte’ tevredenheid bedraagt 7,25/10 voor elke gemeente). Echter, de animatie toont dat er toch steeds enkele gemeentes zijn die beter of slechter scoorden dan de rest (oa vaak Linkebeek). Dit betekent echter niet dat inwoners van die gemeentes meer of minder tevreden zijn dan de zij in andere gemeentes. Het is de kleine steekproef in die gemeenten die zorgt voor de grotere kans op extreme observaties.

Conclusie

Het kaartje, zoals het gepubliceerd werd op de website van Het Nieuwsblad, geeft te weinig informatie om de analyse ten gronde te kunnen voeren. Linkebeek, Vorselaar en Zutendaal halen inderdaad de hoogste scores, maar het zijn ook stuk voor stuk kleine gemeentes. Zonder extra informatie is het erg moeilijk om in te schatten of deze gemeentes ‘extreem’ scoren wegens bovenstaand steekproefprobleem of omdat het daar echt zo fijn wonen is.

Het is des mensen om altijd en overal oorzakelijke verbanden te gaan zoeken/zien bij opmerkelijke waarnemingen. Zeker journalisten, opiniemakers, experten allerhande hebben deze neiging. En dat is een goeie zaak, want het is ook hun taak om dingen in perspectief te plaatsen. Maar het wordt problematisch wanneer men toevallige fluctuaties gaat gaan verklaren. Data-journalist Maarten Lambrechts (@maartenzam) had alvast de goede reflex:

Jammer dat er geen antwoord op deze terechte vraag is gekomen…

Een meer formele en uitgebreide bespreking van bovenstaande ideeën kan in de paper ‘Gelman – All maps of parameter estimates are misleading‘ gevonden worden.

Size matters: De Morgen en De Standaard rapporteren dezelfde wetenschappelijke studie maar trekken verschillende conclusies

Gisteren rapporteerden verschillende mediabronnen over een grootschalig Amerikaans onderzoek naar de invloed van het al dan niet hebben van kinderen op hoe gelukkig men is. Maar liefst 1,8 miljoen Amerikanen namen deel aan het onderzoek waarmee het een van de grootste onderzoeken in z’n soort is. Het onderzoeksteam van onder meer Princeton University publiceerde hun bevindingen in het tijdschrift Proceedings of the National Academy of Sciences.

Dit soort onderzoek kan meestal op grote mediabelangstelling rekenen en hier was dit niet anders. Mediabronnen over de hele wereld rapporteerden over deze studie. Opvallend is dat verschillende media heel erg verschillen in de manier waarop ze de resultaten beoordelen. Als voorbeeld vergelijk ik twee grote Vlaamse kwaliteitskranten, De Standaard en De Morgen.

De Morgen kopt: “Gelukkiger met kinderen? Dat blijkt tegen te vallen“. De Standaard koos de titel: “Dat ouderschap gelukkig maakt is een mythe“. Op het eerste zicht lijkt er weinig verschil tussen beide te zijn, maar het artikel in De Morgen brengt de boodschap dat kinderen het geluksgevoel ondergraven, terwijl De Standaard meldt dat er geen verschillen zijn in geluksgevoel tussen mensen met en zonder kinderen. De inleiding van beide artikels geeft dit al aan:

Wie kinderen in huis heeft, is doorgaans iets ongelukkiger dan wie geen kinderen in huis heeft. Dit blijkt uit één van de grootste studies in zijn soort, gisteren gepubliceerd in het wetenschappelijk tijdschrift PNAS.
De Morgen – 14/01/2014

Een studie aan de Princeton University, waaraan 1,8 miljoen Amerikanen en meer dan 1 miljoen respondenten uit andere landen hebben deelgenomen, toont aan dat koppels met kinderen ongeveer even gelukkig zijn als kinderloze stelletjes.
De Standaard – 14/01/2014

Hoe zit dat nu, denk je dan. De originele studie erbij halen is verhelderend. Belangrijk is te begrijpen hoe we “gelukkiger” of “minder gelukkig” moeten interpreteren. Wat betekent dat precies? En belangrijk: hoeveel gelukkiger/ongelukkiger wordt men van het al dan niet hebben van kinderen?

De studie heeft mate van geluk gemeten aan de hand van de Cantril ladder. Kort gezegd komt het erop neer dat men aan de deelnemers vraagt hoe gelukkig men zich voelt op een schaal van 0 tot 10 (maar dan voorgesteld aan de hand van een ladder, zie afbeelding hieronder).

Cantril_ladder(Bron: Scientific American)

Wat de onderzoekers vonden is dat er een statistisch significant verschil is tussen de waardering die mensen met kinderen geven en zij die kinderloos zijn. Namelijk, de kinderlozen hadden gemiddeld een geluksscore van 6.84, terwijl zij die kinderen hebben een gemiddelde geluksscore van 6.82 hebben (Tabel 1 in het originele artikel). Grafisch voorgesteld ziet dit er als volgt uit:

Cantril_ladder_crop3Onmiddellijk wordt duidelijk dat het verschil tussen beide groepen zo klein is dat het bijna niet op deze schaal weergegeven kan worden. De reden dat dit minieme verschil statistisch significant is, is gewoonweg het gevolg van de gigantische steekproef (1.8 miljoen respondenten).

Dit is een mooi voorbeeld van een van de grootste problemen die de term ‘statistisch significant’ met zich meebrengt, namelijk: een verschil dat statistisch significant is betekent helemaal niet dat het ook relevant is. Velen, ook wetenschappers, halen beide concepten al te vaak door elkaar.

In bovenstaand voorbeeld is het duidelijk dat het verschil niet relevant is, ook al is het statistisch significant. De auteurs geven dit ook meermaals aan in hun artikel. De Standaard bracht de boodschap van de auteurs over. Echter, veel media (o.a. De Morgen) onthielden enkel dat kinderloze mensen iets gelukkiger zijn en voerden dan experts op om dit te kaderden.

Dat dit gebeurt is begrijpelijk: het wijdverspreide gebruik van klassieke hypothesetoetsen leidt ertoe dat men gaat focussen op de vraag “Is er een verschil, ja of nee?” (i.e. is mijn p-waarde kleiner dan 0.05?) in plaats van de veel relevantere vraag: “Hoe groot is het verschil?”. Size matters: in een volgende post zal ik hier dieper op ingaan.

Over- of ondervertegenwoordiging van politieke partijen in ‘De Zevende Dag’

In een vorige post werd de over- of ondervertegenwoordiging van politieke partijen in ‘De Zevende Dag’ besproken. Meer specifiek hoe de onderliggende gegevens het beste gevisualiseerd kunnen worden. In een commentaar van Filip Van Laenen (@hoegin) op die blogpost werd geopperd dat het interessant zou zijn na te gaan of de waargenomen over- of ondervertegenwoordiging van de verschillende politieke partijen ‘significant’ is. En dit is precies wat ik in deze post wil nagaan.

De gegevens voor deze analyse komen uit een tweet van @hoegin (de gegevens heb ik niet geverifieerd):

7dagVoor elke politieke partij is er informatie over twee variabelen. Ten eerste: voor elke politieke partij de verkiezingsscore voor de kamer in 2010. Ten tweede: voor elke partij hoe vaak ze te gast was in De Zevende Dag tussen 1 september en 15 december 2013.

Groen CD&V Open Vld SP.A VB N-VA LDD PVDA
Verkiezingen 7.1% 17.6% 14% 15% 12.6% 28.2% 3.7% 1.3%
7dag (freq) 13 25 20 24 7 18 3 1
7dag (pct) 11.7% 22.5% 18.0% 21.6% 6.3% 16.2% 2.7% 0.9%

De laatste rij van de tabel bevat dezelfde informatie als de tweede rij, maar dan uitgedrukt als percentage. Vergelijken van de percentages (verkiezingen vs 7dag) leert dat de traditionele partijen plus Groen vaker te gast zijn in De Zevende Dag dan dat men op basis van hun verkiezingsuitslag zou verwachten. Het omgekeerde is waar voor de V-partijen. Maar is dit ‘statistisch significant’?

De hypothese die getest zal worden is: “voor een politieke partij is de kans om te gast te zijn in De Zevende Dag proportioneel tot de verkiezingsuitslag (Kamer, 2010) van die partij”.

Een Bayesiaanse methode (want ik ben geen voorstander van klassieke significantietoesten) om deze hypothese te testen is het dirichlet-multinomial model (met vage prior). Dit model gaat ervan uit dat elke partij een zekere kans heeft om uitgenodigd te worden in De Zevende Dag. Deze kans is onbekend en wordt geschat aan de hand van de waargenomen frequentie van gastoptredens.

Hieronder zie je het resultaat van de analyse. De groene curve (de posterior) geeft voor elke politieke partij weer wat de geschatte kans is om in De Zevende Dag te gast te zijn. Bijvoorbeeld, voor Groen is die kans met 95% zekerheid tussen ongeveer 0.06 en 0.17 (te zien aan de groene inkleuring, het zekerheidsinterval) en is die kans het grootst bij ongeveer 0.11. Voor CD&V is die kans met 95% zekerheid tussen ongeveer 0.12 en 0.29 en is die kans het grootst bij ongeveer 0.22.

De blauwe vertikale streep geeft weer wat het verkiezingsresultaat (Kamer, 2010) was. Wanneer deze streep buiten het groen ingekleurde interval valt, dan is het erg onwaarschijnlijk dat voor die partij de kans om in De Zevende Dag te gast te zijn proportioneel is tot het verkiezingsresultaat (Kamer, 2010). Bijvoorbeeld, voor PVDA is te zien dat deze waarde mooi binnen het groen ingekleurde gedeelte valt. Dit betekent dat voor PVDA de kans om in De Zevende Dag te gast te zijn in verhouding is tot hun verkiezingsresultaat.

postDe enige politieke partijen van wie het verkiezingsresultaat buiten het 95% zekerheidsinterval valt, zijn Vlaams Belang en NVA. Dit betekent dat voor deze partijen het buitengewoon onwaarschijnlijk is dat hun kans om in De Zevende Dag te gast te zijn in verhouding staat tot hun verkiezingsresultaat. En hoewel het verkiezingsresultaat van Groen en SP.A nog net binnen het 95% zekerheidsinterval ligt, is het ook voor die partijen eerder onwaarschijnlijk dat hun kans om in De Zevende Dag te gast te zijn in verhouding staat tot hun verkiezingsresultaat.

De hypothese “voor een politieke partij is de kans om te gast te zijn in De Zevende Dag proportioneel tot de verkiezingsuitslag (Kamer, 2010) van die partij” is dus heel erg onwaarschijnlijk. Er zijn sterke aanwijzingen dat sommige partijen over- of ondervertegenwoordigd zijn ten opzichte van hun verkiezingsresultaat.

De meer fundamentele vraag of het aantal gastoptredens van politieke partijen in De Zevende Dag in verhouding móet staan tot hun verkiezingsresultaat laat ik over aan de specialisten ter zake.

Van desinfografiek tot infografiek: Over- of ondervertegenwoordiging van politieke partijen in De Zevende Dag

Een tweetal weken geleden las ik de volgende tweet die me nogal intrigeerde:

De tweet gaat over hoe vaak de verschillende Vlaamse politieke partijen in de uitzendingen van De Zevende Dag aan bod komen. De zogenaamde infografiek die aan de tweet gelinkt werd is de volgende:

infografiekDe reden dat deze grafiek me zo intrigeerde was niet de politieke boodschap die erachter schuil gaat, maar wel de ongelooflijke complexiteit van de infografiek zelf.

De grafiek geeft een soort heatmap weer die aangeeft welke politieke partijen over- of ondergerepresenteerd zijn ten opzichte van andere partijen rekening houdend met hun verkiezingsscore voor de kamer in 2010. Echter, de veelheid aan getallen, tekst en formules maken dat het niet evident is om de boodschap snel op te pikken. Wat mij betreft is dit eerder een desinfografiek…

Eigenlijk is de hele infografiek gebaseerd op slechts een beperkt aantal datapunten. Ten eerste: voor elke politieke partij de verkiezingsscore voor de kamer in 2010. Ten tweede: voor elke partij hoe vaak ze te gast waren in De Zevende Dag tussen 1 september en 27 oktober 2013 (MO: deze data haalde ik uit de infografiek van @hoegin).

CD&V Groen LDD N-VA Open Vld PVDA SP.A VB
Verkiezingen 17.6% 7.1% 3.7% 28.2% 14% 1.3% 15% 12.6%
7dag 18 8 1 9 13 0 13 6

De auteur van de tweet gaat ervan uit dat het aantal optredens van politieke partijen in De Zevende Dag in verhouding zou moeten staan tot hun verkiezingsscore. Als dit niet het geval is, dan ziet de auteur dit als over- of ondervertegenwoordiging van die partijen (merk op dat deze visie niet perse de mijne is).

Wat zijn de grootste problemen met de infografiek?

  1. De oorspronkelijke data bevat 2 datapunten voor elk van de 8 partijen, maar via een ingewikkelde fomule worden van die 16 datapunten maar liefst 8×8=64 datapunten gemaakt.
  2. Het groene en rode deel van de infografiek bevat eigenlijk dezelfde informatie (het groene deel is het de inverse van het rode deel). Het presenteren van zowel de groene als de rode data zorgt dus enkel voor verwarring en niet voor extra inzicht.
  3. De gebruikte formule berekent eigenlijk de ratio van twee ratio’s. Dit bemoeilijkt de interpretatie van de cijfergegevens enorm.
  4. De grenzen van de kleurencodes in de legende zijn arbitrair.

Een veel sterkere visuele voorstelling van deze data is de volgende:

7dedagDeze grafiek geeft op een veel eenvoudigere manier de boodschap weer die de tweet wilde meegeven. Namelijk dat sommige partijen over- of ondervertegenwoordigd zijn in De Zevende Dag ten opzichte van hun stemmenaatal voor de kamer in 2010. Bijvoorbeeld, Groen kwam 66% meer aan bod dan dat men op basis van hun stemmenaantal zou verwachten.

De grafiek maakt in één oogopslag duidelijk welke partijen over- en ondervertegenwoordigd zijn en in welke mate bepaalde partijen over- of ondervertegenwoordigd zijn. Geen veelheid aan cijfergegevens, complexe formules of ingewikkelde kleurlegendes die de aandacht van de boodschap afleiden.

Belangrijk hierbij te vermelden is dat dat de steekproef hier relatief klein is (N=68 tv-optredens gemeten over een periode van minder dan 2 maanden). Hierdoor is het niet abnormaal dat (zeker voor de kleine partijen) er een extreme over- of ondervertegenwoordiging waargenomen wordt (bvb. PVDA). Om de betrouwbaarheid van het patroon dat in de grafiek naar boven komt te verhogen, zouden gegevens over een langere periode verzameld moeten worden.

Waarom professoren een giscorrectie willen en studenten niet

Deze week was er heel wat te doen rond giscorrectie. Giscorrectie is een manier om punten te geven bij multiple choice examens. Kort gezegd komt het erop neer dat studenten punten krijgen voor correcte antwoorden, maar ook punten verliezen bij foutieve antwoorden.

UGent professor onderwijskunde Martin Valcke legde deze week in het Radio 1 programma Hautekiet uit waarom giscorrectie niet goed werkt. Dit werd opgepikt door andere media en sommige kranten (i.e. De Morgen) maakten daar dan van dat “eerlijke studenten jarenlang benadeeld werden” door het systeem. Vandaag is dan weer te lezen in De Standaard dat de onderwijsraad van de UGent de aanbeveling doet het systeem af te schaffen.

In deze blogpost wil ik kort aantonen waarom er zoiets als giscorrectie bestaat en waarom veel studenten er niet van houden. Verder beschrijf ik ook een aantal voorgestelde alternatieven.

Waarom giscorrectie?

Laten we het voorbeeld van een meerkeuze examen nemen met 20 vragen die telkens 4 antwoordmogelijkheden hebben. Voor elke vraag is er slechts 1 antwoord correct.

Het probleem met dit soort examens is dat wie voor elke vraag zou gokken (hiermee wordt bedoeld dat de student geen enkel idee heeft welke antwoordmogelijkheid correct is) toch telkens een kans van 1/4 heeft om juist te antwoorden. Stel dat met elke vraag 1 punt te verdienen is (dus maximaal kan men 20/20 halen), dan ziet de kans voor elke mogelijke uitkomst er als volgt uit.

plot1Een gokkende student heeft dus ongeveer 20% kans om 5/20 te halen voor een examen waar hij of zij helemaal niets van kende. De kans om te slagen (10 of meer op 20) ligt iets hoger dan 1%.

Wanneer een student 5 vragen zeker weet en de overige 15 vragen gaat gokken (bvb, wanneer de student slechts 1/4 van de cursus blokt), dan ziet de kansverdeling er als volgt uit:

plot2Merk op dat de student in dit geval al meer dan 30% kans heeft om te slagen en ongeveer 60% kans heeft om minstens een delibereerbaar resultaat te halen (8 of meer op 20).

Professoren willen natuurlijk niet dat studenten kunnen slagen zonder dat ze de leerstof voldoende beheersen en het systeem van giscorrectie probeert daar iets aan te doen.

Hoe werkt giscorrectie?

Bij giscorrectie krijgt men 1 punt voor een correct antwoord, maar verliest men een aantal punten bij een foutief antwoord. Hoeveel punten men verliest is afhankelijk van het aantal keuzemogelijkheden. Bij 4 keuzemogelijkheden zal men 1/(4-1)=1/3 punten verliezen. Bij 5 keuzemogelijkheden zal dit 1/4 zijn, enzovoort. Op deze manier is de verwachte uitkomst van een gok steeds 0.

Wat heeft dit voor gevolg voor de gokkende student? De kansen op elke mogelijke examenscore zijn weergegeven in onderstaande grafiek:

plot3Onmiddellijk wordt duidelijk dat de kans om te slagen voor deze gokkende student enorm verkleind is. Nu heeft hij of zij meer dan 60% kans om gewoon 0 te krijgen voor dat examen. De kans om ten minste een delibereerbaar resultaat (8 of meer op 20) te halen wanneer hij of zij 5 vragen weet en de rest gokt is gedaald van meer dan 60% tot minder dan 15% (m.o. dit is niet af te lezen op bovenstaande grafiek).

Waarom vinden velen giscorrectie ‘moeilijk’?

Bij een meerkeuze examen zonder giscorrectie is het advies voor de studenten eenvoudig: weet je het antwoord, geef dan het correcte antwoord; wanneer ze het antwoord niet weten dan moeten ze gokken. Immers, er is steeds een kans van 1/4 (bij 4 keuzemogelijkheden) om toch het correcte antwoord aan te duiden.

Bij giscorrectie ligt dit anders. Hier hangt het advies voor de studenten af van het aantal antwoordmogelijkheden waartussen ze nog twijfelen. Hoe meer antwoordmogelijkheden de student kan elimineren, hoe meer het loont om te gokken tussen de overgebleven antwoordmogelijkheden. Bijvoorbeeld:

Als een student echt niet weet welk van de 4 antwoordmogelijkheden correct is, dan heeft gokken geen zin. Immers, in dat geval is er 25% kans om correct te antwoorden (en 1 punt te krijgen), maar er is 75% kans om een verkeerd antwoord te kiezen (en 1/3 punt te verliezen). De verwachte uitkomst bij gokken is 0 (d.w.z, indien je altijd zou gokken in deze situatie, is de verwachte score 0):

(0.25 \times 1) + (0.75 \times -1/3) = 0

Als een student 1 antwoordmogelijkheid met zekerheid kan elimineren, dan veranderen de zaken. De kans om correct te gokken en 1 punt te krijgen wordt nu 1/3, terwijl de kans om verkeerd te gokken en 1/3 punt te verliezen nu 2/3 is geworden. De verwachte uitkomst in deze situatie is dan 0.11 (d.w.z., indien je altijd zou gokken in deze situatie, is de verwachte score per vraag ongeveer 0.11):

(0.33 \times 1) + (0.66 \times -1/3) = 0.11

Als een student 2 antwoordmogelijkheden met zekerheid kan elimineren, dan is er nog meer reden om te gokken tussen de overblijvende opties. De verwachte waarde wordt dan immers 0.34 (d.w.z., indien je altijd zou gokken in deze situatie, is de verwachte score per vraag ongeveer 0.34):

(0.5 \times 1) + (0.5 \times -1/3) = 0.34

Het goede aan giscorrectie is dus dat hoe beter een student de vraag kan oplossen (door antwoordmogelijkheden te elimineren), hoe hoger de verwachte punten hij of zij zal krijgen. Het probleem is dat veel studenten moeilijkheden hebben met bovenstaande berekeningen. Al kunnen die berekeningen eigenlijk samengevat worden als: “gok tussen de overblijvende mogelijkheden zodra je 1 optie kan elimineren”.

Controverse bij giscorrectie

Prof. dr. Martin Valcke heeft het in Schamper over de nadelen van giscorrectie. Het al dan niet bereid zijn tot gissen wordt niet enkel ingegeven door bovenstaande berekeningen, maar eveneens door persoonlijkheidskenmerken. Het meest bekende voorbeeld is wellicht dat jongens sneller gokken dan meisjes. Een andere argument tegen giscorrectie is dat het extra stress geeft aan de studenten die andere evaluatievormen niet of minder veroorzaken. Veel heeft te maken met loss-aversion, namelijk het veel meer vermijden van mogelijke verliezen eerder dan het nastreven van mogelijke winsten.

Alternatieven voor giscorrectie

In een recent artikel in Schamper worden een aantal alternatieven besproken. Eén daarvan is simpelweg meer vragen stellen met meer antwoordmogelijkheden. In de eerste grafiek van deze post werd de kansverdeling gegeven bij 20 meerkeuzevragen met 4 antwoordmogelijkheden. Hieronder zie je wat de kansverdeling is bij 80 meerkeuzevragen met 4 antwoordmogelijkheden.

plot5Op deze grafiek is te zien dat studenten die op alle vragen gokten nog steeds meest kans hebben om ongeveer 5/20 te halen, maar nu is de spreiding rond deze verwachtte uitkomst wel veel kleiner geworden. Simpelweg toevoegen van vragen zorgt er dus (onder invloed van de wet van de grote aantallen) dat het resultaat van gokkers dichter bij 5/20 (i.e. de verwachte waarde) gaat liggen.

Wanneer we het aantal antwoordmogelijkheden gaan uitbreiden ziet de kansverdeling er nog anders uit. Hier het voorbeeld van 20 vragen met telkens 8 (i.p.v. 4) antwoordmogelijkheden waarbij 1 correct is.

plot6In dit geval wordt de verwachte waarde wel kleiner (e.g. de meest voorkomende score van de gokkers is gedaald van 5/20 naar 2/20), maar is er nog steeds een vrij grote spreiding over de scores van de gokkers.

Het combineren van veel vragen met veel antwoordmogelijkheden geeft dan onderstaande kansverdeling (gebaseerd op 80 examenvragen met elk 8 mogelijke antwoorden waarvan er slechts 1 correct is).

plot7Op bovenstaande grafiek zie je dat het combineren van veel vragen met veel antwoordmogelijkheden leidt tot een lage verwachte waarde met een kleine spreiding errond. De vraag blijft echter of deze aanpak praktisch haalbaar is. Vaak is het voor examinatoren niet evident om meerdere plausible antwoordmogelijkheden te geven zonder te vervallen in dubbelzinnige antwoordmogelijkheden als “niet meer dan 4 van de andere antwoordmogelijkheden zijn foutief”.

Een ander (en wat mij betreft te verkiezen) alternatief is de studenten te laten starten met een negatief puntenaantal. Deze methode wordt ook wel standard setting genoemd. Hoe sterk negatief de startpunten moeten zijn, hangt af van het aantal vragen en het aantal antwoordmogelijkheden. Bij 20 vragen met telkens 4 antwoordmogelijkheden zou dit -5 zijn (namelijk, -20/4). Studenten krijgen dan 20/(20-4)=1.25 punt voor elk correct antwoord en 0 punten voor elk verkeerd antwoord. Dit leidt tot onderstaande kansverdeling.

plot4Merk op dat deze identiek is aan de kansverdeling bij de giscorrectie. Merk ook op dat in dit geval de studenten eveneens ‘verplicht’ worden om te gokken. Alleen hoeft men hier niet beredeneerd te gokken, want men kan er alleen bij winnen.

(toevoeging 17/10/2013)
Merk eveneens op dat het bij standard setting nodig is om 12 van de 20 vragen correct te beantwoorden om te slagen (en dus 10/20 te halen). Dit komt omdat de methode ervan uitgaat dat elke student gokt op alle vragen die hij of zij niet weet en hiervoor dus gecorrigeerd moet worden.

Wie 10 van de 20 vragen kent en de rest gokt heeft met deze methode ongeveer 76% kans om minstens 10/20 te halen. Wie 11 van de 20 vragen correct invult en de rest gokt heeft ongeveer 93% kans om minstens te slagen. Wie tenslotte 12 van de 20 vragen correct beantwoordt en de rest gokt is zeker om minstens 10/20 te halen.

Conclusie

  • Het is normaal dat er een correctie gebeurt bij meerkeuzevragen. Immers, zonder deze correctie kunnen studenten die de leerstof onvoldoende beheersen te gemakkelijk slagen.
  • Giscorrectie is wel eerlijk, maar vereist een zekere basiskennis over het nemen van beslissingen onder onzekerheid, zonder zich te laten beïnvloeden door loss-aversion. Niet alle studenten kunnen hier even goed mee overweg.
  • Het idee dat giscorrectie studenten “verplicht om te gokken” is niet correct. Men kan wel betere punten halen door beredeneerd te gokken.
  • Een student die niet wil gokken bij een examen met giscorrectie zal slagen indien hij of zij minstens de helft van de vragen correct kan beantwoorden.
  • Bij de alternatieven voor giscorrectie wordt gokken mogelijk nog veel meer gestimuleerd dan bij giscorrectie. Men heeft immers geen punten te verliezen bij een verkeerde gok.
  • Standard setting heeft als voordeel dat het eenvoudig uit te leggen is en tegelijk ervoor zorgt dat wie de leerstof onvoldoende beheerst weinig kans op slagen heeft.
  • Standard setting heeft als nadeel dat studenten meer dan de helft van de vragen correct moeten beantwoorden om minstens de helft van de punten te behalen.
  • Voor wie de leestof goed beheerst is er geen verschil tussen al dan niet giscorrectie. Het belang van ‘al dan niet giscorrectie’ wordt groter naarmate de student de leerstof minder goed kent en dus meer twijfelt.

Natuurlijke variantie en studentenaantallen

Deze post komt er naar aanleiding van het jaarlijks terugkerend fenomeen van het (over)analyseren van de inschrijvingsaantallen in de verschillende richtingen van de verschillende universiteiten en hogescholen van ons land. In de traditionele media verschijnen jaarlijks artikels met titels als: “Economie studeren steeds populairder“, of “Opleiding leerkracht opnieuw populair” of “Vlaamse student valt voor chemie“.

Wat ik in deze post graag duidelijk wil maken is dat veel van die conclusies voorbarig zijn en vaak weinig zinvol zijn. Als mens hebben we de neiging om (vaak onterecht) overal oorzakelijke verbanden te willen zien. Winnaar ‘nobelprijs economie’ Kahneman (in Thinking Fast and Slow) verwoordt het als volgt:

“We are far too willing to reject the belief that much of what we see in life is random.”

Als voorbeeld neem ik de voorlopige studentenaantallen Psychologie & Pedagogie aan de UGent omdat die het onderwerp van discussie waren op twitter (die ondertussen deels weer verwijderd is, dus geen linkje). Via de website van de UGent kon men tot dit weekend grafieken opvragen (nu zijn ze enkel nog beschikbaar voor personeel). Een voorbeel van zo’n grafiek hieronder:

dat_withOp de horizontale as zien we de dagen sinds de start van de inschrijvingen, op de vertikale as zien we het cummulatieve aantal studenten ingeschreven aan de faculteit Psychologie en Pedagogie. Sommigen besluiten hieruit dat de opleidingen aan die facutleit aan populariteit ingeboet hebben in vergelijking met het jaar daarvoor (en geven hiervoor allerhande redenen aan, b.v. ‘de economische crisis’).

Vraag is: kunnen we dit wel besluiten op basis van deze data?

Om deze vraag te beantwoorden heb ik de data gemodelleerd alsof ze afkomstig was van een Poisson process. Dit is hetzelfde model dat gebruikt werd om de effecten van de speedy-pass in Walibi mee te evalueren. Een Poisson process wordt gekenmerkt door een parameter die, in dit geval, weergeeft hoeveel studenten zich gemiddeld komen inschrijven op 1 dag (aan de faculteit in kwestie). Dit is de ‘rate’ parameter.

Als we die parameter nu gaan schatten op onze data en die blijkt ‘significant’ hoger te zijn voor 2012 dan voor 2013, dan zouden we kunnen besluiten dat de evolutie van de inschrijvingen dit jaar lager ligt dan het jaar voordien. Maar is dit ook wat we vinden?

hyptestHierboven zien we het resultaat van een Bayesiaanse hypothesetest. De gele histogram geeft de posterior verdeling van het verschil 2012-2013 weer. De meeste massa (kans) komt op positieve waarden te liggen (d.w.z. dat studenten in 2012 inderdaad in grotere getale kwamen opdagen dan in 2013). Echter, de vertikale blauwe strepen geven de Bayesiaanse betrouwbaarheidsintervallen weer en die geven aan dat we niet met grote zekerheid kunnen zeggen dat 2013 verschillend is van 2012 (het getal 0 ligt in het interval). Er is zelfs bijna 7% kans dat de rate in 2013 eigenlijk hoger is dan die in 2012.

Deze simpele (waarschijnlijk té simpele, maar goed genoeg om mijn centrale punt mee duidelijk te maken) analyse geeft aan dat helemaal niet kunnen besluiten dat men minder storm loopt voor de opleidingen psychologie of pedagogie. De verschillen die we waarnemen zijn waarschijnlijk natuurlijke variantie, toevallige fluctuaties waarvoor geen verklaringen te geven zijn.

Onderstaande grafiek, ten slotte, geeft dit ook weer. De groene ‘band’ is het resultaat van 1000 gesimuleerde inschrijvingscurves met dezelfde ‘rate’ als de curve van 2012. Ze verschillen dus alleen wat betreft de natuurlijke variantie.

sim2Onmiddellijk is duidelijk dat curves soms wat hoger of lager kunnen uitvallen, zonder dat daar oorzaken voor te geven zijn. Als we de gesimuleerde curves (groen) gaan vergelijken met de inschrijvingscurve voor dit jaar, dan zien we dat ze meestal mooi binnen de te verwachten natuurlijke variantie van de curve van vorig jaar blijft. We kunnen dus best nog even wachten met het verklaren van de verschuivinen in de inschrijvingen en vooral proberen het signaal niet te verwarren met de ruis.

Edit: De prior die ik gebruikte voor de rate parameter is Uniform(0,200).

Reactie op “Enkele bedenkingen bij de recente ‘De Standaard/VRT/TNS’ peiling”

Recent ontstond op Twitter een (constructieve) discussie over of nu wel of niet besloten kan worden dat de score van de NVA bij de huidige peiling (mei ’13) significant lager ligt dan die bij de vorige peiling (sept. ’12). Het begon met onderstaande tweets:

Lees de volledige twitter conversatie hier. Een uitgebreide reactie kwam er op de blog van @IstvanHajnal in de vorm van twee blogposts (hier en hier).

De hamvraag in deze hele discussie is of de waargenomen daling van de score van de NVA in de peiling van mei ’13 vs september ’12 “significant” is of niet. Meerbepaald, moeten we in de analyse ook rekening houden met de onzekerheid van het vergelijkingspunt (i.e. peiling sept ’12) of niet?

Mijn antwoord op deze vraag/stelling is zonder twijfel: ja! Als een overtuigde aanhanger van Bayesiaanse statistiek wil ik hieronder graag demonstreren hoe een Bayesiaanse analyse op deze data in z’n werk gaat.

Merk op dat er slechts heel weinig precieze gegevens gedeeld worden over de ‘De Standaard/VRT/TNS’ peiling. Onderstaande analyse gaat uit van een perfect gerandomiseerde steekproef uit de populatie van alle stemgerechtigden. Naar alle waarschijnlijkheid is hieraan in de peiling(en) niet voldaan en betekent dit dat we een onderschatting maken van de onzekerheid rond de resultaten. Daarenboven heb ik geen gegevens over de steekproefgrootte van de peiling in sept ’12, maar ga ik net als @IstvanHajnal (in de tweede blogpost) uit van een steekproef van 1000.

Roeien met de riemen die er zijn…

Het probleem waarmee we te maken hebben is het vergelijken van twee niet-gekende proporties. De eerste niet-gekende proportie is de potentiële score van NVA in september ’12. Deze proportie gaan we proberen te schatten met de informatie uit de peiling van september ’12. De tweede niet-gekende proportie is de potentiële score van NVA in mei ’13 en deze proportie gaan we proberen te schatten met de informatie uit de peiling van mei ’13.

Een Bayesiaans statisticus probeert dit probleem op te lossen aan de hand van de regel van Bayes. Die regel geeft weer hoe we onze mening moeten herzien in het licht van (nieuwe) data:

p(mening|data)=\frac{p(data|mening)\times p(mening)}{p(data)}

Of in meer formele termen:

posterior=\frac{likelihood \times prior}{marginal likelihood}

Het eerste dat we bepalen is onze “prior” ofte “onze-mening-vooraleer-we-naar-de (nieuwe)-data-keken”. In dit geval gaat dit over de score van de NVA in september ’12. Hieronder twee voorbeelden van mogelijke “prior” meningen.

prior1prior2

De eerste (linkse) “prior” mening geeft weer dat we alle mogelijke percentages even waarschijnlijk vinden als score voor de NVA. Echter, een meer realistische prior zou de andere (rechtse) prior kunnen zijn waarbij we meer geloof hechten aan waarden rond de 30% en weinig geloven in waarden boven 50%.

Om de zaken eenvoudig te houden werk ik hier verder met de linkse prior. Deze prior wordt heel vaak gebruikt omdat hiermee de invloed van de prior minimaal gehouden wordt en de uitkomst volledig door de data bepaald wordt. Mede hierdoor is deze prior vaak acceptabel voor zowel Bayesiaanse als klassieke statistici.

De volgende stap is het bepalen van de likelihoodfunctie. Voor dit probleem zullen we gebruik maken van de Bernoulli likelihood waarbij we 1000 observaties hebben waarvan 363 NVA stemmers en 673 niet-NVA stemmers. Onze posterior kunnen we dan berekenen door de regel van Bayes hierboven toe te passen (om niet te technisch te worden laat ik de precieze berekeningen hier achterwege).

post1Na het in overweging nemen van de data in de peiling van september ’12 geeft bovenstaande “posterior” weer wat we weten over de niet-gekende proportie NVA-stemmers. We zien dat de kans erg groot is dat de niet-gekende proportie ergens tussen 30% en 40% moet zijn.

Vervolgens doen we dezelfde stappen voor de peiling van mei ’13. We gebruiken hier opnieuw de ‘vlakke prior’ die we hierboven ook gebruikten. De de tweede peiling spreekt over een steekproef van 1084 respondenten waarvan 348 NVA-stemmers. Via Bayes theorema kunnen we dan opnieuw de posterior gaan berekenen. Hieronder zie je de posteriors van de peiling van september ’12 en mei ’13 op dezelfde grafiek geplaatst (merk op dat de schaal van de X-as anders is dan hierboven).

post3In bovenstaande grafiek heb ik ook het “95% credible interval” weergegeven voor beide “posteriors”. Die “credible intervals” kan je als volgt interpreteren: “er is 95% kans dat de niet-gekende NVA score in dit interval ligt”. Deze interpretatie is heel intuitief en helemaal anders dan het klassieke betrouwbaarheidsinterval (zie blogpost 1 van @IstvanHajnal). Merk ook op dat beide “credible intervals” elkaar overlappen (wat niet per se betekent dat beide proporties niet van elkaar verschillen (sorry voor dubbele negatie)).

De kernvraag van deze analyse is wat de kans is dat de niet-gekende proportie NVA stemmers lager zou zijn mei ’13 dan september ’12. Dit komt neer op het berekenen van de kans dat de blauwe verdeling in bovenstaande grafiek kleiner is dan de gele. Dit probleem kunnen we relatief eenvoudig oplossen met simulatie. Hieronder het resultaat van die simulatie:

postdif1Het “credible interval” in bovenstaande histogram geeft aan dat er 95% kans is dat er in mei ’13 tussen de 0.001% en de 8.3% minder Vlamingen zijn die op NVA zouden stemmen dan dat er in september ’12 waren. De kans dat NVA er minstens 1% op achteruit gegaan is bedraagt 93.8%.

Let wel, de kans dat NVA erop vooruít gegaan is tussen september ’12 en mei ’13 bedraagt (ondanks het feit dat de peilingen iets anders laten uitschijnen) nog steeds 2.2%. In de medische wetenschappen, waar men (terecht) veel striktere eisen stelt aan statistisch bewijs, zou dit betekenen dat bijkomend onderzoek nodig is om uitsluitsel te bieden.

We kunnen dus besluiten dat de media correct bericht hebben over de daling van de NVA in de laatste peiling. De data geven inderdaad aan dat de kans erg groot is dat de NVA erop achteruit gegaan is tussen beide peilingen. Let wel (en ik herhaal omdat dit belangrijk is), deze analyse gaat uit van een perfect gerandomiseerde steekproef uit de populatie van alle stemgerechtigden. Naar alle waarschijnlijkheid is hieraan in de peiling(en) niet voldaan en betekent dit dat we een onderschatting maken van de onzekerheid rond de resultatan.

Addendum

Een belangrijk element in de twitter/blog discussie was of we al dan niet moesten rekening houden met de onzekerheid van het ijkpunt (i.e. de onzekerheid van de werkelijke proportie NVA stemmers in september ’12). Ik haalde al aan dat mijn standpunt is dat we dit zeker moeten doen. Hieronder toon ik wat gebeurt indien we dit niet zouden doen.

In bovenstaande analyse hebben we het verschil berekend tussen twee random variabelen, namelijk de niet-gekende proportie NVA-stemmers in september ’12 en de niet-gekende proportie NVA-stemmers in mei 2013. Het resultaat was de gele histogram hierboven.

Indien we ervan zouden uitgaan dat de uitkomst van de peiling in september ’12 niet onzeker is, maar daarentegen fixed (i.e. 36.3%), dan zouden we andere antwoorden formuleren op onze hamvraag. Namelijk, dan zouden we enkel de posterior van de huidige peiling gaan berekenen en dan nagaan wat de kans is dat deze posterior kleiner is dan 36.3%.

post4Bovenstaande figuur geeft dit weer. De gele oppervlakte geeft de kans weer dat de niet-gekende proportie van de recentste peiling kleiner is dan het fixed ijkpunt (0.363) en die kans is 99.8%. De kleine blauwe oppervlakte (in de rechterstaart) is dan het omgekeerde, namelijk de kans dat deze proportie groter is dan het ijkpunt (0.363) en die kan is dan logischerwijze 0.02%.

Merk op dat wanneer we de kansen op deze manier berekenen we met grotere zekerheid (99.8% hier versus 97.8% in de vorige analyse) zouden besluiten dat NVA erop achteruit gegaan is tussen beide peilingen. Door geen rekening te houden met de onzekerheid van het ijkpunt zouden we dus een overschatting gaan maken van het verschil tussen beide peilingen. Al moet het gezegd dat in dit geval dit niet tot fundamenteel verschillende conclusies zou leiden.