Hoe vaak gebeurt het dat de oudste Belg overlijdt?

We zijn allemaal ooit de jongste mens op aarde geweest. Maar na zo’n kwartseconde waren we de titel van ‘jongste mens ter wereld’ naar verwachting alweer kwijt. Niemand die verder nog wakker ligt van dergelijke records. Anders is dat wanneer de oudste Belg/mens/man/vrouw/… komt te overlijden. Vorige week stonden de kranten er alweer vol van.

Via De Standaard vernamen we het trieste nieuws dat de oudste Belgische vrouw overleden is op 110 jarige leeftijd. Via Knack werden we verder ook nog ingelicht dat per toeval in dezelfde week ook de oudste vrouw ter wereld overleden is op 116 jarige leeftijd. Uit het artikel leren we ook nog dat deze laatste slechts 6 dagen de titel van oudste vrouw ter wereld gedragen heeft nadat op 1 april jl. een 117 jarige Japanse het leven liet.

Het verbaast me telkens hierover nieuwsberichten te lezen in onze (kwaliteits)media. Immers, per definitie is de oudste mens ter wereld erg oud en is de kans bijgevolg erg groot dat deze persoon over korte tijd zal overlijden. En telkens weer worden daar dan artikels over geschreven met bijhorende tips voor een lang leven.

Interessanter leek me de vraag hoe vaak we kunnen verwachten dat de oudste Belg komt te overlijden. En dat is een leuke analyse geworden (wie enkel het resultaat wil weten en niet de analyse zelf kan naar de laatste paragraaf scrollen).

De gegevens om dit te analyseren haalde ik van StatBel (vroegere Nationaal Instituut voor Statistiek). Daar kon ik zogenaamde ‘sterftetabellen’ downloaden.

sterftetabelIn sterftetabellen staan een aantal statistieken, zoals het aantal inwoners voor elke leeftijd, de kans om te overlijden op elke leeftijd, levensverwachting, enz. Op basis van deze gegevens kunnen we ook een zogenaamde ‘overlevingscurve’ plotten.

survivalDeze curve geeft voor elke leeftijd weer wat de kans is om minstens die leeftijd te bereiken. Bijvoorbeeld, in Belgie in 2013 is de kans om 85 of ouder te worden ongeveer 50%. Een curve die gerelateerd is aan de overlevingscurve is de risicocurve. Die curve geeft weer wat voor elke leeftijd de kans is te overlijden op die leeftijd.

hazardDeze informatie zal ik nodig hebben voor de berekeningen. Maar, zoals je kan zien in de grafieken houdt StatBel enkel gegevens bij tot 105 jaar. Om ons probleem te kunnen oplossen hebben we echter gegevens nodig voor elke leeftijd tot ongeveer 122 jaar (de leeftijd van de oudste mens ter wereld ooit). We moeten de risicocurve dus op een of andere manier gaan extrapoleren. Dit heb ik gedaan door een machtsfunctie te schatten op de data (zie oranje lijn op figuur hieronder).

risk = -37.9 \; t^{7.99}

hazard_overlayOp die manier heb ik voor elke mogelijke leeftijd een inschatting van het risico te overlijden op die leeftijd. Merk op dat voor leeftijden waar het geschatte risico groter dan 1 was, ik dit afgerond heb naar 1 (gebeurde vanaf 115 jaar, wat ouder is dan de oudste Belg ooit, i.e. 112).

Tenslotte heb ik nog het aantal Belgen per leeftijdsgroep nodig. Immers, je kan je voorstellen dat wanneer er veel kinderen en weinig bejaarden zijn dit zorgt dat de titel van ‘oudste inwoner’ minder snel afgelost zal worden. Deze data kan gemakkelijk uit de sterftetabellen gehaald worden. Echter, opnieuw worden alle mensen ouder dan 104 in dezelfde categorie onder gebracht. Dus moet er ook een schatting gemaakt worden van hoe die (74 gevallen) verdeeld zijn over de leeftijden 105 tot 110 (leeftijd huidige oudste Belg). Om dit te doen heb ik het cummulatieve product van de geschatte risicocurve berekend en dit gebruikt als kansen in een multinomiale verdeling.

Om de eigenlijke simulatie te kunnen doen moest ik een aantal assumpties maken. De belangrijkste is ongetwijfeld dat ik er van uit gegaan ben dat de risicocurve niet zal veranderen in de komende 10 jaar (en dat de staart ervan met een machtsfunctie beschreven kan worden). Wellicht is dit onrealistisch, maar door over een periode van slechts 10 jaar te simuleren hoop ik hieraan toch wat tegemoet te komen. Verder ben ik er ook van uit gegaan dat het risico om te overlijden binnen een bepaald jaar (dus elke dag van dat jaar) even groot is. Merk op dat deze assumpties ervoor zorgen dat de resultaten met de nodige kritische zin moeten worden bekeken.

In woorden werkt het simulatie algoritme ongeveer als volgt:

  • Voor elke leeftijd, simuleer het aantal overlijdens adhv een binomiaalverdeling met n gelijk aan het aantal Belgen in die leeftijdscategorie en p gelijk aan het risico voor die leeftijd.
  • Ga na of de oudste Belg overleden is (dit is gecompliceerder dan op het eerste zicht lijkt wegens mogelijk meerdere overlijdens van oudste Belgen binnen hetzelfde jaar).
  • Indien ja, tel het aantal oudste Belgen die zijn overleden binnen datzelfde jaar. Simuleer hiervoor de sterfdagen uit de uniforme verdeling U[0,365].
  • Vermeerder de leeftijd van alle niet overleden Belgen met 1.
  • Simuleer het aantal geboortes (leeftijd 0). Hiervoor gebruikte ik het geboortecijfer van 2012 (i.e. ongeveer 126.000)
  • Indien 10 jaar gesimuleerd, schrijf resultaten weg en begin opnieuw.
  • Herhaal dit proces vele keren (i.e. 10.000 keer).

Onderstaande grafiek geeft het resultaat weer van 10.000 simulaties van overlijdens voor het komende decennium in België. Je ziet hoe vaak we kunnen verwachten dat de ‘oudste Belg’ zal komen te overlijden per jaar.

histDe waarde 1,5 is het meest waarschijnlijk. Dit betekent dat we kunnen verwachten dat we in het komende decennium ongeveer 1,5 keer per jaar (anders gezegd, 1 à 2 keer per jaar) in de krant te zullen lezen dat de oudste Belg is overleden. Als de kranten zich hiernaast ook nog interesseren voor ‘de oudste mannelijke Belg’ en ‘de oudste vrouwelijke Belg’ en ‘de oudste wereldburger’ enzovoort, dan mogen we ons aan een veelvoud van dergelijke artikelen verwachten. JOY!

Als toemaatje heb ik ook nog berekend wat de kans is dat het leeftijdsrecord van de oudste Belg ooit (112) overschreden zal worden het komende decennium. Het blijkt dat die kans ongeveer 28% bedraagt en indien dit inderdaad zou gebeuren dan mogen we verwachten dat deze heugelijke gebeurtenis zich binnen ongeveer 6.5 jaar zal voordoen.

Afspraak binnen 10 jaar voor mijn evaluatie…

Advertenties

Luxemburg en Brussel, West-Europa’s meest moorddadige hoofdsteden?

Gisteren verscheen in de online krant van zowel De Morgen als De Standaard een artikel over een merkwaardige statistiek. Het aantal moorden per inwoner zou in Luxemburg het hoogst zijn van alle hoofdsteden in West-Europa, met Brussel als betreurenswaardige tweede in de ranglijst. In grootsteden als Parijs, Madrid  of Rome zou men verhoudingsgewijs veel minder vaak aan het moorden gaan.

Dat een klein (en schijnbaar vredevol) stadje als Luxemburg deze illustere ranglijst aanvoert, deed me de wenkbrouwen fronsen. Zou het? De bevindingen komen rechtstreeks uit het rapport ‘Global Study on Homicide 2013’ van de United Nations Office on Drugs and Crime. Toch niet meteen het eerste het beste instituut. In deze blogpost probeer ik hun bevindingen in een breder perspectief te plaatsen.

Om het aantal moorden per inwoner (voor de West-Europese hoofdsteden) te berekenen is informatie nodig over het inwonersaantal en het aantal moorden per hoofdstad. Deze informatie kan relatief gemakkelijk van de website van Eurostat gehaald worden. Cijfers over inwonersaantal per stad kan hier gevonden worden. Het aantal moorden per stad hier. Het mooie van deze data is dat er gegevens zijn van 2003 tot 2012. Het nadeel is dat er geen gegevens zijn voor het jaar 2013, het jaar waarop de ‘Global Study on Homicide 2013’ is gebaseerd.

Hieronder de moordratio’s (per 100.000 inwonders) voor tien West-Europese hoofdsteden (Merk op: eventuele ontbrekende data voor wat betreft inwonersaantal heb ik aangevuld uitgaand van een lineaire trend. Er was geen ontbrekende data voor aantal moorden.):

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012
Amsterdam 3.7 2.6 3.2 0.5 3.6 1.5 3.2 1.3 1.5 2.2
Berlijn 2.1 1.9 1.5 2.3 1.8 2.2 1.8 1.2 1.2 1.3
Brussel 4.8 4.0 3.2 3.6 1.9 4.2 3.1 2.8 2.1 2.6
Lissabon 2.0 1.9 2.9 3.1 2.8 2.0 1.0 1.1 1.1 2.0
Ljubljana 1.1 2.6 1.5 0.4 1.1 0.0 0.4 1.1 1.4 0.7
Luxemburg 0.0 1.2 1.2 4.7 3.5 3.4 5.6 0.0 3.2 0.0
Madrid 2.3 1.5 1.4 1.5 1.2 1.2 1.0 0.9 0.7 0.9
Oslo 2.1 1.5 1.7 1.7 1.5 2.1 1.2 0.9 3.2 1.3
Parijs 2.5 0.9 1.5 1.3 1.5 1.6 1.1 1.9 1.8 1.8
Rome 1.1 1.2 1.4 1.2 1.3 1.1 1.2 0.4 1.2 0.9

Wanneer een ratio in het rood is weergegeven, betekent dit dat een stad voor een gegeven jaar tot de twee meest ‘moorddadige’ steden behoorde (uit dit arbitraire lijstje). Een groene ratio betekent dan weer dat een stad voor een gegeven jaar tot de minst ‘moorddadige’ steden behoorde. Hieronder een grafische weergave van 3 van de 10 hoofdsteden uit de tabel (alle 10 de steden weergeven leidt tot een onleesbare grafiek).

plotFiguur 1: Een stad met relatief hoge moordratio (Brussel), relatief lage
moordratio (Parijs) en een stad met erg variabele moordratio (Luxemburg)

Een tweetal zaken vallen hierij op:

Ten eerste, het aantal moorden per 100.000 inwoners was in Brussel het voorbije decennium hoog in vergelijking met andere West-Europese hoofdsteden. Men zou inderdaad kunnen stellen dat de kans om vermoord te worden voor een Brusselaar hoger is dan die voor een Romein of Parijzenaar. In dit opzicht zijn de krantenkoppen in De Morgen of De Standaard terecht.

Anderzijds, Amsterdam behoort in de ‘Global Study on Homicide 2013’ tot de landen met een eerder lage moordratio (1.3 per 100.000) en wordt in de krantenartikelen aangehaald als ‘veiliger’ stad, hoewel de cijfers van het voorbije decennium aantonen dat Amsterdam eerder tot de West-Europese hoofdsteden met hoge moordratio behoort.

Ten tweede, Luxemburg is een stadje van extremen (wat betreft de moordratio’s toch). Het voorbije decennium is de stad jaar na jaar ofwel een van de meest veilige, ofwel een van de meest moorddadige West-Europese hoofdsteden. Dat Luxemburg in ‘Global Study on Homicide 2013’ als stad met hoogste moordratio naar boven komt betekent nog niet dat dit ook de gevaarlijkste stad zou zijn. Door de erg kleine kans op moord (minder dan 0.006% per jaar) in combinatie met het relatief kleine inwonersaantal van de stad (ongeveer 100.000) is de waargenomen moordratio erg variabel over de jaren heen. Er hoeft daar bij wijze van spreken maar één gezinsdrama te gebeuren en het stadje schiet naar de top van de ranglijst.

Dit fenomeen doet wat denken aan het ‘Kleine gemeente, fijne gemeente’-probleem dat ik in een eerdere blogpost besprak. En dit is inderdaad een variatie op hetzelfde thema: stel dat de (jaarlijkse) kans om vermoord te worden in alle West-Europese hoofdsteden exact gelijk is, dan zouden we zien dat het waargenomen aantal moorden veel meer variabel is voor kleine hoofdsteden, dan voor grote hoofdsteden. In deze paper wordt hierop meer in detail ingegaan.

Conclusie: Neem een kritische houding aan ten aanzien van lijstjes. Vaak worden daar de hoogste en laagste posities ingenomen door kleine landen/steden/gemeenten/… die veel meer variabliteit vertonen op de variabele in kwestie dan de middenmoters. Het is dan ook vaak voorbarig om grote verklaringen te koppelen aan die extreem goede (of slechte) uitkomsten. In dit specifieke geval kan het, gezien de erg kleine kans op moord, nuttig zijn om een langere periode dan 1 jaar te nemen om (kleine) steden met elkaar te vergelijken.

Kleine gemeente, fijne gemeente? Over “het gemeenterapport” van Het Nieuwsblad.

Intro

De voorbije week presenteerde Het Nieuwsblad elke dag een reportage over ‘Het Gemeenterapport‘, een grootschalige enquête die het dagblad, in samenwerking met onderzoeksbureau iVox, afnam van meer dan 116.000 Vlamingen. De vragen gingen over diverse lokale thema’s maar ook over het nieuwe gemeentebestuur.

De eerste reportage ging over in welke gemeenten we het liefste wonen. In de vragenlijst werd aan de 116.000 Vlamingen gevraagd om te antwoorden met een score tussen 0 en 10 op de volgende vraag: ‘Hoe graag woont u in uw gemeente?‘. Hieronder de resultaten zoals ze gepresenteerd werden door Het Nieuwsblad (eigen reproductie obv de beschikbare gegevens):

gemeentesOp de kaart van Vlaanderen is elke gemeente in een kleur weergegeven dat overeenkomt met de gemiddelde score van die gemeente. In de inleiding van het artikel schrijft Het Nieuwsblad:

Inwoners van Linkebeek, Vorselaar en Zutendaal wonen het liefst in hun gemeente. Tienen, Vilvoorde en Zelzate scoren dan weer het slechtst. Dat blijkt uit Het Gemeenterapport van Het Nieuwsblad.
Het Nieuwsblad – 20/01/2014

Op twitter werd er duchtig gereageerd op Het Gemeenterappport. Een tweet die me opviel kwam van Bert Kruismans (@kruismans) die de score van een gemeente (Linkebeek) ging linken aan een kenmerk van die gemeente (faciliteitengemeente):

In deze blogpost wil ik graag verduidelijken waarom dergelijke conclusies voorbarig zijn.

Steekproef

Een vragenlijst die werd afgenomen bij meer dan 116.000 Vlamingen lijkt heel erg betrouwbaar te zijn. De steekproef is in elk geval gigantisch groot. En zolang we op basis van die vragenlijst enkel conclusies trekken over ‘dé Vlamingen’ is er ook geen enkel probleem.

Echter, de bedoeling van Het Gemeenterapport is niet om over de Vlaming in het algemeen te rapporteren, maar wel om de resultaten te gaan vergelijken over de verschillende gemeenten heen. En dan is het niet de totale steekproefgrootte die van belang is, maar de steekproefgroottes voor elke gemeente afzonderlijk. Volgend fictief voorbeeldje kan dit helpen verduidelijken:

Men wil de tevredenheid van de inwoners in twee steden, Gent en Kortrijk, met elkaar vergelijken. Om dit te onderzoeken is er een budget voorzien om 1000 inwoners te bevragen. Aan elke inwoner wordt gevraagd hoe fijn ze hun stad vinden (score op 10). Stel nu dat een (naïve) onderzoeker beslist om slechts 2 vragenlijsten af te nemen in Kortrijk en overige 998 in Gent.

Uit het onderzoek blijkt dat de gemiddelde score voor Kortrijk 6/10 is, terwijl de gemiddelde score voor Gent 7,5/10 is. Is het zinvol om te besluiten dat het zoveel fijner wonen is in Gent?

Het is duidelijk dat men dit niet zomaar kan besluiten. Een totaal van 1000 enquêtes is best veel, maar aangezien er slechts 2 in Kortrijk werden afgenomen is deze meting veel minder betrouwbaar dan de meting in Gent.

De kern van het probleem zou hiermee duidelijk moeten zijn: de gemiddelde tevredenheidsscores zoals ze op bovenstaand kaartje zijn weergegeven kunnen moeilijk geïnterpreteerd worden zonder informatie over hoe betrouwbaar elke score is.

‘Kleine gemeenten probleem’

Een probleem dat hieruit voortvloeit, is dat (in dit geval) gemeenten waar men slechts een kleine steekproef heeft genomen een veel grotere kans hebben om extreme uitkomsten te genereren. Hoe kleiner de steekproef, hoe groter de kans op extremen. (voor voorbeelden uit de gezondheidszorg, zie referentie onderaan deze blogpost)

Een veelgemaakte fout is dat een steekproef groter moet zijn voor grotere gemeentes (en omgekeerd) wanneer men gemeenten wil gaan vergelijken. Of, wat op hetzelfde neerkomt, dat elke inwoner van Vlaanderen dezelfde kans moet hebben om in de steekproef te belanden (wanneer men gemeenten wil gaan vergelijken). Onderstaande analyse geeft weer wat dan gebeurt:

Stel dat in elke Vlaamse gemeente de ‘echte’ tevredenheid exact dezelfde is, namelijk 7,25/10 (en dat 95% van de inwoners van elke gemeente zijn/haar gemeente een score tussen 5 en 9,5 zou geven).

Aangezien deze ‘echte’ tevredenheid niet gekend is, doet men een grootschalig onderzoek. Er is een groot budget beschikbaar waarmee het mogelijk is om 116.000 vragenlijsten af te nemen.

Elke inwoner van een Vlaamse gemeente heeft dezelfde kans om in de steekproef te worden opgenomen, dwz omdat Gent 3,3x meer inwoners heeft dan Kortrijk, worden ook 3,3x meer Gentenaars dan Kortrijkzanen in de steekproef opgenomen.

Hieronder een animatie van hoe 100 verschillende resulterende kaartjes er zouden kunnen uitzien (2 per seconde):

Merk op dat alle gemeentes eigenlijk oranje zouden moeten zijn (want de ‘echte’ tevredenheid bedraagt 7,25/10 voor elke gemeente). Echter, de animatie toont dat er toch steeds enkele gemeentes zijn die beter of slechter scoorden dan de rest (oa vaak Linkebeek). Dit betekent echter niet dat inwoners van die gemeentes meer of minder tevreden zijn dan de zij in andere gemeentes. Het is de kleine steekproef in die gemeenten die zorgt voor de grotere kans op extreme observaties.

Conclusie

Het kaartje, zoals het gepubliceerd werd op de website van Het Nieuwsblad, geeft te weinig informatie om de analyse ten gronde te kunnen voeren. Linkebeek, Vorselaar en Zutendaal halen inderdaad de hoogste scores, maar het zijn ook stuk voor stuk kleine gemeentes. Zonder extra informatie is het erg moeilijk om in te schatten of deze gemeentes ‘extreem’ scoren wegens bovenstaand steekproefprobleem of omdat het daar echt zo fijn wonen is.

Het is des mensen om altijd en overal oorzakelijke verbanden te gaan zoeken/zien bij opmerkelijke waarnemingen. Zeker journalisten, opiniemakers, experten allerhande hebben deze neiging. En dat is een goeie zaak, want het is ook hun taak om dingen in perspectief te plaatsen. Maar het wordt problematisch wanneer men toevallige fluctuaties gaat gaan verklaren. Data-journalist Maarten Lambrechts (@maartenzam) had alvast de goede reflex:

Jammer dat er geen antwoord op deze terechte vraag is gekomen…

Een meer formele en uitgebreide bespreking van bovenstaande ideeën kan in de paper ‘Gelman – All maps of parameter estimates are misleading‘ gevonden worden.

Size matters: De Morgen en De Standaard rapporteren dezelfde wetenschappelijke studie maar trekken verschillende conclusies

Gisteren rapporteerden verschillende mediabronnen over een grootschalig Amerikaans onderzoek naar de invloed van het al dan niet hebben van kinderen op hoe gelukkig men is. Maar liefst 1,8 miljoen Amerikanen namen deel aan het onderzoek waarmee het een van de grootste onderzoeken in z’n soort is. Het onderzoeksteam van onder meer Princeton University publiceerde hun bevindingen in het tijdschrift Proceedings of the National Academy of Sciences.

Dit soort onderzoek kan meestal op grote mediabelangstelling rekenen en hier was dit niet anders. Mediabronnen over de hele wereld rapporteerden over deze studie. Opvallend is dat verschillende media heel erg verschillen in de manier waarop ze de resultaten beoordelen. Als voorbeeld vergelijk ik twee grote Vlaamse kwaliteitskranten, De Standaard en De Morgen.

De Morgen kopt: “Gelukkiger met kinderen? Dat blijkt tegen te vallen“. De Standaard koos de titel: “Dat ouderschap gelukkig maakt is een mythe“. Op het eerste zicht lijkt er weinig verschil tussen beide te zijn, maar het artikel in De Morgen brengt de boodschap dat kinderen het geluksgevoel ondergraven, terwijl De Standaard meldt dat er geen verschillen zijn in geluksgevoel tussen mensen met en zonder kinderen. De inleiding van beide artikels geeft dit al aan:

Wie kinderen in huis heeft, is doorgaans iets ongelukkiger dan wie geen kinderen in huis heeft. Dit blijkt uit één van de grootste studies in zijn soort, gisteren gepubliceerd in het wetenschappelijk tijdschrift PNAS.
De Morgen – 14/01/2014

Een studie aan de Princeton University, waaraan 1,8 miljoen Amerikanen en meer dan 1 miljoen respondenten uit andere landen hebben deelgenomen, toont aan dat koppels met kinderen ongeveer even gelukkig zijn als kinderloze stelletjes.
De Standaard – 14/01/2014

Hoe zit dat nu, denk je dan. De originele studie erbij halen is verhelderend. Belangrijk is te begrijpen hoe we “gelukkiger” of “minder gelukkig” moeten interpreteren. Wat betekent dat precies? En belangrijk: hoeveel gelukkiger/ongelukkiger wordt men van het al dan niet hebben van kinderen?

De studie heeft mate van geluk gemeten aan de hand van de Cantril ladder. Kort gezegd komt het erop neer dat men aan de deelnemers vraagt hoe gelukkig men zich voelt op een schaal van 0 tot 10 (maar dan voorgesteld aan de hand van een ladder, zie afbeelding hieronder).

Cantril_ladder(Bron: Scientific American)

Wat de onderzoekers vonden is dat er een statistisch significant verschil is tussen de waardering die mensen met kinderen geven en zij die kinderloos zijn. Namelijk, de kinderlozen hadden gemiddeld een geluksscore van 6.84, terwijl zij die kinderen hebben een gemiddelde geluksscore van 6.82 hebben (Tabel 1 in het originele artikel). Grafisch voorgesteld ziet dit er als volgt uit:

Cantril_ladder_crop3Onmiddellijk wordt duidelijk dat het verschil tussen beide groepen zo klein is dat het bijna niet op deze schaal weergegeven kan worden. De reden dat dit minieme verschil statistisch significant is, is gewoonweg het gevolg van de gigantische steekproef (1.8 miljoen respondenten).

Dit is een mooi voorbeeld van een van de grootste problemen die de term ‘statistisch significant’ met zich meebrengt, namelijk: een verschil dat statistisch significant is betekent helemaal niet dat het ook relevant is. Velen, ook wetenschappers, halen beide concepten al te vaak door elkaar.

In bovenstaand voorbeeld is het duidelijk dat het verschil niet relevant is, ook al is het statistisch significant. De auteurs geven dit ook meermaals aan in hun artikel. De Standaard bracht de boodschap van de auteurs over. Echter, veel media (o.a. De Morgen) onthielden enkel dat kinderloze mensen iets gelukkiger zijn en voerden dan experts op om dit te kaderden.

Dat dit gebeurt is begrijpelijk: het wijdverspreide gebruik van klassieke hypothesetoetsen leidt ertoe dat men gaat focussen op de vraag “Is er een verschil, ja of nee?” (i.e. is mijn p-waarde kleiner dan 0.05?) in plaats van de veel relevantere vraag: “Hoe groot is het verschil?”. Size matters: in een volgende post zal ik hier dieper op ingaan.