Kleine gemeente, fijne gemeente? Over “het gemeenterapport” van Het Nieuwsblad.

Intro

De voorbije week presenteerde Het Nieuwsblad elke dag een reportage over ‘Het Gemeenterapport‘, een grootschalige enquête die het dagblad, in samenwerking met onderzoeksbureau iVox, afnam van meer dan 116.000 Vlamingen. De vragen gingen over diverse lokale thema’s maar ook over het nieuwe gemeentebestuur.

De eerste reportage ging over in welke gemeenten we het liefste wonen. In de vragenlijst werd aan de 116.000 Vlamingen gevraagd om te antwoorden met een score tussen 0 en 10 op de volgende vraag: ‘Hoe graag woont u in uw gemeente?‘. Hieronder de resultaten zoals ze gepresenteerd werden door Het Nieuwsblad (eigen reproductie obv de beschikbare gegevens):

gemeentesOp de kaart van Vlaanderen is elke gemeente in een kleur weergegeven dat overeenkomt met de gemiddelde score van die gemeente. In de inleiding van het artikel schrijft Het Nieuwsblad:

Inwoners van Linkebeek, Vorselaar en Zutendaal wonen het liefst in hun gemeente. Tienen, Vilvoorde en Zelzate scoren dan weer het slechtst. Dat blijkt uit Het Gemeenterapport van Het Nieuwsblad.
Het Nieuwsblad – 20/01/2014

Op twitter werd er duchtig gereageerd op Het Gemeenterappport. Een tweet die me opviel kwam van Bert Kruismans (@kruismans) die de score van een gemeente (Linkebeek) ging linken aan een kenmerk van die gemeente (faciliteitengemeente):

In deze blogpost wil ik graag verduidelijken waarom dergelijke conclusies voorbarig zijn.

Steekproef

Een vragenlijst die werd afgenomen bij meer dan 116.000 Vlamingen lijkt heel erg betrouwbaar te zijn. De steekproef is in elk geval gigantisch groot. En zolang we op basis van die vragenlijst enkel conclusies trekken over ‘dé Vlamingen’ is er ook geen enkel probleem.

Echter, de bedoeling van Het Gemeenterapport is niet om over de Vlaming in het algemeen te rapporteren, maar wel om de resultaten te gaan vergelijken over de verschillende gemeenten heen. En dan is het niet de totale steekproefgrootte die van belang is, maar de steekproefgroottes voor elke gemeente afzonderlijk. Volgend fictief voorbeeldje kan dit helpen verduidelijken:

Men wil de tevredenheid van de inwoners in twee steden, Gent en Kortrijk, met elkaar vergelijken. Om dit te onderzoeken is er een budget voorzien om 1000 inwoners te bevragen. Aan elke inwoner wordt gevraagd hoe fijn ze hun stad vinden (score op 10). Stel nu dat een (naïve) onderzoeker beslist om slechts 2 vragenlijsten af te nemen in Kortrijk en overige 998 in Gent.

Uit het onderzoek blijkt dat de gemiddelde score voor Kortrijk 6/10 is, terwijl de gemiddelde score voor Gent 7,5/10 is. Is het zinvol om te besluiten dat het zoveel fijner wonen is in Gent?

Het is duidelijk dat men dit niet zomaar kan besluiten. Een totaal van 1000 enquêtes is best veel, maar aangezien er slechts 2 in Kortrijk werden afgenomen is deze meting veel minder betrouwbaar dan de meting in Gent.

De kern van het probleem zou hiermee duidelijk moeten zijn: de gemiddelde tevredenheidsscores zoals ze op bovenstaand kaartje zijn weergegeven kunnen moeilijk geïnterpreteerd worden zonder informatie over hoe betrouwbaar elke score is.

‘Kleine gemeenten probleem’

Een probleem dat hieruit voortvloeit, is dat (in dit geval) gemeenten waar men slechts een kleine steekproef heeft genomen een veel grotere kans hebben om extreme uitkomsten te genereren. Hoe kleiner de steekproef, hoe groter de kans op extremen. (voor voorbeelden uit de gezondheidszorg, zie referentie onderaan deze blogpost)

Een veelgemaakte fout is dat een steekproef groter moet zijn voor grotere gemeentes (en omgekeerd) wanneer men gemeenten wil gaan vergelijken. Of, wat op hetzelfde neerkomt, dat elke inwoner van Vlaanderen dezelfde kans moet hebben om in de steekproef te belanden (wanneer men gemeenten wil gaan vergelijken). Onderstaande analyse geeft weer wat dan gebeurt:

Stel dat in elke Vlaamse gemeente de ‘echte’ tevredenheid exact dezelfde is, namelijk 7,25/10 (en dat 95% van de inwoners van elke gemeente zijn/haar gemeente een score tussen 5 en 9,5 zou geven).

Aangezien deze ‘echte’ tevredenheid niet gekend is, doet men een grootschalig onderzoek. Er is een groot budget beschikbaar waarmee het mogelijk is om 116.000 vragenlijsten af te nemen.

Elke inwoner van een Vlaamse gemeente heeft dezelfde kans om in de steekproef te worden opgenomen, dwz omdat Gent 3,3x meer inwoners heeft dan Kortrijk, worden ook 3,3x meer Gentenaars dan Kortrijkzanen in de steekproef opgenomen.

Hieronder een animatie van hoe 100 verschillende resulterende kaartjes er zouden kunnen uitzien (2 per seconde):

Merk op dat alle gemeentes eigenlijk oranje zouden moeten zijn (want de ‘echte’ tevredenheid bedraagt 7,25/10 voor elke gemeente). Echter, de animatie toont dat er toch steeds enkele gemeentes zijn die beter of slechter scoorden dan de rest (oa vaak Linkebeek). Dit betekent echter niet dat inwoners van die gemeentes meer of minder tevreden zijn dan de zij in andere gemeentes. Het is de kleine steekproef in die gemeenten die zorgt voor de grotere kans op extreme observaties.

Conclusie

Het kaartje, zoals het gepubliceerd werd op de website van Het Nieuwsblad, geeft te weinig informatie om de analyse ten gronde te kunnen voeren. Linkebeek, Vorselaar en Zutendaal halen inderdaad de hoogste scores, maar het zijn ook stuk voor stuk kleine gemeentes. Zonder extra informatie is het erg moeilijk om in te schatten of deze gemeentes ‘extreem’ scoren wegens bovenstaand steekproefprobleem of omdat het daar echt zo fijn wonen is.

Het is des mensen om altijd en overal oorzakelijke verbanden te gaan zoeken/zien bij opmerkelijke waarnemingen. Zeker journalisten, opiniemakers, experten allerhande hebben deze neiging. En dat is een goeie zaak, want het is ook hun taak om dingen in perspectief te plaatsen. Maar het wordt problematisch wanneer men toevallige fluctuaties gaat gaan verklaren. Data-journalist Maarten Lambrechts (@maartenzam) had alvast de goede reflex:

Jammer dat er geen antwoord op deze terechte vraag is gekomen…

Een meer formele en uitgebreide bespreking van bovenstaande ideeën kan in de paper ‘Gelman – All maps of parameter estimates are misleading‘ gevonden worden.

Over- of ondervertegenwoordiging van politieke partijen in ‘De Zevende Dag’

In een vorige post werd de over- of ondervertegenwoordiging van politieke partijen in ‘De Zevende Dag’ besproken. Meer specifiek hoe de onderliggende gegevens het beste gevisualiseerd kunnen worden. In een commentaar van Filip Van Laenen (@hoegin) op die blogpost werd geopperd dat het interessant zou zijn na te gaan of de waargenomen over- of ondervertegenwoordiging van de verschillende politieke partijen ‘significant’ is. En dit is precies wat ik in deze post wil nagaan.

De gegevens voor deze analyse komen uit een tweet van @hoegin (de gegevens heb ik niet geverifieerd):

7dagVoor elke politieke partij is er informatie over twee variabelen. Ten eerste: voor elke politieke partij de verkiezingsscore voor de kamer in 2010. Ten tweede: voor elke partij hoe vaak ze te gast was in De Zevende Dag tussen 1 september en 15 december 2013.

Groen CD&V Open Vld SP.A VB N-VA LDD PVDA
Verkiezingen 7.1% 17.6% 14% 15% 12.6% 28.2% 3.7% 1.3%
7dag (freq) 13 25 20 24 7 18 3 1
7dag (pct) 11.7% 22.5% 18.0% 21.6% 6.3% 16.2% 2.7% 0.9%

De laatste rij van de tabel bevat dezelfde informatie als de tweede rij, maar dan uitgedrukt als percentage. Vergelijken van de percentages (verkiezingen vs 7dag) leert dat de traditionele partijen plus Groen vaker te gast zijn in De Zevende Dag dan dat men op basis van hun verkiezingsuitslag zou verwachten. Het omgekeerde is waar voor de V-partijen. Maar is dit ‘statistisch significant’?

De hypothese die getest zal worden is: “voor een politieke partij is de kans om te gast te zijn in De Zevende Dag proportioneel tot de verkiezingsuitslag (Kamer, 2010) van die partij”.

Een Bayesiaanse methode (want ik ben geen voorstander van klassieke significantietoesten) om deze hypothese te testen is het dirichlet-multinomial model (met vage prior). Dit model gaat ervan uit dat elke partij een zekere kans heeft om uitgenodigd te worden in De Zevende Dag. Deze kans is onbekend en wordt geschat aan de hand van de waargenomen frequentie van gastoptredens.

Hieronder zie je het resultaat van de analyse. De groene curve (de posterior) geeft voor elke politieke partij weer wat de geschatte kans is om in De Zevende Dag te gast te zijn. Bijvoorbeeld, voor Groen is die kans met 95% zekerheid tussen ongeveer 0.06 en 0.17 (te zien aan de groene inkleuring, het zekerheidsinterval) en is die kans het grootst bij ongeveer 0.11. Voor CD&V is die kans met 95% zekerheid tussen ongeveer 0.12 en 0.29 en is die kans het grootst bij ongeveer 0.22.

De blauwe vertikale streep geeft weer wat het verkiezingsresultaat (Kamer, 2010) was. Wanneer deze streep buiten het groen ingekleurde interval valt, dan is het erg onwaarschijnlijk dat voor die partij de kans om in De Zevende Dag te gast te zijn proportioneel is tot het verkiezingsresultaat (Kamer, 2010). Bijvoorbeeld, voor PVDA is te zien dat deze waarde mooi binnen het groen ingekleurde gedeelte valt. Dit betekent dat voor PVDA de kans om in De Zevende Dag te gast te zijn in verhouding is tot hun verkiezingsresultaat.

postDe enige politieke partijen van wie het verkiezingsresultaat buiten het 95% zekerheidsinterval valt, zijn Vlaams Belang en NVA. Dit betekent dat voor deze partijen het buitengewoon onwaarschijnlijk is dat hun kans om in De Zevende Dag te gast te zijn in verhouding staat tot hun verkiezingsresultaat. En hoewel het verkiezingsresultaat van Groen en SP.A nog net binnen het 95% zekerheidsinterval ligt, is het ook voor die partijen eerder onwaarschijnlijk dat hun kans om in De Zevende Dag te gast te zijn in verhouding staat tot hun verkiezingsresultaat.

De hypothese “voor een politieke partij is de kans om te gast te zijn in De Zevende Dag proportioneel tot de verkiezingsuitslag (Kamer, 2010) van die partij” is dus heel erg onwaarschijnlijk. Er zijn sterke aanwijzingen dat sommige partijen over- of ondervertegenwoordigd zijn ten opzichte van hun verkiezingsresultaat.

De meer fundamentele vraag of het aantal gastoptredens van politieke partijen in De Zevende Dag in verhouding móet staan tot hun verkiezingsresultaat laat ik over aan de specialisten ter zake.

Natuurlijke variantie en studentenaantallen

Deze post komt er naar aanleiding van het jaarlijks terugkerend fenomeen van het (over)analyseren van de inschrijvingsaantallen in de verschillende richtingen van de verschillende universiteiten en hogescholen van ons land. In de traditionele media verschijnen jaarlijks artikels met titels als: “Economie studeren steeds populairder“, of “Opleiding leerkracht opnieuw populair” of “Vlaamse student valt voor chemie“.

Wat ik in deze post graag duidelijk wil maken is dat veel van die conclusies voorbarig zijn en vaak weinig zinvol zijn. Als mens hebben we de neiging om (vaak onterecht) overal oorzakelijke verbanden te willen zien. Winnaar ‘nobelprijs economie’ Kahneman (in Thinking Fast and Slow) verwoordt het als volgt:

“We are far too willing to reject the belief that much of what we see in life is random.”

Als voorbeeld neem ik de voorlopige studentenaantallen Psychologie & Pedagogie aan de UGent omdat die het onderwerp van discussie waren op twitter (die ondertussen deels weer verwijderd is, dus geen linkje). Via de website van de UGent kon men tot dit weekend grafieken opvragen (nu zijn ze enkel nog beschikbaar voor personeel). Een voorbeel van zo’n grafiek hieronder:

dat_withOp de horizontale as zien we de dagen sinds de start van de inschrijvingen, op de vertikale as zien we het cummulatieve aantal studenten ingeschreven aan de faculteit Psychologie en Pedagogie. Sommigen besluiten hieruit dat de opleidingen aan die facutleit aan populariteit ingeboet hebben in vergelijking met het jaar daarvoor (en geven hiervoor allerhande redenen aan, b.v. ‘de economische crisis’).

Vraag is: kunnen we dit wel besluiten op basis van deze data?

Om deze vraag te beantwoorden heb ik de data gemodelleerd alsof ze afkomstig was van een Poisson process. Dit is hetzelfde model dat gebruikt werd om de effecten van de speedy-pass in Walibi mee te evalueren. Een Poisson process wordt gekenmerkt door een parameter die, in dit geval, weergeeft hoeveel studenten zich gemiddeld komen inschrijven op 1 dag (aan de faculteit in kwestie). Dit is de ‘rate’ parameter.

Als we die parameter nu gaan schatten op onze data en die blijkt ‘significant’ hoger te zijn voor 2012 dan voor 2013, dan zouden we kunnen besluiten dat de evolutie van de inschrijvingen dit jaar lager ligt dan het jaar voordien. Maar is dit ook wat we vinden?

hyptestHierboven zien we het resultaat van een Bayesiaanse hypothesetest. De gele histogram geeft de posterior verdeling van het verschil 2012-2013 weer. De meeste massa (kans) komt op positieve waarden te liggen (d.w.z. dat studenten in 2012 inderdaad in grotere getale kwamen opdagen dan in 2013). Echter, de vertikale blauwe strepen geven de Bayesiaanse betrouwbaarheidsintervallen weer en die geven aan dat we niet met grote zekerheid kunnen zeggen dat 2013 verschillend is van 2012 (het getal 0 ligt in het interval). Er is zelfs bijna 7% kans dat de rate in 2013 eigenlijk hoger is dan die in 2012.

Deze simpele (waarschijnlijk té simpele, maar goed genoeg om mijn centrale punt mee duidelijk te maken) analyse geeft aan dat helemaal niet kunnen besluiten dat men minder storm loopt voor de opleidingen psychologie of pedagogie. De verschillen die we waarnemen zijn waarschijnlijk natuurlijke variantie, toevallige fluctuaties waarvoor geen verklaringen te geven zijn.

Onderstaande grafiek, ten slotte, geeft dit ook weer. De groene ‘band’ is het resultaat van 1000 gesimuleerde inschrijvingscurves met dezelfde ‘rate’ als de curve van 2012. Ze verschillen dus alleen wat betreft de natuurlijke variantie.

sim2Onmiddellijk is duidelijk dat curves soms wat hoger of lager kunnen uitvallen, zonder dat daar oorzaken voor te geven zijn. Als we de gesimuleerde curves (groen) gaan vergelijken met de inschrijvingscurve voor dit jaar, dan zien we dat ze meestal mooi binnen de te verwachten natuurlijke variantie van de curve van vorig jaar blijft. We kunnen dus best nog even wachten met het verklaren van de verschuivinen in de inschrijvingen en vooral proberen het signaal niet te verwarren met de ruis.

Edit: De prior die ik gebruikte voor de rate parameter is Uniform(0,200).

Reactie op “Enkele bedenkingen bij de recente ‘De Standaard/VRT/TNS’ peiling”

Recent ontstond op Twitter een (constructieve) discussie over of nu wel of niet besloten kan worden dat de score van de NVA bij de huidige peiling (mei ’13) significant lager ligt dan die bij de vorige peiling (sept. ’12). Het begon met onderstaande tweets:

Lees de volledige twitter conversatie hier. Een uitgebreide reactie kwam er op de blog van @IstvanHajnal in de vorm van twee blogposts (hier en hier).

De hamvraag in deze hele discussie is of de waargenomen daling van de score van de NVA in de peiling van mei ’13 vs september ’12 “significant” is of niet. Meerbepaald, moeten we in de analyse ook rekening houden met de onzekerheid van het vergelijkingspunt (i.e. peiling sept ’12) of niet?

Mijn antwoord op deze vraag/stelling is zonder twijfel: ja! Als een overtuigde aanhanger van Bayesiaanse statistiek wil ik hieronder graag demonstreren hoe een Bayesiaanse analyse op deze data in z’n werk gaat.

Merk op dat er slechts heel weinig precieze gegevens gedeeld worden over de ‘De Standaard/VRT/TNS’ peiling. Onderstaande analyse gaat uit van een perfect gerandomiseerde steekproef uit de populatie van alle stemgerechtigden. Naar alle waarschijnlijkheid is hieraan in de peiling(en) niet voldaan en betekent dit dat we een onderschatting maken van de onzekerheid rond de resultaten. Daarenboven heb ik geen gegevens over de steekproefgrootte van de peiling in sept ’12, maar ga ik net als @IstvanHajnal (in de tweede blogpost) uit van een steekproef van 1000.

Roeien met de riemen die er zijn…

Het probleem waarmee we te maken hebben is het vergelijken van twee niet-gekende proporties. De eerste niet-gekende proportie is de potentiële score van NVA in september ’12. Deze proportie gaan we proberen te schatten met de informatie uit de peiling van september ’12. De tweede niet-gekende proportie is de potentiële score van NVA in mei ’13 en deze proportie gaan we proberen te schatten met de informatie uit de peiling van mei ’13.

Een Bayesiaans statisticus probeert dit probleem op te lossen aan de hand van de regel van Bayes. Die regel geeft weer hoe we onze mening moeten herzien in het licht van (nieuwe) data:

p(mening|data)=\frac{p(data|mening)\times p(mening)}{p(data)}

Of in meer formele termen:

posterior=\frac{likelihood \times prior}{marginal likelihood}

Het eerste dat we bepalen is onze “prior” ofte “onze-mening-vooraleer-we-naar-de (nieuwe)-data-keken”. In dit geval gaat dit over de score van de NVA in september ’12. Hieronder twee voorbeelden van mogelijke “prior” meningen.

prior1prior2

De eerste (linkse) “prior” mening geeft weer dat we alle mogelijke percentages even waarschijnlijk vinden als score voor de NVA. Echter, een meer realistische prior zou de andere (rechtse) prior kunnen zijn waarbij we meer geloof hechten aan waarden rond de 30% en weinig geloven in waarden boven 50%.

Om de zaken eenvoudig te houden werk ik hier verder met de linkse prior. Deze prior wordt heel vaak gebruikt omdat hiermee de invloed van de prior minimaal gehouden wordt en de uitkomst volledig door de data bepaald wordt. Mede hierdoor is deze prior vaak acceptabel voor zowel Bayesiaanse als klassieke statistici.

De volgende stap is het bepalen van de likelihoodfunctie. Voor dit probleem zullen we gebruik maken van de Bernoulli likelihood waarbij we 1000 observaties hebben waarvan 363 NVA stemmers en 673 niet-NVA stemmers. Onze posterior kunnen we dan berekenen door de regel van Bayes hierboven toe te passen (om niet te technisch te worden laat ik de precieze berekeningen hier achterwege).

post1Na het in overweging nemen van de data in de peiling van september ’12 geeft bovenstaande “posterior” weer wat we weten over de niet-gekende proportie NVA-stemmers. We zien dat de kans erg groot is dat de niet-gekende proportie ergens tussen 30% en 40% moet zijn.

Vervolgens doen we dezelfde stappen voor de peiling van mei ’13. We gebruiken hier opnieuw de ‘vlakke prior’ die we hierboven ook gebruikten. De de tweede peiling spreekt over een steekproef van 1084 respondenten waarvan 348 NVA-stemmers. Via Bayes theorema kunnen we dan opnieuw de posterior gaan berekenen. Hieronder zie je de posteriors van de peiling van september ’12 en mei ’13 op dezelfde grafiek geplaatst (merk op dat de schaal van de X-as anders is dan hierboven).

post3In bovenstaande grafiek heb ik ook het “95% credible interval” weergegeven voor beide “posteriors”. Die “credible intervals” kan je als volgt interpreteren: “er is 95% kans dat de niet-gekende NVA score in dit interval ligt”. Deze interpretatie is heel intuitief en helemaal anders dan het klassieke betrouwbaarheidsinterval (zie blogpost 1 van @IstvanHajnal). Merk ook op dat beide “credible intervals” elkaar overlappen (wat niet per se betekent dat beide proporties niet van elkaar verschillen (sorry voor dubbele negatie)).

De kernvraag van deze analyse is wat de kans is dat de niet-gekende proportie NVA stemmers lager zou zijn mei ’13 dan september ’12. Dit komt neer op het berekenen van de kans dat de blauwe verdeling in bovenstaande grafiek kleiner is dan de gele. Dit probleem kunnen we relatief eenvoudig oplossen met simulatie. Hieronder het resultaat van die simulatie:

postdif1Het “credible interval” in bovenstaande histogram geeft aan dat er 95% kans is dat er in mei ’13 tussen de 0.001% en de 8.3% minder Vlamingen zijn die op NVA zouden stemmen dan dat er in september ’12 waren. De kans dat NVA er minstens 1% op achteruit gegaan is bedraagt 93.8%.

Let wel, de kans dat NVA erop vooruít gegaan is tussen september ’12 en mei ’13 bedraagt (ondanks het feit dat de peilingen iets anders laten uitschijnen) nog steeds 2.2%. In de medische wetenschappen, waar men (terecht) veel striktere eisen stelt aan statistisch bewijs, zou dit betekenen dat bijkomend onderzoek nodig is om uitsluitsel te bieden.

We kunnen dus besluiten dat de media correct bericht hebben over de daling van de NVA in de laatste peiling. De data geven inderdaad aan dat de kans erg groot is dat de NVA erop achteruit gegaan is tussen beide peilingen. Let wel (en ik herhaal omdat dit belangrijk is), deze analyse gaat uit van een perfect gerandomiseerde steekproef uit de populatie van alle stemgerechtigden. Naar alle waarschijnlijkheid is hieraan in de peiling(en) niet voldaan en betekent dit dat we een onderschatting maken van de onzekerheid rond de resultatan.

Addendum

Een belangrijk element in de twitter/blog discussie was of we al dan niet moesten rekening houden met de onzekerheid van het ijkpunt (i.e. de onzekerheid van de werkelijke proportie NVA stemmers in september ’12). Ik haalde al aan dat mijn standpunt is dat we dit zeker moeten doen. Hieronder toon ik wat gebeurt indien we dit niet zouden doen.

In bovenstaande analyse hebben we het verschil berekend tussen twee random variabelen, namelijk de niet-gekende proportie NVA-stemmers in september ’12 en de niet-gekende proportie NVA-stemmers in mei 2013. Het resultaat was de gele histogram hierboven.

Indien we ervan zouden uitgaan dat de uitkomst van de peiling in september ’12 niet onzeker is, maar daarentegen fixed (i.e. 36.3%), dan zouden we andere antwoorden formuleren op onze hamvraag. Namelijk, dan zouden we enkel de posterior van de huidige peiling gaan berekenen en dan nagaan wat de kans is dat deze posterior kleiner is dan 36.3%.

post4Bovenstaande figuur geeft dit weer. De gele oppervlakte geeft de kans weer dat de niet-gekende proportie van de recentste peiling kleiner is dan het fixed ijkpunt (0.363) en die kans is 99.8%. De kleine blauwe oppervlakte (in de rechterstaart) is dan het omgekeerde, namelijk de kans dat deze proportie groter is dan het ijkpunt (0.363) en die kan is dan logischerwijze 0.02%.

Merk op dat wanneer we de kansen op deze manier berekenen we met grotere zekerheid (99.8% hier versus 97.8% in de vorige analyse) zouden besluiten dat NVA erop achteruit gegaan is tussen beide peilingen. Door geen rekening te houden met de onzekerheid van het ijkpunt zouden we dus een overschatting gaan maken van het verschil tussen beide peilingen. Al moet het gezegd dat in dit geval dit niet tot fundamenteel verschillende conclusies zou leiden.