Kleine gemeente, fijne gemeente? Over “het gemeenterapport” van Het Nieuwsblad.

Intro

De voorbije week presenteerde Het Nieuwsblad elke dag een reportage over ‘Het Gemeenterapport‘, een grootschalige enquête die het dagblad, in samenwerking met onderzoeksbureau iVox, afnam van meer dan 116.000 Vlamingen. De vragen gingen over diverse lokale thema’s maar ook over het nieuwe gemeentebestuur.

De eerste reportage ging over in welke gemeenten we het liefste wonen. In de vragenlijst werd aan de 116.000 Vlamingen gevraagd om te antwoorden met een score tussen 0 en 10 op de volgende vraag: ‘Hoe graag woont u in uw gemeente?‘. Hieronder de resultaten zoals ze gepresenteerd werden door Het Nieuwsblad (eigen reproductie obv de beschikbare gegevens):

gemeentesOp de kaart van Vlaanderen is elke gemeente in een kleur weergegeven dat overeenkomt met de gemiddelde score van die gemeente. In de inleiding van het artikel schrijft Het Nieuwsblad:

Inwoners van Linkebeek, Vorselaar en Zutendaal wonen het liefst in hun gemeente. Tienen, Vilvoorde en Zelzate scoren dan weer het slechtst. Dat blijkt uit Het Gemeenterapport van Het Nieuwsblad.
Het Nieuwsblad – 20/01/2014

Op twitter werd er duchtig gereageerd op Het Gemeenterappport. Een tweet die me opviel kwam van Bert Kruismans (@kruismans) die de score van een gemeente (Linkebeek) ging linken aan een kenmerk van die gemeente (faciliteitengemeente):

In deze blogpost wil ik graag verduidelijken waarom dergelijke conclusies voorbarig zijn.

Steekproef

Een vragenlijst die werd afgenomen bij meer dan 116.000 Vlamingen lijkt heel erg betrouwbaar te zijn. De steekproef is in elk geval gigantisch groot. En zolang we op basis van die vragenlijst enkel conclusies trekken over ‘dé Vlamingen’ is er ook geen enkel probleem.

Echter, de bedoeling van Het Gemeenterapport is niet om over de Vlaming in het algemeen te rapporteren, maar wel om de resultaten te gaan vergelijken over de verschillende gemeenten heen. En dan is het niet de totale steekproefgrootte die van belang is, maar de steekproefgroottes voor elke gemeente afzonderlijk. Volgend fictief voorbeeldje kan dit helpen verduidelijken:

Men wil de tevredenheid van de inwoners in twee steden, Gent en Kortrijk, met elkaar vergelijken. Om dit te onderzoeken is er een budget voorzien om 1000 inwoners te bevragen. Aan elke inwoner wordt gevraagd hoe fijn ze hun stad vinden (score op 10). Stel nu dat een (naïve) onderzoeker beslist om slechts 2 vragenlijsten af te nemen in Kortrijk en overige 998 in Gent.

Uit het onderzoek blijkt dat de gemiddelde score voor Kortrijk 6/10 is, terwijl de gemiddelde score voor Gent 7,5/10 is. Is het zinvol om te besluiten dat het zoveel fijner wonen is in Gent?

Het is duidelijk dat men dit niet zomaar kan besluiten. Een totaal van 1000 enquêtes is best veel, maar aangezien er slechts 2 in Kortrijk werden afgenomen is deze meting veel minder betrouwbaar dan de meting in Gent.

De kern van het probleem zou hiermee duidelijk moeten zijn: de gemiddelde tevredenheidsscores zoals ze op bovenstaand kaartje zijn weergegeven kunnen moeilijk geïnterpreteerd worden zonder informatie over hoe betrouwbaar elke score is.

‘Kleine gemeenten probleem’

Een probleem dat hieruit voortvloeit, is dat (in dit geval) gemeenten waar men slechts een kleine steekproef heeft genomen een veel grotere kans hebben om extreme uitkomsten te genereren. Hoe kleiner de steekproef, hoe groter de kans op extremen. (voor voorbeelden uit de gezondheidszorg, zie referentie onderaan deze blogpost)

Een veelgemaakte fout is dat een steekproef groter moet zijn voor grotere gemeentes (en omgekeerd) wanneer men gemeenten wil gaan vergelijken. Of, wat op hetzelfde neerkomt, dat elke inwoner van Vlaanderen dezelfde kans moet hebben om in de steekproef te belanden (wanneer men gemeenten wil gaan vergelijken). Onderstaande analyse geeft weer wat dan gebeurt:

Stel dat in elke Vlaamse gemeente de ‘echte’ tevredenheid exact dezelfde is, namelijk 7,25/10 (en dat 95% van de inwoners van elke gemeente zijn/haar gemeente een score tussen 5 en 9,5 zou geven).

Aangezien deze ‘echte’ tevredenheid niet gekend is, doet men een grootschalig onderzoek. Er is een groot budget beschikbaar waarmee het mogelijk is om 116.000 vragenlijsten af te nemen.

Elke inwoner van een Vlaamse gemeente heeft dezelfde kans om in de steekproef te worden opgenomen, dwz omdat Gent 3,3x meer inwoners heeft dan Kortrijk, worden ook 3,3x meer Gentenaars dan Kortrijkzanen in de steekproef opgenomen.

Hieronder een animatie van hoe 100 verschillende resulterende kaartjes er zouden kunnen uitzien (2 per seconde):

Merk op dat alle gemeentes eigenlijk oranje zouden moeten zijn (want de ‘echte’ tevredenheid bedraagt 7,25/10 voor elke gemeente). Echter, de animatie toont dat er toch steeds enkele gemeentes zijn die beter of slechter scoorden dan de rest (oa vaak Linkebeek). Dit betekent echter niet dat inwoners van die gemeentes meer of minder tevreden zijn dan de zij in andere gemeentes. Het is de kleine steekproef in die gemeenten die zorgt voor de grotere kans op extreme observaties.

Conclusie

Het kaartje, zoals het gepubliceerd werd op de website van Het Nieuwsblad, geeft te weinig informatie om de analyse ten gronde te kunnen voeren. Linkebeek, Vorselaar en Zutendaal halen inderdaad de hoogste scores, maar het zijn ook stuk voor stuk kleine gemeentes. Zonder extra informatie is het erg moeilijk om in te schatten of deze gemeentes ‘extreem’ scoren wegens bovenstaand steekproefprobleem of omdat het daar echt zo fijn wonen is.

Het is des mensen om altijd en overal oorzakelijke verbanden te gaan zoeken/zien bij opmerkelijke waarnemingen. Zeker journalisten, opiniemakers, experten allerhande hebben deze neiging. En dat is een goeie zaak, want het is ook hun taak om dingen in perspectief te plaatsen. Maar het wordt problematisch wanneer men toevallige fluctuaties gaat gaan verklaren. Data-journalist Maarten Lambrechts (@maartenzam) had alvast de goede reflex:

Jammer dat er geen antwoord op deze terechte vraag is gekomen…

Een meer formele en uitgebreide bespreking van bovenstaande ideeën kan in de paper ‘Gelman – All maps of parameter estimates are misleading‘ gevonden worden.

Van desinfografiek tot infografiek: Over- of ondervertegenwoordiging van politieke partijen in De Zevende Dag

Een tweetal weken geleden las ik de volgende tweet die me nogal intrigeerde:

De tweet gaat over hoe vaak de verschillende Vlaamse politieke partijen in de uitzendingen van De Zevende Dag aan bod komen. De zogenaamde infografiek die aan de tweet gelinkt werd is de volgende:

infografiekDe reden dat deze grafiek me zo intrigeerde was niet de politieke boodschap die erachter schuil gaat, maar wel de ongelooflijke complexiteit van de infografiek zelf.

De grafiek geeft een soort heatmap weer die aangeeft welke politieke partijen over- of ondergerepresenteerd zijn ten opzichte van andere partijen rekening houdend met hun verkiezingsscore voor de kamer in 2010. Echter, de veelheid aan getallen, tekst en formules maken dat het niet evident is om de boodschap snel op te pikken. Wat mij betreft is dit eerder een desinfografiek…

Eigenlijk is de hele infografiek gebaseerd op slechts een beperkt aantal datapunten. Ten eerste: voor elke politieke partij de verkiezingsscore voor de kamer in 2010. Ten tweede: voor elke partij hoe vaak ze te gast waren in De Zevende Dag tussen 1 september en 27 oktober 2013 (MO: deze data haalde ik uit de infografiek van @hoegin).

CD&V Groen LDD N-VA Open Vld PVDA SP.A VB
Verkiezingen 17.6% 7.1% 3.7% 28.2% 14% 1.3% 15% 12.6%
7dag 18 8 1 9 13 0 13 6

De auteur van de tweet gaat ervan uit dat het aantal optredens van politieke partijen in De Zevende Dag in verhouding zou moeten staan tot hun verkiezingsscore. Als dit niet het geval is, dan ziet de auteur dit als over- of ondervertegenwoordiging van die partijen (merk op dat deze visie niet perse de mijne is).

Wat zijn de grootste problemen met de infografiek?

  1. De oorspronkelijke data bevat 2 datapunten voor elk van de 8 partijen, maar via een ingewikkelde fomule worden van die 16 datapunten maar liefst 8×8=64 datapunten gemaakt.
  2. Het groene en rode deel van de infografiek bevat eigenlijk dezelfde informatie (het groene deel is het de inverse van het rode deel). Het presenteren van zowel de groene als de rode data zorgt dus enkel voor verwarring en niet voor extra inzicht.
  3. De gebruikte formule berekent eigenlijk de ratio van twee ratio’s. Dit bemoeilijkt de interpretatie van de cijfergegevens enorm.
  4. De grenzen van de kleurencodes in de legende zijn arbitrair.

Een veel sterkere visuele voorstelling van deze data is de volgende:

7dedagDeze grafiek geeft op een veel eenvoudigere manier de boodschap weer die de tweet wilde meegeven. Namelijk dat sommige partijen over- of ondervertegenwoordigd zijn in De Zevende Dag ten opzichte van hun stemmenaatal voor de kamer in 2010. Bijvoorbeeld, Groen kwam 66% meer aan bod dan dat men op basis van hun stemmenaantal zou verwachten.

De grafiek maakt in één oogopslag duidelijk welke partijen over- en ondervertegenwoordigd zijn en in welke mate bepaalde partijen over- of ondervertegenwoordigd zijn. Geen veelheid aan cijfergegevens, complexe formules of ingewikkelde kleurlegendes die de aandacht van de boodschap afleiden.

Belangrijk hierbij te vermelden is dat dat de steekproef hier relatief klein is (N=68 tv-optredens gemeten over een periode van minder dan 2 maanden). Hierdoor is het niet abnormaal dat (zeker voor de kleine partijen) er een extreme over- of ondervertegenwoordiging waargenomen wordt (bvb. PVDA). Om de betrouwbaarheid van het patroon dat in de grafiek naar boven komt te verhogen, zouden gegevens over een langere periode verzameld moeten worden.