Reactie op “Enkele bedenkingen bij de recente ‘De Standaard/VRT/TNS’ peiling”

Recent ontstond op Twitter een (constructieve) discussie over of nu wel of niet besloten kan worden dat de score van de NVA bij de huidige peiling (mei ’13) significant lager ligt dan die bij de vorige peiling (sept. ’12). Het begon met onderstaande tweets:

Lees de volledige twitter conversatie hier. Een uitgebreide reactie kwam er op de blog van @IstvanHajnal in de vorm van twee blogposts (hier en hier).

De hamvraag in deze hele discussie is of de waargenomen daling van de score van de NVA in de peiling van mei ’13 vs september ’12 “significant” is of niet. Meerbepaald, moeten we in de analyse ook rekening houden met de onzekerheid van het vergelijkingspunt (i.e. peiling sept ’12) of niet?

Mijn antwoord op deze vraag/stelling is zonder twijfel: ja! Als een overtuigde aanhanger van Bayesiaanse statistiek wil ik hieronder graag demonstreren hoe een Bayesiaanse analyse op deze data in z’n werk gaat.

Merk op dat er slechts heel weinig precieze gegevens gedeeld worden over de ‘De Standaard/VRT/TNS’ peiling. Onderstaande analyse gaat uit van een perfect gerandomiseerde steekproef uit de populatie van alle stemgerechtigden. Naar alle waarschijnlijkheid is hieraan in de peiling(en) niet voldaan en betekent dit dat we een onderschatting maken van de onzekerheid rond de resultaten. Daarenboven heb ik geen gegevens over de steekproefgrootte van de peiling in sept ’12, maar ga ik net als @IstvanHajnal (in de tweede blogpost) uit van een steekproef van 1000.

Roeien met de riemen die er zijn…

Het probleem waarmee we te maken hebben is het vergelijken van twee niet-gekende proporties. De eerste niet-gekende proportie is de potentiële score van NVA in september ’12. Deze proportie gaan we proberen te schatten met de informatie uit de peiling van september ’12. De tweede niet-gekende proportie is de potentiële score van NVA in mei ’13 en deze proportie gaan we proberen te schatten met de informatie uit de peiling van mei ’13.

Een Bayesiaans statisticus probeert dit probleem op te lossen aan de hand van de regel van Bayes. Die regel geeft weer hoe we onze mening moeten herzien in het licht van (nieuwe) data:

p(mening|data)=\frac{p(data|mening)\times p(mening)}{p(data)}

Of in meer formele termen:

posterior=\frac{likelihood \times prior}{marginal likelihood}

Het eerste dat we bepalen is onze “prior” ofte “onze-mening-vooraleer-we-naar-de (nieuwe)-data-keken”. In dit geval gaat dit over de score van de NVA in september ’12. Hieronder twee voorbeelden van mogelijke “prior” meningen.

prior1prior2

De eerste (linkse) “prior” mening geeft weer dat we alle mogelijke percentages even waarschijnlijk vinden als score voor de NVA. Echter, een meer realistische prior zou de andere (rechtse) prior kunnen zijn waarbij we meer geloof hechten aan waarden rond de 30% en weinig geloven in waarden boven 50%.

Om de zaken eenvoudig te houden werk ik hier verder met de linkse prior. Deze prior wordt heel vaak gebruikt omdat hiermee de invloed van de prior minimaal gehouden wordt en de uitkomst volledig door de data bepaald wordt. Mede hierdoor is deze prior vaak acceptabel voor zowel Bayesiaanse als klassieke statistici.

De volgende stap is het bepalen van de likelihoodfunctie. Voor dit probleem zullen we gebruik maken van de Bernoulli likelihood waarbij we 1000 observaties hebben waarvan 363 NVA stemmers en 673 niet-NVA stemmers. Onze posterior kunnen we dan berekenen door de regel van Bayes hierboven toe te passen (om niet te technisch te worden laat ik de precieze berekeningen hier achterwege).

post1Na het in overweging nemen van de data in de peiling van september ’12 geeft bovenstaande “posterior” weer wat we weten over de niet-gekende proportie NVA-stemmers. We zien dat de kans erg groot is dat de niet-gekende proportie ergens tussen 30% en 40% moet zijn.

Vervolgens doen we dezelfde stappen voor de peiling van mei ’13. We gebruiken hier opnieuw de ‘vlakke prior’ die we hierboven ook gebruikten. De de tweede peiling spreekt over een steekproef van 1084 respondenten waarvan 348 NVA-stemmers. Via Bayes theorema kunnen we dan opnieuw de posterior gaan berekenen. Hieronder zie je de posteriors van de peiling van september ’12 en mei ’13 op dezelfde grafiek geplaatst (merk op dat de schaal van de X-as anders is dan hierboven).

post3In bovenstaande grafiek heb ik ook het “95% credible interval” weergegeven voor beide “posteriors”. Die “credible intervals” kan je als volgt interpreteren: “er is 95% kans dat de niet-gekende NVA score in dit interval ligt”. Deze interpretatie is heel intuitief en helemaal anders dan het klassieke betrouwbaarheidsinterval (zie blogpost 1 van @IstvanHajnal). Merk ook op dat beide “credible intervals” elkaar overlappen (wat niet per se betekent dat beide proporties niet van elkaar verschillen (sorry voor dubbele negatie)).

De kernvraag van deze analyse is wat de kans is dat de niet-gekende proportie NVA stemmers lager zou zijn mei ’13 dan september ’12. Dit komt neer op het berekenen van de kans dat de blauwe verdeling in bovenstaande grafiek kleiner is dan de gele. Dit probleem kunnen we relatief eenvoudig oplossen met simulatie. Hieronder het resultaat van die simulatie:

postdif1Het “credible interval” in bovenstaande histogram geeft aan dat er 95% kans is dat er in mei ’13 tussen de 0.001% en de 8.3% minder Vlamingen zijn die op NVA zouden stemmen dan dat er in september ’12 waren. De kans dat NVA er minstens 1% op achteruit gegaan is bedraagt 93.8%.

Let wel, de kans dat NVA erop vooruít gegaan is tussen september ’12 en mei ’13 bedraagt (ondanks het feit dat de peilingen iets anders laten uitschijnen) nog steeds 2.2%. In de medische wetenschappen, waar men (terecht) veel striktere eisen stelt aan statistisch bewijs, zou dit betekenen dat bijkomend onderzoek nodig is om uitsluitsel te bieden.

We kunnen dus besluiten dat de media correct bericht hebben over de daling van de NVA in de laatste peiling. De data geven inderdaad aan dat de kans erg groot is dat de NVA erop achteruit gegaan is tussen beide peilingen. Let wel (en ik herhaal omdat dit belangrijk is), deze analyse gaat uit van een perfect gerandomiseerde steekproef uit de populatie van alle stemgerechtigden. Naar alle waarschijnlijkheid is hieraan in de peiling(en) niet voldaan en betekent dit dat we een onderschatting maken van de onzekerheid rond de resultatan.

Addendum

Een belangrijk element in de twitter/blog discussie was of we al dan niet moesten rekening houden met de onzekerheid van het ijkpunt (i.e. de onzekerheid van de werkelijke proportie NVA stemmers in september ’12). Ik haalde al aan dat mijn standpunt is dat we dit zeker moeten doen. Hieronder toon ik wat gebeurt indien we dit niet zouden doen.

In bovenstaande analyse hebben we het verschil berekend tussen twee random variabelen, namelijk de niet-gekende proportie NVA-stemmers in september ’12 en de niet-gekende proportie NVA-stemmers in mei 2013. Het resultaat was de gele histogram hierboven.

Indien we ervan zouden uitgaan dat de uitkomst van de peiling in september ’12 niet onzeker is, maar daarentegen fixed (i.e. 36.3%), dan zouden we andere antwoorden formuleren op onze hamvraag. Namelijk, dan zouden we enkel de posterior van de huidige peiling gaan berekenen en dan nagaan wat de kans is dat deze posterior kleiner is dan 36.3%.

post4Bovenstaande figuur geeft dit weer. De gele oppervlakte geeft de kans weer dat de niet-gekende proportie van de recentste peiling kleiner is dan het fixed ijkpunt (0.363) en die kans is 99.8%. De kleine blauwe oppervlakte (in de rechterstaart) is dan het omgekeerde, namelijk de kans dat deze proportie groter is dan het ijkpunt (0.363) en die kan is dan logischerwijze 0.02%.

Merk op dat wanneer we de kansen op deze manier berekenen we met grotere zekerheid (99.8% hier versus 97.8% in de vorige analyse) zouden besluiten dat NVA erop achteruit gegaan is tussen beide peilingen. Door geen rekening te houden met de onzekerheid van het ijkpunt zouden we dus een overschatting gaan maken van het verschil tussen beide peilingen. Al moet het gezegd dat in dit geval dit niet tot fundamenteel verschillende conclusies zou leiden.

Advertenties

2 thoughts on “Reactie op “Enkele bedenkingen bij de recente ‘De Standaard/VRT/TNS’ peiling”

  1. Bedankt voor het instructieve stukje Bayesiaanse data. Maar vind jij dat in dit geval er ook echt een meerwaarde is aan de Bayesiaanse aanpak? Een eenvoudige Z-test voor proporties op dezelfde getallen leert dat
    z= 2.0188, met p=.04338 en dus ongeveer dezelfde conclusie: het is significant minder, maar ’t is nipt.
    Zou een meerwaarde van de Bayesiaanse aanpak niet kunnen zijn dat je je priors hier gaat bepalen aan de hand van eerdere peilingen? Dat geeft natuurlijk ook stof voor discussie, maar het zou een soort intuïtieve longitudinale Bayesiaanse kijk opleveren.

    • Een eenvoudige Z-test geeft inderdaad gelijkaardige resultaten. Gelukkig maar! In veel gevallen zullen Bayesiaanse en klassieke statistische methoden gelijkaardige resultaten geven (dit is per definitie zo wanneer we grote sample sizes hebben).

      Bayesiaanse methodes hebben veel voordelen (normaal trek ik 12 hoorcolleges uit om die allemaal uit te leggen ;)). In dit geval zie ik vooral het voordeel van de interpretatie. Dwz, Bayesiaanse methodes laten toe om uitspraken te doen als: “De kans dat er géén daling heeft plaatsgevonden, is x%”, of “we kunnen x% zeker zijn dat de score van partij Y tussen p en q ligt”, enz. Deze intuitieve interpretaties zijn niet mogelijk met klassieke methodes (wel integendeel, zie ook blog van Istvan). Zeker wanneer we resultaten communiceren naar niet-statistici, zijn intuïtieve interpretaties te verkiezen.

      Uw suggestie van “longitudinale Bayesiaanse” kijk is zeker interessant. Dit is ook (onderdeel van) de aanpak van Nate Silver die er al verschillende keren in slaagde de Amerikaanse (presidents)verkiezingen correct te voorspellen (zie bvb wikipedia). Zijn boek “The Signal and the Noise: Why So Many Predictions Fail — but Some Don’t” is een absolute aanrader om op een toegankelijke manier geïntroduceerd te worden in (Bayesiaanse) statistiek en de kunst van het ‘voorspellen’.

      Bedankt voor uw reactie!

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s