Natuurlijke variantie en studentenaantallen

Deze post komt er naar aanleiding van het jaarlijks terugkerend fenomeen van het (over)analyseren van de inschrijvingsaantallen in de verschillende richtingen van de verschillende universiteiten en hogescholen van ons land. In de traditionele media verschijnen jaarlijks artikels met titels als: “Economie studeren steeds populairder“, of “Opleiding leerkracht opnieuw populair” of “Vlaamse student valt voor chemie“.

Wat ik in deze post graag duidelijk wil maken is dat veel van die conclusies voorbarig zijn en vaak weinig zinvol zijn. Als mens hebben we de neiging om (vaak onterecht) overal oorzakelijke verbanden te willen zien. Winnaar ‘nobelprijs economie’ Kahneman (in Thinking Fast and Slow) verwoordt het als volgt:

“We are far too willing to reject the belief that much of what we see in life is random.”

Als voorbeeld neem ik de voorlopige studentenaantallen Psychologie & Pedagogie aan de UGent omdat die het onderwerp van discussie waren op twitter (die ondertussen deels weer verwijderd is, dus geen linkje). Via de website van de UGent kon men tot dit weekend grafieken opvragen (nu zijn ze enkel nog beschikbaar voor personeel). Een voorbeel van zo’n grafiek hieronder:

dat_withOp de horizontale as zien we de dagen sinds de start van de inschrijvingen, op de vertikale as zien we het cummulatieve aantal studenten ingeschreven aan de faculteit Psychologie en Pedagogie. Sommigen besluiten hieruit dat de opleidingen aan die facutleit aan populariteit ingeboet hebben in vergelijking met het jaar daarvoor (en geven hiervoor allerhande redenen aan, b.v. ‘de economische crisis’).

Vraag is: kunnen we dit wel besluiten op basis van deze data?

Om deze vraag te beantwoorden heb ik de data gemodelleerd alsof ze afkomstig was van een Poisson process. Dit is hetzelfde model dat gebruikt werd om de effecten van de speedy-pass in Walibi mee te evalueren. Een Poisson process wordt gekenmerkt door een parameter die, in dit geval, weergeeft hoeveel studenten zich gemiddeld komen inschrijven op 1 dag (aan de faculteit in kwestie). Dit is de ‘rate’ parameter.

Als we die parameter nu gaan schatten op onze data en die blijkt ‘significant’ hoger te zijn voor 2012 dan voor 2013, dan zouden we kunnen besluiten dat de evolutie van de inschrijvingen dit jaar lager ligt dan het jaar voordien. Maar is dit ook wat we vinden?

hyptestHierboven zien we het resultaat van een Bayesiaanse hypothesetest. De gele histogram geeft de posterior verdeling van het verschil 2012-2013 weer. De meeste massa (kans) komt op positieve waarden te liggen (d.w.z. dat studenten in 2012 inderdaad in grotere getale kwamen opdagen dan in 2013). Echter, de vertikale blauwe strepen geven de Bayesiaanse betrouwbaarheidsintervallen weer en die geven aan dat we niet met grote zekerheid kunnen zeggen dat 2013 verschillend is van 2012 (het getal 0 ligt in het interval). Er is zelfs bijna 7% kans dat de rate in 2013 eigenlijk hoger is dan die in 2012.

Deze simpele (waarschijnlijk té simpele, maar goed genoeg om mijn centrale punt mee duidelijk te maken) analyse geeft aan dat helemaal niet kunnen besluiten dat men minder storm loopt voor de opleidingen psychologie of pedagogie. De verschillen die we waarnemen zijn waarschijnlijk natuurlijke variantie, toevallige fluctuaties waarvoor geen verklaringen te geven zijn.

Onderstaande grafiek, ten slotte, geeft dit ook weer. De groene ‘band’ is het resultaat van 1000 gesimuleerde inschrijvingscurves met dezelfde ‘rate’ als de curve van 2012. Ze verschillen dus alleen wat betreft de natuurlijke variantie.

sim2Onmiddellijk is duidelijk dat curves soms wat hoger of lager kunnen uitvallen, zonder dat daar oorzaken voor te geven zijn. Als we de gesimuleerde curves (groen) gaan vergelijken met de inschrijvingscurve voor dit jaar, dan zien we dat ze meestal mooi binnen de te verwachten natuurlijke variantie van de curve van vorig jaar blijft. We kunnen dus best nog even wachten met het verklaren van de verschuivinen in de inschrijvingen en vooral proberen het signaal niet te verwarren met de ruis.

Edit: De prior die ik gebruikte voor de rate parameter is Uniform(0,200).

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s