Het Vlaams regeerakkoord in word clouds

(Data van deze analyses beschikbaar onderaan deze post.)

Hieronder een korte analyse van de Vlaamse regeerakkoorden (2014-2019 en 2009-2014) in een aantal word clouds. Momenteel ben ik aan het experimenteren met text processing en het leek me een leuke oefening om een aantal zaken uit te proberen op deze documenten. Op deze websites vond ik de integrale pdf’s:

2014-2019: http://ebl.vlaanderen.be/publications/documents/60797&
2009-2014: http://www.ond.vlaanderen.be/hogeronderwijs/leraar/bestanden/Vlaams_Regeerakkoord_15%20juli_2009.pdf

Ik heb deze pdf documenten omgezet naar txt bestanden en een aantal filters op toegepast:

  • alles lowercase zetten
  • cijfers weglaten
  • ‘woorden’ die slechts 1 letter bevatten weggelaten
  • stopwoorden weggelaten (dwz nietszeggende woorden als: de, en, dat, die, …)

De laatste stap is dan de frequentie val alle woorden berekenen. Deze frequenties zouden we dan in een tabel kunnen weergeven, maar het is aangenamer en meer bevattelijk om deze informatie in een word cloud weer te geven. Bij het interpreteren moet men zich wel realiseren dat de frequentie van een woord niet perse de belangrijkheid van het woord weergeeft. Zo kan een woord al ‘investeren’ vaak voorkomen in de context van ‘meer investeren’ of ‘minder investeren’. Uit onderstaande word clouds is dit niet af te leiden.

Hieronder de word cloud van de 100 meest voorkomende woorden uit het regeerakkoord 2009 (hoe groter het woord, hoe hoger de frequentie):

wordcloud09

Hieronder de word cloud van de 100 meest voorkomende woorden uit het regeerakkoord 2014 (hoe groter het woord, hoe hoger de frequentie):

wordcloud14

Een andere interessante analyse is na te gaan welke woorden niet voorkwamen in het regeerakkoord 2009 maar wel in 2014. Hieronder de word cloud van de 100 meest voorkomende woorden uit het regeerakkoord 2014 die niet in het regeerakkoord 2009 stonden (hoe groter het woord, hoe hoger de frequentie in 2014):

wordcloudnew

Hieronder de word cloud van de 100 meest voorkomende woorden uit het regeerakkoord 2009 die niet in het regeerakkoord 2014 staan (hoe groter het woord, hoe hoger de frequentie in 2009):

wordcloudold

Tenslotte heb ik ook gekeken naar welke woorden het meest zijn toegenomen in frequentie in 2014, in vergelijking met 2009 (hoe groter het woord, hoe sterker de toename):

wordclouddiffup

En welke woorden het meest zijn afgenomen in frequentie in 2014, in vergelijking met 2009 (hoe groter het woord, hoe sterker de afname):

wordclouddiffdown

Wie deze data zelf verder wil analyseren, hier een linkje.

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s