dienstenjpg

Dataprocessing

Waarom dataprocessing?

In een tijd waarin steeds meer data worden verzameld en enquêtes worden uitgezet voor trendonderzoeken, is het van groot belang dat deze data betrouwbaar zijn. Zeker wanneer enquêteonderzoeken periodiek plaatsvinden, kan bestandsvervuiling longitudinaal onderzoek steeds meer bemoeilijken en de kans op trendbreuken vergroten. Tijdens de dataprocessing pakt ABF Research stapsgewijs vervuiling van onderzoeksbestanden aan.

Dataprocessing in vogelvlucht

Dataprocessing omvat een aantal stappen. De belangrijkste zijn: routingcontrole, consistentie, bijschatting, weging en plausibiliteit.

  • RoutingcontroleRouting is van belang voor het juist doorlopen van een vragenlijst, omdat niet altijd alle vragen hoeven te worden beantwoord. Als een respondent bijvoorbeeld aangeeft een huurder te zijn, is het vragenblok over de koopwoning niet meer van toepassing en moet juist het vragenblok over de huurwoning worden ingevuld. Wordt de routing van de vragenlijst niet goed doorlopen, dan levert de enquête weinig bruikbare uitkomsten op.
  • ConsistentieEr moet een 'logisch' verband zijn tussen de antwoorden. Zo kan een respondent die in 1967 geboren is vrijwel zeker geen ouder zijn van een kind dat in 1978 geboren is. Het is in dat geval waarschijnlijk dat er sprake is van een tikfout en dat het geboortejaar 1987 bedoeld wordt. Omwille van de consistentie wordt daarom het geboortejaar van het kind aangepast.
  • BijschattingSoms geeft een respondent geen antwoord op een vraag, terwijl hij dat wel had moeten doen. Dit wordt ook wel (item) non-respons genoemd. Wanneer hier niets mee wordt gedaan, wordt impliciet verondersteld dat non-respondenten zich hetzelfde gedragen als respondenten. Menig onderzoek heeft in het verleden al uitgewezen dat deze veronderstelling meestal onjuist is, omdat non-respons vaak samenhangt met bepaalde kenmerken van de respondent. ABF Research maakt voor problemen rond non-respons al jaren gebruik van de zogenaamde imputatietechniek, waarmee ontbrekende waarden worden bijgeschat. Bijvoorbeeld voor de bijschatting van de opleiding van een respondent worden onder andere de leeftijd, de opleiding van een eventuele partner en het inkomen gebruikt.
  • WegingHet komt geregeld voor dat steekproefbestanden een selectieve respons kennen. Dit houdt in dat de steekproef niet representatief is voor de populatie, omdat groepen van respondenten over- dan wel ondervertegenwoordigd zijn. Met behulp van weging kan voor deze selectiviteit een correctie plaatsvinden, zodat de gewogen steekproef wel representatief is. Met de weging wordt ook een zodanige ophoging toegepast dat de gewogen aantallen zo veel mogelijk overeenkomen met andere bronnen, waaronder die van het CBS. Zo moet de gewogen som van alle respondenten in de steekproef overeenkomen met het feitelijke populatieaantal.
  • PlausibiliteitTot slot wordt de plausibiliteit van de gewogen uitkomsten tegen het licht gehouden. De uitkomsten worden vergeleken met informatie die afkomstig is uit andere bronnen (registratiebestanden) of uit het verleden (tijdreeksen).

Voor meer informatie over statistiekproducten en dienstverlening kunt u contact opnemen met Jan Hooft van Huijsduijnen 015 27 99 342 of Cock Meijers 015 27 99 360.

Voor meer informatie over dataprocessing kunt u contact opnemen met Kenneth Gopal 015 27 99 332 of Eric Verhoog 015 27 99 322.