Missing data

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Data imputation methods






Missing data

Hoewel een onderzoeker er naar streeft een complete dataset te verzamelen, komt het soms voor dat er data missen. Incomplete data, ook wel missing data genoemd, kan verschillende oorzaken hebben: in lange vragenlijsten kunnen de deelnemers aan het onderzoek per ongeluk een vraag missen; in een experiment kunnen er door een technische fouten een variabelen niet goed of verkeerd worden gemeten; en bij gevoelige onderwerpen (bv. seksueel gedrag) kunnen deelnemers er voor kiezen een vraag niet in te vullen. Als er data van een deelnemer missen, hoeft dit niet te betekenen dat de data van deze deelnemer moeten worden genegeerd of verwijderd (Field, Third edition). Er zijn verschillende soort missing data, die vaak worden onderverdeeld in: missing completely at random, missing at random, en missing not at random. Incomplete data wordt missing completely at random genoemd, wanneer de missende waardes in de data set onafhankelijk zijn van de geobserveerde variabelen en ook onafhankelijk zijn van variabelen die niet gemeten zijn maar wel mogelijk invloed kunnen uitoefenen of het onderzoek. Een voorbeeld hiervan kan zijn, dat een hartmeter ging kapot tijdens het onderzoek. Wanneer data missing completely at random is dan worden de analyses op deze data set niet beïnvloed door de missende waardes. Daarnaast kan data missing at random zijn. Wanneer data missing at random is zijn de missende waarde niet gerelateerd aan de eigenschap die de missende waarde meet, maar zijn de waardes gerelateerd aan een andere geoberveerde variable. Het kan bijvoorbeeld voorkomen dat een proefpersoon een vraag in een depresie vragenlijst niet invult, die niks te maken heeft met de depressie maar met de sekse van de persoon. Door te controleren voor sekse kunnen deze missende waardes worden opgevangen. Tenslotte kan data missing not at random zijn, wanneer data missing not at random is, betekent het dat de missende data informatie geeft over het experiment. Bijvoorbeeld, deelnemers die bijeffecten ervaren van een medicijn zullen eerder stoppen met een onderzoek naar dit medicijn. Het feit dat deze deelnemers de laatste weken van het onderzoek niet meer zijn gekomen, geeft ook informatie aan de onderzoeker over het medicijn en deze informatie kan niet worden genegeerd.

Missing values in SPSS

Wanneer je een incomplete data set hebt in SPSS, kan je er niet voor kiezen deze cellen leeg te laten. Het is de bedoeling dat je de cel, met de missende waarde, een waarde toekent en deze vervolgens specificeert al een missing value. Wanneer je variabelen bijvoorbeeld een score kan hebben van 1 tot en met 100, zou je een missende data de waarde 999 kunnen geven, omdat deze waarde is duidelijk geen score is van je variabele. Vervolgens klink met je rechter muisknop de kolom aan van de variabele waar de missende waardes in zitten om het Missing Valuevenster te openen. In dit venster kun je aangeven hoe jij de missende waarden hebt gespecificeerd (Field, Third edition).

Missing value venster.png


In sommige analyses in SPSS kun je aangeven wat er moet gebeuren met de missende waardes. Je hebt hierbij vaak de keuze uit Listwise deletion of missing values, Pairwise deletion of missing values en Replace with mean. Listwise deletion of missing values is meestal de standaard instelling, met deze methode wordt de gehele rij (bv. proefpersoon) niet mee genomen in de analyse. Je gebruikt deze optie wanneer de rest van de data niet meer te interpreteren is zonder de missende waarde. Bij Pairwise deletion of missing values, wordt alleen de missende waarde niet meegenomen in de analyse. Deze methode gebruik je wanneer het niet nodig is dat je andere onderdelen van een onderzoekseenheid kwijt raakt. Met de Replace with mean methode worden de missende waardes vervangen door het gemiddelde van de andere variabelen. Dit heeft dus alleen zin wanneer de gemiddelde waarde representatief is.

Multiple Imputation in SPSS

Omdat de methode Replace with mean een weinig verfijnde methode is om missende waardes aan te vullen, heb je in de nieuwste SPSS versies de mogelijkheid om data imputatie uit te voeren. De meest gebruikte methode hiervoor is Multiple Imputation. Onder de Analyse knop kun je kiezen voor Multiple Imputation en vervolgens voor Impute Missing Value, vervolgens kom je in een venster die er als volgt uitziet:

Imputation venster.png

In Variables in Model hoef je niet alleen de variabelen toe te voegen die je geïmputeerd wilt hebben, maar vul je alle variabelen in die invloed zouden kunnen uitoefenen op de missende data. Wanneer je vervolgens binnen Location of imputed data kiest voor de standaard instelling van create a new data set zal er geen nieuwe data set worden aangemaakt bij je documenten, maar wordt deze aangemaakt in je huidige sessie. Wanneer de Multiple Imputation is uitgevoerd zal je dit niet direct zien in de huidige sessie, maar wanneer je vervolgens klikt op de Window knop zal de geïmputeerde dataset verschijnen. Vervolgens vink je deze dataset aan, in dit voorbeeld Untitled[SPSSImputations]-IBM SPSS Statistics Editor. Deze dataset zal lijken op de oude data set, maar met een extra variabele genaamd Imputation_, deze variabele heeft nummers 0 tot en met 5 die staan voor het aantal keer dat je de data hebt geïmputeerd in dit voorbeeld dus 5 keer. De cellen die een gele kleur hebben zijn de geïmputeerde waardes.

Missing value venster 2.png


Missing value venster 3.png


Missing value venster 4.png


Wanneer je vervolgens analyses wilt uitvoeren, zal je moeten aangeven dat je alle verschillen imputaties (1 t/m 5) wilt mee nemen. Dit kan worden gedaan met de Select Variable optie. Hierbij geef je aan dat je alle imputaties wilt meenemen uitgezonderd 0, omdat dit de originele data is.

Missing value venster 5.png

Voor een uitgebreidere uitleg van Mutiple Imputation in SPSS zie het volgende youtube filmpje: https://www.youtube.com/watch?v=ytQedMywOjQ