Normaliteit

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Wat is de aanname van normaliteit?

Een normale verdeling is in de statistiek een veelgebruikte kansverdeling, waaruit je kan aflezen hoe groot de kans is op een bepaalde observatie. Het getal in het midden, het gemiddelde, komt het meest voor, en hoe verder je van het gemiddelde afraakt, hoe kleiner de kans op deze observaties en hoe smaller de verdeling. Een voorbeeld is de lengte van mannen: de gemiddelde lengte van volwassen mannen in Nederland is zo rond de 1.80, en hoe verder je van de 1.80 afraakt hoe kleiner de kans op zo'n observatie (de kans dat je een volwassen man van 2 meter tegenkomt is kleiner dan de kans dat je een man van 1.80 tegenkomt).

Wanneer de aanname van normaliteit wordt getest, wordt vaak gedacht dat men test of de afhankelijke variabele normaal verdeeld is. Echter, wat normaliteit werkelijk inhoudt is dat je test of de steekproefverdeling normaal verdeeld is. Met andere woorden: je test of het verschil tussen gemiddelden van verschillende groepen normaal verdeeld is. Ook refereert deze aanname naar het idee dat de parameterschattingen (bijvoorbeeld het gemiddelde) van een normale verdeling moeten komen, en naar het idee dat de error (of de residuals) normaal verdeeld moeten zijn in de populatie. Er wordt echter wel vaak aangenomen dat op het moment dat de data zelf normaal verdeeld zijn, dat dit ook geldt voor de bovengenoemde factoren.

Waarvoor gebruik je dit?

De aanname van normaliteit moet worden getoetst voor praktisch alle toetsen (t-toetsen, ANOVA etc.), behalve voor non-parametrische toetsen. In het geval van regressie, wordt er getest of de errors normaal verdeeld zijn.

Volgens de Centrale Limiet Theorie of central limit theorem geldt dat men kan aannemen dat er aan de aanname van normaliteit wordt voldaan op het moment dat de steekproef groot is, ook al is de variabele in de populatie zelf niet normaal verdeeld. Een te hanteren vuistregel is dat een sample uit minstens 30 participanten (of observaties) moet bestaan om dit te laten gelden. Het testen van normaliteit is dus met name van belang in kleine samples.

Hoe uit te voeren in SPSS

Normaliteit kan worden getest met verschillende toetsen in SPSS, waaronder de Shapiro-Wilk en de Kolmogorov-Smirnov. Hier kan je komen door via Analyze naar Descriptive Statistics te gaan. Vervolgens klik je op Explore... Sleep je afhankelijke variabelen naar Dependent List en sleep je onafhankelijke variabele naar Factor List. Op deze manier check je voor normaliteit voor elk niveau van je onafhankelijke variabele. Bij plots kan je vervolgens for Normality plots with tests kiezen en klik ook Histogram aan. Je krijgt nu zowel de Shapiro-Wilk als de Kolmogorov-Smirnov toetsingsresultaten en histogrammen van je data.

Screenshot4.png

Nog een andere manier om te kijken naar normaliteit is door het bekijken van QQ plots. Een QQ plot berekent de verwachte waarde voor elke observatie volgens een bepaalde verdeling (in dit geval dus de normale verdeling) en kijkt dan of de geobserveerde data hier vanaf wijken. Deze QQ plots kan je verkrijgen via Analyze --> Descriptive Statistics --> Q-Q Plots. Vervolgens selecteer je de variabelen waarvan je de QQ plots wilt hebben (zie onderstaand plaatje) en klik je op OK.

Qqplot.png

Interpreteren SPSS-output

In de output vind je de toetsingsresultaten van de Kolmogorov Smirnov en de Shapiro-Wilk.

Screenshot5.png


Wanneer we normaliteit testen met behulp van de Kolmogorov-Smirnov of de Shapiro Wilk, geldt dat de nulhypothese een normale verdeling inhoudt, en de alternatieve een hypothese duidt een van normaliteit afwijkende verdeling. Wanneer de p-waarde lager is dan 0.05 (ons significantieniveau) weerleggen we de nulhypothese, en concluderen we dat de verdeling afwijkend is van een normaalverdeling. Een niet-significante p-waarde duidt erop dat we de nulhypothese aanhouden, en dat we aan mogen nemen dat de data normaal verdeeld is. In dit geval is er volgens beide testen aan de aanname van normaliteit voldaan op beide afhankelijke variabelen (angst en depressie) voor beide groepen. Wat betreft de keuze voor één van beide testen, wordt over het algemeen aangenomen dat de Shapiro-Wilk test beter is voor kleinere samples. Aangezien deze sample maar 30 participanten heeft, zou dat de betere keuze zijn.

Naast de toetsingsresultaten kan er ook worden gekeken naar de histogrammen.

Screenshot6.png

In dit geval lijkt de data normaal verdeeld, al is de verdeling wel wat skewed to the right: de meeste observaties zitten aan linkerkant en een paar nog aan de rechterkant. Als je descriptives opvraagt, krijg je automatisch ook de waardes van skewness' en kurtosis. Skewness houdt in of de verdeling scheef is (de meerderheid van de observaties zitten aan een kant van de verdeling) en kurtosis houdt in of de verdeling te gepiekt is of juist te plat. Om skewness en kurtosis te kunnen interpreteren, moeten eerst de z-waardes worden berekend. De z-scores zijn te verkrijgen door de waardes van de kurtosis en de skewness te delen door de gegeven standaard error. Z-waardes tussen de -2 en 2 duiden aan dat de skewness en/of kurtosis niet significant zijn, en dat is ook een extra reden om aan te nemen dat de verdeling normaal is. Wanneer ze echter deze waardes overschrijden, is het een indicatie dat de verdeling niet normaal verdeeld is.

Wanneer je op de eerder beschreven manier ook de QQ plots hebt opgevraagd, krijg je in de output een plot zoals deze te zien:

Qqplot2.png

Wanneer de verschillende datapunten ongeveer op de lijn liggen, kan je aannemen dat er voldaan is aan de aanname van normaliteit. Wanneer er echter duidelijke afwijkingen te zien zijn van de lijn, is er een reden om te denken dat de data wellicht niet normaal verdeeld is. Voordat je hierover een conclusie trekt, is het raadzaam ook gebruik te maken van de andere methodes die normaliteit checken. In dit geval lijken de datapunten netjes op de lijn te liggen, en kunnen we, ook gebruik makende van de andere methodes, concluderen dat deze data normaal verdeeld zijn.

Rapporteren conclusie

Wanneer er aan de aanname van normaliteit is voldaan, kan dit vrij kort worden vermeld ('Voor de variabele depressie is er voldaan aan de aanname van normaliteit'). Wanneer er echter niet wordt voldaan aan normaliteit, kan je het best de toetsingsresultaten vermelden waaruit dit blijkt. Voor de Kolmogorov-Smirnov geldt de volgende notatie:'De variabele depressie is niet normaal verdeeld (D(15) = 3,5, p < .05). Vervolgens kan je het best beargumenteren waarom dit wel of niet een probleem is. Er is ook altijd de mogelijkheid om een non-parametrische test uit te voeren, of de ruwe data te transformeren zodat er wel een normale verdeling kan worden verkregen uit de data. Echter, zoals eerder al is vermeld, is het voldaan aan de aanname van normaliteit vooral belangrijk in kleine samples: heb je een grote sample, kan er volgens de Central Limit Theorem worden aangenomen dat er aan de aanname van normaliteit is voldaan.