Principal Component Analysis (PCA)

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Waar deze test voor wordt gebruikt

De Principal Component Analysis wordt gebruikt om je data op een simpelere manier te kunnen beschrijven. Met deze techniek kan je de hoeveelheid variabelen in je onderzoek reduceren tot zogenaamde hoofdcomponenten (principal components) die bijna alle data kunnen verklaren en niet met elkaar correleren (alleen bij rotatie methode varimax). Met deze overzichtelijke aantal hoofdcomponenten kan je dan je hoofdanalyse (bijvoorbeeld een multiple regressie) uitvoeren.

Je kan de Principal Component Analysis beschouwen als een voorbereidende analyse voorafgaand aan je hoofdanalyse.


Assumpties

Er zijn geen vaste assumpties om een PCA uit te voeren. Als je een PCA wilt uitvoeren om de componenten vervolgens in een model te gebruiken (zoals bijvoorbeeld in een multiple regressie) is het wenselijk als de data normaal verdeeld is. Dit kan je bereiken door voldoende proefpersonen te hebben (bijvoorbeeld meer dan 300). Hiervoor kan je de Kaiser-Meyer-Olkin (KMO) test uitvoeren om erachter te komen of je steekproef adequaat is. Als de KMO statistic (ligt tussen 0 en 1) een waarde van 0,5 of hoger heeft, is aan deze assumptie voldan.

De uitgangspunt van een PCA zijn observaties van tenminste twee verschillende variabelen tussen die je een relatie/correlatie verwacht die niet te laag is. De variabelen moeten op ordinaal niveau gemeten zijn, dat betekent de volgorde van metingen is duidelijk (bijvoorbeeld cijfers op school zijn ordinaal, maar waarbij een cijfer 8 niet noodzakelijk betekent dat het twee keer zo goed is als een cijfer 4).
PCA - initial check klein.jpg

Wat te doen als je niet aan je assumptie(s) voldoet?

In het geval dat je exploratief wilt kijken door hoeveel componenten je data kan worden verklaard of je wil je data reduceren tot een aantal overzichtelijke componenten, dan zijn de assumpties van minder belang.

Hoe uit te voeren in SPSS

Als je de onder het kopje assumpties genoemde voorafgaande checks hebt uitgevoerd, kan je met de hoofd analyse beginnen. Om met de hoofdanalyse te beginnen klik je eerst op: Analyze --> Dimension Reduction --> Factor


PCA main analysis.jpg


Vervolgens verschuif je alle variabelen die je in de PCA wilt stoppen van het linke veld naar het rechte veld via het pijltje in het midden.


PCA main analysis2.jpg


Als je op "Descriptives..." klikt is handig om een vinkje te zetten bij "Univariate descriptives" om informatie zoals het gemiddelde en de standaard afwijkingen te krijgen. Ten tweede is het aan te raden om een vinkje bij "KMO and Bartlett's test of sphericity" te zetten om de assumpties te checken.


PCA main analysis3.jpg


Als je op de knop "Extraction..." klikt, kan je voor een PCA kiezen. Hiervoor kies je "Principal components" in het drop-down-menu van "Method:". Verder klik je op "Correlation matrix" om te bepalen dat de PCA op basis van correlaties tussen de variabelen wordt berekent (je kan ook "Covariance matrix" kiezen, er is geen groot verschil tssen de twee). Je vinkt "Unroted factor solution" aan als je wilt zien hoe de niet-geroteerde oplossing van de PCA analyse eruit ziet (meer over roteren van componenten later). Als je "Scree plot" aanvinkt, kan je de eigenwaarden van de componenten zien (wat is een eigenwaarde? --> http://nl.wikipedia.org/wiki/Eigenwaarde_%28wiskunde%29). Op basis van eigenwaarden bepaal je het aantal componenten die je krijgt. Het meest gebruikte criterium om het aantal componenten te bepalen is het Kaiser criterium. Dit criterium zegt dat alle componenten met een eigenwaarde hoger dan 1 als betrouwbare componenten kunnen worden beschouwd. In het veld "Extract" kan je dan ook "Based on eigenvalues, eigenvalues greater than: 1" kiezen als je het Kaiser criterium wilt gebruiken. "Maximum Iterations for Convergence:" laat je gewoon op "25" staan.


PCA main analysis4.jpg


Onder het knopje "Rotation..." kan je kiezen voor een rotatie van je PCA componenten. Je roteert je componenten om een duidelijk beeld te krijgen over welke variabelen met welke componenten geassocieerd zijn. Meestal, maar niet altijd kan je de componenten en de bijhorende variabelen beter zien als je naar de geroteerde oplossing kijkt. Kies daarvoor "Varimax" in het veld "Methode". In het veld "Display" moet je "Display rotated solution" aanvinken zodat SPSS je de geroteerde oplossing laat zien. "Maximum Iterations for Convergence:" laat je weer op "25" staan.


PCA main analysis5.jpg


De knop "Scores..." hebben we niet echt nodig voor een simpele PCA, daarom moeten we er verder niks mee doen. Je zou ermee kunnen de component scores van elk component voor alle variabelen kunnen zien.



Ten slotte kan je als je op de knop "Options..." klikt bepalen wat er met missing values zou moeten gebeuren. Als missing data geen grote rol spelt in je data moet je jezelf daarover niet druk maken en je kan gewoon het default "Exclude cases listwise" laten staan. Vink "Sorted by size" aan als SPSS je variabelen in de output moet sorteren op basis van de component ladingen. In de output worden dan variabelen die hoog op dezelfde component laden samen gegroepeerd. Je kan "Suppress small coefficients" aanvinken met een "Absolute value below:,3" daarmee SPSS alleen maar component ladingen laat zien die hoger zijn dan 0,3 om de interpretatie van je PCA te vereenvoudigen.


PCA main analysis6.jpg




Interpreteren SPSS-output

Als je de output van een PCA bekijkt, zie je ten eerste een overzicht van de variabelen die je mee hebt genomen in de analyse. In dit overzicht kan je de gemiddelde, de standaard afwijkingen en de aantal proefpersonen zien.


PCA output1.jpg


De volgende tabel die in je output staat is de "KMO en Bartlett's Test". Als de "KMO" test niet significant is kan je aanemen dat je steekproef groot genoeg is. In het geval dat de "Bartlett's Test of Sphericity" significant is mag je aanemen dat er het probleem van te lage correlaties tussen de variabelen niet bestaat.


PCA output2.jpg


Er werd een scree plot gemaakt die de eigenwaarden van elk component laat zien. De eerste component heeft ook altijd de hoogste eigenwaarde, de tweede component de tweed hoogste eigenwaarde enz.. In een scree plot kijk je bij welk aantal componenten de eigenwaardelijn een kreuk heeft. In het voorbeeld (op de afbeelding) zou je een kreuk kunnen herkennen bij 3, 4 of 5 componenten. Omdat het geen heel duidelijke manier is om het aantal componenten te bepalen, heb je het Kaiser criterium nodig. Het Kaiser criterium zegt dat alle componenten met een eigenwaarde hoger dan 1 moeten worden geselecteerd. In dit voorbeeld zijn het vijf componenten met een eigenwaarde hoger dan 1 (de horizontale lijn bij eigenwaarde = 1 geeft SPSS niet automatisch, je moet dobbel-klikken op de scree plot grafiek, dan op het symbooltje "add a reference lijn to the Y axis" klikken en bij position "1" intoetsen en "Set to:" leeg laten).


PCA output3.jpg


De volgende tabel laat de componenten ladingen van de niet-geroteerde PCA zien. De ladingen van elk variabele liggen altijd tussen -1 en 1. Je kan de ladingen als gewichten beschouwen. Als je een hoge positive lading van een variabele op een component hebt (bv. 0,803 op component 1) dan betekent het dat een hoge score op deze variabele tot een hoge score op deze component leidt. Hetzelfde verhaal geldt als je een negative lading hebt, het betekent dan dat een hoge score op een variabele tot een lage score op de geassocieerde component leidt. Aan deze tabel moeten we niet veel aandacht aan besteden omdat we beter de geroteerde PCA kunnen bekijken.


PCA output4.jpg


In de "communalities" tabel kan je per variabele terugzien welke proportie van de variabele door de componenten (de gemeenschappelijke variantie) wordt verklaard (bv bij variabele 1 wordt een proportie van 0,646 van de variantie verklaard door de componenten en een proportie van 0,354 (1-0,646 = 0,354) van de variantie is unique). Op basis daarvan kan je stellen dat hoe hoger de "communality" van een variabele, hoe beter wordt deze variabele door de componenten gerepresenteerd.


PCA output5.jpg


In de tabel "total variance explained" kan je vooral kijken hoe hoog de percentage variantie is die je door je componenten kan verklaren. Je wil dat deze waarde zo hoog als mogelijk is. Daarvoor kijk je in de kolom "Cumulative %". In het voorbeeld kan door vijf componenten 57,896 % van de variantie worden verklaard. 57,896 % kan worden beschouwd als een redelijke waarde, als het minder dan 20 % is moet je je zorgen maken dat er niet genoeg gemeenschappelijke variantie in je data zit (dat betekent de correlaties tussen je variabelen zijn niet hoog genoeg). Bovendien kan je zien hoeveel variantie van elk component wordt verklaard. In de eerste drie kolomen staan de waarden voor de niet-geroteerde PCA en in de laatste drie kolomen staan de waarden voor de geroteerde PCA.


PCA output6.jpg


Ten slotte krijg je de componenten ladingen van de geroteerde PCA zien. Je ziet er alleen maar ladingen die hogen zijn dan 0,3 (deze optie hadden we aangevinkt). De geroteerde PCA is de belangrijkste output voor je interpretatie. Hier kan je aflezen welke component met welke variabelen geassocieerd is. Op basis van de associaties tussen de variabelen en een component kan je een naam geven aan deze component (bv. je hebt vragenlijst items over feesten en op stap gaan, als deze allemaal hoog op een component laden, kan je de component extraversie noemen). Echter zijn er geen vaste regels voor de benoeming van componenten, het is alleen maar de naam die je aan de componeten geeft.

PCA output7.jpg



Rapporteren conclusie

"Discovering statistics using IBM SPSS statistics versie 3" van Andy Field geeft een uitgebreide manier van rapportage van een PCA. In het boek (op pagina 671) wordt het als volgt gerapporteerd (een voorbeeld):

"Een principal componenten analyse is uitgevoerd met 23 variabelen en varimax rotatie. The Kaiser-Meyer-Olkin test liet zien dat het een adequate steekproef is om een PCA uit te voeren, KMO = .93 ("heel goed" volgens Hutcheson & Sofroniou, 1999). Bartlett's test of sphericity was significant wat een voldoende hoge correlatie tussen de variabelen liet zien voor een PCA. Vier componenten hadden eigenwaarden van boven de Kaiser's criterium van 1 en konden gezamelijk 50.32 % van de variantie verklaren. Deze vier componenten worden geselecteerd en tabel X laat de factor ladingen na rotatie zien. De factor ladingen op de componenten suggereren dat de eerste component door "aangst voor computers" wordt gerepresenteerd, de tweede component door "aangst voor statistiek", de derde component door "aangst voor wiskunde" en de vierde component door "aangst voor evaluatie"."

Dit voorbeeld van een rapportage van een PCA is heel uitgebreid. Een minimale rapportage moet het aantal variabelen (23 variabelen in het voorbeeld), de manier van rotatie (varimax in het voorbeeld), het criterium ter selectie van componenten (voorbeeld: Kaiser's criterium van eigenwaardes boven de 1), het aantal geselecteerde componenten (voorbeeld: 4) en een simpele interpretatie van de componenten (voorbeeld: eerste component wordt gerepresenteerd door "aangst voor computers") beinhouden.


Video Tutorial

Principal component analysis → door Sharon Klinkenberg