Categocial Principal Component Analysis (PCA)

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Waar deze test voor wordt gebruikt

De Categorical Principal Component Analyse (CPCA) wordt net als de Principal Component Analysis (PCA) gebruikt om je data op een simpelere manier te kunnen beschrijven. Met deze techniek kan je de hoeveelheid variabelen in je onderzoek reduceren tot zogenaamde hoofdcomponenten (principal components) die bijna alle data kunnen verklaren en niet met elkaar correleren.

Het verschil tussen CPCA en PCA is dat je variabelen bij een PCA op ordinaal niveau moeten zijn gemeten en bij een CPCA op nominaal niveau.

Ordinaal niveau betekent dat de variabelen een ordening hebben, bijvoorbeeld als je met een stelling onees, geen mening of eens zijn bent dan is er sprake van een ordening van je variabele. Nominaal niveau betekent dat je de variabelen niet kan ordenen, bijvoorbeeld als je naar je geslacht wordt gevraagd (man of vrouw) of naar je nationaliteit. Deze variabelen kan je niet ordenen en daarom zijn ze op nominaal niveau gemeten.

Je kan de Categorical Principal Component Analysis beschouwen als een voorbereidende analyse voorafgaand aan je hoofdanalyse.

Assumpties

En voorwaarde van de Categorical Principal Component Analysis is dat er samenhang (correlaties) bestaan tussen de variabelen die je wil analyseren.

Verder zijn er geen vaste assumpties voor een Categocial Principal Component Analysis.


Hoe uit te voeren in SPSS

Om een CPCA uit te voeren klik je op Analyze --> Dimension Reduction --> Optimal Scaling

Cpca1.jpg

In de eerste dialoog box moet je onder het kopje "Optimal Scaling Level" de optie op "Some variable(s) are not multiple nominal" zetten. Je ziet dan ook meteen dat onder het kopje "Selected Analysis" de optie "Categorical Principal Components" wordt getoond.

Cpca2.jpg

In het volgende venster beweeg je alle variabelen die je wilt meenemen in de CPCA naar de "Analysis Variables" box. Met het knopje "Define Scale and Weight" bepaal je voor elk variabele op welk niveau de variabele is gemeten (in het voorbeeld zijn de eerste drie variabelen nominaal, de rest van de variabelen ordinaal).

Cpca3.jpg

Vervolgends klik je nog op het kopje "Output". In deze dialoog box vink je "Component loadings" en "Correlations of transformed variables" aan. Als je aanvullende informatie wil krijgen over hoe vaak een bepaald antwoord is gegeven dan beweeg je deze variabelen naar de box "Descriptive Statistics:".

Cpca4.jpg

Ten slotte voer je in de box "Dimensions in solution" (naast het "Help" knopje) het totale aantal van je variabelen in. Daarmee zorg je ervoor dat de analyse het maximale aantal dimensies geeft. De knoppen "Discretize", "Missing", "Save" heb je niet nodig als je geen extra wensen hebt (of bv missing data). De knoppen "Object", "Category" en "Loadingen" bieden de mogelijkheid om plotjes te laten genereren. Nu ben je klaar en kan je op "OK" klikken.

Cpca5.jpg



Interpreteren SPSS-output

De eerste belangrijke box is de "Descriptives Statistics" box. Hier kan je zien hoe vaak een bepaalde antwoord was gegeven op een item (voor alle items die je in de descriptive box hebt ingevoerd).

Cpca output1.jpg

De volgende box van belang is de "Model Summary" box. Op basis van deze gegevens bepaal je door hoeveel dimensies je data optimaal verklaard wordt. In de derde kolom zie je de eigenvalue staan. Net ale bij een normale PCA, ga je hier op basis van de eigenwaardes (eigenvalues) van boven de 1 (Kaiser criterium) het aantal dimensies kiezen. In dit voorbeeld zou je twee dimensies kiezen omdat er twee eigenwaardes boven de 1 zijn.

Cpca output2.jpg

Vervolgens kan je in de tabel "Correlations Transformed Variables" de correlaties tussen de variabelen zien. Ook de "eigenvalue" waarde per aantal dimensies staat er in deze tabel. In de Principal Component Analysis (PCA) wiki wordt er verklaard wat een "eigenvalue" betekent.

Cpca output3.jpg

De laatste belangrijke tabel is de "Component Loadings" tabel. In deze tabel staan de waardes die je nodig hebt om de som score van je dimensies te berekenen. Bijvoorbeeld laadt Item 2 met 0,652*(score op Item 2) op de tweede dimensie som score.

Cpca output4.jpg


Rapporteren conclusie

Je raporteert het aantal variabelen (9 in het voorbeeld), het criterium dat je hebt gebruikt om het aantal dimensies te kiezen (eigenwaardes boven de 1 in het voorbeeld), het aantal geselecteerde dimensies (twee dimensies in het voorbeeld) en een simple interpretatie van je dimensie(s)/component(en) (bijvoorbeeld: de eerste dimensie lijkt "aangst voor spinnen" te meten).

Voor een meer uitgebreide rapportage bekijk de soortgelijke rapportage in de Principal Component Analysis (PCA)