Cluster analysis

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Waar deze test voor wordt gebruikt

Een "Cluster analysis" voer je uit als je je data in groepen wil groeperen. Daarbij geldt dat data objecten (bv: items) binnen een groep meer op elkaar lijken dan op data objecten in andere groepen. Met een Cluster analysis kan je bijvoorbeeld laten zien dat je data inderdaad in bepaalde clusters kan worden ingedeeld zoals het je theorie voorspelde. Vaak wordt een Cluster analyse ook gebruikt voor patroon herkenning of "machine learning".

Cluster analyse is een algemeen concept waarvoor er meerdere methoden bestaan. Bekende methoden zijn k-means clustering, TwoStep cluster analyse of hierarchical cluster analyse (gebruiken we als voorbeeld).


Assumpties

Er zijn alleen maar twee assumpties om een cluster analyse uit te voeren. Ten eerste, de steekproef moet representatief zijn voor de populatie waar de steekproef vandaan komt. Ten tweede, in een cluster analyse wordt ervaan uit gegaan dat er geen (hoge) correlatie bestaat tussen de variabelen. Als variabelen toch met elkaar correleren, dan is het aan te raden om de gecorreleerde variabelen te verwijderen of een afstand methode te gebruiken die daarmee rekening kan houden (bijvoorbeeld: Mahanalobis distance).

Hier gebruiken we hierarchical cluster analyse. In deze analyse moeten alle variables van dezelfde type data zijn, bijvoorbeeld allemaal continue of frequentie data. Als je cluster analyse met verschillende typen data wil doen, dan moet je voor de TwoStep cluster analyse kiezen.


Hoe uit te voeren in SPSS

Om een hierarchical cluster analyse (HCA) uit te voeren klik je op Analyze --> Classify --> Hierarchical Cluster ...

Hca1.jpg

Nu krijg je de HCA dialoog box te zien. Op de linke kant selecteer je de variabelen die je mee wil nemen in de analyse. Met behulp van het klein peiltje beweeg je de variabelen naar de box met het kopje "Variables(s):". Onder de variabelen box bevindt zich een box met het kopje "Cluster". Hier kies je voor cases als je je data wil groepen in groepen van deelnemers en voor variables als je je data wil groepen in groepen van variabelen. In de "Display" box vinkt je "statistics" en "plots aan.

Hca2.jpg

Als je op het knopje "Statistics" klikt kom je in de statistiek dialoog box terecht. Hier moet je niks veranderen.

Hca3.jpg

Klik op de "Plots" knop om Dendogram aan te vinken. De opties van "Save" moet je niet veranderen als je geen speciale wensen hebt.

Hca4.jpg

Hca6.jpg

Als je op "Methods" klikt, kan je de methode van groeperen vastleggen. De optie between-groups linkage berekent de kleinste gemiddelde afstand tussen alle groep objecten. De analyse begint dan met het maximale aantal groepen (= aantal groep objecten) en gaat steeds meer groep objecten bij elkaar groeperen. Vervolgens moet je een keuze maken afhankelijk van je data: als je data continue op een interval schaal is gemeten dan kies je voor ein "interval" methode. Als je data frequenties zijn of andere aantallen dan kies je voor een "counts" methode. Als je binary (0 en 1) data hebt dan kies je voor een "binary" methode.

Hca5.jpg







Interpreteren SPSS-output

De enige belangrijke output is het Dendrogram. In het Dendrogram kan je zien welke variabelen (of deelnemers) met elkaar werden gegroepeerd. In het voorbeeld zitten vraag 8 en 11 in een groep. Of, als je de data in twee groepen wilt clusteren, zouden de eerste 14 vragen bij groep 1 horen en de laatste 9 vragen bij groep 2. Zo kan je op basis van het aantal groepen die je wil krijgen, in het Dendrogram zien welke variabelen dan bij de groepen horen.

Hca output1.jpg


Rapporteren conclusie

Een cluster analyse rapporteer je als volgt:

Eerst raporteer je de data input (voorbeeld: Een cluster analyse werd uitgevoerd met 23 vragenlijst items). Vervolgens noem je de methode (in het voorbeeld: Uit een hierarchical cluster analyse met de Squared Euclidean distance methode bleek dat de variabelen in twee clusters kunnen worden onderverdeeld). Ten slotte geef je een interpretatie van de cluster indeling (bijvoorbeeld: cluster 1 representeert vragen gerelateerd aan statistiek en cluster 2 vragen gerelateerd aan methodiek).