Chi-square test

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Waar deze test voor wordt gebruikt

De χ2-test van onafhankelijkheid toetst de (on)afhankelijkheid van twee of meer categorische variabelen.

We zijn bijvoorbeeld benieuwd of het aantal mensen dat doorfietst bij een stoplicht (categorisch) afhankelijk is van de kleur waar het stoplicht op staat (categorisch). We hebben daarom tel-data: hoe vaak komen bepaalde waarnemingen voor, en is er een verband te ontdekken in deze verdeling van waarnemingen?

Bij categorische toetsen zeggen we dat de variabelen onafhankelijk van elkaar zijn, als ze geen patroon laten zien. Dat wil zeggen, het aantal waarnemingen (de frequentie) dat we zouden verwachten als er geen verband tussen de variabelen zou zijn, verschilt niet of nauwelijks van het aantal waarnemingen dat we geobserveerd hebben. Bij de stoplichtdata zou dit betekenen dat mensen gemiddeld net zo vaak doorrijden als het rood is, als wanneer het groen of oranje is.

Deze onafhankelijkheid vormt de nulhypothese van categorische toetsen:
H0: de variabelen zijn onafhankelijk.
Ha: de variabelen zijn afhankelijk.

Het gaat dus om het verschil tussen de verwachte waardes E (Expected Cell Count) en de geobserveerde waardes O (Observed Cell Count): als dat verschil te groot wordt stellen we dat het geen toeval kan zijn, en dat de variabelen dus afhankelijk van elkaar zijn. We mogen echter niets over de richting zeggen! (we hebben geen experiment gedaan, dus we weten niet of het effect causaal is).

Let op! De Chi-kwadraat toets kan maximaal 2 variabelen tegelijkertijd met elkaar vergelijken, indien je meer dan twee variabelen tegelijk met elkaar wil vergelijken moet je een log-lineaire analyse doen.

Assumpties

1. Alle variabelen zijn categorisch gemeten.
2. Er mogen geen verwachte waardes van nul in de tabel zitten.
3. Er mogen niet teveel verwachte waardes van onder de 5 in de tabel zitten.

Wat te doen als je niet aan je assumptie(s) voldoet?

Wanneer je een 2x2 design hebt met te weinig waarnemingen kan Fisher’s exact test gebruikt worden. Deze test wordt in het geval van een 2x2 design automatisch door SPSS uitgevoerd samen met de Chi-square test.

Hoe uit te voeren in SPSS

Vul elke mogelijke combinatie van de variabelen in als een waarneming.
Bv., maak een rij waarin staat wat de categorie op het stoplicht was (bijvoorbeeld rood), wat de categorie bij Doorrijden was (bijvoorbeeld Ja), en in de laatste rij wat de frequentie van deze waarnemingen was.

Stopdata.png

Vervolgens moet je SPSS vertellen dat deze variabele Frequentie een frequentie-variabele is. Als je dit niet doen, snapt SPSS niet wat je wil testen.
Om dit te doen gaan je naar DataWeight Cases.
Vink "Weigth Cases by" aan, schuif de frequentie-variabele in het vakje Frequency Variable, en run de syntax.
Als SPSS weet hoe de data in elkaar zit, kun je de analyse doen.

Ga naar Analyze → Descriptive Statistics → Crosstabs.
Voer elk van de variabelen in bij een van de vakjes Row(s) en Column(s) en klik onder Statistics het vakje Chi-Square aan. Klik ook onder Cells de vakjes Observed en Expected aan, run hierna de syntax.

Interpreteren SPSS-output

We zien twee tabellen (zie hieronder). In de eerste, (Stoplicht * Doorrijden Crosstabulation), zie je de data terug. In de tweede zie je de aangevraagde Pearson Chi Square statistic, en de Likelihood Ratio, die sowieso wordt uitgevoerd.
Stopresult.png

Bij deze toetsen betekent een significant effect dat de variabelen (stoplicht en doorrijden) afhankelijk van elkaar zijn.

Rapporteren conclusie

Uit de chi-square toets bleek dat stoplicht kleur en doorrijden afhankelijk zijn, X²(2) = 215.661, p < 0.001. Dit lijkt erop te wijzen dat er een verschil in doorijden is wanneer de kleur van het stoplicht verschilt. Hierbij is X² de teststatistiek, 2 het aantal vrijheidsgraden (df) en p de p-waarde.


Video Tutorial

EmbedVideo is missing a required parameter.