Regression

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Waar deze test voor wordt gebruikt

Als we Regressie doen, dan proberen we een continue uitkomstvariabele te verklaren met 1 (Simple Regression) of meer (Multiple Regression) voorspellers. We kijken daarvoor naar een Scatterplot van onze data. Door een lijn toe te voegen, kunnen we verklaren waarom de data er uitziet zoals ze doet: er is een mogelijk verband gaande tussen x en y. De lijn die we getrokken hebben is de lijn die de ligging van de waarnemingen zo goed mogelijk voorspelt (dat wil zeggen, die gemiddeld genomen zo dicht mogelijk bij alle waarnemingen ligt). Dit wordt de Method of Least Squares genoemd. Hoewel dit handmatig kan, doet de computer het normaal gesproken voor je.

Assumpties

Simple Regression

1. De onafhankelijke variabele moet continu zijn, of slechts twee categorie ̈en hebben. De afhankelijke variabele moet continu en onbegrensd zijn (dus als hij kan vari ̈eren tussen 1 en 10, moeten de scores niet alleen maar tussen 5 en 7 vallen).Checken kan via Descriptives.

2. De steekproef is random verkregen (dit kunnen we niet checken).

3. De onafhankelijke variabele moet variantie hebben (geen standaardafwijking van 0).

4. De onafhankelijke variabele mag niet te hoog correleren met variabelen buiten het model (maar dit kunnen we niet checken).

5. Er moet sprake zijn van Homoscedasticiteit. Ga in het Regressie menu naar Plots en maak een plot aan met op de x-as ZPRED en op de y-as ZRESID. De assumptie is geschonden als de datapunten niet in een mooie ronde wolk liggen.

6. De residuen moeten ongecorreleerd zijn. Vraag de Durbin-Watson Test op bij je input als je dit wil checken. Deze loopt van 0 tot 4, waarbij 2 perfect ongecorreleerd betekent. Waarden lager dan 1 of hoger dan 3 zijn reden om aan te nemen dat de aanname is geschonden.

7. De residuen moeten normaal verdeeld zijn. Ga in het Regressie menu naar Plots en vink het vakje Histogram aan bij Standardised Residual Plots. Als dit plot er niet normaal verdeeld uitziet is de assumptie geschonden.

8. Onafhankelijkheid van de deelnemers. Elke waarde op de afhankelijke variabele moet van een andere deelnemer komen (dit kunnen we niet checken).

9. Lineariteit. Het verband tussen de onafhankelijke variabelen en de afhankelijke variabele moet lineair zijn (regressie is namelijk gebaseerd op lineariteit). Je kan plots maken via Chart Builder als je dit wil checken.


Multiple Regression

1. De onafhankelijke variabelen moeten continu zijn, of slechts twee categorie ̈en hebben. De afhankelijke variabele moet continu en onbegrensd zijn (dus als hij kan vari ̈eren tussen 1 en 10, moeten de scores niet alleen maar tussen 5 en 7 vallen).

2. De steekproef is random verkregen.

3. De onafhankelijke variabelen moeten variantie hebben (geen standaardafwijking van 0).

4. Er mag geen Multicollineariteit zijn. Dit betekent dat de onafhankelijke variabelen niet t ́e hoog mogen correleren (i.e., ze mogen niet praktisch hetzelfde meten). De grens ligt ongeveer bij 0.8/0.9 in absolute waarde, je kan het checken door via Correlate alle onafhankelijke variabelen met elkaar in een tabel te zetten. Je kan ook VIF of Tolerance Statistics opvragen (VIF mag gemiddeld niet hoger dan 1, Tolerance mag gemiddeld niet lager zijn dan 0.1).

5. Onafhankelijke variabelen mogen niet correleren met variabelen buiten het model (maar dit kunnen we niet checken).

6. Er moet sprake zijn van Homoscedasticiteit. Ga in het Regressie menu naar Plots en maak een plot aan met op de x-as ZPRED en op de y-as ZRESID. De assumptie is geschonden als de datapunten niet in een mooie ronde wolk liggen.

7. De residuen moeten ongecorreleerd zijn. Vraag de Durbin-Watson Test op bij je input als je dit wil checken. Deze loopt van 0 tot 4, waarbij 2 perfect ongecorreleerd betekent. Waarden lager dan 1 of hoger dan 3 zijn reden om aan te nemen dat de aanname is geschonden.

8. Normaal verdeelde residuen. De residuen moeten normaal verdeeld zijn. Ga in het Regressie menu naar Plots en vink het vakje Histogram aan bij Standardised Residual Plots. Als dit plot er niet normaal verdeeld uitziet is de assumptie geschonden.

9. Onafhankelijkheid van de deelnemers. Elke waarde op de afhankelijke variabele moet van een andere deelnemer komen (dit kunnen we niet checken).

10. Lineariteit. Het verband tussen de onafhankelijke variabelen en de afhankelijke variabele moet lineair zijn (regressie is namelijk gebaseerd op lineariteit). Je kan plots maken via Chart Builder als je dit wil checken.

Wat te doen als je niet aan je assumptie(s) voldoet?

Als je uitkomst variabele niet continu is gebruik je Logistic Regression.

Hoe uit te voeren in SPSS

Analyze, Regression, Linear. Voer de voorspellers in bij Independent(s) en de uitkomst bij Dependent. Je kan met blokken werken om een voor een variabelen toe te voegen of juist weg te halen. Je kan er ook voor kiezen een van de computergestuurde methodes te gebruiken, selecteer dan bijvoorbeeld Stepwise of Forward bij Method. Meestal is het echter beter om zelf op basis van hypotheses je verschillende modellen te specificeren en die te vergelijken.

Als je geen hypotheses hebt, kan je het beste voor Forward (omstebeurt variabelen toevoegen aan het lege model) of Backward (omstebeurt variabelen verwijderen uit het volle model) kiezen. In principe doet SPSS dan het werk voor je, en interpreteer je telkens of het model significant verandert (beter wordt bij Forward, slechter wordt bij Backward: zie de F Squared Change p-waarde).

Gebruik blokken op basis van hypotheses wanneer mogelijk. Probeer telkens 1 variabele toe te voegen om het overzichtelijk te houden. De variabelen waar je het meest van verwacht gaan eerst. Wanneer het model niet meer significant verbetert van het toevoegen van een voorspeller, stop je. Kijk echter ook altijd naar de verklaarde variantie. Een model met 5% verklaarde variantie kan wel significant zijn, maar is weinig behulpzaam bij het voorspellen/verklaren van je afhankelijke variabele. Tenslotte: accepteer dat het kiezen van het Regressiemodel arbitrair is. Er zijn geen harde regels, en ieder heeft zijn eigen voorkeuren. Probeer jezelf in ieder geval altijd goed te verantwoorden voor je keuzes!.

Interpreteren SPSS-output

Computer Methode (zoals Stepwise): eerst kijk je in de tabel ANOVA om voor elk model te zien of het significant is. Neem alleen de voorspellers die significant zijn mee in je model. Bekijk ook of de verklaarde variantie (R-Squared) voldoende groot is.

Blokken: vergelijk de verschillende modellen op basis van hun F Squared Change. Als een waarde significant is betekent dat, dat het model significant afwijkt van het vorige model. Als er voorspellers zijn toegevoegd, betekent het dus dat het model significant beter is geworden. Als er voorspellers zijn weggehaald, betekent het dus dat het model significant slechter is geworden. Probeer het beste model hier te vinden en bekijk of de verklaarde variantie (R-squared) voldoende groot is.


Rapporteren conclusie

Leg uit welk model je hebt gekozen en geef de F-waarde, dfM, dfE, en p-waarde. Leg ook uit welke voorspellers er wel en niet significant waren, en rapporteert unstandardised beta's, t-waarden, df, en p-waarden.

Non-parametrische variant

n.v.t.

Video

EmbedVideo is missing a required parameter.