Outliers

Uit Methodologiewinkel
Ga naar: navigatie, zoeken

Outliers

Wat zijn outliers?

Een outlier (ook wel: ‘uitschieter’) is een datapunt dat (sterk) afwijkt van de rest van de data. Het probleem met outliers is dat ze de data sterk kunnen vertekenen. Dit kan ertoe leiden dat de assumpties van geplande analyses worden geschonden, of dat de resultaten van de analyse gebiased worden. Corrigeren voor outliers kan onderzoeksresultaten echter ook vertekenen, in de onderzoekers voordeel of nadeel. Daarom is het van academisch en ethisch belang om outliers nauwkeurig te kunnen identificeren, en de gekozen methode van outliers correctie altijd expliciet te vermelden en logisch te verantwoorden.

Oorzaken van Outliers

Outliers kunnen voorkomen om twee verschillende redenen, namelijk: 1) ware afwijking, en 2) afwijking ontstaan door error. Outliers onstaan door ‘ware afwijking’ (ook wel ‘ware outliers’) zijn datapunten die afwijken omdat de gemeten unit daadwerkelijk afwijkt van de rest van het sample op de gemeten variabele. Denk bijvoorbeeld aan een onderzoek waarbij de lengte van mensen wordt gemeten, en één individu bijzonder lang is (bijv. 2.20m). De score van deze persoon zal waarschijnlijk afwijken van de rest van de data maar is tegelijkertijd correct gemeten en valide; de enige reden dat deze waarde afwijk is omdat deze persoon daadwerkelijk afwijkt van de rest van de groep op de gemeten variabele. Deze soort outlier is een accurate reflectie van de werkelijkheid. De tweede soort outlier is een outlier ontstaan door error (ook wel: ‘outlier by error’). Dit is een datapunt dat afwijkt van de rest van de data door error, bijvoorbeeld door meetfouten of dataverwerkingsfouten. Denk opnieuw aan een onderzoek waarbij de lengte van mensen wordt gemeten. Stel dat de onderzoeker in zijn notatie een punt vergeet, en per ongeluk opschrijft dat een proefpersoon van 1.70m eigenlijk 170m lang is. In dit geval komt de afwijking dus niet voort uit daadwerkelijke afwijking, maar door error in de onderzoeksprocedure. Deze soort outlier is geen accurate reflectie van de werkelijkheid.

Outliers en Invloedrijke Datapunten

Het probleem met outliers is dat ze de eigenschappen van de data kunnen beïnvloeden, wat kan leiden tot incorrecte onderzoeksresultaten. Outliers die dit effect hebben worden ook wel invloedrijke datapunten (of ‘influential data points’) genoemd. Er zijn echter ook outliers die nauwelijks invloed hebben op onderzoeksresultaten. Of een outlier de uitkomsten van analyses beïnvloedt hangt af van zowel de outlier als de beoogde analyse. Dit wordt geïllustreerd in figuur 2; hierin wordt tweemaal een regressieanalyse uitgevoerd op dezelfde dataset, met uitzondering van twee verschillende outliers. Merk op dat de ene outlier de regressiecoëfficiënten van de regressieanalyse nauwelijks beïnvloedt (de regressieformule van de data met de outlier is nagenoeg hetzelfde als de regressieformule zonder) terwijl de tweede outlier leidt tot een sterke verandering (de regressieformules verschillen duidelijk).

Figure 1.png

De tweede outlier lijkt dus een invloedrijk datapunt, maar de eerste outlier niet (in ieder geval, als het aankomt op de regressiecoëfficiënten). Dat is logisch, aangezien de eerste outlier wel ver van de data ligt maar de trend van de data wel volgt, waar de tweede outlier dat niet doet. Het is altijd verstandig om het effect van outliers op de beoogde analyse(s) in te schatten om te kijken: 1) of correctie noodzakelijk is, en 2) welke correctiemethode het meest geschikt is.

Identificeren van outliers

Er zijn verschillende manieren om te kijken of data outliers bevat. Een eenvoudige methode is om te kijken naar het gemiddelde en de standaard deviaties. Als een datapunt meer dan 3 standaard deviaties van het gemiddelde ligt, kan deze als outlier worden beschouwd. Een nadeel aan deze methode is dat outliers juist zorgen dat de standaard deviatie toeneemt, waardoor outliers niet altijd accuraat worden gedetecteerd. Ook gaat deze methode uit van normaal verdeelde data, en outlier detectie neemt af als niet aan deze aanname is voldaan. Wie deze methode gebruikt wordt dan ook aangeraden om de data zelf nader te inspecteren. Een andere, intuïtieve manier om outliers te detecteren is door middel van grafische weergaves. De meest gebruikte methodes omvatten het plotten en inspecteren van een boxplot of een scatterplot.

Figure 2.png

Een boxplot geeft een vereenvoudiging van de spreiding van de data weer. Datapunten die buiten die sterk afwijken van de rest van de data (meer dan 1.5x de kwartielafstand onder Q1 of boven Q3) worden weergegeven als sterretjes, en mogen als outliers worden beschouwd. Om te achterhalen welke datapunten dit zijn dient de data zelf te worden geïnspecteerd. In een scatterplot wordt de relatie tussen twee variabelen weergegeven. Datapunten die ver van de rest van de datawolk liggen en/of de trend van de datawolk niet volgen kunnen als outliers worden beschouwd. Als potentiele outliers zijn gevonden is het van belang om te achterhalen waarom deze datapunten dusdanig afwijken van de rest van de data. De data gedraagt zich immers niet zoals verwacht, en dat vereist een verklaring. Daarbij kan de reden dat een datapunt afwijkt bepalend zijn voor hoe ervoor mag worden gecorrigeerd.

Outlier Correctie

Hieronder worden richtlijnen beschreven voor het omgaan met deze verschillende outliers. Onthoudt dat dit slechts algemene richtlijnen zijn waarvan mag worden afgeweken; het belangrijkste is dat de keuze goed wordt gedocumenteerd en beargumenteerd. Ware outliers (outliers ontstaan door ware afwijking) mogen alleen worden verwijderd of veranderd als de geteste persoon niet tot de doelpopulatie behoort (bijv. een onderzoek naar mensen met depressie en één proefpersoon vertoont geen depressieve klachten). Als het goed is zijn er voorafgaand aan het verzamelen van data exclusiecriteria opgesteld om dit soort datapunten uit te sluiten (bijv. als een proefpersoon lager dan een bepaald getal scoort op een bepaalde test wordt deze uit de data verwijderd). Controletesten afnemen tijdens het onderzoek kan helpen met dit soort situaties identificeren. Ga ook na of de outlier een invloedrijk datapunt is; als dit niet zo is, hoeft er niet noodzakelijk te worden gecorrigeerd. Voor outliers ontstaan door error zijn alle beneden genoemde correctiemethodes geschikt. Welke correctie het beste is hangt af van: de outlier, de dataset, de invloed van de outlier op de dataset, en de geplande analyse. Bijvoorbeeld, als de dataset klein is, zal het verwijderen van outliers leiden tot een sterke afname in power. Ook zal je een outlier met weinig invloed kunnen negeren, terwijl een invloedrijk datapunten vrijwel altijd correctie behoeven.

Correctiemethodes

Er zijn verschillende manieren van outlier correctie, ieder met voordelen en nadelen.

  • 1) Negeer outliers; één mogelijkheid is om de outlier te negeren en de data precies zo te laten als deze is. Zeker bij ordinale data (‘ord’ in SPSS) kan dit worden overwogen omdat outliers hier weinig effect uitoefenen. Bij continue data (‘scale’ in SPSS) kunnen outliers de data echter sterk vertekenen – zeker als er maar een beperkt aantal datapunten is – en kunnen ze niet zomaar worden genegeerd. Hoewel het altijd verstandig is om in het onderzoeksverslag te vermelden dat de data is gecontroleerd voor outliers, vereist het negeren van outliers (in de praktijk) minder toelichting dan het corrigeren van outliers.
  • 2) De variabele verwijderen; een variabele met veel outliers kan worden verwijderd. Dit kan natuurlijk alleen als de variabele niet essentieel is voor het beantwoorden van de onderzoeksvraag. Zeker als er veel variabelen zijn gemeten kan deze methode worden overwogen. Vermeldt het verwijderen van de variabele in het onderzoeksverslag als dit relevant is voor de resultaten of de interpretatie hiervan.
  • 3) De outlier(s) verwijderen; je kunt ervoor kiezen om afwijkende datapunten simpelweg uit de data te verwijderen, zodat deze de analyses niet kunnen beïnvloeden. Een nadeel van deze aanpak is het risico op ‘selection bias’, het fenomeen waarbij alleen de datapunten gunstig voor de onderzoekers plannen worden geselecteerd. Zo verteken je de data dus in je eigen voordeel. Deze aanpak, hoewel makkelijk in gebruik, is de meest drastische methode van omgaan met outliers. Daarom is het verstandig om deze alleen toe te passen op extreme outliers, en om andere outliers aan te pakken met een van de andere methodes. Vermeldt welke datapunten waren verwijderd en de reden hiertoe in het onderzoeksverslag.
  • 4) Waardes imputeren (‘imputing values’); het imputeren van data houdt in dat de waarde van een bepaald datapunt (de outlier) wordt vervangen door een nieuwe, voorspelde waarde. Deze techniek wordt vaak gebruikt voor missing data. Er zijn verschillende manieren om de te imputeren waarde(s) te voorspellen; zo kan het gemiddelde van de dataset zonder de outlier worden genomen als nieuwe waarde (dit is een slordige aanpak), of er kan op de rest van de data een toepasselijk model worden gefit waarmee de nieuwe waarde van outliers kan worden voorspeld. De imputatie transformatie vereist wel dat er genoeg/vergelijkbare data is om een voorspelde waarde op te baseren. Vermeldt altijd het gebruiken van imputatie, de reden hiertoe en de manier van imputatie in het onderzoeksverslag.
  • 5) Transformeren; het transformeren van data houdt in dat de waarde van ieder datapunt van een variabele/dataset volgens dezelfde wiskundige functie wordt omgezet naar een andere waarde. Zo blijft de onderliggende datastructuur hetzelfde terwijl andere eigenschappen van de data, zoals de verdeling of de variantie, kunnen veranderen. Zo kan een transformatie schendingen van assumpties reduceren. Dit is echter niet altijd het geval, zeker bij extreme outliers. Daarom dient de getransformeerde variabele/dataset altijd opnieuw te worden geïnspecteerd. Er zijn veel verschillende vormen van datatransformatie, ieder met eigen voorwaardes, voordelen en nadelen. Vermeldt altijd in het onderzoeksverslag welke data transformatie is gebruikt en waarom deze is gekozen. Hou ook rekening met het effect van de transformatie op de data bij het interpreteren van de resultaten.

In SPSS

  • Boxplot: om een boxplot te maken, ga in de SPSS toolbar naar “Graphs” > “Legacy Dialogs” > “Boxplot”. Selecteer in het volgende scherm of je een simpele of clustered boxplot wilt (bij twijfel, ga voor “simpel”). In het volgende venster voeg je de variabele(n) van interesse in. Klik op “continue” en het boxplot verschijnt in de output.

Boxplot1.png


  • Scatterplot: ga in de SPSS toolbar naar “Graphs” > “Legacy Dialogs” > “Scatter/Dot”. Selecteer in het volgende scherm het gewilde scatterplot (bij twijfel, ga voor “simpel”).

Scatterplot1.png


  • Variabele negeren/verwijderen: als een variabele teveel outliers bevat, is het een optie om deze variabele simpelweg niet te selecteren in analyses. Ook kan de variabele in zijn geheel worden verwijderd; selecteer in ‘data view’, de kolom horende bij de ongewenste variabele en druk op ‘delete’. In ‘variable view’, selecteer de rij hoerende bij de ongewenste variabele en druk op ‘delete’. Het wordt echter niet aangeraden om een hele variabele te verwijderen, aangezien deze gegevens mogelijk later nog van pas komen (bijvoorbeeld als je dient te verantwoorden waarom de variabele in kwestie niet is meegenomen in bepaalde analyses).
  • Outliers verwijderen: zoek in ‘variable view’ de variabele met outliers op, en selecteer in de corresponderende rij de kolom ‘missing’. Bij ‘discrete missing values’ kunnen exacte waardes worden ingevoerd die vanaf nu zullen worden beschouwd als missing values (bijv. als je alle waardes van 3 wilt verwijderen, noteer je hier 3). Ook kun je een range van waardes invoeren bij ‘range plus one optional discrete value’. Alle getallen tussen de twee ingevoerde waardes zullen als missing values worden beschouwd. Daarnaast kan nog één exacte waarde worden ingevoerd, maar dit hoeft niet. Let erop dat in data view de data niet veranderd zal lijken, maar dat bij het uitvoeren van analyses worden de aangegeven waardes niet worden meegenomen.
  • Waardes imputeren: de methode gaat ervan uit dat de datapunten die moeten vervangen geen outliers zijn maar missing data, dus zorg eerst dat outliers worden verwijderd. Ga in SPSS naar het kopje “Analysis” > “Multiple Imputations” > Impute missing data values”. Selecteer in de lijst “Variables” alle variabelen waarvan je waardes wilt imputeren en/of variabelen die je wilt gebruiken om de geïmputeerde waardes te voorspellen. Verplaats deze naar het vak ernaast “Variables in model”. In het zelfde scherm, geef de nieuwe dataset een naam (met deze methode maakt SPSS een nieuwe dataset aan waarbij de missing values zijn geimputeerd) in het vak achter “Dataset name”.

Figure 3.png


Onder het tabblad “Method” kan de methode van data imputatie worden gekozen. Onder het tabblad “Constraints” kan onder “Define constraints” achter de naam van iedere variabele, onder de kolom “role” worden aangegeven of voor deze variabele moet worden geïmputeerd én de variabele moet worden gebruikt als predictor voor de imputatie, of dat de variabele alleen geïmputeerd hoeft te worden of alleen een predictor is. Ook kan onder de kopjes “min” en “max” de minimale en maximale waarde worden aangegeven – wat aanraadbaar is als je scores op een bepaalde schaal zijn gemeten en scores die buiten deze schaal vallen betekenisloos zijn. Linksbovenaan dit venster bevindt zich een knop “scan data” waarmee een snel overzicht van de data wordt weergegeven. Let op dat deze methode meerdere imputaties zal uitvoeren; dat wil zeggen, er zal meerdere keren een waardes voorspellen en deze imputeren, wat resulteert in meerdere, onderling verschillende datasets. Zie ook deze video voor een gedetailleerdere beschrijving van de transformatie en interpretatie van erop volgende analyse resultaten: https://www.youtube.com/watch?v=4fgxjGhGemw.

Rapportage

Vermeld in het onderzoeksverslag altijd: 1) of er outliers zijn, 2) hoe deze zijn geïdentificeerd, 3) of deze outliers een mogelijk risico zijn voor de geplande analyses, 4) wat deze outliers zou kunnen verklaren op theoretisch niveau, 5) hoe de outliers zijn aangepakt en waarom er voor deze methode is gekozen (baseer dit op de hiervoor genoemde punten).

Links

file:///C:/Users/Eigenaar/Documents/UvA/UvA%20RM%20jaar%202/Methodologiewinkel/Correcting%20for%20Outliers%20_%20Insight%20Central.html https://nl.wikipedia.org/wiki/Uitbijter http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm http://spss-online.blogspot.nl/2008/08/checking-for-outliers.html http://webspace.ship.edu/pgmarr/Geo441/Lectures/OPT%201%20-%20Outlier%20Detection.pdf http://support.minitab.com/en-us/minitab/17/topic-library/basic-statistics-and-graphs/graph-options/exploring-data-and-revising-graphs/identifying-outliers/ https://www.quora.com/Do-outliers-affect-variance-in-statistics