Fordelinger, mer om sentralmål og variasjonsmål Tron Anders Moger 20. april 2005 1
Forrige gang: Så på et eksempel med data over medisinerstudenter Lærte hvordan man skulle få oversikt over dataene ved hjelp av Explore i SPSS Lærte om sentralmål som gjennomsnitt og median Variasjonsmål som standardavvik og fraktiler I dag skal vi knytte disse begrepene opp mot normalfordelingen 2
25 Vektfordeling blant 95 studenter 20 15 10 Antall studenter 5 0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 95.0 Vekt (kg) Data om vekt samlet inn blant studenter på kull V98 3
Kontinuerlige data: Normalfordelingen Normalfordelingen Variasjon i målinger kan ofte beskrives med normal-fordelingen Fordelingen er symmetrisk og har to parametere:» Forventning: µ» Standardavvik (Standard deviation): σ Disse angir tyngdepunkt og spredning I fordelingen 4
Normalfordeling med liten og stor spredning s 0.4 0.3 0.2 0.1 0 2 4 6 8 10 x 12 14 16 18 20 5
Hvorfor er normalfordelingen viktig? De vanligste statistiske analysemetodene for kontinuerlige data antar at dataene er normalfordelt Derfor må man sjekke grundig at dette faktisk er tilfellet før man gjør analysene I tillegg: Summer av kategoriske observasjoner er også normalfordelt Betyr at normalfordelingen sniker seg inn nesten uansett hva du skal gjøre 6
Enkel måte å se om dataene er normalfordelt på: Histogram Velg Graphs->Histogram Flytt variabelen du vil studere over til høyre (f.eks. vekt) Kryss av på Display normal curve og klikk OK. 7
Histogram av vekt med innlagt kurve for normalfordelingen 25 Distribution of weight among 95 students 20 15 Number of students 10 5 0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 95.0 Weight (kg) 8
Fordeling av høyde for medisinerstudentene 30 20 10 Std. Dev = 8.39 Mean = 175.3 0 N = 95.00 157.5 162.5 167.5 172.5 177.5 182.5 187.5 192.5 Height 9
Fordeling av lungefunksjon for medisinerstudentene 20 16 12 Number of students 8 4 0 300 400 500 600 700 800 Std. Dev = 120.12 Mean = 503 N = 95.00 350 450 550 650 750 Average PEF value measured in a sitting position 10
Andre måter å sjekke om dataene er normalfordelt på: Explore Som forrige gang: Velg Analyze->Descriptive Statistics->Explore. Flytt variabelen du vil se på over i Dependent List (f.eks. vekt). Under Plots, kryss av på Normality Plots with tests. 11
Q-Q plot for lungefunksjon 3 Normal Q-Q Plot of PEFSITTM 2 1 0 Expected Normal -1-2 -3 200 300 400 500 600 700 800 Observed Value 12
Box-plot for lungefunksjon 900 800 700 600 500 400 300 200 N = 95 PEFSITTM 13
Alder for medisinerstudentene - ikke normalfordelt 50 Histogram 40 30 20 Frequency 10 0 20.0 22.5 25.0 27.5 30.0 32.5 35.0 Std. Dev = 3.11 Mean = 22.4 N = 95.00 Age 14
Q-Q plot for alder 3 Normal Q-Q Plot of AGE 2 1 Expected Normal 0-1 -2 10 20 30 40 Observed Value 15
Box plot for alder 35 30 25 20 15 ALDER 16
Tester for om lungefunksjon og alder er normalfordelt PEFSITTM Tests of Normality Kolmogorov-Smirnov a Statistic df Sig..081 95.144 a. Lilliefors Significance Correction ALDER Tests of Normality Kolmogorov-Smirnov a Statistic df Sig..180 95.000 a. Lilliefors Significance Correction Disse vil ofte bli signifikante når det er mange data. Legg mer vekt på de grafiske metodene. 17
Et triks for data som er skjeve mot høyre: Transformer dataene! 40 30 20 10 0 11.00 10.00 9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00 1.00 0.00 Std. Dev = 1.71 Mean = 1.50 N = 106.00 SKEWED Skjev fordeling Eksempel, observasjonene 0.40 0.96 11.0 18
Log-transformerte data 14 12 10 8 6 4 2-1.25-1.75-2.25-2.75 -.75 -.25.25.75 1.25 1.75 2.25 Std. Dev = 1.05 Mean = -.12 0 N = 106.00 LNSKEWD Ln transformert fordeling ln(0.40)=-0.91 ln(0.96)=-0.04 ln(11) =2.40 Kjør analysen på de ln transformerte dataene SPSS: transformcompute 19
Vi har sett at f.eks. medisinerstudentenes vekt er normalfordelt hva så? Forrige gang så vi på begreps-par:» Utvalg populasjon» Histogram fordeling» Gjennomsnitt forventning Poenget med statistikk er at vi ønsker å generalisere fra et lite utvalg til en hel populasjon Dette gjør vi ved å samle data slik at utvalget blir representativt (tilfeldig trekning, eller m.h.p. alder, kjønn, bosted, osv.) 20
Ny måte og lese tabellen og histogrammene fra Explore på: Histogrammene viser at vekten til studentene er tilnærmet normalfordelt Fra dette ønsker vi å konkludere at vekten i populasjonen (alle førstesemester-studenter i medisin i Norge) er normalfordelt Gjennomsnittet beregnet fra utvalget er et estimat på forventningen m til normalfordelingen til populasjonen Standardavviket (spredningen i dataene) beregnet fra utvalget er et estimat på standardavviket s til normalfordelingen til populasjonen Dette medfører også at et intervall som er 1.96 standardavvik på hver side av forventningen dekker 95% av fordelingen 21
Hvor kommer 1.96 fra? Standard normalfordelingen! Hvis en variabel X er normalfordelt, vil (X-m)/s være standard normalfordelt. Standard normalfordelingen er en normalfordeling med forventning 0 og standardavvik 1 Lærte om fraktiler sist (25% fraktil, median, 75% fraktil) Har også 2.5% og 97.5% fraktiler For standard normalfordelingen er 2.5% fraktilen lik -1.96 og 97.5% fraktilen lik 1.96 22
Dette gir: P 1.96 < P P X µ < 1.96 σ = 95% ( 1.96 σ < X µ < 1.96 σ ) = 95% ( µ 1.96 σ < X < µ + 1.96 σ ) = 95% M.a.o. hvis dataene er normalfordelte, vil en ny observasjon ha 95% sannsynlighet for å havne innenfor intervallet Gj.snitt+/-1.96*standardavvik Dette gir litt bedre mulighet til å fortolke om standardavviket er veldig stort eller ikke 23
Standardfeil (standard error) La oss si at du har samlet et utvalg på n observasjoner for å beregne et gjennomsnitt Samler du flere utvalg av samme størrelse får du ikke samme gjennomsnitt Husker fra forrige gang at standardavviket estimeres ved s = n ( x x) 2 i= 1 n 1 Standardavviket til gjennomsnittet kalles standardfeil og estimeres med Standardfeil= i s n 24
Eksempel på hvordan standardfeilen blir mindre når datamengden øker n Standardfeil 1 5,00 10 1,58 40 0,79 100 0,50 400 0,25 25
Konfidensintervall Hvis observasjonene er normalfordelt, kan du være 95% sikker på at det sanne gjennomsnittet (forventningen) ligger i intervallet Gj.snitt+/-1.96*standardfeil Dette kalles et 95% konfidensintervall Kunne like gjerne hatt et 90% eller 99% konfidensintervall, men 95% er vanligst 26
Konfidensintervall i SPSS Analyze- Descriptive Statistics - Explore Descriptives WEIGHT Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 70,7000 2,6548 65,1435 76,2565 70,5000 69,0000 140,958 11,8726 50,00 95,00 45,00 10,0000,427,512,263,992 27
Egenskaper ved konfidensintervall Statistikk handler ikke bare om å finne gjennomsnitt, man vil også si noe om usikkerheten til gjennomsnittet. Siden konfidensintervallet avhenger av standardfeilen, ser vi at jo mer data vi samler inn, jo smalere blir konfidensintervallet Dette betyr at vi kan med svært stor grad av sikkerhet si hvor forventningen i populasjonen ligger ved å samle inn mye data. Dette er positivt. 28
Egenskaper ved konfidensintervall forts. Har så langt bare sett på data som er normalfordelt Skal se senere at normalfordelingen kommer inn også for mange andre typer data. Dette betyr at dere ofte vil se konfidensintervall som baseres på +/-1.96*ett usikkerhetsestimat Her gjelder det samme: Jo mer data, jo mindre usikkerhet i konklusjonene deres! 29
Eksempel på at normalfordelingen kommer inn andre steder Histogram over kjønn for medisinerstudentene ser ikke særlig normalfordelt ut Kjønn kan antas å følge en annen statistisk fordeling: Binomisk fordeling, karakterisert ved» Uavhengige forsøk/observasjoner» To mulige utfall» Sannsynligheten for utfallene forandrer seg ikke fra forsøk til forsøk 30
Histogram over kjønn 80 60 Frequency 40 20 0-0,5 0 0,5 1 1,5 Kjønn 31
Data som er binomisk fordelte kan likevel tilnærmes ved normalfordelingen! Sannsynligheten for det ene utfallet kalles p Sannsynligheten for det andre utfallet blir da 1-p Anta at du har n forsøk/individer Forventningen til en binomisk fordeling er np og standardavviket er np( 1 p) Har da at X np np(1 p) Standard normalfordelt 32
Hvorfor gjelder dette? Sentralgrenseteoremet sier at summer av mange observasjoner, hvor ingen av dem er dominerende, er tilnærmet normalfordelt For kjønn i eksemplet svarer dette til summen av mange 0-er og 1-ere Får på vanlig måte standard normalfordelingen ved å trekke fra forventningen og dele på standardavviket. Kommer tilbake til dette under Kategoriske data - tabellanalyse 33