Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Like dokumenter
Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Beskrivende statistikk Litt om SPSS

Medisinsk statistikk Del I høsten 2009:

Kapittel 3: Studieopplegg

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

ST0202 Statistikk for samfunnsvitere

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Et lite notat om og rundt normalfordelingen.

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Eksamensoppgave i ST3001

Skoleeksamen i SOS Kvantitativ metode

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

Statistikk og dataanalyse

TMA4240 Statistikk H2010

Oppgaver til Studentveiledning 4 MET 3431 Statistikk

I dag. Konfidensintervall og hypotesetes4ng ukjent standardavvik (kap. 7.1) t-fordelingen

Data og beskrivende statistikk Introduksjon til SPSS. 7. april 2005 Tron Anders Moger

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Medisinsk statistikk Del I høsten 2008:

Korrelasjon og lineær regresjon, litt om resultatpresentasjon

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

EKSAMENSOPPGAVER STAT100 Vår 2011

Seksjon 1.3 Tetthetskurver og normalfordelingen

Seksjon 1.3 Tetthetskurver og normalfordelingen

UNIVERSITETET I OSLO

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

ST0202 Statistikk for samfunnsvitere

Generelle lineære modeller i praksis

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Lineære modeller i praksis

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag Til Statlab 5

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Tabell 1: Beskrivende statistikker for dataene

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

ST0202 Statistikk for samfunnsvitere

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

ST0202 Statistikk for samfunnsvitere

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

Binomisk sannsynlighetsfunksjon

Kap. 8: Utvalsfordelingar og databeskrivelse

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

Formelsamling i medisinsk statistikk

UNIVERSITETET I OSLO

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

TMA4240 Statistikk H2010

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

UNIVERSITETET I OSLO

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Norges teknisk-naturvitenskapelige universitet Fakultet for samfunnsvitenskap og teknologiledelse Pedagogisk institutt

TMA4240 Statistikk Høst 2016

Statistisk analyse av data fra planlagte forsøk

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

KLMED 8006 Anvendt medisinsk statistikk - Vår 2009 Repeterte målinger

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

TMA4240 Statistikk H2010

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Fasit for tilleggsoppgaver

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

TMA4240 Statistikk H2010 (22)

UNIVERSITETET I OSLO

Statistikk er begripelig

Transkript:

Fordelinger, mer om sentralmål og variasjonsmål Tron Anders Moger 20. april 2005 1

Forrige gang: Så på et eksempel med data over medisinerstudenter Lærte hvordan man skulle få oversikt over dataene ved hjelp av Explore i SPSS Lærte om sentralmål som gjennomsnitt og median Variasjonsmål som standardavvik og fraktiler I dag skal vi knytte disse begrepene opp mot normalfordelingen 2

25 Vektfordeling blant 95 studenter 20 15 10 Antall studenter 5 0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 95.0 Vekt (kg) Data om vekt samlet inn blant studenter på kull V98 3

Kontinuerlige data: Normalfordelingen Normalfordelingen Variasjon i målinger kan ofte beskrives med normal-fordelingen Fordelingen er symmetrisk og har to parametere:» Forventning: µ» Standardavvik (Standard deviation): σ Disse angir tyngdepunkt og spredning I fordelingen 4

Normalfordeling med liten og stor spredning s 0.4 0.3 0.2 0.1 0 2 4 6 8 10 x 12 14 16 18 20 5

Hvorfor er normalfordelingen viktig? De vanligste statistiske analysemetodene for kontinuerlige data antar at dataene er normalfordelt Derfor må man sjekke grundig at dette faktisk er tilfellet før man gjør analysene I tillegg: Summer av kategoriske observasjoner er også normalfordelt Betyr at normalfordelingen sniker seg inn nesten uansett hva du skal gjøre 6

Enkel måte å se om dataene er normalfordelt på: Histogram Velg Graphs->Histogram Flytt variabelen du vil studere over til høyre (f.eks. vekt) Kryss av på Display normal curve og klikk OK. 7

Histogram av vekt med innlagt kurve for normalfordelingen 25 Distribution of weight among 95 students 20 15 Number of students 10 5 0 40.0 45.0 50.0 55.0 60.0 65.0 70.0 75.0 80.0 85.0 90.0 95.0 Weight (kg) 8

Fordeling av høyde for medisinerstudentene 30 20 10 Std. Dev = 8.39 Mean = 175.3 0 N = 95.00 157.5 162.5 167.5 172.5 177.5 182.5 187.5 192.5 Height 9

Fordeling av lungefunksjon for medisinerstudentene 20 16 12 Number of students 8 4 0 300 400 500 600 700 800 Std. Dev = 120.12 Mean = 503 N = 95.00 350 450 550 650 750 Average PEF value measured in a sitting position 10

Andre måter å sjekke om dataene er normalfordelt på: Explore Som forrige gang: Velg Analyze->Descriptive Statistics->Explore. Flytt variabelen du vil se på over i Dependent List (f.eks. vekt). Under Plots, kryss av på Normality Plots with tests. 11

Q-Q plot for lungefunksjon 3 Normal Q-Q Plot of PEFSITTM 2 1 0 Expected Normal -1-2 -3 200 300 400 500 600 700 800 Observed Value 12

Box-plot for lungefunksjon 900 800 700 600 500 400 300 200 N = 95 PEFSITTM 13

Alder for medisinerstudentene - ikke normalfordelt 50 Histogram 40 30 20 Frequency 10 0 20.0 22.5 25.0 27.5 30.0 32.5 35.0 Std. Dev = 3.11 Mean = 22.4 N = 95.00 Age 14

Q-Q plot for alder 3 Normal Q-Q Plot of AGE 2 1 Expected Normal 0-1 -2 10 20 30 40 Observed Value 15

Box plot for alder 35 30 25 20 15 ALDER 16

Tester for om lungefunksjon og alder er normalfordelt PEFSITTM Tests of Normality Kolmogorov-Smirnov a Statistic df Sig..081 95.144 a. Lilliefors Significance Correction ALDER Tests of Normality Kolmogorov-Smirnov a Statistic df Sig..180 95.000 a. Lilliefors Significance Correction Disse vil ofte bli signifikante når det er mange data. Legg mer vekt på de grafiske metodene. 17

Et triks for data som er skjeve mot høyre: Transformer dataene! 40 30 20 10 0 11.00 10.00 9.00 8.00 7.00 6.00 5.00 4.00 3.00 2.00 1.00 0.00 Std. Dev = 1.71 Mean = 1.50 N = 106.00 SKEWED Skjev fordeling Eksempel, observasjonene 0.40 0.96 11.0 18

Log-transformerte data 14 12 10 8 6 4 2-1.25-1.75-2.25-2.75 -.75 -.25.25.75 1.25 1.75 2.25 Std. Dev = 1.05 Mean = -.12 0 N = 106.00 LNSKEWD Ln transformert fordeling ln(0.40)=-0.91 ln(0.96)=-0.04 ln(11) =2.40 Kjør analysen på de ln transformerte dataene SPSS: transformcompute 19

Vi har sett at f.eks. medisinerstudentenes vekt er normalfordelt hva så? Forrige gang så vi på begreps-par:» Utvalg populasjon» Histogram fordeling» Gjennomsnitt forventning Poenget med statistikk er at vi ønsker å generalisere fra et lite utvalg til en hel populasjon Dette gjør vi ved å samle data slik at utvalget blir representativt (tilfeldig trekning, eller m.h.p. alder, kjønn, bosted, osv.) 20

Ny måte og lese tabellen og histogrammene fra Explore på: Histogrammene viser at vekten til studentene er tilnærmet normalfordelt Fra dette ønsker vi å konkludere at vekten i populasjonen (alle førstesemester-studenter i medisin i Norge) er normalfordelt Gjennomsnittet beregnet fra utvalget er et estimat på forventningen m til normalfordelingen til populasjonen Standardavviket (spredningen i dataene) beregnet fra utvalget er et estimat på standardavviket s til normalfordelingen til populasjonen Dette medfører også at et intervall som er 1.96 standardavvik på hver side av forventningen dekker 95% av fordelingen 21

Hvor kommer 1.96 fra? Standard normalfordelingen! Hvis en variabel X er normalfordelt, vil (X-m)/s være standard normalfordelt. Standard normalfordelingen er en normalfordeling med forventning 0 og standardavvik 1 Lærte om fraktiler sist (25% fraktil, median, 75% fraktil) Har også 2.5% og 97.5% fraktiler For standard normalfordelingen er 2.5% fraktilen lik -1.96 og 97.5% fraktilen lik 1.96 22

Dette gir: P 1.96 < P P X µ < 1.96 σ = 95% ( 1.96 σ < X µ < 1.96 σ ) = 95% ( µ 1.96 σ < X < µ + 1.96 σ ) = 95% M.a.o. hvis dataene er normalfordelte, vil en ny observasjon ha 95% sannsynlighet for å havne innenfor intervallet Gj.snitt+/-1.96*standardavvik Dette gir litt bedre mulighet til å fortolke om standardavviket er veldig stort eller ikke 23

Standardfeil (standard error) La oss si at du har samlet et utvalg på n observasjoner for å beregne et gjennomsnitt Samler du flere utvalg av samme størrelse får du ikke samme gjennomsnitt Husker fra forrige gang at standardavviket estimeres ved s = n ( x x) 2 i= 1 n 1 Standardavviket til gjennomsnittet kalles standardfeil og estimeres med Standardfeil= i s n 24

Eksempel på hvordan standardfeilen blir mindre når datamengden øker n Standardfeil 1 5,00 10 1,58 40 0,79 100 0,50 400 0,25 25

Konfidensintervall Hvis observasjonene er normalfordelt, kan du være 95% sikker på at det sanne gjennomsnittet (forventningen) ligger i intervallet Gj.snitt+/-1.96*standardfeil Dette kalles et 95% konfidensintervall Kunne like gjerne hatt et 90% eller 99% konfidensintervall, men 95% er vanligst 26

Konfidensintervall i SPSS Analyze- Descriptive Statistics - Explore Descriptives WEIGHT Mean 95% Confidence Interval for Mean 5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range Interquartile Range Skewness Kurtosis Lower Bound Upper Bound Statistic Std. Error 70,7000 2,6548 65,1435 76,2565 70,5000 69,0000 140,958 11,8726 50,00 95,00 45,00 10,0000,427,512,263,992 27

Egenskaper ved konfidensintervall Statistikk handler ikke bare om å finne gjennomsnitt, man vil også si noe om usikkerheten til gjennomsnittet. Siden konfidensintervallet avhenger av standardfeilen, ser vi at jo mer data vi samler inn, jo smalere blir konfidensintervallet Dette betyr at vi kan med svært stor grad av sikkerhet si hvor forventningen i populasjonen ligger ved å samle inn mye data. Dette er positivt. 28

Egenskaper ved konfidensintervall forts. Har så langt bare sett på data som er normalfordelt Skal se senere at normalfordelingen kommer inn også for mange andre typer data. Dette betyr at dere ofte vil se konfidensintervall som baseres på +/-1.96*ett usikkerhetsestimat Her gjelder det samme: Jo mer data, jo mindre usikkerhet i konklusjonene deres! 29

Eksempel på at normalfordelingen kommer inn andre steder Histogram over kjønn for medisinerstudentene ser ikke særlig normalfordelt ut Kjønn kan antas å følge en annen statistisk fordeling: Binomisk fordeling, karakterisert ved» Uavhengige forsøk/observasjoner» To mulige utfall» Sannsynligheten for utfallene forandrer seg ikke fra forsøk til forsøk 30

Histogram over kjønn 80 60 Frequency 40 20 0-0,5 0 0,5 1 1,5 Kjønn 31

Data som er binomisk fordelte kan likevel tilnærmes ved normalfordelingen! Sannsynligheten for det ene utfallet kalles p Sannsynligheten for det andre utfallet blir da 1-p Anta at du har n forsøk/individer Forventningen til en binomisk fordeling er np og standardavviket er np( 1 p) Har da at X np np(1 p) Standard normalfordelt 32

Hvorfor gjelder dette? Sentralgrenseteoremet sier at summer av mange observasjoner, hvor ingen av dem er dominerende, er tilnærmet normalfordelt For kjønn i eksemplet svarer dette til summen av mange 0-er og 1-ere Får på vanlig måte standard normalfordelingen ved å trekke fra forventningen og dele på standardavviket. Kommer tilbake til dette under Kategoriske data - tabellanalyse 33