ST0202 Statistikk for samfunnsvitere Kapittel 7: Utvalgsfordeling Bo Lindqvist Institutt for matematiske fag
2 Fra kapittel 1: Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Primær problemstilling: Hva kan vi konkludere om populasjonen ved å analysere utvalget? I kapittel 7 studeres spesielt observatoren utvalgsgjennomsnitt, dvs. x, som skal si noe om parameterenµ som er populasjonsgjennomsnittet.
Tilfeldig utvalg: ethvert utvalg av størrelse n har like stor sannsynlighet for å bli valgt.
Skillbuilder Applet Ønsker å estimere populasjonsgjennomsnittsalder ved å ta et utvalg på 100 fra populasjonen. Hvis vårt utvalg er nr. 8 som gir gjennomsnitt 38.04, hvor godt er dette estimatet?
5 Utvalgsfordeling: Sampling distribution (7.1) En observator er en tallverdi som oppsummerer utvalget. Eksempler på observatorer er x, s, Q 1, x, Q 3. Særlig viktig er utvalgsgjennomsnittet x, som er utvalgsversjonen av populasjonsparameteren µ. Merk: En observator er en tilfeldig variabel med tilhørende fordeling. (Engelsk: sampling distribution ) Oppgave: I hvilken forstand er x en tilfeldig variabel? Hva er da det underliggende eksperiment?
Utvalgsfordeling for en observator: Fordelingen av verdier for en observator når det tas repeterte utvalg, alle av samme størrelse og fra den samme populasjonen.
8 Fordelingen til utvalgsgjennomsnittet x (7.2) Som nevnt er x en tilfeldig variabel. Vi kan f.eks. ikke forutse gjennomsnittet av n = 10 terningkast. Det er også klart at dersom vi gjør 10 nye kast, vil gjennomsnittet vanligvis ikke bli det samme. Det er denne variasjonen som uttrykkes ved fordelingen til utvalgsgjennomsnittet. Empirisk faktum: Fordelingen til x ligner mer og mer på en normalfordeling når antall kast n øker (se neste side).
P P Eksempel: Kast en terning n ganger og la x betegne antall øyne. Hva blir fordelingen til x? 0.10 0.12 0.14 0.16 0.18 0.20 0.22 P 0.00 0.05 0.10 0.15 P 0.00 0.02 0.04 0.06 0.08 0.10 P 1 2 3 4 5 6 n= 1 1 2 3 4 5 6 n= 2 1 2 3 4 5 6 n=4 0.00 0.02 0.04 0.06 0.08 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.00 0.01 0.02 0.03 0.04 P 1 2 3 4 5 6 n=8 1 2 3 4 5 6 n=16 1 2 3 4 5 6 n=32
Karakteristiske trekk ved fordelingen til x: Fordelingen blir spissere og spissere (mindre variasjon) når n øker Fordelingen ser mer og mer ut som en normalfordeling når n øker 0.10 0.12 0.14 0.16 0.18 0.20 0.22 0.00 0.05 0.10 0.15 0.00 0.02 0.04 0.06 0.08 0.10 P P P 1 2 3 4 5 6 n= 1 1 2 3 4 5 6 n= 2 1 2 3 4 5 6 n=4 0.00 0.02 0.04 0.06 0.08 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.00 0.01 0.02 0.03 0.04 P P P 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 n=8 n=16 n=32
11 Generell regel 1. Forventningen til x, µ x, er lik forventningen til x, dvs. µ 2. Standardavviket til x, σ x, er lik σ n (som avtar når n øker) σ x = σ n kalles standardfeilen for x (engelsk: standard error )
Oppgave: Dersom en populasjon har standardavvik på 20, hva er standardavviket til utvalgsgjennomsnittet dersom utvalgsstørrelsen er 16?
13 Sentralgrenseteoremet: Fordelingen til utvalgsgjennomsnittet vil nærme seg normalfordelingen når utvalgsstørrelsen n øker. Dette betyr at hvis n er stor vil x kunne regnes som normalfordelt med forventning µ x = µ og standardavvik σ x = σ n, dvs. P(a < x < b) P( a µ σ/ n < z < b µ σ/ n ) MERK: Dersom populasjonen som x trekkes fra selv er normalfordelt, vil x være eksakt normalfordelt for alle utvalgsstørrelser.
14 Eksempel: Ta gjennomsnittet av 16 terningkast. Hva er sannsynligheten for at gjennomsnittet er større enn eller lik 3 og mindre enn eller lik 4? Direkte metode gir at sannsynligheten er summen av søylene over den grønne streken, men det er arbeidskrevende å finne søylene (sannsynlighetene for de enkelte utfallene). Dersom en gjør dette får en svaret P(3 X 4) = 0.7847462
Alternativt kan vi bruke sentralgrenseteoremet: P(a < x < b) P( a µ σ/ n < z < b µ σ/ n ) Trenger da µ og σ for ett terningkast: Velkjent at µ = 3.5 Standardavvik σ: σ 2 = Σx 2 P(x) µ 2 = 91 6 3.52 = 2.917 σ = σ 2 = 1.7078
P(3 x 4) = P( 3 µ σ/ n < z < 4 µ σ/ n ) 3.0 3.5 = P( 1.7078/ 16 < z < 4.0 3.5 1.7078/ 16 ) = P( 1.17 < Z < 1.17) = 2 P(0 < Z < 1.17) = 2 0.3790 = 0.7580 (eksakt metode: 0.7847462)
Mer nøyaktig: Søylene svarende til x = 3 og x = 4 har egentlig bredde 1/16. Hvorfor? Dermed vil vi få mer nøyaktig svar ved å forlenge intervallet for z med halvparten av 1/16 både til venstre for 3 og til høyre for 4. Dette gir: P(3 x 4) = P(3 1/16 < x < 4+ 1/16 2 2 ) = P( 2.96875 µ σ/ < z < 4.03125 µ n σ/ ) n 2.96875 3.5 = P( 1.7078/ 4.03125 3.5 < z < 16 1.7078/ 16 ) = P( 1.2443 < z < 1.2443) = 2 P(0 < z < 1.2443) = 2 0.3925 = 0.785 (mens altså eksakt metode gir 0.7847462)
19 Anvendelser med fordelingen til gjennomsnittet (7.3) Eksempel: Betrakt en populasjon med µ = 100 og σ = 16. Dersom et utvalg med størrelse 16 velges, hva er sannsynligheten for at utvalgsgjennomsnittet vil være mellom 90 og 110? Husk: Gjennomsnittet til normalfordelte variable er også eksakt normalfordelt. P(90 < x < 110) = P( 90 µ σ/ n < z < 110 µ σ/ n ) = P( 90 100 16/ 16 < z < 110 100 16/ 16 ) = P( 2.5 < z < 2.5) = 2 P(0 < z < 2.5) = 2 0.4938 = 0.9876
Oppgave: Et tilfeldig utvalg med n=36 blir trukket fra en populasjon som har forventning 50 og standardavvik 10. Finn forventningen til x Finn standardavviket til x Hva er sannsynligheten for at x vil være mellom 45 og 55?
De neste figurene skal illustrere de tidligere nevnte karakteristiske trekk ved fordelingen til x: Fordelingen blir spissere og spissere (mindre variasjon) når n øker Fordelingen ser mer og mer ut som en normalfordeling når n øker De to foregående punktene holder selv om utvalget tas fra en populasjon med skjev og uregulær form.
26 Eksamensoppgaver (MCQ) H2009, 1b La x være gjennomsnittet av et tilfeldig utvalg av størrelse n = 4 fra en normalfordelt populasjon med forventning µ = 5 og standardavvik σ = 4. Hva er sannsynligheten for at x ligger mellom 6 og 8? A) 0.24 B) 0.43 C) 0.19 D) 0.08 E) 0.37 H2008, 1b La x være gjennomsnittet av et tilfeldig utvalg av størrelse n = 3 fra en normalfordelt populasjon med forventning µ = 1 og standardavvik σ = 1. Hva er P( x > 2)? A) 0.67 B) 0.33 C) 0.08 D) 0.24 E) 0.04