TMA440 Statistikk H010 9.8: To uvalg (siste del) 9.9: Parvise observasjoner 9.10-9.11: Andelser 9.1: Varians Mette Langaas Foreleses onsdag 0.oktober, 010 Norske hoppdommere og Janne Ahonen Janne Ahonen er en finsk skihopper, som har vunnet hoppuka 5 ganger. Han la opp i 008, men gjorde et come-back for OL i 010. Åge Aleksandersen har laget sang om smilet til Ahonen. Men, før OL i 006 i Torino - så gikk treneren til Janne Ahonen ut i pressen og mente at norske hoppdommere konsekvent gir Janne Ahonen lavere stilkarakterer enn andre dommere. Norsk Regnesentral kikket på tallene fra sesongene 004-006 (t.o.m. OL) og fant at de var enig med Ahonens trener. Vi ser på tall fra 36 hopprenn, gjennomsnittlig karakter til Ahonen fra norske dommere og fra internasjonale dommere (ikke norske og finske) Hvordan skal vi regne på dette?
3 To utvalg: estimatorer (REPETISJON) X A 1, X A,..., X A er et tilfeldig utvalg fra en populasjon som beskrives av en normalfordeling med forventning µ A og varians σ A. X B 1, X B,..., X B er et tilfeldig utvalg fra en populasjon som beskrives av en normalfordeling med forventning µ B og varians σ B. Estimator for µ A µ B : ˆµ A ˆµ B = X A X B = 1 na i=1 X i A 1 nb j=1 X j B X A X B er normalfordelt med E(X A X B ) = µ A µ B Var(X A X B ) = σ A + σ B (intuitiv og SME). 4 To uavhengige utvalg: konfidensintervall (1 α)100% konfidensintervall for µ A µ B : når σ A og σ B er kjent: [(x A x B ) ± z α σ A + σ B når σ A = σ B = σ, men ukjente: [(x A x B ) ± t α,(+ )s p 1 + 1 når σ A og σ B der er ukjente (ikke like): s [(x A x B ) ± t α,ν A + s B ν = (s A / + s B /) [(s A /) /( 1) + [(s B /) /( 1)
5 Ahonen: to uavhengige utvalg X A 1, X A,..., X A er et tilfeldig utvalg fra en populasjon av stilkarakterer til Ahonen fra norske dommere. Antar normalfordelt med forventning µ A og varians σ A = σ. X B 1, X B,..., X B er et tilfeldig utvalg fra en populasjon av stilkarakterer til Ahonen fra internasjonale dommere (ikke norske og finske). Antar normalfordelt med forventning µ B og varians σ B = σ. Antar A-utvalget er uavhengig av B-utvalget! Lik, men ukjent varians: Estimator S p. Konfidensintervall [(x A x B ) ± t α,(+ )s p 1 + 1 6 To utvalg: σa = σ B, men ukjente Definer: S A = 1 1 i=1 (Xi A X A ) og SB = 1 1 j=1 (X B j X B ) Hvis vi vet at σ A = σ B = σ så kan vi lage en estimator S p (pooled) basert på summen av kvadratavvikene i de to utvalgene: S p = na 1 + [ (Xi A X A ) + i=1 j=1 (X B j X B ) = ( 1)S A + ( 1)S B + der X A = 1 na i=1 X A i og X B = 1 nb j=1 X B j.
Ahonen-data fra 36 renn Ahonen-data som differanser fra 36 renn
9 Konfidensintervall for µ A µ B for parvise observasjoner Hvis d og s d er gjennomsnittet og standardavviket til normalfordelte differanser av n par av tilfeldige observasjoner, så er et (1-α)100% konfidensintervall for µ D = µ A µ B d t α,(n 1) s d n < µ D < d + t α,(n 1) s d n hvor t α,(n 1) er verdien i t-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(T > t α,(n 1) ) = α. Ser at dette er i tråd med ett utvalg, konfidensintervall for µ: x t α,(n 1) s n < µ < x + t α,(n 1) s n 10 Konfidensintervall for µ A µ B for parvise observasjoner Hvis d og s d er gjennomsnittet og standardavviket til normalfordelte differanser av n par av tilfeldige observasjoner, så er et (1-α)100% konfidensintervall for µ D = µ A µ B d t α,(n 1) s d n < µ D < d + t α,(n 1) s d n hvor t α,(n 1) er verdien i t-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(T > t α,(n 1) ) = α. Ser at dette er i tråd med ett utvalg, konfidensintervall for µ: x t α,(n 1) s n < µ < x + t α,(n 1) s n
11 9.1: Konfidensintervall for varians La X 1, X,..., X n være et tilfeldig utvalg fra en populasjon som beskrives av en normalfordeling med forventning µ og varians σ. S = 1 n 1 n i=1 (X i X) er en estimator for σ (forventningsrett, men ikke SME). Størrelsen V = (n 1)S σ er kjikvadrat-fordelt med n 1 frihetsgrader. 1 9.1: Konfidensintervall for varians Et (1 α)100% konfidensintervall for σ er (n 1)S χ α,(n 1) < σ < (n 1)S χ 1 α,(n 1) hvor χ α,(n 1) er verdien i kjikvadrat-fordelingen med n 1 frihetsgrader som har areal α til høyre, dvs. P(V > χ α,(n 1)) = α, og χ 1 α,(n 1) er verdien i kjikvadrat-fordelingen med n 1 frihetsgrader som har areal α til venstre, dvs. P(V < χ 1 α,(n 1)) = α.
13 Studenter og bilkjøring Følgende tabell er tatt fra TMA440 spørreundersøkelsen i 010. Her angir n antall studenter i utvalget som hadde sertifikat, og x antall studenter som svarte at de er bedre enn gjennomsnittet av Norges befolkning til å kjøre bil. Tallen i parentes er fra 006. x n x n Menn 35 (10) 16 (50) 0.46 (0.49) Kvinner 1 (37) (9) 0.10 (0.4) Alle 56 (139) 18 (59) 0.3 (0.4) a) Finn punktestimat og 99% konfidensintervall for andelen av studenter som synes sine kjøreegenskaper er bedre enn gjennomsnittet. b) Finn punktestimat og 99% konfidensintervall for differensen mellom andelen av mannlige studenter og kvinnlige studenter som synes sine kjøreegenskaper er bedre enn gjennomsnittet. 14 Estimering av andel: ett utvalg X er antall suksesser i et binomisk forsøk med parametere antallet n og andelen p. Vi vil estimere p. (n er kjent.) Estimator ˆp = X n (intuitiv og SME). E(ˆp) = p og Var(ˆp) = p(1 p) n. Tilnærmet (1 α)100% konfidensintervall for p (normaltilnærming): ˆp(1 ˆp) [ˆp ± z α n
15 Estimering av andel: to utvalg X A er antall suksesser i et binomisk forsøk med parametere antallet og andelen p A. X B er antall suksesser i et binomisk forsøk med parametere antallet og andelen p B. Vi vil estimere p A p B. Estimator ˆp A ˆp B = X A X B. E(ˆp A ˆp B ) = p A p B og Var(ˆp A ˆp B ) = p A(1 p A ) + p B(1 p B ). Tilnærmet (1 α)100% konfidensintervall for p A p B (normaltilnærming): [(ˆp A ˆp B ) ± z α ˆp A (1 ˆp A ) + ˆp B (1 ˆp B )
Forsikringsselskapene sluttet i 006 med å føre detaljert statistikk over kvinner og menns skaderisiko i bil. Da ble det forbudt å gi kvinner og menn forskjellig priser på sin bilforsikring.