TMA4240 Statistikk Høst 2015

Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 0, blokk II Løsningsskisse Oppgave Surhetsgrad i ferskvann Eksamen august 00, oppgave av 3 a) En god estimator er forventningsrett og har liten varians. Vi tester forventningsretthet: E[ˆµ] = E[Y ] = µ E[ µ] = E[ X + Y ] = E[X] + E[Y ] = µ + µ = µ E[µ ] = E[ 5 X + 4 5 Y ] = 5 E[X] + 4 5 E[Y ] = 5 µ + 4 5 µ = µ. Alle tre estimatorene er altså forventningsrette. Vi sammenligner variansene: Var[ˆµ] = Var[Y ] = A = 0.0 Var[ µ] = Var[ X + Y ] = Var[X] + Var[Y ] = 4 A + 4 B = 0.05 Var[µ ] = Var[ 5 X + 4 5 Y ] = 4 Var[X] + 5 5 Var[Y ] = 5 A + 6 5 B = 0.008. Her bruker vi at X og Y er uavhengige. Vi ser at µ har minst varians, og foretrekker denne som estimator for µ. b) µ er normalfordelt siden den er en lineærkombinasjon av to uavhengige normalfordelte variabler. Forventningen og variansen er beregnet i oppgave a), og gir at µ Nµ, 0.008). For å sette opp et konfidensintervall for parameteren µ tar vi som regel utgangspunkt i en estimator µ som er en stokastisk variabel), og en størrelse Z som er en funksjon av både µ og µ slik at Z også er en stokastisk variabel med kjent sannsynlighetsfordeling. Her bruker vi S = µ µ, som er standard normalfordelt. 90%-konfidensintervall for µ finnes da fra at ) 0.90 = P z 0.05 < µ µ < z 0.05 0.008 ) = P µ z 0.05 0.008 < µ < µ + z 0.05 0.008, ov0-lsf-b 5. oktober 05 Side

der z 0.05 =.645 er 5%-kvantilen i standard normalfordelingen, slik at µ.645 0.008, µ +.645 ) 0.008 = µ 0.5, µ + 0.5) er et 90%-konfidensintervall for µ. Oppgave a) Antagelser for at X er binomisk fordelt: Gjør n forsøk: Spør n personer. Registrerer suksess eller fiasko i hvert forsøk: Får svaret JA eller ikke JA nei eller vet ikke) i hvert forsøk. P suksess) lik i alle forsøk: Sannsynlighet for JA er p for alle som blir spurt. Forsøka er uavhengige: Rimelig å anta at de som blir spurt svarer uavhengig av hverandre. P X 8) = P X < 8) = P X 7) tabell = 0.965 = 0.035. P 0 < X < 5) = P X 4) P X 0) tabell = 0.584 0.048 = 0.536 b) E ˆP ) = p og Var ˆP ) = 4 n + n )p p) = 7.5 0 4 p p). EP ) = p og VarP ) = n +n p p) = 6.7 0 4 p p). Egenskaper for god estimator: forventningsrett og liten varians. Begge estimatorene er forventningsrette, men P har minst varians, vi velger derfor P. La α = 0.05. Siden ˆP p ˆP ˆP ) n er tilnærmet standardnormalfordelt og inneholder den ukjente parameteren p bruker vi dette utrykket til å sette opp intervallet; P z α < ˆP p ˆP n ˆP < z α α ) ) P ˆP z α n ˆP ˆP ) < p < ˆP + z α n ˆP ˆP ) α Et tilnærmet 95% konfidensintervall for p blir da: c) Vi har at [ ] ˆp z 0.05 n ˆp ˆp), ˆp + z 0.05 ˆp ˆp). n Y = X 3 n ˆP = X 3 n X + X = X 3 n X X. Siden n er stor og p ikke nær 0 og, vil vi ha at np > 5 og n p) > 5, slik at vi kan bruke normaltilnærming til binomisk fordeling. Vi kan dermed anta at X, X og X 3 alle er tilnærmet normalfordelt, de er uavhengige, og lineærkombinasjonen Y er dermed også tilnærmet normalfordelt. ov0-lsf-b 5. oktober 05 Side

VarY ) = VarX 3 n ˆP ) uavh. = VarX 3 ) + n Var ˆP ) = b) np p) + n np p) = np p). 3 Har da at X 3 n ˆP er tilnærmet normalfordelt VarX 3 n ˆP ) = 3 np p) EX 3 n ˆP ) = EX 3 ) ne ˆP ) = np np = 0 Vi får da et prediksjonsintervall ved: P z α < X 3 n ˆP < z α α 3 np p) ) P n ˆP 3 z α np p) < X 3 < n ˆP 3 + z α np p) α Siden n er stor, vil variansen til ˆP være liten, og ˆP være en god estimator for p. Vi kan derfor erstatte p med estimatet ˆp i uttrykket for intervallgrensene. 3 Intervallet blir: [nˆp z 0.05 nˆp ˆp), nˆp + z 3 0.05 nˆp ˆp)] Innsatt verdier blir intervallet [633, 704]. Oppgave 3 Som estimator for forskjellen µ µ kan vi bruke X Ȳ. Vi vet at ) ) X N µ, og n Ȳ N µ,. n Hvis vi hadde kjent, ville vi hatt at estimatoren X Ȳ har forventningsverdi µ µ ) og varians n + n ).) I denne oppgaven er ukjent. For å sette opp et intervall trenger vi en funksjon av X Ȳ som inneholder µ µ og som har en kjent sannsynlighetsfordeling. Ved å estimere variansen, vet vi at vi kan lage en variabel T som er t-fordelt. Vi bruker alle tilgjengelige data for å estimere variansen. Først estimerer vi i hvert sample, S = n n i= X i X) og S = n n i= Y i Ȳ ). Variansen er lik i hvert sample, så vi kan kombinere disse to uttrykkene for å finne en forventningsrett estimator for ; S pooled = n )S + n )S n + n ov0-lsf-b 5. oktober 05 Side 3

Som i oppgave tar vi utganspunkt i vår estimator en stokastisk variabel) og lager en ny stokastisk variabel T som er en funksjon av X Ȳ og µ µ, og som har en kjent sannsynlighetsfordeling; T = X Ȳ ) µ µ ). S pooled n T er t-fordelt med n frihetsgrader. Dermed kan vi skrive X Ȳ ) µ µ ) 0.95 P t α/,n < < t α/,n S pooled n = P X Ȳ ) t α/,n S pooled n < µ µ < X Ȳ ) ) + t α/,n S pooled. n Vi setter inn tallsvar og får intervallet [.9, 59.74]. Siden intervallet inneholder null har vi ved signifikansnivå 5% ikke grunnlag til å påstå at det drives kvinnediskriminering mhp lønn. Oppgave 4 a) P B) = P X < 0. 3) = P X 0. < 3) = 0.003 = 0.006 P B A) = P A B) P A) Med µ = 0. blir P B) lik: = P B) P A) = 0.006 P X<0. ) = 0.006 0.08 = 0.057 P B) = P X > 0. + 3) + P X < 0. 3) = P X 0. > 0.0 + 3) + P X 0. 0.0 3) = P X 0. > ) + P X 0. < 4) = 0.08 + 0 = 0.08 b) En god estimator er forventningsrett og har liten varians. Xi µ) < I beregningene benytter vi at er χ fordelt med n frihetsgrader. Dvs at E Xi µ) ) = n og at V ar Xi µ) ) = n. Eˆ ) = E n V arˆ ) = 4 n V ar Xi µ) ) = n E Xi µ) Xi µ) ) = 4 /n Xi X) ) = I beregningene benytter vi at er χ fordelt med n frihetsgrader. Dvs at E Xi X) ) = n og at V ar Xi X) ) = n ). ES ) = E n V ars ) = Xi X) 4 V ar n ) ) = Xi X) ) = 4 /n ) n E Xi X) ) = Både ˆ og S er forventningsrette, men ˆ har mindre varians, og er derfor å foretrekke. c) Vi velger å utlede et konfidensintervall basert på estimatoren. For å sette opp et konfidensintervall for parameteren trenger vi en estimator en stokastisk variabel), ov0-lsf-b 5. oktober 05 Side 4

og en funksjon av estimatoren og den ukjente parameteren som har en kjent sannsynlighetsfordeling. Utifra informasjonen i oppgaveteksten vet vi at den stokastiske variabelen χ = n er kji-kvadratfordelt med n frihetsgrader. Dermed kan vi sette opp intervallet ved, 0.9 = P χ 0.95,n < n < χ 0.05,n) = P χ Xi µ) 0.95,0 < < χ 0.05,0) Vi flytter om innenfor P tegnet til vi får for seg selv, Xi µ) ) 0.9 = P < Xi µ) < χ 0.05,0 χ 0.95,0 Ved å sette inn tall: X i µ) = 0.008, samt χ 0.95,0 = 0, 85 og χ 0.05,0 blir et 0.9 konfidensintervall for gitt ved 5.7 0 5, 7 0 5 ). = 3, 4, Oppgave 5 a) Vi har følgende situasjon for hver oppgavelager: Resultater for et visst antall n eller n ) deltakere blir registrert To mulig utfall: Deltakeren klarer færre enn fem oppgaver hendelse C), eller ikke dvs. klarer fem eller flere, hendelse C ). Sannsynligheten for C er lik i for hver deltaker. Resultatene for hver deltaker er uavhengige. Dette svarer til et binomisk forsøk, og Z og Z er dermed binomisk fordelte, med parametre som gitt i oppgaven. Konfidensintervall for q q : En rimelig estimator for q q er ˆq ˆq. Vi finner først fordelingen til denne. Siden vi kan anta at Z og Z er tilnærmet normalfordelte, er også ˆq og ˆq og dermed også ˆq ˆq tilnærmet normalfordelte alle disse tre estimatorene er lineærkombinasjoner av tilnærmet normalfordelte variabler). Forventningsverdien til ˆq ˆq er Variansen til ˆq ˆq er Eˆq ˆq ) = E Z n ) E Z n ) = n q n n q n = q q. Varˆq ˆq ) uavh = Var Z n ) + Var Z = ) = n n VarZ ) + n VarZ ) n n q q ) + n n q q ) = q q ) n + q q ) n. ov0-lsf-b 5. oktober 05 Side 5

Dermed er tilnærmet standard normalfordelt. For å lage konfidensintervall, bruker vi at: Z = ˆq ˆq q q ) q q ) n + q q ) n P z 0.05/ < ˆq ˆq q q ) q q ) n + q q ) n < z 0.05/ ) 0.95 Vi tilnærmer q og q i nevneren med ˆq og ˆq slik at P z 0.05/ < ˆq ˆq q q ) ˆq ˆq ) n + ˆq ˆq ) n < z 0.05/ ) 0.95 Vi løser ulikhetene slik at vi får q q i midten, som gir ˆq ˆq ) P ˆq ˆq z 0.05/ + ˆq ˆq ) < q q < n n ˆq ˆq ) ˆq ˆq + z 0.05/ + ˆq ˆq ) ) 0.95 n n Et tilnærmet 95% konfidensintervall for q q blir ˆq ˆq ) ˆq ˆq z 0.05/ + ˆq ˆq ) ˆq ˆq ), ˆq ˆq + z n n 0.05/ + ˆq ˆq ) n n Innsatt verdier får vi intervallet [0.08, 0.4]. Siden intervallet ikke inneholder 0, så gir det TV-selskapet grunn til å hevde at oppgavene har ulik vanskelighetsgrad. ov0-lsf-b 5. oktober 05 Side 6