TMA4240 Statistikk Høst 2016

Norges tekisk-aturviteskapelige uiversitet Istitutt for matematiske fag Abefalt øvig 8 Løsigsskisse Oppgave 1 a) Simuler 1000 datasett i MATLAB. Hvert datasett skal bestå av 100 utfall fra e ormalfordelig med forvetigsverdi 5 og stadardavvik 2. Løsig: sample_size=100; umber_of_samples=1000; mu=5; %forvetig sigma=2; %stadardavvik sample_matrix=ormrd(mu,sigma,sample_size,umber_of_samples); b) Reg ut gjeomsittsverdie av alle de 1000 datasettee. Lag et histogram basert på gjeomsittsverdiee du har reget ut. Mier forme på histogrammet om forme til e ormalfordelig? Var dette forvetet? Forklar. Løsig: sample_matrix_mea=mea(sample_matrix); hist(sample_matrix_mea); xlabel( Gjeomsittsverdier ); ylabel( Frekves ); title( Gjeomsittsverdier fra e ormalfordelig ); figure ormplot(sample_matrix_mea); title( Normal kvatil-kvatil plott for gjeomsittsverdiee ); Fra Figur 3 ser vi at gjeomsittsverdiee mier om e ormalfordelig og dette støttes av kvatil-kvatil plottet i Figur 2. Dette er forvetet side vi vet fra setralgreseteoremet at fordelige til X er N(5; 4/1000) og at e lieær kombiasjo av ormalfordelte variabler også er ormalfordelt. c) Gjør det samme som i a), me å skal utfallee komme fra e biomisk fordelig med parametre N = 5,p = 0.2 og utvalgsstørrelser = 2, 5, 10, 20, 50, 100. Løsig: ab8-lsf-b 26. september 2016 Side 1

250 Gjeomsittsverdier fra e ormalfordelig 200 Frekves 150 100 50 0 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 6 Gjeomsittsverdier Figur 1: Histogram av gjeomsittsverdiee reget fra 1000 utvalg av størrelse 100 fra ormalfordelige med forvetig 5 og stadardavvik 2 0.999 0.997 0.99 0.98 0.95 0.90 Normal kvatil kvatil plott for gjeomsittsverdiee Probability 0.75 0.50 0.25 0.10 0.05 0.02 0.01 0.003 0.001 4.4 4.6 4.8 5 5.2 5.4 5.6 Data Figur 2: Normal kvatil-kvatil plott av gjeomsittsverdiee reget fra 1000 utvalg av størrelse 100 fra ormalfordelige med forvetig 5 og stadardavvik 2 ab8-lsf-b 26. september 2016 Side 2

=[2 5 10 20 50]; umber_of_sizes=legth(); Sample = 1000; N = 5; p = 0.2; for :umber_of_sizes bi_sample_mea = mea(biord(n,p,(i),sample)); samplesize_strig=um2str((i)); figure hist(bi_sample_mea); xlabel( Gjeomsitt ); ylabel( Frekves ); title([ Biomisk fordelig med =,samplesize_strig]); ed d) Hvilke av simulerigee gir et histogram som liger e ormalfordelig? Bruk setralgreseteoremet til å forklare resultatet du får. Løsig: Vi ser fra histogrammee i Figur 4 at de liger på e ormalfordelig allerede ved utvalgsstørrelse = 20. Vi vet fra setralgreseteoremet at hvis utvalgsstã rrelse er stor ok ka vi tilærme fordelige med e ormalfordelig. Vårt resultat her viser at de biomiske fordelige ka tilærmes godt med e ormalfordelig for utvalgsstørrelser så små som 20. R = mea(biord(5,0.2,50,1000)) ormplot(mea(r)) Oppgave 2 a) Variase til utvalgsgjeomsittet er ( ) ( Var( X) 1 ) = Var X i = 1 2 Var X i = 1 2 Var(X i ) = 1 2 σ 2 = 1 2 σ2 = σ2. Sasylighetstetthetsfuksjoe til ormalfordelige er gitt på s. 25 i Tabeller og formler i statistikk som f(x) = 1 ( exp 1 (x µ) 2πσ 2 σ 2, slik at vi har f(µ) = 1 ( exp 1 ) 2πσ 2 0 σ 2 = 1 e 0 = 1. 2πσ 2πσ ab8-lsf-b 26. september 2016 Side 3

Figur 3: Normalkvatilplott av et utvalg med 50 datapukter trukket fra Bi(5,0.2)- fordelige. Dette gir at hvilket skulle vises. Var( X) = 1 4 ( f(µ) ) 2 = 1 ( ) 2 = πσ2 4 1 2 = π Var( X), 2 2πσ Når vi skal velge mellom to estimatorer som begge er forvetigsrette, velger vi alltid de med mist varias. Side π 2 1.57 > 1 har vi Var( X) > Var( X), som betyr at vi foretrekker å bruke X som estimator for µ. b) På gru av de to tydelige outliere på oppside, kommer mediae X til å være midre e utvalgsgjeomsittet X (for disse dataee er X = 171.0 mes X = 175.3). Vi har atatt at rekruttees høyder er ormalfordelte. Utfra histogrammet ser det ut til at gjeomsittet ligger rudt 170 cm. I så fall er sasylighete for at to av de tretti datapuktee er større e 235 cm eglisjerbar, så de ekstreme verdiee til disse to datapuktee skyldes atakelig e feil hos rekrutte som fylte i dataee i regearket ikke spesielt usasylig, gitt det gulede papiret og falmede blekket. Side utvalgsgjeomsittet er følsomt for outliere, mes utvalgsmediae ikke er det, gir mediae et bedre estimat e gjeomsittet i dette tilfellet. Amerkig vedrørede dataee Datasettet i dee oppgave er aturligvis fiktivt. Histogrammet er laget for 28 datapukt trukket tilfeldig fra e ormalfordelig med forvetigsverdi 166 cm (litt lavere ab8-lsf-b 26. september 2016 Side 4

Figur 4: Gjeomsittsverdier for 1000 utvalg fra biomisk fordelig med p = 0.2, N = 5, utvalgsstã rrelser = 2, 5, 10, 20, 50, 100 ab8-lsf-b 26. september 2016 Side 5

e gjeomsittshøyde for 1878, som er 169.5 cm) og stadardavvik 7 cm, og med to outliere på 239 cm og 251 cm (høyde til verdes høyeste ma). Når X N(166, 7 så er P (X 239) = 9 10 26. Oppgave 3 a) For å rege ut P (L A beytter vi regele for sasylighet for komplemetære hedelser: P (L A + P (L A = 1 P (L A = = 1 P (L A = 1 0.2 = 0.8 For å rege ut P (L) bruker vi setige om total sasylighet. Vi vet at A 1, A 2, A 3 er e partisjo av utfallsrommet (det ser vi lett av vediagrammet). P (L) = P (L A 1 ) + P (L A + P (L A 3 ) = P (L A 1 ) P (A 1 ) + P (L A P (A + P (L A 3 ) P (A 3 ) = 0.05 0.1 + 0.2 0.4 + 0.6 0.5 = 0.385 b) Betigelser for at X er biomisk fordelt: Vi spør persoer. For hver perso registerer vi om persoe lyver eller ikke lyver (to komplmetære hedelser). Sasylighete for at e tilfeldig valgt perso lyver er p, og dee er de samme for alle de persoee vi spør. De persoee vi spør svarer uavhegig av hveradre ( uavhegige forsøk). Uder disse 4 betigelsee er X= atall persoer som lyver biomisk fordelt med parametere og p. Dermed er sasylighetsfordelige til X gitt ved puktsasylighete f(x), ( ) f(x) = p x (1 p) x, x = 0, 1,..., x Vi vet at da er forvetige til X E(X) = p og variase Var(X) = p(1 p). Videre: vi har at p = 0.2, og = 20. P (X = 4) fier vi ved å sette i X = 4 i puktsasylighete f(x) over. ( ) 20 P (X = 4) = f(4) = 0.2 4 (1 0.2) 20 4 = 0.218 4 Det er også mulig å fie P (X = 4) ved tabelloppslag (s 17 i formelsamlige), P (X = 4) = P (X 4) P (X 3) = 0.630 0.411 = 0.219 Sasylighete P [(X 2) (X > 5)] fier vi eklest ved tabelloppslag (s 17 i formelsamlige), P [(X 2) (X > 5) = P (X 2) + P (X > 5) = (X 2) + 1 P (X 5) = 0.206 + 1 0.804 = 0.402 ab8-lsf-b 26. september 2016 Side 6

c) Nå er p ukjet. Først forvetig: E(ˆp) = E( X ) = 1 E(X) = 1 p = p E(p X ) = E( 1 ) = 1 1 E(X) = 1 1 p = 1 p Vi ser videre på varias: Var(ˆp) = Var( X ) = 1 2 Var(X) = 1 p(1 p) p(1 p) = 2 Var(p X ) = Var( 1 ) = 1 ( 1) 2 Var(X) = 1 p(1 p) p(1 p) = ( 1) 2 ( 1) 2 E god estimator ˆp er e estimator som er forvetigsrett, dvs. E(ˆp) = p, og har lite varias, dvs. Var(ˆp) er lite. Vi liker veldig godt hvis variase miker år atall observasjoer som estimatore er basert på øker. Sammeliger vi to estimatorer som begge er forvetigsrette velger vi estimatore med mist varias. Sammeliger vi to estimatorer der ku de ee er forvetigsrett, velger vi gjere de estimatore som er forvetigsrett (ofte sjekker vi også at det ikke er veldig stor forskjell på variasee). For å velge mellom ˆp og p ser vi på uttrykkee for forvetig og varias til begge estimatoree. Vi ser at ˆp er forvetigsrett, me det er ikke p. I prisippet ka vi stoppe her og kokluere med at vi foretrekker de forvetigsrette estimatore ˆp. Me, det ka være fit å sjekke at det ikke er stor forskjell på variase til de to estimatoree (hva hvis de ee hadde hatt to gager så stor varias?). Vi ser at Var(ˆp) = ( ( 1) )2 Var(p ), dvs. Var(ˆp) < Var(p ) med e faktor ( 1 )2 i forskjell. For = 20 er dee faktore ( 19 20 )2 = 0.95 2 = 0.9, dvs. Var(ˆp) = 0.9 Var(p ). Dermed har estimatore Var( ˆp) både mist varias og er forvetigsrett. Vi velger derfor estimatore ˆp. Kommetarer: Asymptotisk (år ) vil de to estimatoree være like gode. Vi har i vårt pesum ikke sakket om begrepet kosistete estimatorer, me begge disse estimatoree er kosistete. Oppgave 4 ab8-lsf-b 26. september 2016 Side 7

a) Setig om forvetig til fuksjoer av stokastiske variable gir at E( Y ) = = = 0 0 y 1/2 f(y)dy v 2 v 2 Γ( v y 2 1 e y 2 dy y 1/2 1 1 v+1 0 2 v 2 Γ( v 2 1 e y 2 dy 2 )y = 2 v+1 2 Γ( v+1 1 2 v 2 Γ( v = 2Γ( v+1 Γ( v 0 2 v+1 2 Γ( v+1 y v+1 2 1 e y 2 dy TMA4240 Statistikk side itegrade i est siste uttrykk ovefor er e sasylighetstetthet (til e kjikvadratfordelt variabel med v + 1 frihetsgrader). b) Bruker vi resultatet i forrige pukt med v = 1 følger det at S E 2 ( 1) 1 2Γ( 2 σ 2 = ES = ) σ Γ( 1. Altså er σ 2Γ( ES = 2 ) 1 Γ( 1 slik at S ikke er forvetigsrett for σ. E forvetigsfeilkorrigert, forvetigsrett estimator av σ er dermed ˆσ = S 1 1 Γ( 2Γ( = Γ( 1 2Γ( (X i X) 2. På tilsvarede måte som i pukt a) ka e mediarett estimator for σ utledes med utgagspukt i samme pivotale stã rrelse. Vi vet at ( S ( 1) P < χ 2 1/2, 1 = 1/2. σ 2 Omskrivig av ulikhete gir at ( P S 1 χ 2 1/2, 1 < σ ) = 1/2, som i følge defiisjo av mediaretthet betyr at 1 σ = S χ 2 = 1 1/2, 1 χ 2 1/2, 1 er mediarett for σ. (X i X) 2 ab8-lsf-b 26. september 2016 Side 8