STK1100 - Puktestimerig - Kap 7 Geir Storvik Modeller og parametre Biomisk fordelig ( ) p X (x) = p x (1 p) x x Parameter: p Normalfordelig f X (x) = 1 2πσ e 1 2σ 2 (x µ) 2 11. april 2016 Parametre: µ, σ I praksis, parametre er ukjete Øsker å estimere (aslå) parameter fra data x 1,..., x Et estimat er e fuksjo av x 1,..., x som gir et godt gjett på parametere Mulig estimat på µ er x ˆµ = X er e observator (stokastisk variabel) Statistisk iferes Eksempel støtfagere Trekke ut iformasjo om parametre fra data x 1,..., x Puktestimerig: Ekleste form for iferes Adre typer: Usikkerhetsaslag, kofidesitervaller, hypotesetestig Geerelt: Øsker å estimere parameter θ Puktestimat: Tall som ka betraktes som e rimelig verdi på θ. Oppås ved å velge e passede observator og berege des verdi basert på isamlede data. De valgte observator kalles e puktestimator for θ. Eksempel: Levetider for = 3 batterier observert: x1 = 5.0, x 2 = 6.4, x 3 = 5.9 θ = µ = E(X) av iteresse: Puktestimator: ˆθ = ˆµ = X Puktestimat: x = 5.77 Ny type støtfager produsert Testet på 25 biler, kotrollert krasj med 10mph X = atall biler med ige sylige skader (observert x = 15) p = adel krasj som resulterer i ige skader av populasjo av samme type biler Estimator: ˆp = X Estimat: x = 15 25 = 0.60
Eksempel speigsmåliger Egeskaper estimatorer for µ Data på speig som gir feil på elektriske kompoeter 24.46 25.61 26.25 26.42 26.66 27.15 27.31 27.54 27.74 27.94 27.98 28.04 28.28 28.49 28.50 28.87 29.11 29.13 29.50 30.88 Rimelig modell (sek 4.6): N(µ, σ) Mulige estimatorer for µ Gjeomsitt: X, estimat= x = 27.793 Media: X = Media{X1,..., X }, estimat (27.94 + 27.98)/2 = 27.960 Middel av ekstremverdier: X e = [mi(x i ) + max(x i ]/2, estimat (24.46 + 30.88)/2 = 27.670 Trimmet 10% gjeomsitt: X tr = Gjeomsitt år 10% mist og 10% største er tatt vekk, estimat: 27.838 Alle ka argumeteres er rimelige, dvs mage mulige. Hvilke er best? Ka ikke si oe om hvilke som er ærmest µ Ka si oe om hvilke som oppfører seg best uder gjetatte forsøk E estimator ˆθ er forvetigsrett for θ hvis E(ˆθ) = θ. Proposisjo Hvis X 1,..., X er et tilfeldig utvalg fra e fordelig med E(X i ) = µ så er X e forvetigsrett estimator for µ Hvis fordelige er symmetrisk om µ så er også X og X tr forvetigsrette estimatorer for µ X e oe mer problematisk da E(X e ) ikke ødvedigvis eksisterer Estimatorer for σ 2 Forvetet kvadratisk feil Eksempel: Levetid for mus som går på kallori-begreset diett: 716 1144 1017 1138 389 1221 530 958 To mulige estimatorer for σ 2 = V (X): ˆσ 2 = 1 1 σ 2 = 1 (X i X) 2 Estimat : 95.315 (X i X) 2 Estimat : 83.401 Hvilke best i dette tilfellet? Ka vise: ˆσ 2 er forvetigsrett. Mål på kvalitet: MSE(ˆθ) = E[(ˆθ θ) 2 ] Matematisk bekvem (alterativ: E( ˆθ θ ). Geerelt: ˆθ ka ha forvetig θ. MSE(ˆθ) =E[(ˆθ E(ˆθ) + E(ˆθ) θ) 2 ] =E[(ˆθ E(ˆθ)) 2 ] + E[(E(ˆθ) θ) 2 ]+ 2E[(ˆθ E(ˆθ))(E(ˆθ) θ)] = V (ˆθ) + }{{} (E(ˆθ) θ) 2 }{{} Varias (Forvetigsskjevhet) 2
Skyte på blik Eksempel Biomisk fordelig X Biom(, p) p = P(Suksess) av iteresse Naturlig estimator: ˆp = X E(X) = p, V (X) = p(1 p) E(ˆp) = p, V (X) = p(1 p)/ Forvetigsskjevhet: E(ˆp) p = 0 MSE(ˆp) = V (ˆp) = p(1 p)/. Eksempel Biomisk fordelig (forts) ˆp = X Alterativ: p = X+2 +4 Begruelse: X X 0.5 0.5 =, X+2 X 0.5 0.5 = +4 +4 ( Alterativ ) ærmere p for p 0.5. X+2 E +4 = p+2 +4 = +4 p + 2 +4 (forvetigsskjev) MSE( p) = ( p(1 p) +8+16/ + 2/ 4p/ 1+4/ ) 2 Forvetigsrette estmatorer Defiisjo E puktestimator ˆθ sies å være e forvetigsrett estimator for θ hvis E(ˆθ) = θ for ehver verdia v θ. Hvis ˆθ ikke er forvetigsrett, kaller vi differase E(ˆθ) θ for forvetigsskjevhete til ˆθ Merk: Ma behøver ikke kjee θ for å fie ut om e estimator er forvetigsrett X er forvetigsrett for µ for alle verdier av µ! ˆp = X/ er forvetigsrett for p for alle verdier av p! Øsker ofte at ˆθ er forvetigsrett!
Eksempel Ata X 1,..., X er UIF Uiform[0, θ]. La ˆθ b = max(x 1,..., X ) Ka vise: E(ˆθ b ) = ˆθu = +1 +1 θ ˆθ b er forvetigsrett! Estimerig av σ 2 S 2 = 1 [ 1 (X i X) 2 = 1 1 X i 2 E(S 2 ) = 1 1 = 1 1 = 1 1 = 1 1 ] ( X i ) 2. ( ) 2 E(X i ) 2 1 E X i { [ ]} (V (X i ) + (E(X i ) 2 ) 1 V ( X i ) + E( X i ) { (σ 2 + µ 2 ) 1 [ σ 2 + (µ) 2 ) ]} { σ 2 + µ 2 σ 2 µ 2 ) } = σ 2 dvs S 2 er e forvetigsrett estimator for σ 2 Merk: E ( 1 (X i X) 2) = 1 σ2 < σ 2 Varias og MSE for ˆσ 2 Estimatorer med miimum varias ˆσ 2 = S 2 = 1 1 (X i X) 2 er forvetigsrett. Må gjøre tilleggsatagelser for å si oe om ytterligere egeskaper Hvis X 1,..,, X N(µ, σ 2 ): MSE(ˆσ 2 ) = V [ˆσ 2 ] = 2σ4 1 Ka kostruere estimat med midre MSE ˇσ 2 = 1 (X i X) 2 +1 Er ikke legre forvetigsrett Ata ˆθ 1 og ˆθ 2 er to estimatorer for θ med E(ˆθ i ) = θ for i = 1, 2 Hvilke bør vi velge? Prisipp: Bladt alle estimatorer for θ som er forvetigsrette, velg de som har mist varias. Dee ˆθ kalles de miimum varias forvetigsrette estimator (MVUE) for θ. Side MSE = Varias + (Forvetigsskjevhet) 2, så er ˆθ også de som gir mist MSE bladt alle forvetigsrette estimatorer
MVUE for µ uder N(µ, σ 2 ) Komplikasjoer Teorem. La X 1,..., X være UIF fra N(µ, σ 2 ). Da er ˆµ = X MVUE for µ Hvis det er rimelig å ata at data er ormalfordelte: Bruk X som estimator for µ. Ata X 1,..., X er uif 3 mulige fordeliger: f 1 (x) = 1 2πσ e (x θ)2 /(2σ 2), x R f 2 (x) = 1 π[1+(x θ) 2 ], x R f 3 (x) = 1 2c, c x θ c Normal Cauchy Uiform Alle symmetriske, θ media i alle fordeliger θ = E(X) for f 1 og f 3, E(X) eksisterer ikke for f 2! Sett tidligere på X, X, X e, X tr Hvorda oppfører disse seg uder de ulike fordeliger? Komplikasjoer - forts Eksempel sesurerig Ata levetid på kompoet Exp(λ), µ = 1/λ Hvis ormal: Alle forvetigsrette, me X er best! Hvis Cauchy: X og X e er svært dårlige, mes X er gaske god. Hvis uiform: Alle forvetigsrette, me X e er best X tr er ikke best i oe av tilfellee me fugerer rimelig godt i alle tilfeller. X tr er e robust estimator I praksis: Ser ofte på data gjeom histogram, sasylighetsplott Luker vekk outliere Svarer omtret til trimmet gjeomsitt! Totalt kompoeter med levetider X 1,..., X Forsøk: Observerer levetider til r < feiler r kompoeter eå ikke feilet. La Y 1 = tid for første feil, Y 2 = tid for 2. feil osv Total akkumulert levetid for kompoeter er T r = r Y i + ( r)y r Er ˆµ = T r /r e mulig estimator for µ? To egeskaper ved ekspoesiell fordelig: Hukommelsesløs: P(X > t0 + t X > t 0 ) = P(X > t) mi(x1,..., X k ) Exp(kλ).
Eksempel sesurerig - forts Rapporterig av puktestimat T r = r Y i + ( r)y r Alle kompoeter varer til Y 1, 1 varer til Y 2 osv: T r = Y 1 +( 1)(Y 2 Y 1 )+( 2)(Y 3 Y 2 )+ +( r+1)(y r Y r 1 ) Y 1 er de miste av X 1,..,, X, så E(Y 1 ) = 1/(λ) Y 2 Y 1 er miste av 1 gjeværede levetider, E(Y 2 Y 1 ) = 1/[( 1)λ] E(Y i+1 Y i ) = 1/[( i)λ] E[T r ] = 1 λ + ( 1) 1 ( 1)λ + + ( r + 1) 1 ( r+1)λ = r λ ˆµ = T r /r er forvetigsrett for µ! Bør rapportere presisjo (usikkerhet) i tillegg til estimat Stadard feile til e estimator ˆθ er dets stadardavvik σˆθ V = (ˆθ). Hvis stadardfeile ivolverer ukjete parametre som ka estimateres, så vil estimatet på σˆθ isatt de estimerte verdier gi estimert stadardfeil ˆσˆθ eller sˆθ Eksempel: uif X1,..., X N(µ, σ 2 ) ˆµ = X har stadardfeil σ ˆµ = σ/ Estimert stadardfeil er s/ der s 2 = 1 1 (x i x) 2 Eksempel speigsmåliger Eksempel støtfagere Data på speig som gir feil på elektriske kompoeter 24.46 25.61 26.25 26.42 26.66 27.15 27.31 27.54 27.74 27.94 27.98 28.04 28.28 28.49 28.50 28.87 29.11 29.13 29.50 30.88 Rimelig modell (sek 4.6): N(µ, σ) x = 27.793, s = 1.462 Stadardfeil: σˆµ = σ X = σ/ Hvis σ = 1.5 er kjet: σ ˆµ = 1.5/ 20 = 0.335 Hvis σ er ukjet: ˆσ = s = 1.462, ˆσX = 1.462/ 20 = 0.327 Ny type støtfager produsert Testet på 25 biler, kotrollert krasj med 10mph X = atall biler med ige sylige skader (observert x = 15) X Biom(, p) ˆp = X/, σˆp = p(1 p)/ p ukjet, ˆp = 0.6 ˆσˆp = ˆp(1 ˆp)/ = 0.098 Merk: σˆp 0.5(1 0.5)/ = 0.10
Bruk av setralgreseteoremet Alterativ til setralgreseteorem - Simulerig Begge eksempler: Gjeomsitt av mage observasjoer X = 1 X i direkte ˆp = X = 1 X i der X i er Beroulli variable Setralgreseteoremet: ˆθ N(θ, σ 2ˆθ ) P(θ 2σˆθ ˆθ θ + 2σˆθ) =P( 2 ˆθ θ σˆθ P( 2 Z 2) 2) =P(Z 2) P(Z 2) =Φ(2) Φ( 2) = 0.9772 0.0228 = 0.9546 Stokastiske variable X 1,..., X F der F er de kumulative fordeligsfuksjo θ ukjet parameter, ˆθ = ˆθ(X) estimator Spørsmål: Er ˆθ forvetigsrett Hva er usikkerhete til ˆθ? Fordeligsegeskaper til ˆθ? Svar avhegig av F som ofte er ukjet Delvis ukjet gjeom at e atar Xi N(µ, σ 2 ) me µ, σ ukjete Helt ukjet gjeom at ikke egag forme på fordelige er kjet. Tilærmiger: Setralgreseteoremet: ˆθ tilærmet ormal Hvis setralgreseteoremet ikke holder: Ka bruke simulerig/bootstrappig Eksempel X i, i = 1,..., er levetidee til kompoeter 41.53 18.73 2.99 30.34 12.33 117.52 73.02 223.63 4.00 26.78 Ata X i Exp(λ), E(X i ) = 1/λ Estimator: ˆλ = 1/ X, Estimat: 1/55.087 = 0.018153 Varias til ˆλ: Variasjoe i ˆλ ved gjetatte eksperimeter der vi samler i = 10 observasjoer i hvert eksperimet. Mulig metode for å fie varias: Repetere eksperimet mage gager Problem: Vaskelig å repetere eksperimet i praksis. Løsig: Simulere eksperimet på datamaski MATLAB : = 10; B = 1000; mu = 1/ lambda ; for b=1:b x s t a r = exprd (mu, 1, ) ; lambdasim ( b ) = 1/mea( xstar ) ; ed SE=sqrt ( var ( lambdasim ) ) Merk: Må kjee λ! Bootstrappig - eksempel Hovedide: Side λ er ukjet, bruk ˆλ: x = [41.53 18.73 2.99 30.34 12.33 117.52 73.02 223.63 4.00 2 6. 7 8 ] ; = 10; mu_hat = mea( x ) lambda_hat = 1/ mu_hat B = 1000; lambdasim = zeros (1,B ) ; for b=1:b x s t a r = exprd ( mu_hat, 1, ) ; lambdasim ( b ) = 1/mea( xstar ) ; ed SE = sqrt ( var ( lambdasim ) ) 5 kjøriger av disse komadoee gir stadard feil verdiee 0.00695 0.00699 0.00727 0.00689 0.00685 E økig av B til 10000 ga tallee 0.00710.00708 0.00694 0.00734 0.00702 To kilder til usikkerhet: Usikkerhet i de opprielige observasjoer x1,..., x Usikkerhet i våre simuleriger I praksis: Usikkerhet i simuleriger svært små
Parametrisk Bootstrappig - geerell idé Ikke-parametrisk Bootstrappig Ata X 1,..., X uif F (x; θ), observert x 1,..., x Estimer F (x; θ) med F(x; ˆθ) der ˆθ er estimat på θ basert på x 1,..., x. 1. Repeter for b = 1,..., B 1.1 Simuler x1,..., x uif fra F (x; ˆθ) 1.2 Sett θ b = ˆθ(x ) der x = (x1,..., x ) 2. Estimer σ ˆθ ved 1 B B 1 b=1 (θ b θ ) 2 der θ = 1 B B b=1 θ b. Vi kaller dette Parametrisk bootstrappig da vi bruker de parametriske forme på F (x; θ). Ata X 1,..., X uif F (x), vet igetig om F (x). F(x) = P(X x). Mulig estimat: F (x) = Atall x i x = 1 (#x i x) = 1 I(x i x) F(x) diskret sasylighetsfordelig med P(X = xi ) = 1 for i = 1,...,. Svarer til å trekke fra {x1,..., x } med tilbakeleggig Eksempel - Ikke-parametrisk Bootsrappig Observasjoer 41.53 18.73 2.99 30.34 12.33 117.52 73.02 223.63 4.00 26.78 MATLAB kode: x = [41.53 18.73 2.99 30.34 12.33 117.52 73.02 223.63 4.00 2 6. 7 8 ] ; = 10; B = 1000; lambdasim = zeros (1,B ) ; for b=1:b x s t a r = radsample ( x,, t r u e ) ; lambdasim ( b ) = 1/mea( xstar ) ; ed SE = sqrt ( var ( lambdasim ) ) 5 gjetatte kjøriger av disse kommadoee ga stadard feil 0.01001 0.00995 0.01024 0.01008 0.00984 Stadardfeil har økt oe.