Estimerig 1 -Puktestimerig Dekkes av kap. 8, 9.1-9.3 og 9.15/9.14. Vi har til å settpå e rekke forskjellige sasylighetsfordeliger og sett hvorda disse ka brukes til å modellere mage forskjellige typer feome. Vi har bl.a. sett på hvorda vi ka rege på sasyligheter for ulike utfall, rege ut forvetigsverdi, stadardavvik/varias, etc. E gruleggede forutsetig vi har gjort hele veie er at vi på ett eller aet vis har kjet de eksakte sasylighetsfordelige til feomeet vi har sett på -dvsatvibåde har kjet de eksakte type fordelig og de aktuelle parameterverdiee. I praksis er ofte ikke dette tilfellet - spesielt vil parameterverdiee typisk være ukjete! (Vi skal fortsatt ata at vi er i stad til å agi e (oelude) korrekt type fordelig.) Estimerig hadler om åaslå verdie på ukjete parameterverdier ut fra observerte data. 1
Eksempel: Levetide til e bestemt type kretskort atas ekspoesialfordelt. Vi har observert at levetide for seks slike kort ble hhv 612, 1009, 95, 1303, 599, og 780. Hva forteller dette oss om verdie på parametere i ekspoesialfordelige? Dvs om forvetet levetid? Eksempel: Atall ulykker per år på e oljeplattform atas Poissofordelt. De siste fem åree har det blitt registrert hhv 5, 8, 12, 7og13ulykker. Hvafortellerdetteossom parametere λ i Poisso-fordelige? Dvs om forvetet atall ulykker per år/itesitete? 2
Noe grubegrep Ata at vi har observasjoer/data X 1,...,X fra et feome som er beskrevet ved e sasylighetsfordelig f(x; θ). Verdie på parametere er ukjet. Dersom observasjoee X 1,...,X er uavhegige og idetisk fordelte (u.i.f.) ka de brukes til åaslå de ukjete parametere θ. Observasjoee er idetisk fordelte dersom alle har samme sasylighetsfordelig f(x; θ) (med samme parameter). Observasjoee er uavhegige dersom simultafordelige ka skrives f(x 1,...,x )=f(x 1 ) f(x )-vili praksis si at iformasjo om verdie på eav observasjoee ikke påvirker sasylighetsfordelige til de øvrige. At observasjoer er u.i.f. vil si det samme som at de er et tilfeldig utvalg (e tilfeldig valgt delmegde) av alle tekelige mulige observasjoer av feomeet som ka gjøres. Alle tekelige mulige observasjoer kalles populasjoe, og hvorda de fordeler seg er 3
beskrevet ved sasylighetsfordelige f(x; θ). De typiske problemstillige er at vi basert på iformasjoe i et tilfeldig utvalg, X 1,...,X, øsker å si oe om hele populasjoe, f.eks. i form av åaslå parametere θ. Eksempel: Levetid kretskort. Populasjoe er levetide til alle tekelige kretskort av de aktuelle type. Vi atar (basert på tidligere erfarig med dee type feome) at dee populasjoe ka beskrives ved e ekspoesialfordelig. Parametere i ekspoesialfordelige er ukjet. Dersom observasjoee våre, X 1,...,X, er u.i.f., dvs et tilfeldig utvalg fra populasjoe av levetider, ka vi fra disse aslå, eller estimere parametere. Dersom X 1,...,X ikke er u.i.f./tilfeldig utvalg, f.eks. dersom vi ku bruker observerte levetider som er større e 1000, ka ikke observasjoee ute videre brukes til å estimere de ukjete parameterverdie. 4
Estimatorer Defiisjo: E estimator er e fuksjo av stokastiske variable som brukes til åaslåe ukjet parameterverdi. Eksempel: Tre valig brukte estimatorer er: ˆμ = X = 1 X i ˆσ 2 = S 2 = 1 1 (X i X) 2 ˆp = X for hhv forvetigsverdi μ og varias σ 2 i ormalfordelig, og p i biomisk fordelig. Det er valig å bruke gjeomsittet til å estimere forvetigsverdier også i adre fordeliger. F.eks. dersom T 1,...,T er u.i.f. ekspoesial med forvetig β er det rimelig å estimere β med ˆβ = 1 T i. 5
Merk: Estimatorer beteger vi med store bokstaver (=før eksperimetet er utført). Isatt observerte tallverdier, f.eks. x 1,...,x, (=etter eksperimetet er utført) ka vi rege ut et estimat, f.eks. ˆμ = x eller ˆp = x/. Estimatorer er altså stok. var. mes estimat er tallsvar. Eksempel: Levetid kretskort. Estimatore vi bruker til åaslå de ukjete parametere β i ekspoesialfordelige er ˆβ = 1 T i. Etter at vi har observert dataee 612, 1009, 95, 1303, 599, og 780 ka vi rege ut estimatet ˆβ = 1 6 6 t i = 733. 6
Egeskaper til estimatorer Defiisjo: E estimator ˆθ er e forvetigsrett estimator for e parameter θ dersom: E(ˆθ) =θ Eksempel: Når vi bruker estimatore ˆβ = 1 T i for β i ekspoesialfordelige får vi: E( ˆβ) =E( 1 T i )= 1 E(T i )= 1 Dvs ˆβ = 1 T i er forvetigsrett. β = β Geerelt øsker vi gjere at e estimator ˆθ oppfyller 1. E(ˆθ) =θ 2. Var(ˆθ) mist mulig Dersom vi har flere forvetigsrette estimatorer å velge mellom bruker vi de med mist varias (se øvig 4). 7
Eksempel: Basert på u.i.f. observasjoer X 1,...,X øsker vi å estimere forvetigsverdie, μ. To forslag til estimatorer: ˆμ = X og μ = X. Hvilke er best? E(ˆμ) = 1 E(X i )= 1 μ = μ (alltid) E( μ) = μ (dersom symmetrisk fordelig) Dvs har vi e symmetrisk fordelig, f.eks. ormal, uiform e.l., ka begge brukes. Har vi e usymmetrisk fordelig, f.eks. ekspoesial, gamma, Weibull, etc., bør vi bruke gjeomsittet. Var(ˆμ) = 1 2 Var(X i )= 1 2 σ 2 = σ2 Det ka vises at for ormalfordelig er Var(ˆμ) < Var( μ). Dvs for ormalfordelte data er det best å bruke gjeomsittet (me for adre symmetrisk fordeliger ka mediae være bedre). 8
Sasylighetsmaksimerigsestimator (SME), 9.15 (Maximum likelihood estimator, MLE). X 1,...,X u.i.f. f(x; θ). Hvorda geerelt fie e estimator for θ? Noe gager ka vi fie gode estimatorer fra su foruft /ituisjo, adre gager er dette verre. Hvorda skal vi f.eks. estimere parametree α og β i gamma- eller Weibullfordelige? Eksempel: X 1,...,X u.i.f. parameter λ, ogt =1,dvs Poisso med f(x; λ) = λx x! e λ, x =0, 1, 2,... Ut fra observerte data X 1 = x 1,...,X = x øsker vi åestimereλ. Ide: Velg de verdie på λ som gjør det mest sasylig å observere det vi faktisk har observert! 9
P (observere det vi har observert) = P (X 1 = x 1 X = x ) = f(x 1,...,x ; λ) uavh. = f(x 1 ; λ) f(x ; λ) = = λ x 1 e λ λx x 1! x! e λ λ x 1+ +x x 1! x! e λ Vi øsker å fie de λ som maksimerer f(x 1,...,x ; λ). Triks: Det blir este alltid eklere regig ved å først ta logaritme: l(f(x 1,...,x ; λ)) ( ) λ x i = l x 1! x! e λ = l(λ x i ) l(x 1! x!) + l(e λ ) = ( x i )l(λ) l(x 1! x!) λ 10
l(f(x 1,...,x ; λ)) λ = ( x i ) 1 λ 0 =0 λ = 1 ( x i ) Dvs SME for λ blir: ˆλ = 1 X i = X. For eksemplet med ulykker på oljeplatform får vi estimatet ˆλ = 1 5 (5+8+12+7+13)=9. Notasjo: L(λ) = f(x 1,...,x ; λ) l(λ) = l(l(λ)) der L(λ) kalles likelihoodfuksjoe og l(l(λ)) kalles log-likelihoodfuksjoe. Merk: L(λ)ogl(λ) har samme maksimumspukt side l( ) er e stregt voksede fuksjo. Vi bør også sjekke at vi har fuet et maksimumspukt (og ikke et miimumspukt) ved å sjekke at 2 l(λ) λ < 0forλ = ˆλ. 2 I eksemplet: 2 l(λ) λ 2 = x i λ 2 < 0, dvs OK!. 11
SME geerelt: X 1,...,X u.i.f. f(x; θ). 1. Defier likelihood-fuksjoe: L(θ) = f(x 1,...,x ; θ) 2. Ta l(): uavh. = f(x 1 ; θ) f(x ; θ) = l(θ) = l[l(θ)] = 3. Deriver m.h.p. θ: θ l(θ) = f(x i ; θ) l[f(x i ; θ)] θ l[f(x i; θ)] 4. Sett de deriverte lik ull og løs mhp θ: 5. Sjekk at: θ l(θ) =0 gir ˆθ 2 θ 2 l(θ) < 0 for θ = ˆθ 12
Eksempel: X 1,...,X u.i.f. fra fordelig med tetthet f(x; θ) = θ,x>1 Fi e estimator for θ: L(θ) = f(x i ; θ) = x θ+1 θ x θ+1 i l(θ) = ll(θ) = l(θ) (θ +1)l( = l(θ) (θ +1) = l(x i ) l (θ) = θ l(x i )=0 ˆθ = l(x i) θ ( x i) θ+1 x i ) Sjekk: l (ˆθ) = ṋ θ 2 < 0 dvs maksimum. Med observerte data 12.0, 11.2, 13.5, 12.3, 13.8 og 11.9 får vi estimatet: ˆθ = 6 6 l(x i) =0.397. 13
Usikkerhet i estimatet: E (pukt-)estimator ˆθ gir oss et aslag på e ukjet parameterverdi, me gir oss ikke oe direkte iformasjo om usikkerhete i aslaget. Ka vi ata at de estimerte verdie vi har fått er svært ær de sae verdie, eller er det gru til å frykte at vi er lagt ua sa verdi? Dettekavisioeomf.eks. vedå lage kofidesitervaller, me for åfåtildetmåvi kjee fordelige til estimatore. Og for å kue fie fordelige til ulike estimatorer (som alltid er fuksjoer av stokastiske variable) må vi kue oe om fordelige til fuksjoer av stokastiske variable. Dette er omhadlet i kap. 7 i læreboka. 14