TMA4240 Statistikk H2010

TMA4240 Statistikk H2010 Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent) Mette Langaas Foreleses mandag 11.oktober, 2010

2 Estimering Mål: finne sannheten om et fenomen i en populasjon. Sannheten knytter vi til en ukjent parameter, θ, i en valgt fordeling. Vi trekker et tilfeldig utvalg fra populasjonen; X 1, X 2,..., X n (u.i.f.). En estimator gir et anslag for den ukjente parameteren og er en funksjon av stokastiske variabler, ˆθ = ˆθ(X 1, X 2,..., X n ). Hvilke egenskaper bør en god estimator ha? Estimatoren bør være forventningsrett, dvs. E(ˆθ) = θ. Estimatoren bør ha minst mulig varians, Var(ˆθ), og variansen bør avta når antall observasjoner, n, øker. Hvordan kan vi finne estimatorer? ved intuisjon, ved matematisk metode. Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslaget som gjør at de observasjonene vi har gjort (utvalget) har maksimal rimelighet!

3 SME [9.15] DEF 9.6: Gitt uavhengige observasjoner x 1, x 2,..., x n fra en sannsynlighetstetthet (i det kontinuerlige tilfellet) eller en punktsannsynlighet (i det diskrete tilfellet) f (x; θ). Da er sannsynlighetsmaksimeringsestimatoren (SME) for θ verdien som maksimerer rimelighetsfunksjonen L(x 1, x 2,..., x n, θ) = f (x 1 ; θ) f (x 2 ; θ) f (x n ; θ).

4 SME: steg 1. Ønsker estimator for parameter θ, basert på 2. tilfeldig utvalg fra populasjon beskrevet ved kjent parametrisk fordeling f (x; θ). 3. Rimelighetsfunksjonen; L(x 1, x 2,..., x n, θ) = f (x 1 ; θ)f (x 2 ; θ) f (x n ; θ). 4. Skal maksimere rimelighetsfunksjonen, lettere å jobbe med den naturlige logaritmen til rimelighetsfunksjonen l(x 1, x 2,..., x n, θ) = ln L(x 1, x 2,..., x n, θ) 5. Deriverer logaritmen til rimelighetsfunksjonen med hensyn på θ. 6. Setter den deriverte lik 0 og løser ut for θ. Dette blir vår sannsynlighetsmaksimeringsestimator for θ. (Kan også sjekke at dette er maksimum og ikke minimum ved å derivere en gang til og se at denne 2.deriverte er negativ.)

Figur fra http://www.weibull.com/lifedataweb/maximum_likelihood_estimation.htm

6 SME for µ i normalfordelingen Tilfeldig utvalg, X 1, X 2,..., X n u.i.f normal n(x; µ, σ). Husker mulige estimator for µ er X. Hva er SME? Rimelighetsfunksjonen og logaritmen til rimelighetsfunksjonen:: L(x 1, x 2,...x n, µ, σ 2 ) = = n i=1 1 2πσ e 1 2σ 2 (x i µ) 2 1 (2π) n/2 (σ 2 ) n/2 e 1 2σ 2 P n i=1 (x i µ) 2 ln L(x 1, x 2,...x n, µ, σ 2 ) = n 2 ln(2π) n 2 ln σ2 1 2σ 2 n (x i µ) 2 i=1

7 SME for µ i normalfordelingen Derivere mhp µ: ln L(x 1, x 2,...x n, µ, σ 2 ) µ = 1 n σ 2 (x i µ) Finne ˆµ ved å sette ln L µ = 0: 1 σ 2 n i=1 (x i ˆµ) = 0. i=1 ˆµ = 1 n n X i = X i=1

8 SME for σ 2 i normalfordelingen Husker mulig estimator for σ 2 er S 2. Hva er SME? Har logaritmen til rimelighetsfunksjonen, og vet at ˆµ = X. ln L(x 1, x 2,...x n, µ, σ 2 ) = n 2 ln(2π) n 2 ln σ2 1 n 2σ 2 (x i µ) 2 Derivere mhp σ 2 : ln L(x 1, x 2,...x n, µ, σ 2 ) σ 2 = n 2σ 2 + 1 2(σ 2 ) 2 i=1 n (x i µ) 2 Finne σ 2 ved å sette ln L = 0. Setter inn estimatet x for µ. (σ 2 ) n + 1 n (x i x) 2 = 0 2 σ 2 2( σ 2 ) 2 n + 1 σ2 i=1 n (x i x) 2 = 0 dvs. σ 2 = 1 n i=1 i=1 n (X i X) 2 i=1

9 Heat flow data Data fra NIST/SEMATECH e-handbook of Statistical Methods Viser heat flow meter calibration and stability analysis. The response variable is a calibration factor. n = 195.

10 Histogram

11 Normalplott Empirisk kumulativ fordeling er ˆF(x) = antall observasjoner mindre eller lik x. n Hvis data er normalfordelt ville vi forvente at ˆF (x) ligner på den kumulative fordelingsfunksjonen til normalfordelingen. Hver observasjon er et punkt i diagrammet. Så justerer vi skalaen på y-aksen slik at det blir en lineær sammenheng når dataene er normalfordelte (bruke invers funksjon til kumulativ fordeling). Noen bytter om på aksene.

12 Normal QQ-plott

13 Normal QQ-plott Figsurer fra NIST/SEMATECH e-handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/

14 Høyde studenter

15 Høyde menn

16 Høyde kvinner

17 Fordeling til gjennomsnittet X [8.5] TEO 8.2: Sentralgrenseteoremet La X 1, X 2,..., X n være et tilfeldig utvalg fra en fordeling med forventning µ og varians σ 2. Da har vi at sannsynlighetsfordelingen til Z = X µ σ/ n går mot standard normalfordelingen, n(z; 0, 1), når n.

18 Sentralgrenseteoremet Figsure fra Devore.

21 Data fra DNA microarrays Studere effekt av trening på hjertet: måler forholdet mellom genuttrykk for rotter trent i 48 timer og rotter som ikke har trent. 14000 gener studert, vi ser på genet: UI-R-A0-ar-f-11-0-UI med beskrivelse ESTs Highly similar to INTERFERON REGULATORY FACTOR 3 [M.musculus] Kan anta at en transformasjon av genuttrykksforholdet for trenete og utrenete rotter er normalfordelt. Positivt tall: genet er mer aktivt for trente enn for utrente rotter Nær 0: genet er like aktivt for trente og utrente rotter. Negativt tall: genet er mindre aktivt for trente enn for utrente rotter. Observasjoner fra 12 par av trenete og utrente rotter: 1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41 ˆµ = x = 1.54

22 Konfidensintervall for µ med σ kjent Hvis x er gjennomsnittet av et tilfeldig utvalg av størrelse n fra en populasjon med kjent varians σ 2, så er et (1-α)100% konfidensintervall for µ x z α 2 σ n < µ < x + z α 2 σ n hvor z α er verdien i standard normalfordelingen som har areal α 2 2 til høyre, dvs. P(Z > z α ) = α 2 2.

23 Konfidensintervall for µ med σ kjent x z α 2 σ n < µ < x + z α 2 σ n

24 Intervallestimering med rottedata Antar målinger er normalfordelte. Observasjoner fra 12 par av trenete og utrente rotter: 1.96 1.56 1.27 2.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41 95% konfidensintervall for µ nå σ 2 er kjent (antar σ 2 =0.1): x z α 2 σ n < µ < x + z α 2 σ n Rottedata: ˆµ = x = 1.54, n=12, z 0.025 = 1.96, 95% konfidensintervall for µ er [1.36, 1.72].