Estimatorar Torstein Fjeldstad Institutt for matematiske fag, NTNU 11.10.2018
I dag Repetisjon Er dataa mine normalfordelt? Estimatorar Eigenskapar til S 2 Kahoot 2
Repetisjon
Obervator Ein observator (eng: statistic) er ein funksjon av stokastiske variablar i eit tilfeldig utval. Utvalsfordeling Fordelinga til ein observator kallast utvalsfordelinga (eng: sampling distribution). Ofte brukte observatorar X = 1 n S 2 = 1 n 1 n i=1 X i n (X i X) 2 i=1 4
Sentralgrenseteoremet (utvalsfordelinga til X) Teorem La X i vere uavhengig identisk fordelte (u.i.f.) stokastiske variablar med E(X i ) = µ X og Var(X i ) = σx 2 < for i = 1,..., n. La X n = 1 n n i=1 X i. Då vil fordelinga til Z = X n E( X n ) SD( X n ) = X n µ X σ X / n gå mot ei standard normalfordeling når n. 5
Sentralgrenseteoremet (utvalsfordelinga til X) Teorem La X i vere uavhengig identisk fordelte (u.i.f.) stokastiske variablar med E(X i ) = µ X og Var(X i ) = σx 2 < for i = 1,..., n. La X n = 1 n n i=1 X i. Då vil fordelinga til Z = X n E( X n ) SD( X n ) = X n µ X σ X / n gå mot ei standard normalfordeling når n. Dette tilsvarar ( X n n x; µ X, σ ) X. n 5
Er dataa mine normalfordelt?
Fysisk kondisjon ved maksimalt oksygenopptak Helseundersøkinga i Nord-Trøndelag (HUNT) er ei av verdas største folkehelseundersøkinger. HUNT 3 pågjekk i perioden 2006-2008 Me skal sjå på data frå 1471 menn frå Kondisprosjektet i HUNT 3 Prosjektet ville kartlege samanhengen mellom kondisjon, fysisk aktivitet, smerte, karfunksjon osb. Maksimalt oksygenopptak (VO2max) måles ved å springe på ei tredemølle med oksygenmaske til ein ikkje klarer meir. 7
0.025 0.02 0.015 0.01 0.005 0 100 150 200 Figure: Histogram 8
0.025 220 0.02 0.015 0.01 0.005 0 100 150 200 200 180 160 140 120 100 80 1 Figure: Histogram Figure: Boksplott 8
F(x) 0.025 220 0.02 0.015 0.01 0.005 0 100 150 200 200 180 160 140 120 100 80 1 Figure: Histogram Figure: Boksplott 1 Empirical CDF 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 60 80 100 120 140 160 180 200 220 x Figure: Kumulativ fordeling 8
F(x) Probability 0.025 220 0.02 0.015 0.01 0.005 0 100 150 200 200 180 160 140 120 100 80 1 Figure: Histogram Figure: Boksplott 1 Empirical CDF Normal Probability Plot 0.9 0.8 0.7 0.6 0.999 0.997 0.99 0.98 0.95 0.90 0.75 0.5 0.50 0.4 0.3 0.2 0.1 0.25 0.10 0.05 0.02 0.01 0.003 0.001 0 60 80 100 120 140 160 180 200 220 x 80 100 120 140 160 180 200 Data Figure: Kumulativ fordeling Figure: Normalplott 8
Estimatorar
Definisjon Anta at me har eit tilfeldig utval X 1, X 2,..., X n frå f (x; θ)-populasjonen, der verdien til parameteren θ er ukjend. Ein estimator er ein observator som nyttast til å anslå verdien til θ. 10
Definisjon Anta at me har eit tilfeldig utval X 1, X 2,..., X n frå f (x; θ)-populasjonen, der verdien til parameteren θ er ukjend. Ein estimator er ein observator som nyttast til å anslå verdien til θ. Forventningsrett estimator Ein observator ˆθ seies å verre ein forventningsrett (eng: unbiased) estimator for parameteren θ dersom E(ˆθ) = θ. 10
Definisjon Anta at me har eit tilfeldig utval X 1, X 2,..., X n frå f (x; θ)-populasjonen, der verdien til parameteren θ er ukjend. Ein estimator er ein observator som nyttast til å anslå verdien til θ. Forventningsrett estimator Ein observator ˆθ seies å verre ein forventningsrett (eng: unbiased) estimator for parameteren θ dersom E(ˆθ) = θ. Effisient estimator Av fleire forventningsrette estimatorar for θ seier me at den med minst varians er den mest effisiente. Me føretrekk den mest effisiente estimatoren. 10
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X n tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Naturlige estimatorer: ˆµ 1 = X (gjennomsnitt) og ˆµ 2 = X (empirisk median) 11
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Generer observasjoner X i n(x i ; 2.4, 0.1). 2.480, 2.262, 2.560, 2.281, 2.503, 2.362, 2.258, 2.282, 2.456 x = 2.3827 og x = 2.362 x x µ 2.34 2.36 2.38 2.4 2.42 2.44 12
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Generer observasjoner X i n(x i ; 2.4, 0.1). 2.482, 2.407, 2.415, 2.406, 2.480, 2.453, 2.512, 2.331, 2.527 x = 2.4459 og x = 2.453 µ x x 2.34 2.36 2.38 2.4 2.42 2.44 13
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Generer observasjoner X i n(x i ; 2.4, 0.1). 2.464, 2.277, 2.547, 2.393, 2.373, 2.369, 2.321, 2.369, 2.536 x = 2.4054 og x = 2.373 x µ x 2.34 2.36 2.38 2.4 2.42 2.44 14
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Generer observasjoner X i n(x i ; 2.4, 0.1). 2.544, 2.401, 2.465, 2.430, 2.389, 2.461, 2.330, 2.325, 2.364 x = 2.4121 og x = 2.401 µ x x 2.34 2.36 2.38 2.4 2.42 2.44 15
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Observerer verdier for X 1, X 2,..., X 9. 2.544, 2.401, 2.465, 2.430, 2.389, 2.461, 2.330, 2.325, 2.364 x = 2.4121 og x = 2.401 x x 2.34 2.36 2.38 2.4 2.42 2.44 16
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Gjentar forsøket 10 000 ganger. Lager histogram over de 10 000 verdiene av x og x. 17
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Gjentar forsøket 10 000 ganger. Lager histogram over de 10 000 verdiene av x og x. Antall 2.30 2.35 2.40 2.45 2.50 x
Illustrasjon ved simulering Situasjon: X 1, X 2,..., X 9 tilfeldig utvalg fra n(x; µ, σ)-populasjonen. Verdien til µ er ukjent. Skal estimere (anslå) verdien til µ. Gjentar forsøket 10 000 ganger. Lager histogram over de 10 000 verdiene av x og x. Antall 2.30 2.35 2.40 2.45 2.50 x x 17
Eigenskapar til S 2
Eigenskapar til S 2 Teorem Anta X 1, X 2,..., X n u.i.f. frå n(x; µ, σ)-populasjonen. Då er Sn 2 = 1 n n 1 i=1 (X i X) 2 ein forventningsrett estimator for σ 2, det vil seie E(Sn) 2 = σ 2. 19
Kahoot
Neste veke Sannsynsmaksimeringsestimator Konfidensintervall 21