Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Like dokumenter
TMA4240 Statistikk H2010

TMA4240 Statistikk H2010

Foreleses onsdag 13.oktober, 2010

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

(utarbeidet av Mette Langaas), TMA4245 V2007

Tilfeldig utvalg [8.1] U.i.f. Statistisk inferens. Kapittel 8 og 9

TMA4240 Statistikk H2017 [15]

Kapittel 2: Hendelser

TMA4240 Statistikk H2010

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk Høst 2016

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

STK Oppsummering

TMA4240 Statistikk H2010 (22)

TMA4240 Statistikk H2010

Norske hoppdommere og Janne Ahonen

TMA4240 Statistikk H2015

TMA4240 Statistikk H2010 (20)

TMA4240 Statistikk Eksamen desember 2015

TMA4245 Statistikk Eksamen desember 2016

Om eksamen. Never, never, never give up!

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Eksamensoppgave i TMA4240 Statistikk

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

TMA4240 Statistikk H2010 (19)

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Om eksamen. Never, never, never give up!

TMA4240 Statistikk Høst 2015

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Bootstrapping og simulering Tilleggslitteratur for STK1100

STK Oppsummering

Kapittel 4.4: Forventning og varians til stokastiske variable

Kap. 8: Utvalsfordelingar og databeskrivelse

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Løsningsforslag oblig 1 STK1110 høsten 2014

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Bootstrapping og simulering

Eksamensoppgave i TMA4245 Statistikk

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren

TMA4240 Statistikk H2015

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4245 Statistikk

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Forslag til endringar

Binomisk sannsynlighetsfunksjon

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

TMA4245 Statistikk Eksamen august 2014

DEL 1 GRUNNLEGGENDE STATISTIKK

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

TMA4240 Statistikk Høst 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

TMA4240 Statistikk Høst 2009

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Eksamensoppgave i TMA4240 Statistikk

TMA4240 Statistikk Høst 2009

Eksamensoppgave i TMA4240 Statistikk

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

UNIVERSITETET I OSLO

Bootstrapping og stokatisk simulering Tilleggslitteratur for STK1100

TMA4240 Statistikk H2010

Hypotesetest: generell fremgangsmåte

UNIVERSITETET I OSLO

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Transformasjoner av stokastiske variabler

Utvalgsfordelinger (Kapittel 5)

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

i x i

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

TMA4240 Statistikk Høst 2009

UNIVERSITETET I OSLO Matematisk Institutt

TMA4240 Statistikk H2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

STK1100 våren Kontinuerlige stokastiske variabler Forventning og varians Momentgenererende funksjoner

HØGSKOLEN I STAVANGER

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Statistikk og dataanalyse

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2016

Foreleses onsdag 8. september 2010

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Transkript:

TMA440 Statistikk H010 Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent) Mette Langaas Foreleses mandag 11.oktober, 010 Estimering Mål: finne sannheten om et fenomen i en populasjon. Sannheten knytter vi til en ukjent parameter, θ, i en valgt fordeling. Vi trekker et tilfeldig utvalg fra populasjonen; X 1, X,..., X n (u.i.f.). En estimator gir et anslag for den ukjente parameteren og er en funksjon av stokastiske variabler, ˆθ = ˆθ(X 1, X,..., X n ). Hvilke egenskaper bør en god estimator ha? Estimatoren bør være forventningsrett, dvs. E(ˆθ) = θ. Estimatoren bør ha minst mulig varians, Var(ˆθ), og variansen bør avta når antall observasjoner, n, øker. Hvordan kan vi finne estimatorer? ved intuisjon, ved matematisk metode. Sannsynlighetsmaksimeringsestimatoren (SME) finner det anslaget som gjør at de observasjonene vi har gjort (utvalget) har maksimal rimelighet!

3 SME [9.15] DEF 9.6: Gitt uavhengige observasjoner x 1, x,..., x n fra en sannsynlighetstetthet (i det kontinuerlige tilfellet) eller en punktsannsynlighet (i det diskrete tilfellet) f (x; θ). Da er sannsynlighetsmaksimeringsestimatoren (SME) for θ verdien som maksimerer rimelighetsfunksjonen L(x 1, x,..., x n, θ) = f (x 1 ; θ) f (x ; θ) f (x n ; θ). 4 SME: steg 1. Ønsker estimator for parameter θ, basert på. tilfeldig utvalg fra populasjon beskrevet ved kjent parametrisk fordeling f (x; θ). 3. Rimelighetsfunksjonen; L(x 1, x,..., x n, θ) = f (x 1 ; θ)f (x ; θ) f (x n ; θ). 4. Skal maksimere rimelighetsfunksjonen, lettere å jobbe med den naturlige logaritmen til rimelighetsfunksjonen l(x 1, x,..., x n, θ) = ln L(x 1, x,..., x n, θ) 5. Deriverer logaritmen til rimelighetsfunksjonen med hensyn på θ. 6. Setter den deriverte lik 0 og løser ut for θ. Dette blir vår sannsynlighetsmaksimeringsestimator for θ. (Kan også sjekke at dette er maksimum og ikke minimum ved å derivere en gang til og se at denne.deriverte er negativ.)

Figur fra http://www.weibull.com/lifedataweb/maximum_likelihood_estimation.htm 6 SME for µ i normalfordelingen Tilfeldig utvalg, X 1, X,..., X n u.i.f normal n(x; µ, σ). Husker mulige estimator for µ er X. Hva er SME? Rimelighetsfunksjonen og logaritmen til rimelighetsfunksjonen:: L(x 1, x,...x n, µ, σ ) = = n 1 πσ e 1 σ (x i µ) 1 (π) n/ (σ ) n/ e 1 σ P n (x i µ) ln L(x 1, x,...x n, µ, σ ) = n ln(π) n ln σ 1 σ n (x i µ)

7 SME for µ i normalfordelingen Derivere mhp µ: ln L(x 1, x,...x n, µ, σ ) µ = 1 n σ (x i µ) Finne ˆµ ved å sette ln L µ = 0: 1 σ n (x i ˆµ) = 0. ˆµ = 1 n n X i = X 8 SME for σ i normalfordelingen Husker mulig estimator for σ er S. Hva er SME? Har logaritmen til rimelighetsfunksjonen, og vet at ˆµ = X. ln L(x 1, x,...x n, µ, σ ) = n ln(π) n ln σ 1 n σ (x i µ) Derivere mhp σ : ln L(x 1, x,...x n, µ, σ ) σ = n σ + 1 (σ ) n (x i µ) Finne σ ved å sette ln L (σ ) = 0. Setter inn estimatet x for µ. n + 1 n (x i x) = 0 σ ( σ ) n + 1 σ n (x i x) = 0 dvs. σ = 1 n n (X i X)

9 Heat flow data Data fra NIST/SEMATECH e-handbook of Statistical Methods Viser heat flow meter calibration and stability analysis. The response variable is a calibration factor. n = 195. 10 Histogram

11 Normalplott Empirisk kumulativ fordeling er ˆF(x) = antall observasjoner mindre eller lik x. n Hvis data er normalfordelt ville vi forvente at ˆF (x) ligner på den kumulative fordelingsfunksjonen til normalfordelingen. Hver observasjon er et punkt i diagrammet. Så justerer vi skalaen på y-aksen slik at det blir en lineær sammenheng når dataene er normalfordelte (bruke invers funksjon til kumulativ fordeling). Noen bytter om på aksene. 1 Normal QQ-plott

13 Normal QQ-plott Figsurer fra NIST/SEMATECH e-handbook of Statistical Methods, http://www.itl.nist.gov/div898/handbook/ 14 Høyde studenter

15 Høyde menn 16 Høyde kvinner

17 Fordeling til gjennomsnittet X [8.5] TEO 8.: Sentralgrenseteoremet La X 1, X,..., X n være et tilfeldig utvalg fra en fordeling med forventning µ og varians σ. Da har vi at sannsynlighetsfordelingen til Z = X µ σ/ n går mot standard normalfordelingen, n(z; 0, 1), når n. 18 Sentralgrenseteoremet Figsure fra Devore.

1 Data fra DNA microarrays Studere effekt av trening på hjertet: måler forholdet mellom genuttrykk for rotter trent i 48 timer og rotter som ikke har trent. 14000 gener studert, vi ser på genet: UI-R-A0-ar-f-11-0-UI med beskrivelse ESTs Highly similar to INTERFERON REGULATORY FACTOR 3 [M.musculus] Kan anta at en transformasjon av genuttrykksforholdet for trenete og utrenete rotter er normalfordelt. Positivt tall: genet er mer aktivt for trente enn for utrente rotter Nær 0: genet er like aktivt for trente og utrente rotter. Negativt tall: genet er mindre aktivt for trente enn for utrente rotter. Observasjoner fra 1 par av trenete og utrente rotter: 1.96 1.56 1.7.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41 ˆµ = x = 1.54 Konfidensintervall for µ med σ kjent Hvis x er gjennomsnittet av et tilfeldig utvalg av størrelse n fra en populasjon med kjent varians σ, så er et (1-α)100% konfidensintervall for µ x z α σ n < µ < x + z α σ n hvor z α er verdien i standard normalfordelingen som har areal α til høyre, dvs. P(Z > z α ) = α.

3 Konfidensintervall for µ med σ kjent x z α σ n < µ < x + z α σ n 4 Intervallestimering med rottedata Antar målinger er normalfordelte. Observasjoner fra 1 par av trenete og utrente rotter: 1.96 1.56 1.7.37 1.45 1.45 0.93 1.40 1.85 1.18 1.68 1.41 95% konfidensintervall for µ nå σ er kjent (antar σ =0.1): x z α σ n < µ < x + z α σ n Rottedata: ˆµ = x = 1.54, n=1, z 0.05 = 1.96, 95% konfidensintervall for µ er [1.36, 1.7].