Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Like dokumenter
Gammafordelingen og χ 2 -fordelingen

TMA4240 Statistikk Høst 2016

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

TMA4240 Statistikk Høst 2015

Kontinuerlige sannsynlighetsfordelinger.

TMA4240 Statistikk H2010

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

TMA4240 Statistikk Eksamen desember 2015

TMA4240 Statistikk Høst 2015

Transformasjoner av stokastiske variabler

Poissonprosesser og levetidsfordelinger

Oppfriskning av blokk 1 i TMA4240

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Kapittel 2: Hendelser

TMA4245 Statistikk Eksamen desember 2016

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

STK Oppsummering

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Løsningsforslag oblig 1 STK1110 høsten 2014

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

FORMELSAMLING TIL STK1100 OG STK1110

TMA4240 Statistikk Høst 2008

Om eksamen. Never, never, never give up!

Kap. 6, Kontinuerlege Sannsynsfordelingar

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Om eksamen. Never, never, never give up!

FORMELSAMLING TIL STK1100 OG STK1110

Kap. 6, Kontinuerlege Sannsynsfordelingar

Kontinuerlige sannsynlighetsfordelinger.

Forelesning 13. mars, 2017

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

TMA4240 Statistikk Eksamen desember 2015

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

To-dimensjonale kontinuerlige fordelinger

TMA4240 Statistikk Høst 2015

La U og V være uavhengige standard normalfordelte variable og definer

Kapittel 4.4: Forventning og varians til stokastiske variable

L12-Dataanalyse. Introduksjon. Nelson Aalen plott. Page 76 of Introduksjon til dataanalyse. Levetider og sensurerte tider

TMA4240 Statistikk 2014

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

TMA4240 Statistikk H2010

TMA4240 Statistikk 2014

Oppgave 1: Feil på mobiltelefoner

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Bioberegninger - notat 4: Mer om sannsynlighetsmaksimering

Notat 6 - ST februar 2005

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Eksamensoppgave i TMA4240 Statistikk

6.1 Kontinuerlig uniform fordeling

Eksamensoppgave i TMA4240 Statistikk

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

TMA4240 Statistikk H2010

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Foreleses onsdag 13.oktober, 2010

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

Funksjoner av stokastiske variable.

STK juni 2018

Kap. 6, Kontinuerlege Sannsynsfordelingar

TMA4240 Statistikk Høst 2007

Bernoulli forsøksrekke og binomisk fordeling

TMA4240 Statistikk Høst 2015

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Funksjoner av stokastiske variable.

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

Forelening 1, kapittel 4 Stokastiske variable

ÅMA110 Sannsynlighetsregning med statistikk, våren

UNIVERSITETET I OSLO

STK Oppsummering

A) B) 400 C) 120 D) 60 E) 10. Rett svar: C. Fasit: ( 5 6 = 60. Hvis A, B, C er en partisjon av utfallsrommet S, så er P (A B) lik.

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4240 Statistikk Høst 2018

TMA4240 Statistikk H2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Fasit for tilleggsoppgaver

ST1201 Statistiske metoder

Løsningsforslag: STK2120-v15.

6.5 Normalapproksimasjon til. binomisk fordeling

Prosjektoppgaver om diusjonsprosesser og diusjonstilnærmelse

TMA4245 Statistikk Eksamen august 2014

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2009

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger : Normalfordelingen, normalapproksimasjon, eksponensial og gamma.

TMA4240 Statistikk Høst 2009

HØGSKOLEN I STAVANGER

MAT-INF 2360: Obligatorisk oppgave 3. Løsningsforslag

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

Formelsamling i medisinsk statistikk

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Prøveeksamen STK2100 (fasit) - vår 2018

Løsningsforslag, eksamen statistikk, juni 2015

ST0202 Statistikk for samfunnsvitere

Transkript:

Estimeringsmetoder Momentmetoden La X, X 2,..., X n være uavhengige variable som er rektangulært fordelte på intervallet [0, θ]. Vi vet da at forventningsverdiene til hver observasjon og forventningen til middelverdien er θ/2. Videre vet vi fra sannsynlighetsregningen at middelverdien X generelt vil ligge nær forventningsverdien når n er stor, dvs. X θ/2, eller 2 X θ. Dette betyr at for store verdier av n vil 2 X kunne brukes som en estimator for θ. Den samme teknikken kunne vi benytte også hvis observasjonene f.eks. var eksponensielt fordelte med parameter λ. Da er forventningen /λ og X /λ. Det betyr at / X λ slik at / X kan brukes som estimator for λ. Dersom vi har en fordeling med bare en ukjent parameter θ, kan dette uttrykkes som følger: Forventningen til X vil være en funksjon av θ, altså X µ(θ). Ved å løse den tilsvarende likningen m.h.p. θ finner vi estimatoren ˆθ = µ ( X) der µ betegner den inverse funksjonen til µ(θ), dvs. likningen µ(ˆθ) = X. ˆθ er løsningen på Siden vi her har brukt første momentet i fordelingen (EX = EX ) til å konstruere estimatoren kalles denne metoden for momentmetoden. Metoden kan generaliseres til situasjoner med flere ukjente parametre, men vil normalt ikke fungere særlig bra for mer enn 2 parametre. Estimatorene finnes da ved å løse estimeringslikningene µ(ˆθ, ˆθ 2 ) = X () σ 2 (ˆθ, ˆθ 2 ) = n (X i n (2) med hensyn på ˆθ og ˆθ 2, hvor µ og σ 2 er forventningen og variansen uttrykt ved de to ukjente parametrene θ og θ 2. Vi kunne her ha delt på n i

stedet for n i kvadratsummen for variansen, men det har egentlig ikke noen hensikt siden vi likevel nå ikke generelt vil ha forventningsrette estimatorer. Som eksempel på bruk av denne metoden kan vi se på estimering av både skalaparameteren og formparameteren i gammafordelingen med parametre (k, α). Da er µ(k, α) = k/α og σ 2 (k, α) = k/α 2 slik at estimeringslikningene blir ˆk/ˆα = X ˆk/ ˆα 2 = n (Xi X) 2. Løser vi disse likningene med hensyn på estimatorene finner vi og ˆk = ˆα = n n X 2 (Xi X) 2 X (Xi X). 2 Oppgave La X være rektangulært fordelt på intervallet [a, b]. Da er EX = (a + b)/2 og var(x) = (b a) 2 /2. Finn momentestimatorene for a og b uttrykt ved de observerte momentene X og Z = n (X i X) 2. Oppgave 2 Betafordelingen er en fordeling på intervallet [0, ] og har formen f(x) = Forventningen og variansen er var(x) = Γ(α + β) Γ(α)Γ(β) xα ( x) β. EX = α/(α + β) αβ (α + β + )(α + β) 2. Finn momentestimatorene for α og β uttrykt ved X og Z = n (X i X) 2. Beregn estimatorene for et datasett der X = 0.73 og Z = 0.045. 2

Hint: Innfør først c = α + β, uttrykk α og β ved c og X og løs så systemet m.h.p. c. Bruk til slutt likningen for forventningen til å finne estimatorene for α og β. Oppgave 3 Hvis X er lognormalfordelt med parametre (µ, σ 2 ) så er forventningsverdien EX = e µ+σ2 /2 var(x) = e 2µ+σ2 (e σ2 ). Finn momentestimatorene for µ og σ 2. (Dette er ikke gode estimatorer. I praksis vil man heller først transformere til normalfordelte data og så bruke middelverdi og kvadratsum for disse.) Oppgave 4 Negativ binomisk fordeling er en diskret fordeling som ofte brukes som et alternativ til poissonfordelingen når variansen er større enn forventningsverdien. Uttrykket for punktsannsynligheten er P (X = x) = p x = ak Γ(k) Γ(k + x) ( a) x, for x = 0,,..., x! hvor k > 0 og 0 < a <. Forventningen og variansen er EX = k/a var(x) = k/a + k/a 2. Skriv opp uttrykkene for de første leddene i fordelingen uten å bruke gammafunksjonen (bruk rekursjonsformelen for gammafunksjonen til å bli kvitt denne). Finn momentestimatorene for a og k. Beregn estimatene når de observerte momentene er X = 2.6 og Z = 32.5. Sett inn estimatene og beregn de første leddene i fordelingen. 3

Sannsynlighetsmaksimering Det viktigste estimeringsprinsippet er basert på det som kalles sannsynlighetsmaksimering. For det første gir dette prinsippet esimatorer med små varianser. Dessuten kan prinsippet brukes på veldig kompliserte problemstillinger med kompliserte fordelinger og mange ukjente parametre. Programmering og gjennomføring av beregningene ved hjelp av datamaskin er relativt enkelt. La oss som et eksempel se på situasjonene at vi har n uavhengige observasjoner, x, x 2,..., x n, fra en poissonfordeling med ukjent parameter λ. Sannsynligheten for at eksperimentet skulle gi akkurat det resultatet vi har observert er da P (X = x, X 2 = x 2,..., X n = x n ) = λ x i x i! e λ. (3) Denne sannsynligheten er ukjent fordi parameteren λ er ukjent, og den vil variere med verdien til λ. Filosofien bak sannsynlighetsmaksimering er da følgende: Siden vi faktisk har observert størrelsene x, x 2,..., x n er det grunn til å tro at λ har en verdi som gjør at sannsynligheten for å observere akkurat disse verdiene er stor. Ut fra dette velger vi som estimator den verdien av λ som maksimaliserer sannsynligheten for det observerte resultatet. Vi betrakter da observasjonene som konstante størrelser og ser på sannsynligheten som en funksjon av parameteren. Denne funksjonen kalles da likelihoodfunksjonen og skrives λ x i L(λ) = x i! e λ. (4) Legg merke til at høyresiden i (3) og (4) er helt like, men de representerer altså svært forskjellige funksjoner. I (3) er parameteren λ konstant, og uttrykket representerer en funksjon i n variable, x, x 2,..., x n, men i (4) er observasjonene konstante og uttrykket representerer en funksjon i en variabel λ. Likning (3) gir simultanfordelingen, mens likning (4) gir likelihoodfunksjonen. Når vi skal maksimalisere L(λ) med hensyn på λ er det i praksis som regel enklere å maksimalisere ln L(λ). Grunnen til dette er at L ofte vil være et 4

produkt av mange faktorer. Det er da lettere å derivere logaritmen til L som vil være en sum av like mange ledd. Siden logaritmefunksjonene er strengt voksende vil den verdien av λ som maksimaliserer ln L(λ) også være den som maksimaliserer L(λ). I eksempelet vårt finner vi ln L(λ) = ln(x i!) + x i ln λ λ der alle summer går fra til n. Legg merke til at det første leddet på høyre side er en konstant (fordi likelihoodfunksjonen er en funksjon av λ) som vil falle bort når vi deriverer m.h.p. λ. Dette leddet trenger vi derfor egentlig ikke å ta med i det hele tatt. Det vil ofte forekomme slike ledd som ser kompliserte ut, men som er konstanter fordi de ikke avhenger av den ukjente parameteren. Hvis vi skriver c for dette leddet blir likningen ln L(λ) = c + ln λ x i nλ. I maksimum må den deriverte være lik null, dvs. d dλ ln L(λ) = xi n = 0. λ Vi ser også at den andre deriverte er negativ slik at løsningen på likningen faktisk gir maksimalverdien λ = n xi = x. Vi ser at løsningen for λ definerer en funksjon av observasjonene som vi mer formelt kunne ha skrevet på formen λ (x, x 2,..., x n ). Verdien av funksjonen innsatt de observerte verdien x, x 2,..., x n kalles sannsynlighetsmaksimeringsestimatet. Den tilsvarende estimatoren, sannsynlighetsmaksimeringsestimatoren (SME), framkommer ved å betrakte den tilsvarende stokastiske variable, dvs. sette de stokastiske variable X, X 2,..., X n inn i uttrykket for λ, som gir λ = X. Vi ser i dette tilfellet at estimatoren blir forventningsrett fordi Eλ = E X = λ, og at variansen blir var(λ ) = λ/n. Det er ikke slik at en SME alltid er 5

forventningsrett, men forventningen vil ligge nær den sanne parameterverdien, spesielt når estimatoren er basert på mange observasjoner. Variansen til estimatoren vil nærme seg null når antall observasjoner går mot uendelig. Hvis vi har n uavhengige observasjoner av en kontinuerlig fordelt variabel X definerer vi tilsvarende likelihoodfunksjonen som produktet av sannsynlighetstetthetene L(θ) = f(x i ; θ) der θ er den ukjente parameteren i modellen. Hvis L(θ) multipliseres med dx dx 2... dx n får vi sannsynligheten for at den observerte verdien skal ligge i et n-dimensjonalt område som inneholder (x, x 2,..., x n ) og har sidekanter dx, dx 2,..., dx n, slik at likelihoodfunksjonen også i det kontinuerlige tilfellet i en viss forstand (på en konstant faktor nær) representerer sannsynligheten for å få det observerte resultatet. La oss som eksempel finne SME for parameteren i eksponensialfordelingen basert på n uavhengige observasjoner. Likelihoodfunksjonen blir da som gir L(θ) = θe θx i ln L(θ) = n ln θ θ x i og d dθ L(θ) = n/θ x i. Dette gir at likelihoodfunksjonene er maksimal for θ = / x, slik at SME blir θ = / X. I dette tilfellet er SME ikke forventningsrett, men /θ er en forventningsrett estimator for /θ. Oppgave 5 Vi har n uavhengige observasjoner fra fordelingen f(x; θ) = θ3 2 x2 e θx, for x 0. 6

(legg merke til at dette er et spesialtilfelle av gammafordelingen). Finn SME for θ. Flere ukjente parametre Dersom det er flere ukjente parametre blir fremgangsmåten i prinsippet den samme. La nå θ betegne k ukjente parametre (θ, θ 2,..., θ k ). Likelihoodfunksjonen blir da en funksjon i k variable, L(θ). Som før er denne definert ved det samme matematiske uttrykket som simultanfordelingen. SME for alle parametrene finnes ved å maksimalisere likelihoodfunksjonen (eller ln L(θ)) med hensyn på alle k parametre. Som eksempel ser vi på normalfordelingen med ukjent forventning og varians (k = 2). Likelihoodfunksjonen blir da som gir L(µ, σ 2 ) = 2πσ 2 e (x i µ)2 2σ 2, ln L(µ, σ 2 ) = c n 2 σ2 2σ 2 (xi µ) 2. Ved å derivere m.h.p µ finner vi først at µ = x. Ved så å derivere m.h.p. σ 2, sette den deriverte lik null og sette inn µ = x finner vi σ 2 = n (xi x) 2. Vi ser i dette tilfellet at SME blir lik momentestimatorene for µ og σ 2. Oppgave 6 La X, X 2,..., X n være n uavhengige lognormalfordelte variable med parametre µ og σ 2. Ta utgangspunkt i simultantettheten til Xene og maksimaliser likelihoodfunksjonen m.h.p. µ og σ 2. Vis at resultatet blir ekvivalent med eksempelet ovenfor. (Dette følger av et generelt resultat som sier at sannsynlighetsmaksimeringsestimatorene er invariante overfor monotone transformasjoner). 7