UNIVERSITETET I OSLO



Like dokumenter
UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

> 6 7 ) = 1 Φ( 1) = = P (X < 7 X < 8) P (X < 8) < ) < ) = Φ(2) =

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

EKSAMEN I TMA4245 Statistikk

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

vekt. vol bruk

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Løsningsforslag Til Statlab 5

EKSAMEN I EMNE TMA4245 STATISTIKK

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Dekkes av pensumsidene i kap. lesingsnotatene. Hypotesetesting er en systematisk fremgangsmåte

Høye skårer indikerer høye nivåer av selvkontroll.

UNIVERSITETET I OSLO

Kort overblikk over kurset sålangt

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Statistikk, FO242N, AMMT, HiST 2. årskurs, 30. mai 2007 side 1 ( av 8) LØSNINGSFORSLAG HØGSKOLEN I SØR-TRØNDELAG

Eksamensoppgave i TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

UNIVERSITETET I OSLO

Forelesning 4 STK3100

Eksamensoppgave i TMA4295 Statistisk inferens

UNIVERSITETET I OSLO

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Kontinuerlige sannsynlighetsfordelinger.

Kapittel 3: Studieopplegg

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

UNIVERSITETET I OSLO

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

a ) Forventningen estimeres med gjennomsnittet: x = 1 12 (x x 12 ) = 1 ( ) = 8813/12 = 734.4

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

TMA4240 Statistikk Høst 2012

i=1 t i +80t 0 i=1 t i = 9816.

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

Oppgave 1: Feil på mobiltelefoner

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

Eksamensoppgave i SØK Statistikk for økonomer

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Forelesning 9 STK3100

TMA4240 Statistikk Høst 2009

Eksamensoppgave i ST0103 Brukerkurs i statistikk

HØGSKOLEN I STAVANGER

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i ST0103 Brukerkurs i statistikk

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

Estimat og konfidensintervall for andel pasientopphold med minst én pasientskade

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Løsningsforslag til obligatorisk innlevering 3.

Eksamensoppgave i TMA4245 Statistikk

Statistikk og dataanalyse

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Skoleeksamen i SOS Kvantitativ metode

Faktor - en eksamensavis utgitt av ECONnect

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler. Oppgaveteksten er på 11 sider.

Transkript:

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: STK1120 Statistiske metoder og dataanalyse 2. Eksamensdag: Tirsdag 2. juni 2009. Tid for eksamen: 14.30 17.30. Oppgavesettet er på 6 sider. Vedlegg: Tabeller over normal-, F- og χ 2 - fordelingene. Tillatte hjelpemidler: Godkjent kalkulator og formelsamling for STK1100/STK1110 og for STK1120. Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Oppgave 1. I et datasett samlet inn i Sachsen i Tyskland i 1876-1885 angis kjønnsfordelingen i 6125 familier med 12 barn. Dataene sammenfattes i følgende tabell: Antall jenter 0 1 2 3 4 5 6 7 8 9 10 11 12 Antall familier 7 45 181 478 829 1122 1343 1033 670 286 104 24 3 La O y være antall familier med eksakt y jenter, y = 0, 1,..., 12. Vi skal anta at (O 0,..., O 12 ) er multinomisk fordelt med 6125 forsøk og sannsynligheter (π 0,..., π 12 ) der π y er sannsynligheten for y jenter blant de 12 barna i en familie. Generelt gjelder bare betingelsene 0 π y 1 og 12 y=0 π y = 1, men vi skal undersøke om det er mulig å finne en parametrisering av π y -ene som passer til dataene. (a) En rimelig modell kunne være at antall jenter i hver tolvbarnsfamilie er binomisk fordelt med 12 forsøk og sannsynlighet θ for jente i hver fødsel, der θ er den samme for alle familier. Vi antar også at familiene er uavhengige. Dermed blir de multinomiske sannsynlighetene π y = ( 12 y ) θ y (1 π) 12 y. Dette kalles i det følgende den binomiske modell. (Fortsettes side 2.)

Eksamen i STK1120, Tirsdag 2. juni 2009. Side 2 Forklar hvorfor forventet antall familier med y barn blir lik ( ) 12 E[O y ] = 6125 θ y (1 θ) 12 y. y Forklar også hvorfor ˆθ = ( 12 y=0 yo y)/(12 6125)(= 0.4807) er maximum likelihood estimatet for θ under denne antagelsen. (b) Nullhypotesen om at π y følger den binomiske modellen kan testes formelt ved hjelp av en Pearsons kjivadrat-observator X 2 = 12 y=0 (O y E y ) 2 der E y = 6125 ( 12 y )ˆθy (1 ˆθ) 12 y. Angi tilnærmet fordeling for X 2 under nullhypotesen. For det aktuelle datasettet ble X 2 = 107.9. Konkluder om denne modellen passer til dataene. En alternativ modell er den såkalte beta-binomiske modellen der E y π y = ( 12 y ) Γ(α + β) Γ(α)Γ(β) Γ(α + y)γ(β + 12 y) Γ(α + β + 12) = π y (α, β) (1) for y = 0, 1,..., 12. Her er Γ(α) gammafunksjonen og α > 0 og β > 0 er to ukjente parametre. (Modellen er en utvidelse av den binomiske modellen som oppstår ved å anta at antall jenter i ulike familier alle er binomisk fordelt med 12 forsøk, men med ulike sannsynligheter θ for hver famile trukket fra en betafordelingen med tetthet f(θ; α, β) = Γ(α+β) Γ(α)Γ(β) θα 1 (1 θ) β 1 for 0 < θ < 1. Du skal ikke utlede at dette gir modellen (1).) (c) Hva blir forventet antall tolvbarnsfamilier med y jenter under den betabinomiske modellen uttrykt ved parametrene (α, β). De estimerte forventede antallene, der maximum likelihood estimatene (MLE) (ˆα, ˆβ) er satt inn for (α, β), er oppgitt i Tabell 1 på neste side. Sammenlign med observerte O y samt anslagene under den binomiske modellen i punkt (a) og (b). Basert på den beta-binomiske modellen blir Pearsons kjikvadrat-observator nå X 2 = 13.32. Angi tilnærmet fordeling for X 2 under en nullhypotese om beta-binomisk modell (1) og konkluder om dataene samsvarer godt med denne modellen. (Fortsettes side 3.)

Eksamen i STK1120, Tirsdag 2. juni 2009. Side 3 Tabell 1: Observerte og estimerte verdier for forventede antall tolvbarnsfamilier sammen med bidrag til Pearsons X 2 for y jenter under binomisk og beta-binomisk modell. Observert Binomisk modell Beta-binomisk modell y O E (O-E) 2 /E E (O-E) 2 /E 0 7 2.4 9.15 5.2 0.63 1 45 26.2 13.53 43.7 0.04 2 181 133.3 17.10 177.9 0.05 3 478 411.2 10.87 462.6 0.51 4 829 856.3 0.87 855.6 0.83 5 1122 1268.1 16.83 1185.3 3.38 6 1343 1369.4 0.51 1261.0 5.33 7 1033 1086.4 2.63 1038.0 0.02 8 670 628.5 2.74 656.0 0.30 9 286 258.5 2.91 310.5 1.93 10 104 71.8 14.45 104.5 0.00 11 24 12.1 11.76 22.4 0.11 12 3 0.9 4.59 2.3 0.20 Total 6125 6125.1 107.9 6125.0 13.32 Oppgave 2. For å estimere forventet antall tolvbarnsfamilier med y jenter under den betabinomiske modellen i Oppgave 1c trengte vi maximum likelihood estimatene (MLE) for (α, β). I denne oppgaven skal vi se på hvordan man kan gå fram for å finne disse. Antagelsene er som i Oppgave 1c: (O 0,..., O 12 ) er multinomisk fordelt med 6125 forsøk og sannsynligheter π y (α, β) gitt ved (1). (a) Vis at likelihooden for dataene under den beta-binomiske modellen er proporsjonal med 12 L(α, β) = π y (α, β) O y. y=0 Vis videre at scorefunksjonen blir lik s(α, β) = 6125( Γ (α+β) Γ (α) Γ (α+β+12) ) + 12 Γ(α+β) Γ(α) Γ(α+β+12) y=0 O y Γ (α+y) Γ(α+y) 6125( Γ (α+β) Γ (β) Γ (α+β+12) ) + 12 Γ(α+β) Γ(β) Γ(α+β+12) y=0 O y Γ (β+12 y) Γ(β+12 y) og finn dessuten et uttrykk for den observerte informasjonsmatrisen (notasjonsmessig er det hensiktmessig å benytte trigammafunksjonen Ψ(α) = 2 log(γ(α)) = (Γ (α)/γ(α)) i utrykket for den observerte α 2 α informasjonsmatrisen.) (Fortsettes side 4.)

Eksamen i STK1120, Tirsdag 2. juni 2009. Side 4 (b) Diskuter kort hvordan man på bakgrunn av resultatene i punkt (a) kan beregne MLE for (α, β). MLE ble (ˆα, ˆβ) = (31.88, 34.44) og invers av observert informasjonsmatrise evaluert i (ˆα, ˆβ) er lik [ ] J(ˆα, ˆβ) 15.43 16.64 1 = 16.64 18.01 Benytt dette til å beregne et tilnærmet 95% konfidensintervall for α. Gi en begrunnelse for intervallet. (c) Under er det gjengitt resultater fra en ikke-parametrisk bootstrap med 1000 replikasjoner der (αb, β b ) er MLE for (α, β) under den beta-binomiske modellen for bootstrap-replikasjon b. Bruk tabellen og figuren nedenfor til å diskutere om tilnærmet inferens basert på MLE (ˆα, ˆβ) ser ut til å fungere tilfredstillende i dette tilfellet. Momenter til diskusjonen er skjevhet ( bias ) og standardfeil for estimatorene, normaltilnærming samt konfidensintervallet fra punkt (b). Tabell 2: Deskriptiv statistikk for 1000 bootstrap-estimater. Gjennomsnitt Standardavvik 2.5 persentil 97.5 persentil αb 32.12 4.14 25.20 41.18 βb 34.71 4.46 27.29 44.52 Figure 1: Histogram over fordelingen til bootstrap-estimatene α b og β b. Alpha Beta Frequency 0 20 40 60 80 100 Frequency 0 20 40 60 80 25 30 35 40 45 50 alpha 25 30 35 40 45 50 beta (Fortsettes side 5.)

Eksamen i STK1120, Tirsdag 2. juni 2009. Side 5 Oppgave 3. Modellen for enveis variansanalyse er gitt ved Y ij = µ i + ε ij der µ i = forventningen i gruppe i og ε ij N(0, σ 2 ) er uavhengige, i = 1,..., I, j = 1,..., J. Antall replikasjoner i alle grupper er da lik J. Formålet med oppgaven er å se på sammenhengen mellom den vanlige F- testen for H 0 : µ 1 = = µ I og den generaliserte likelihood ratio testen (GLRT) for samme hypotese under den forutsetning at antall grupper I er fiksert, mens antall replikasjoner J vokser. Dermed vil også totalt antall observasjoner n = IJ vokse. (a) Parameterrommet for modellen gis generelt (i den fulle modellen) ved Ω = {(µ 1,..., µ I, σ 2 ) : µ i R, σ 2 R + }. Beskriv tilsvarende parameterrommet ω 0 under H 0 med en felles forventning µ i alle grupper. Angi dimensjonenene til Ω og ω 0. Hva er den tilnærmede fordelingen for 2 log(λ) under H 0 (når n er stor) der Λ = generalisert likelihood ratio, dvs. maksimal likelihood under nullhypotesen delt på maksimal likelihood i den fulle modellen. (b) Angi (uten bevis) eksakt fordeling for F-observatoren F = MS B /MS W under nullhypotesen. Argumenter dessuten for at (I 1)F er tilnærmet kjikvadratfordelt med I 1 frihetsgrader under samme nullhypotesen når antall replikasjoner J er stort. Sammenlign med fordelingen for 2 log(λ) i punkt (a). Her er MS W = SS W /[I(J 1)], SS W = I J i=1 j=1 (Y ij Ȳi ) 2, MS B = SS B /(I 1), SS B = J I i=1 (Ȳi Ȳ ) 2, Ȳ i = (1/J) J j=1 Y ij, Ȳ = (1/n) I J i=1 j=1 Y ij. Du kan dessuten bruke at Fisher-fordelingen med ν 1 og ν 2 frihetsgrader defineres som F ν1,ν 2 = (χ 2 ν 1 /ν 1 )/(χ 2 ν 2 /ν 2 ) der χ 2 ν j er to uavhengige kjivadratfordelte stokastiske variable med hhv. ν 1 og ν 2 frihetsgrader. (c) Log-likelihood for data i en enveis variansanalyse som ovenfor kan skrives l(µ 1,..., µ I, σ 2 ) = n 2 log(2πσ2 ) 1 I J (Y 2σ 2 ij µ i ) 2 og maksimeres i den fulle modellen for ˆµ i = Ȳi (for µ i -ene) og ˆσ 2 = SS W /n (for σ 2 ) og under nullhypotesen for µ = Ȳ (for felles forventning µ) og σ 2 = SS T OT /n (for σ 2 ) der SS T OT = I J i=1 j=1 (Y ij Ȳ ) 2. Disse resultatene skal du ikke vise. Vis derimot at maksimal loglikelihood l(µ 1,..., µ I, σ 2 ) over Ω kan skrives (Fortsettes side 6.) i=1 j=1 l(ȳ1,..., ȲI, SS W /n) = n 2 log(2π SS W n ) n 2

Eksamen i STK1120, Tirsdag 2. juni 2009. Side 6 samt at maksimal log-likelihood over ω 0 gis ved l(ȳ,..., Ȳ, SS T OT /n) = n 2 log(2π SS T OT n Vis at vi dermed har 2 log(λ) = n log(1 + (I 1) I(J 1) F ). ) n 2. Dette betyr at den generaliserde likelihood ratio testen er ekvivalent med den vanlige F-testen. Forklar hvorfor. (d) Argumenter for at 2 log(λ) (I 1)F når n = IJ er stor og nullhypotesen holder. Sammenhold med fordelingsresulatene i punkt (a) og (b). SLUTT