UNIVERSITETET I OSLO

Like dokumenter
UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Oppsummering av STK2120. Geir Storvik

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

Ekstraoppgaver for STK2120

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Løsningsforslag: STK2120-v15.

UNIVERSITETET I OSLO

i=1 t i +80t 0 i=1 t i = 9816.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

vekt. vol bruk

STK Oppsummering

UNIVERSITETET I OSLO Matematisk Institutt

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

HØGSKOLEN I STAVANGER

EKSAMENSOPPGAVE STA-2004.

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Bootstrapping og simulering Tilleggslitteratur for STK1100

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4285 TIDSREKKEMODELLER Fredag 7. desember 2012 Tid: 09:00 13:00

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

EKSAMEN I FAG 75510/75515 STATISTIKK 1 Tirsdag 20. mai 1997 Tid: 09:00 14:00

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4240 Statistikk

Tilleggsoppgaver for STK1110 Høst 2015

Notat 3 - ST februar 2005

TMA4240 Statistikk Høst 2016

STK juni 2016

Eksamensoppgave i TMA4255 Anvendt statistikk

Statistikk og dataanalyse

Eksamensoppgave i ST0103 Brukerkurs i statistikk

HØGSKOLEN I STAVANGER

Det matematisk-naturvitenskapelige fakultet

ECON240 VÅR / 2016 BOKMÅL

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

Mer om Markov modeller

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

Eksamensoppgave i TMA4295 Statistisk inferens

EKSAMEN I SOS1120 KVANTITATIV METODE 30. NOVEMBER 2006 (4 timer)

STK2100. Obligatorisk oppgave 1 av 2

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

TMA4240 Statistikk Høst 2015

TMA4245 Statistikk Eksamen desember 2016

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

EKSAMENSOPPGAVER STAT100 Vår 2011

Bootstrapping og simulering

INNHOLD. Side Eksempeleksamen 2T - Hele oppgavesettet 1. Oppgave 1 Eksempeleksamen 10

ST0103 Brukerkurs i statistikk Høsten Momentestimatoren og sannsynlighetsmaksimeringsestimatoren

UNIVERSITETET I OSLO

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Transkript:

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i STK2120 Statistiske metoder og dataanalyse 2 Eksamensdag: Mandag 6. juni 2011. Tid for eksamen: 14.30 18.30. Oppgavesettet er på 5 sider. Vedlegg: Tillatte hjelpemidler: Tabell over normal, t, χ 2 og F fordeling Godkjent kalkulator og formelsamling for STK1100/STK1110 og STK2120 Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. De ulike delpunktene kan stort sett løses uavhengige av hverandre. Hvis du står fast på et punkt, gå derfor heller videre til neste punkt. Oppgave 1 Tabellen nedenfor viser data fra et eksperiment for å undersøke om avkastning fra en spesifikk kjemisk prosess avhenger enten av formel (Formulat) eller av blandingshastighet (Speed), 3 forsøk for hver kombinasjon. Speed 60 70 80 189.7 185.1 189.0 Formulat 1 188.6 179.4 193.0 190.1 177.3 191.1 165.1 161.7 163.3 Formulat 2 165.9 159.8 166.6 167.6 161.6 170.3 Følgende ANOVA tabell er beregnet på det gitte datasettet Df Sum Sq Mean Sq F value Pr > F Speed 2 230.81 115.41 19.2702 0.0001792 Formulat 1 2253.44 2253.44 376.2702 1.993e-10 Speed*Formulat 2 18.58 9.29 1.5513 0.2516390 Residuals 12 71.87 5.99 (Fortsettes på side 2.)

Eksamen i STK2120, Mandag 6. juni 2011. Side 2 (a) Skriv ned formelen for den modellen som ligger bak ANOVA tabellen som er beregnet. Hva er estimatet på variansen som inngår i modellen? (b) Forklar hvilke hypoteser de ulike F-verdier og P-verdier er relatert til og formuler en konklusjon for hver hypotese. Hvis du skulle forenkle modellen, hva slags modell ville du da foreslå? Oppgave 2 Tabellen nedenfor viser antall koleratilfeller per husstand i en indisk landsby, dvs av totalt n = 223 husstander har 168 av disse 0 tilfeller av kolera osv. Antall tilfeller 0 1 2 3 4 Frekvens 168 32 16 6 1 Estimert forventning 151.64 58.48 11.28 1.45 0.14 Gjennomsnittelig antall tilfeller er 0.3856. (a) Siden dette er telledata, vil den første fordeling en tenker på være Poisson fordelingen. Du får her oppgitt at testobservatoren χ 2 = 2 (O i E i ) 2 = 21.712 E i i=0 der O i er antall husstander med i tilfeller av kolera for i = 0, 1 mens O 2 er antall husstander med 2 eller flere tilfeller. E i er tilhørende forventede antall (estimerte under en Poisson antagelse, gitt fra nederste rad i tabellen ovenfor). Bruk dette til å utføre en test på om Poisson fordelingen passer til disse data. Formulér en konklusjon. Begrunn hvorfor det er rimelig å slå sammen kategoriene med 2 eller flere tilfeller. En alternativ modell til Poisson modellen er følgende: { θ hvis y = 0 p(y) = Pr(Y = y) = 1 λ (1 θ) y e λ hvis y 1 1 e λ y! (*) (b) Hva slags begrensninger må en ha på θ? Vis at hvis θ = e λ så svarer dette til Poisson modellen. (Fortsettes på side 3.)

Eksamen i STK2120, Mandag 6. juni 2011. Side 3 (c) Vis at likelihood funksjonen kan skrives som L(θ, λ) = p(y) Ny y=0 der N y er antall husstander med y tilfeller av kolera. Vis deretter at log-likelihood funksjonen for de n = 223 husstandene er l(θ, λ) =Konst + N 0 log(θ) + (n N 0 ) log(1 θ) (n N 0 ) log(e λ 1) + log(λ) yn y. Hint: Skriv først om 1 1 e λ = eλ e λ 1. I det etterfølgende vil vi studere algoritmer for å maksimere likelihooden med hensyn på (θ, λ). Følgende egenskaper vil det være behov for: E[N 0 ] =nθ e λ E[ yn y ] =n(1 θ) (e λ 1) λ y=1 Ingen av disse egenskapene behøver du å vise, men kan brukes i det etterfølgende. (d) Skriv ned definisjonen av score-funksjonen. Vis at score-funksjonen er gitt ved ( ) N 0 s(θ, λ) = θ n N 0 1 θ (n N 0 ) eλ + 1 e λ 1 λ y=1 yn y y=1 Regn ut forventningen til s(θ, λ). generelle teori? Hvordan stemmer dette med den En kan også vise at den observerte informasjonsmatrisen er gitt ved ( N0 ) + J(θ, n N θ λ) = n 2 0 0 (1 θ) 2 e 0 (n N 0 ) λ + 1 (e λ 1) 2 λ 2 y=1 yn y mens den forventede (Fisher) informasjonsmatrisen er lik ( 1 θ Ī(θ, λ) = n + ) 1 0 1 θ [ ] 0 (1 θ) eλ 1 1 e λ 1 λ e λ 1 Dette behøver du ikke å vise. (Fortsettes på side 4.)

Eksamen i STK2120, Mandag 6. juni 2011. Side 4 (e) Diskuter hvilke generelle fordeler scoring algoritmen har i forhold til Newton-Raphson algoritmen. Hva slags konsekvenser har det mhp beregningene i algoritmene at informasjonsmatrisene er diagonale? Tabellen nedenfor viser (θ (s), λ (s), l (s) ) for s = 1, 2,... for scoring algoritmen der s er iterasjonssnummer. Iterasjon θ (s) λ (s) l (s) 0 0.5000 1.0000-184.3447 1 0.7534 0.9715-154.3288 2 0.7534 0.9722-154.3287 3 0.7534 0.9722-154.3287 (f) Merk spesielt at verdien på θ ikke endrer seg etter første iterasjon. Vis at dette ikke er en tilfeldighet men en egenskap ved algoritmen i dette tilfellet. (g) Vis at ˆθ kunne blitt funnet direkte ved analytiske beregninger og at dette samsvarer med det du fikk i (f). Er dette estimatet rimelig? Hvordan kunne en utnytte dette for å lage en enklere optimeringsprosedyre? (h) Anta vi ønsker å bruke en normaltilnærming for å si noe om egenskapene til ML estimatene. Hva slags betydning har det at informasjonsmatrisene er diagonale i dette tilfellet? Vi får i dette tilfellet at ( ) Ī(ˆθ, ˆλ) 1200.170 0.0000 = 0.000 37.1737 Bruk dette til å lage 95% konfidensintervall både for θ og λ. (i) Et alternativ til normaltilnærming er å bruke bootstrapping. Hvis vi simulerer y i ved å trekke fra modell (*), hva slags bootstrapping prosedyre har vi da? Nedenfor er ulike oppsummerende mål av bootstrapsimuleringene for ˆθ og ˆλ angitt. Gj.snitt Standard avvik Nedre 2.5% kvantil Øvre 2.5% kvantil ˆθ 0.755 0.029 0.695 0.812 ˆλ 0.971 0.167 0.656 1.298 Lag 95% standard bootstrap konfidensintervall for de to parametrene. Kommenter eventuelle forskjeller fra det du fikk ved normaltilnærmingen. (Fortsettes på side 5.)

Eksamen i STK2120, Mandag 6. juni 2011. Side 5 (j) Nedenfor er vist et histogram av ˆθ e ˆλ basert på bootstrap simuleringene. Diskutér hvordan dette kan brukes til en alternativ test på om dataene følger en Poisson fordeling. (Du skal her ikke utføre noen test, kun skissere hvordan dette kan gjøres.) Frequency 0 10 20 30 40 50 60 0.2 0.3 0.4 0.5 0.6 theta.star exp( lambda.star) SLUTT