STK juni 2016

Løsningsforslag til eksamen i STK220 3 juni 206 Oppgave a N i er binomisk fordelt og EN i np i, der n 204 Hvis H 0 er sann, er forventningen lik E i n 204/6 34 for i, 2,, 6 6 Hvis H 0 er sann er χ 2 6 N i E i 2 E i kji-kvadrat fordelt med 6 5 frihetsgrader For marmorterningen ble χ 2 257 Fra tabellen over kji-kvadratfordelingen har vi at χ 2 0005,5 675 Siden χ 2 > χ 2 0005,5 forkaster vi nullhypotesen Vi kan konkludere at for marmorterningen har ikke de seks mulige utfallene samme sannsynlighet b For jernterningen ble χ 2 835 Fra tabellen over kji-kvadratfordelingen har vi at χ 2 090,5 6 og χ 2 00,5 924 Siden χ 2 090,5 < χ 2 < χ 2 00,5 er P-verdien mellom 0% og 90% Videre er χ2 ikke så mye mindre enn χ 2 00,5, så P-verdien er mye nærmere 0% enn 90% For jernterningen kan vi ikke forkaste nullhypotesen om at alle de seks utfallene har samme sannsynlighet c Et alternativ til kji-kvadrat testen, er likelihood ratio testen Likelihooden er gitt ved Lp, p 2,, p 6 n! N! N 2! N 6! pn p N 2 p N 6 6, og maksimum likelihood estimatoren for p i er p i N i /n for i, 2,, 6 Likelihood ratio observatoren blir dermed LR L,,, 6 Ni 6 6 6 L p, p 2,, p 6 6 p i og vi har at 2 loglr 2 6 N i log Ni E i 6 Ei N i Ni, Fra generell teori, vet vi at 2 loglr er tilnærmet kji-kvadratfordelt med 6 5 frihetsgrader under H 0 For marmorterningen får vi 2 loglr 2372, mens vi for jernterningen har at 2 loglr 899 Studentene er ikke bedt om å regne ut disse

Oppgave 2 a La y i stå for i-te måling av logno2 og la x i, x i2 og x i3 være de tilhørende målingene av henholdsvis logbil, temp og vind for i, 2,, n der n 500 Vi antar at y i -ene er observerte verdier av stokastiske variabler Y, Y 2,, Y n Analysen bygger på den lineære regresjonsmodellen Y i β 0 + β x i + β 2 x i2 + β 3 x i3 + ϵ i, L der ϵ i -ene er uavhengige og N0, σ 2 -fordelte Modellen L forutsetter: i Lineær eekt av forklaringsvariablene x i, x i2 og x i3 ii Samme varians for alle ϵ i -ene, og dermed også samme varians for alle Y i -ene iii At ϵ i -ene, og dermed også Y i -ene, er normalfordelte iv At ϵ i -ene, og dermed også Y i -ene, er uavhengige Den øverste raden i matriseplottet viser sammenhengen mellom y i -ene og hver av forklaringsvariablene Selv om den simultane eekten av forklaringsvariblene kan avvike fra de marginale eektene som er vist i matriseplottet, kan det virke som om eekten av x i logbil og x i3 vind ikke er helt lineær Utfra matriseplottet er det vanskelig å si noe om de tre siste antagelsene Men en kan tenke seg at det er avhengighet mellom to målinger av konsentrasjonen av NO 2 som er tatt nær hverandre i tid, slik at det kan være problemer med iv Men vi kan ikke sjekke det ut fra de opplysningene som er gitt i oppgaven b Forklaringen på utskriften er som følger j 0,, 2, 3: Estimate er minste kvadraters estimater β j Std Error er de estimete standardfeilene s βj t value er t-observatorene t j β j /s βj for testing av H 0 : β j 0 Residual standard error er estimatet for σ gitt ved s SSE/[n k + ] Her er SSE n y i ŷ i 2 residual kvadratsummen ŷ i β 0 + β x i + β 2 x i2 + β 3 x i3, n 500 er antall observasjoner og k 3 er antall forklaringsvariabler i den lineære regresjonsmodellen Multiple R-squared er R 2 og angir hvor stor del av variasjonen i y i -ene som er forklart av regresjonen Her er R 2 SSE/SST der SST n y i ȳ 2 er den totale kvadratsummen 2

De tallene som skal stå der det er spørsmålstegn i utskriften er følgende: c t value for temp er gitt ved t 2 β 2 /s β2 003855/0005673 67257 Std Error for vind er gitt ved s β2 β 2 /t 2 0249/ 0359 00204 Degrees of freedom for residual standard error er gitt ved df n k + 500 3 + 496 For den lineære regresjonsmodellen L vil den forventede responsen øke med β j når den j-te forklaringsvariabelen øker med én og de to andre forklaringsvariblene holdes konstant Det betyr at: Hvis biltrakken dobles, slik at logbil øker med én, vil vi forvente at logno2 øker med 0409 når temperaturen og vindstyrken er den samme Hvis temperaturen øker én grad, vil vi forvente at logno2 blir redusert med 0038 når biltrakken og vindstyrken er den samme Hvis vindstyrken øker med m/s, vil vi forvente at logno2 blir redusert med 02 når biltrakken og temperaturen er den samme Eektene ovenfor gjelder 2-logaritmen til NO 2 -konsentrasjonen Hvis vi vil se på endringen i NO 2 -konsentrasjonen, merker vi oss at en økning på β j av 2-logaritmen til NO 2 -konsentrasjonen, svarer til at selve konsentrasjonen blir multiplisert med en faktor 2 β j Det svarer til en relativ endring på 00 2 β j % Altså har vi at: d Hvis biltrakken dobles, slik at logbil øker med én, vil vi vente at NO 2 -konsentrasjonen øker med 00 2 0409 328% når temperaturen og vindstyrken er den samme Hvis temperaturen øker én grad, vil vi vente at NO 2 -konsentrasjonen reduseres med 00 2 0038 26% når biltrakken og vindstyrken er den samme Hvis vindstyrken øker med m/s, vil vi vente at NO 2 -konsentrasjonen reduseres med 00 2 02 36% når biltrakken og temperaturen er den samme Vi har tilpasset alle mulige regresjonsmodeller med m, 2,, 9 forklaringsvariabler og for hver m valgt den av dem som har minst residualkvadratsum SSEm På denne måten har vi fått en sekvens av modeller M 0, M,, M 9 slik det er gitt i oppgaven Når vi skal velge den beste av modellene M 0, M,, M 9, kan vi ikke bruke R 2 Grunnen til det er at siden SSEm vil avta med m, så vil R 2 SSEm/SST øke med m For å velge den beste modellen, er en mulighet å velge den som har minst verdi av justert R 2 I vår situasjon vil det gi en modell med sju forklaringsvariabler En annen og ofte bedre mulighet er å velge den verdien av m der Mallows C p er omtrent lik eller mindre enn m + For luftforurensningsdataene gir det m 6, som svarer til modellen som har med variablene logbil, temp, vind, Ilogbil^2, Ivind^2 og logbil:vind 3

Oppgave 3 a Likelihooden blir: Lβ 0, β n λxi y i y i! n e β 0 +β x i y i e λx i y i! n y i! exp n { y i! exp exp{ β 0 β 0 y i + β y i + β { x i y i exp b Log-likelihood funksjonen kan skrives som: lβ 0, β logy i! + β 0 y i + β Ved å derivere nner vi score-funksjonene: s 0 β 0, β β 0 lβ 0, β y i s β 0, β lβ 0, β x i c Elementene i den observerte informasjonsmatrisen blir: J 00 β 0, β 2 lβ β0 2 0, β s 0 β 0, β β 0 J 0 β 0, β J 0 β 0, β 2 β 0 lβ 0, β s 0 β 0, β J β 0, β 2 lβ β 2 0, β s β 0, β x 2 i x i Vi ser at disse uttrykkene kan skrives som: J jk β 0, β x j+k i for j, k {0, 4

d For å bestemme maksimum likelihood estimatene ved Newton-Raphsons metode, velger vi startverider β 0 0 og β 0 For eksempel kan vi velge β0 0 β 0 0 Deretter beregner vi nye verdier β k+ 0 og β k+ ved algoritmen [ ] [ ] [ ] k+ k β 0 β 0 + β k+ β k J β k 0, β k s0 β k 0, β k s β k 0, β k for k 0,, 2, Vi stopper iterasjonen når både β k+ 0 β k 0 < δ og β k+ β k < δ for en gitt nøyaktighet δ for eksempel δ 0 6 Maksimum likelihood estimatene β 0 og β er de verdiene vi har for β k+ 0 og β k+ når vi stopper iterasjonen e Av generell teori har vi at maximum likelihood estimatorene β j er tilnærmet Nβ j, σ 2 βj - fordelte Vi har også at vi kan estimere σ 2 βj med s 2 βj J jj β 0, β, der J jj β 0, β er element j, j i den inverse informasjonsmatrisen J β 0, β De estimerte standardfeilene til maksumum likelihood estimatene er derfor: 005883 0260 s β0 0000500 00224 s β Av resultatet om fordelingen til maksimum likelihood estimatorene, følger det at β β s β er tilnærmet standardnormalfordelt Fra dette følger det på vanlig måte at et tilnærmet 95% kondensintervall for β er gitt som β ± 96 s β Innsatt tall får vi 00899 ± 96 00224, dvs fra 00460 til 0338 f Av 3 har vi at λx + e β 0+β x+ e β e β 0+β x e β λx Den relative økningen i forventet antall barn når alderen øker med ett år er derfor: λx + λx λx eβ λx λx λx e β Fra punkt e har vi at [00460, 0338] er et tilnærmet 95% kondensintervall for β Siden funksjonen fx e x er strengt voksende, følger det at [e 00460, e 0338 ] [0047, 0432] er et tilnærmet 95% kondensintervall for θ e β 5