STK juni 2016

Like dokumenter
UNIVERSITETET I OSLO

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

vekt. vol bruk

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Tilleggsoppgaver for STK1110 Høst 2015

Modellvalg ved multippel regresjon notat til STK2120

Ridge regresjon og lasso notat til STK2120

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Løsningsforslag: STK2120-v15.

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Løsningsforslag eksamen STAT100 Høst 2010

EKSAMENSOPPGAVER STAT100 Vår 2011

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

FORMELSAMLING TIL STK1100 OG STK1110

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Ekstraoppgaver for STK2120

Oppgave N(0, 1) under H 0. S t n 3

Oppgave 1. Kilde SS df M S F Legering Feil Total

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

Løsningsforslag eksamen 27. februar 2004

UNIVERSITETET I OSLO

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

Kapittel 3: Studieopplegg

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

X ijk = µ+α i +β j +γ ij +ǫ ijk ; k = 1,2; j = 1,2,3; i = 1,2,3; i=1 γ ij = 3. i=1 α i = 3. j=1 β j = 3. j=1 γ ij = 0.

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

STK Oppsummering

Fasit for tilleggsoppgaver

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

10.1 Enkel lineær regresjon Multippel regresjon

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Formelsamling i medisinsk statistikk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Oppsummering av STK2120. Geir Storvik

Inferens i regresjon

UNIVERSITETET I OSLO

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Løsningsforslag eksamen 25. november 2003

UNIVERSITETET I OSLO Matematisk Institutt

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Oppgave 14.1 (14.4:1)

TMA4240 Statistikk Høst 2015

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

HØGSKOLEN I STAVANGER

Forelesning 3 STK3100

STK juni 2018

Forelesning 6 STK3100

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Kort overblikk over kurset sålangt

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Variansanalyse og lineær regresjon notat til STK2120

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

TMA4240 Statistikk Høst 2009

Merk at vi for enkelthets skyld antar at alle som befinner seg i Roma sentrum enten er italienere eller utenlandske turister.

Om eksamen. Never, never, never give up!

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Fasit og løsningsforslag STK 1110

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

TMA4240 Statistikk Eksamen desember 2015

Prøveeksamen STK2100 (fasit) - vår 2018

TMA4245 Statistikk Eksamen desember 2016

EKSAMENSOPPGAVE STA-2004.

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Eksamensoppgave i TMA4295 Statistisk inferens

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Tid: Fredag 16.mai 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø,

Eksamensoppgave i TMA4267 Lineære statistiske modeller

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

HØGSKOLEN I STAVANGER

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

MAT-INF 2360: Obligatorisk oppgave 3. Løsningsforslag

Om eksamen. Never, never, never give up!

Transkript:

Løsningsforslag til eksamen i STK220 3 juni 206 Oppgave a N i er binomisk fordelt og EN i np i, der n 204 Hvis H 0 er sann, er forventningen lik E i n 204/6 34 for i, 2,, 6 6 Hvis H 0 er sann er χ 2 6 N i E i 2 E i kji-kvadrat fordelt med 6 5 frihetsgrader For marmorterningen ble χ 2 257 Fra tabellen over kji-kvadratfordelingen har vi at χ 2 0005,5 675 Siden χ 2 > χ 2 0005,5 forkaster vi nullhypotesen Vi kan konkludere at for marmorterningen har ikke de seks mulige utfallene samme sannsynlighet b For jernterningen ble χ 2 835 Fra tabellen over kji-kvadratfordelingen har vi at χ 2 090,5 6 og χ 2 00,5 924 Siden χ 2 090,5 < χ 2 < χ 2 00,5 er P-verdien mellom 0% og 90% Videre er χ2 ikke så mye mindre enn χ 2 00,5, så P-verdien er mye nærmere 0% enn 90% For jernterningen kan vi ikke forkaste nullhypotesen om at alle de seks utfallene har samme sannsynlighet c Et alternativ til kji-kvadrat testen, er likelihood ratio testen Likelihooden er gitt ved Lp, p 2,, p 6 n! N! N 2! N 6! pn p N 2 p N 6 6, og maksimum likelihood estimatoren for p i er p i N i /n for i, 2,, 6 Likelihood ratio observatoren blir dermed LR L,,, 6 Ni 6 6 6 L p, p 2,, p 6 6 p i og vi har at 2 loglr 2 6 N i log Ni E i 6 Ei N i Ni, Fra generell teori, vet vi at 2 loglr er tilnærmet kji-kvadratfordelt med 6 5 frihetsgrader under H 0 For marmorterningen får vi 2 loglr 2372, mens vi for jernterningen har at 2 loglr 899 Studentene er ikke bedt om å regne ut disse

Oppgave 2 a La y i stå for i-te måling av logno2 og la x i, x i2 og x i3 være de tilhørende målingene av henholdsvis logbil, temp og vind for i, 2,, n der n 500 Vi antar at y i -ene er observerte verdier av stokastiske variabler Y, Y 2,, Y n Analysen bygger på den lineære regresjonsmodellen Y i β 0 + β x i + β 2 x i2 + β 3 x i3 + ϵ i, L der ϵ i -ene er uavhengige og N0, σ 2 -fordelte Modellen L forutsetter: i Lineær eekt av forklaringsvariablene x i, x i2 og x i3 ii Samme varians for alle ϵ i -ene, og dermed også samme varians for alle Y i -ene iii At ϵ i -ene, og dermed også Y i -ene, er normalfordelte iv At ϵ i -ene, og dermed også Y i -ene, er uavhengige Den øverste raden i matriseplottet viser sammenhengen mellom y i -ene og hver av forklaringsvariablene Selv om den simultane eekten av forklaringsvariblene kan avvike fra de marginale eektene som er vist i matriseplottet, kan det virke som om eekten av x i logbil og x i3 vind ikke er helt lineær Utfra matriseplottet er det vanskelig å si noe om de tre siste antagelsene Men en kan tenke seg at det er avhengighet mellom to målinger av konsentrasjonen av NO 2 som er tatt nær hverandre i tid, slik at det kan være problemer med iv Men vi kan ikke sjekke det ut fra de opplysningene som er gitt i oppgaven b Forklaringen på utskriften er som følger j 0,, 2, 3: Estimate er minste kvadraters estimater β j Std Error er de estimete standardfeilene s βj t value er t-observatorene t j β j /s βj for testing av H 0 : β j 0 Residual standard error er estimatet for σ gitt ved s SSE/[n k + ] Her er SSE n y i ŷ i 2 residual kvadratsummen ŷ i β 0 + β x i + β 2 x i2 + β 3 x i3, n 500 er antall observasjoner og k 3 er antall forklaringsvariabler i den lineære regresjonsmodellen Multiple R-squared er R 2 og angir hvor stor del av variasjonen i y i -ene som er forklart av regresjonen Her er R 2 SSE/SST der SST n y i ȳ 2 er den totale kvadratsummen 2

De tallene som skal stå der det er spørsmålstegn i utskriften er følgende: c t value for temp er gitt ved t 2 β 2 /s β2 003855/0005673 67257 Std Error for vind er gitt ved s β2 β 2 /t 2 0249/ 0359 00204 Degrees of freedom for residual standard error er gitt ved df n k + 500 3 + 496 For den lineære regresjonsmodellen L vil den forventede responsen øke med β j når den j-te forklaringsvariabelen øker med én og de to andre forklaringsvariblene holdes konstant Det betyr at: Hvis biltrakken dobles, slik at logbil øker med én, vil vi forvente at logno2 øker med 0409 når temperaturen og vindstyrken er den samme Hvis temperaturen øker én grad, vil vi forvente at logno2 blir redusert med 0038 når biltrakken og vindstyrken er den samme Hvis vindstyrken øker med m/s, vil vi forvente at logno2 blir redusert med 02 når biltrakken og temperaturen er den samme Eektene ovenfor gjelder 2-logaritmen til NO 2 -konsentrasjonen Hvis vi vil se på endringen i NO 2 -konsentrasjonen, merker vi oss at en økning på β j av 2-logaritmen til NO 2 -konsentrasjonen, svarer til at selve konsentrasjonen blir multiplisert med en faktor 2 β j Det svarer til en relativ endring på 00 2 β j % Altså har vi at: d Hvis biltrakken dobles, slik at logbil øker med én, vil vi vente at NO 2 -konsentrasjonen øker med 00 2 0409 328% når temperaturen og vindstyrken er den samme Hvis temperaturen øker én grad, vil vi vente at NO 2 -konsentrasjonen reduseres med 00 2 0038 26% når biltrakken og vindstyrken er den samme Hvis vindstyrken øker med m/s, vil vi vente at NO 2 -konsentrasjonen reduseres med 00 2 02 36% når biltrakken og temperaturen er den samme Vi har tilpasset alle mulige regresjonsmodeller med m, 2,, 9 forklaringsvariabler og for hver m valgt den av dem som har minst residualkvadratsum SSEm På denne måten har vi fått en sekvens av modeller M 0, M,, M 9 slik det er gitt i oppgaven Når vi skal velge den beste av modellene M 0, M,, M 9, kan vi ikke bruke R 2 Grunnen til det er at siden SSEm vil avta med m, så vil R 2 SSEm/SST øke med m For å velge den beste modellen, er en mulighet å velge den som har minst verdi av justert R 2 I vår situasjon vil det gi en modell med sju forklaringsvariabler En annen og ofte bedre mulighet er å velge den verdien av m der Mallows C p er omtrent lik eller mindre enn m + For luftforurensningsdataene gir det m 6, som svarer til modellen som har med variablene logbil, temp, vind, Ilogbil^2, Ivind^2 og logbil:vind 3

Oppgave 3 a Likelihooden blir: Lβ 0, β n λxi y i y i! n e β 0 +β x i y i e λx i y i! n y i! exp n { y i! exp exp{ β 0 β 0 y i + β y i + β { x i y i exp b Log-likelihood funksjonen kan skrives som: lβ 0, β logy i! + β 0 y i + β Ved å derivere nner vi score-funksjonene: s 0 β 0, β β 0 lβ 0, β y i s β 0, β lβ 0, β x i c Elementene i den observerte informasjonsmatrisen blir: J 00 β 0, β 2 lβ β0 2 0, β s 0 β 0, β β 0 J 0 β 0, β J 0 β 0, β 2 β 0 lβ 0, β s 0 β 0, β J β 0, β 2 lβ β 2 0, β s β 0, β x 2 i x i Vi ser at disse uttrykkene kan skrives som: J jk β 0, β x j+k i for j, k {0, 4

d For å bestemme maksimum likelihood estimatene ved Newton-Raphsons metode, velger vi startverider β 0 0 og β 0 For eksempel kan vi velge β0 0 β 0 0 Deretter beregner vi nye verdier β k+ 0 og β k+ ved algoritmen [ ] [ ] [ ] k+ k β 0 β 0 + β k+ β k J β k 0, β k s0 β k 0, β k s β k 0, β k for k 0,, 2, Vi stopper iterasjonen når både β k+ 0 β k 0 < δ og β k+ β k < δ for en gitt nøyaktighet δ for eksempel δ 0 6 Maksimum likelihood estimatene β 0 og β er de verdiene vi har for β k+ 0 og β k+ når vi stopper iterasjonen e Av generell teori har vi at maximum likelihood estimatorene β j er tilnærmet Nβ j, σ 2 βj - fordelte Vi har også at vi kan estimere σ 2 βj med s 2 βj J jj β 0, β, der J jj β 0, β er element j, j i den inverse informasjonsmatrisen J β 0, β De estimerte standardfeilene til maksumum likelihood estimatene er derfor: 005883 0260 s β0 0000500 00224 s β Av resultatet om fordelingen til maksimum likelihood estimatorene, følger det at β β s β er tilnærmet standardnormalfordelt Fra dette følger det på vanlig måte at et tilnærmet 95% kondensintervall for β er gitt som β ± 96 s β Innsatt tall får vi 00899 ± 96 00224, dvs fra 00460 til 0338 f Av 3 har vi at λx + e β 0+β x+ e β e β 0+β x e β λx Den relative økningen i forventet antall barn når alderen øker med ett år er derfor: λx + λx λx eβ λx λx λx e β Fra punkt e har vi at [00460, 0338] er et tilnærmet 95% kondensintervall for β Siden funksjonen fx e x er strengt voksende, følger det at [e 00460, e 0338 ] [0047, 0432] er et tilnærmet 95% kondensintervall for θ e β 5