Tilleggsoppgaver for STK1110 Høst 2015

Like dokumenter
EKSTRAOPPGAVER I STK1110 H2017

EKSTRAOPPGAVER I STK1110 H2018

UNIVERSITETET I OSLO

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

UNIVERSITETET I OSLO

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

vekt. vol bruk

Løsningsforslag eksamen 27. februar 2004

Forelesning 3 STK3100

FORMELSAMLING TIL STK1100 OG STK1110

STK Oppsummering

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

UNIVERSITETET I OSLO

STK juni 2016

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Prøveeksamen STK vår 2017

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Løsningsforslag: STK2120-v15.

TMA4245 Statistikk Eksamen desember 2016

Forelesning 7 STK3100

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Ekstraoppgaver for STK2120

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

Kp. 12 Multippel regresjon

Forelesning 8 STK3100/4100

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Oppsummering av STK2120. Geir Storvik

LØSNINGSFORSLAG ) = Dvs

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

TMA4240 Statistikk Høst 2009

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Fasit og løsningsforslag STK 1110

TMA4240 Statistikk Eksamen desember 2015

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4240 Statistikk 2014

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Oppgave 1. Kilde SS df M S F Legering Feil Total

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Ridge regresjon og lasso notat til STK2120

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO

Løsningsforslag eksamen 25. november 2003

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Prøveeksamen STK2100 (fasit) - vår 2018

Ekstraoppgaver STK3100 h10

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

TMA4240 Statistikk Høst 2016

Oppgave 14.1 (14.4:1)

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Fasit for tilleggsoppgaver

TMA4245 Statistikk Eksamen august 2014

10.1 Enkel lineær regresjon Multippel regresjon

HØGSKOLEN I STAVANGER

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMENSOPPGAVER STAT100 Vår 2011

TMA4240 Statistikk Høst 2018

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

TMA4245 Statistikk Eksamen desember 2016

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamensoppgåve i TMA4240 Statistikk

Kapittel 6 - modell seleksjon og regularisering

UNIVERSITETET I OSLO

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Prøveeksamen i STK3100/4100 høsten 2011.

Forelesning 9 STK3100/4100

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

HØGSKOLEN I STAVANGER

Inferens i regresjon

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i ST0103 Brukerkurs i statistikk

FORMELSAMLING TIL STK1100 OG STK1110

Eksamensoppgave i TMA4245 Statistikk

EKSAMENSOPPGAVE STA-1001.

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

Kapittel 2: Hendelser

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Transkript:

Tilleggsoppgaver for STK0 Høst 205 Geir Storvik 22. november 205 Tilleggsoppgave Anta X,..., X n N(µ, σ) der σ er kjent. Vi ønsker å teste H 0 : µ = µ 0 mot H a : µ µ 0 (a) Formuler hypotesene som H 0 : θ Ω 0 mot H a : θ Ω a Hva blir Ω = Ω 0 Ω a i dette tilfellet? (b) Vis at under H 0, er (c) Vis at (d) Finn L( Ω 0 ) = max L(θ) = ( ) n/2 θ Ω 2πσ e n 2 2σ 2 i= (x i µ 0 ) 2 0 L( Ω) = max L(θ) = ( ) n/2 θ Ω 2πσ e n 2 2σ 2 i= (x i x) 2 LR = L( Ω 0 ) L( Ω) og vis at LR er liten er ekvivalent med at Z er stor der Z = x µ 0 σ/ n. (e) Vis at 2 ln(lr) er χ -fordelt eksakt i dette tilfellet. Tilleggsoppgave 2 Anta X,..., X n Geometrisk(p), dvs den geometriske sannsynlighetsfordeling med suksesssannsynlighet p. Da er Pr(X = k) = ( p) k p, k =, 2,... Vi ønsker å teste H 0 : p = p 0 mot H a : p p 0

(a) Vis at Maksimum likelihood estimatet for p er ˆp = n n i= x i (b) Vis at Likelihood ratio testen blir ( ) n p i= LR = x i n ( ) n 0 p ˆp 0ˆp (c) Anta vi har observert 6 8 2 2 3 8 2 2 3 6 3 2 2 2 3 5 7 Hva blir ˆp i dette tilfellet? (d) Utfør en LR-test med p 0 = 0.2 og α = 0.05. Hva blir konklusjonen av testen? Tilleggsoppgave 3 Vi skal i denne oppgaven se på F-fordelingen og p-verdier for to-sidige F-tester. Vi har altså at hvis Z χ 2 ν, Z 2 χ 2 ν 2 og Z og Z 2 er uavhengige, så er F = Z /ν Z 2 /ν 2 F-fordelt med ν og ν 2 frihetsgrader. (a) Vis at /F også er F-fordelt, men med ν 2 og ν frihetsgrader (b) Vis at hvis F α,ν,ν 2 er øvre α kvantil i F-fordelingen med ν og ν 2 frihetsgrader, så er F α,ν,ν 2 = F α,ν2,ν Anta nå X,..., X m N(µ, σ) 2 og Y,..., Y n N(µ 2, σ2) 2 samt at X-ene og Y -ene er uavhengige. Vi vil teste hypotesene H 0 : σ 2 = σ 2 2 mot H a : σ 2 σ 2 2 og vil forkaste H 0 hvis f = s2 s 2 2 enten er større enn F α/2;m,n eller mindre enn F α/2;m,n 2

(c) Vis at F = S2 /σ 2 S 2 2/σ 2 2 er F fordelt med m og n frihetsgrader og bruk dette til å vise at signifikansnivået for testen er α. (d) For et ensidig alternativ H a : σ 2 > σ2, 2 argumenter for hvorfor F > f er en mer ekstrem verdi og tilsvarende at for et ensidig alternativ H a : σ 2 < σ2 2 så er F < f en mer ekstrem verdi. Bruk dette til å argumentere for at vi kan beregne en P-verdi for en to-sidig test ved { 2 Pr(F > f) hvis f > P-verdi = 2 Pr(F < f) hvis f < Tilleggsoppgave 4 (Multippel lineær regresjon og matriser) Denne oppgaven er delvis en repetisjon fra gjennomgang på forelesning, men er tatt med siden det ikke direkte er dekket i læreboken. Vi vil gjøre bruk av følgende definisjoner (som også finnes i læreboken): La U,..., U p være et sett av tilfeldige variable. Vi sier da at U = (U,..., U p ) T er en tilfeldig vektor. Videre definerer vi forventingen til U til å være E(U ) E(U 2 ) E(U) =. E(U p ) Videre definerer vi kovariansmatrisen til U til å være V (U ) Cov(U, U 2 ) Cov(U, U 3 ) Cov(U, U p ) Cov(U 2, U ) V (U 2 ) Cov(U 2, U 3 ) Cov(U 2, U p ) Cov(U) =. Cov(U p, U ) Cov(U p, U 2 ) Cov(U p, U 3 ) V (U p ) (a) Vis at for en vilkårlig matrise A av dimension q p og en vektor b av lengde p så er (b) Vis at E(AU + b) = AE(U) + b Cov(U) = E[(U E(U))(U E(U)) T ] der vi nå definerer forventningen til en matrise som matrisen av forventningene. 3

(c) Vis at for en vilkårlig matrise A av dimension q p så er Cov(AU) = A Cov(U)A T Hint: Bruk de to foregående resultatene. (d) La A og B være to matriser med dimensjon q p og r p henholdsvis. Definer nå Cov(AU, BU) til å være matrisen der element (j, k) er kovariansen mellom j te element av AU og k te element av BU. Vis at Cov(AU, BU) = A Cov(U)B T Hint: Definer en lang tilfeldig vektor som inneholder både AU og BU. Vi vil nå se på multippel lineær regresjon, dvs Y = Xβ + ε der ε = (ε,..., ε n ) og ε i N(0, σ 2 ). Vi har også at β = (X T X) X T Y er minste kvadraters estimatoren for β. (e) Vis at β er en forventningsrett estimator for β. (f) Vis at kovariansmatrisen til β er σ 2 C der C = (X T X). (g) Argumenter for hvorfor β er en vektor av normalfordelte variable (og dermed multidimensjonalt normalfordelt). (h) Hvis Ŷ er vektoren bestående av Ŷi, i =,..., n, vis at Ŷ = HY der H er en matrise som er symmetrisk (dvs H = H T ) og med egenskapene HH =H; [I H][I H] =I H. Her er I identitetsmatrisen av passende dimensjon. (i) Vis at E(Y Ŷ ) = 0. (j) Vis at Cov(Ŷ ) = σ2 H og at Cov(Y Ŷ ) = σ2 [I H]. Hva slags fordeling har disse vektorene? (k) Vis at β og Y Ŷ er uavhengige. Hint: Skriv β = AY og Y Ŷ = BY for passende valg av A og B og bruk punkt (d) samt at for normalfordelte variable er kovarians lik null ekvivalent med uavhengighet. 4

De siste punkter er for de mer spesielt interessert og viser hvorfor ˆσ 2 = n (k + ) n (y i ŷ i ) 2 = i= n (k + ) (Y Ŷ )T (Y Ŷ ) er en forventningsrett estimator for σ 2. Vi vil her få bruk for begrepet trase, der trasen til en p p matrise V, tr(v ) er summen av diagonal-elementene. Vi trenger også at hvis A er en p q matrise og B er en q p matrise, så er tr(ab) = tr(ba). (l) Vis at hvis V er en p p matrise av tilfeldige variable, så er E(tr(V )) = tr(e(v )) (m) Vis at (Y Ŷ )T (Y Ŷ ) = tr((y Ŷ )(Y Ŷ )T ). (n) Vis at E(tr((Y Ŷ )(Y Ŷ )T )) = σ 2 tr(i H). Hint: Bruk punktene (i) og (j). (o) Vis at tr(h) = k + og dermed at tr(i H) = n (k + ). Bruk dette så til å vise at E[ˆσ 2 ] = σ 2. Tilleggsoppgave 5 Vi vil i denne oppgaven se nærmere på den multiple lineære regresjons-modellen: Y i = β 0 + β x i + β 2 x i2 + + β k x ik + ε i ; i =, 2,..., n (*) der x ij -ene er gitte forklaringsvariabler og ε i -ene er uavhengige og N(0, σ 2 )-fordelte. Det er velkjent at (*) kan skrives på formen Y = Xβ + ε, der Y = [Y, Y 2,..., Y n ] T, ε = [ε, ε 2,..., ε n ] T, β = [β 0, β,..., β k ] T og X er n (k + ) matrisen der i-te rad har elementene, x i,..., x ik. Det er også velkjent at minste kvadraters estimator for β er gitt ved [X T X] X T Y. (a) Vis at ˆβ er forventningsrett og at kovariansmatrisen til ˆβ er gitt ved Cov(ˆβ) = σ 2 C, der C = [X T X]. La x, x 2,..., x k være gitte verdier av forklaringsvariablene. Vi er interessert i å estimere forventet respons svarende til disse verdiene, dvs. µ(x, x 2,..., x k) = β 0 + β x + β x 2 + + β k x k (**) Merk at hvis vi innfører vektoren x = [, x, x 2,..., x k ]T, kan (**) gis på formen µ(x ) = (x ) T β. 5

(b) Angi en forventningsrett estimator ˆµ(x ) for (**) og vis at variansen til estimatoren kan skrives som V (ˆµ(x )) = σ 2 (x ) T Cx, der C er gitt i punkt (a). (c) Bestem fordelingen til ˆµ(x ) µ(x ) S (x ) T Cx der S 2 er den vanlige forventningsrette estimatoren for σ 2. Utled et 00( α)% konfidensintervall for µ(x ). Hint: Du kan her bruke resultater som er gitt i formelsamlingen. La Y være en ny observasjon fra den lineære regresjonsmodellen (*) svarende til verdiene x = [x, x 2,..., x k ]T av forklaringsvariablene. Vi har altså at Y = (x ) T β + ε, der ε er N(0, σ 2 )-fordelt og uavhengig av ε, ε 2,..., ε n. (d) Bestem et 00( α)% prediksjonsintervall for Y. Tilleggsoppgave 6 New York by er full av italienske restauranter. De varierer i pris og kvalitet. Vi skal studere hvordan pris betalt for en middag på italiensk restaurant i NYC kan forklares av hvor god maten er, kombinert med grad av service og eleganse (dekor). Alle disse tre forklaringsvariablene er fastsatt på en kontinuerlig skala av restaurantkritikere, der lav score er dårlig og høy score er bra. Vi har data fra n = 68 restaurantbesøk, og tilpasser en multippel regresjonsmodell i R med følgende resultat: Call : lm ( Price Food + S e r v i c e + Decor, data = nyc ) Residuals : Min Q Median 3Q Max 4.8440 3.7039 0.525 3.628 9.0576 C o e f f i c i e n t s : Estimate Std. Error t value Pr( > t ) ( I n t e r c e p t ) 24.6409 4.7536 5.84 6.33 e 07 Food.5556 0.373 4.70 4.93 e 05 S e r v i c e 0.350 0.3957 0.34 0.733 Decor.8473 0.276 8.49.7 e 4 Residual standard e r r o r : 5.803 on 64 d e grees o f freedom Multiple R squared : 0. 6 7, Adjusted R squared : 0.6 F s t a t i s t i c : 88.06 on 3 and 64 DF, p value : < 2. 2 e 6 6

Her betegner Food score for kvaliteten på maten. (a) Sett opp modellen som ligger til grunn for analysen. Bruk matriseform. Benytt notasjonen Y for responsvektor, X for designmatrisen og β for parametervektoren. Angi dimensjonen til alle vektorer/matriser. Formuler de vanlige forutsetningene vi gjør for en slik modell. Forklar kort hva de estimerte koeffisientene sier om sammenhengen mellom responsen og de tilhørende forklaringsvariablene. (b) Vis at minste kvadraters estimator β = (X T X) X T Y er forventningsrett for β. Begrunn kort hvorfor ˆβ j -ene blir normalfordelte. Utled et uttrykk for kovariansmatrisen til β, Cov( β). Du kan bruke at dersom A er en matrise med konstanter og V = AU, så er Cov(V ) = ACov(U)A. (c) Utfør, trinn for trinn, en hypotesetest for å teste om kvaliteten p maten (Food), under ellers like omstendigheter (service og dekor), har en signifikant positiv effekt på prisen. Du kan bruke tall fra R-utskriften. Skriv en konklusjon. (d) Multippel R 2 er definert ved R 2 = SSE SST der SSE = i (Y i Ŷi) 2 og SST = i (Y i Ȳ 2. Forklar hvordan denne skal tolkes. Justert R 2, Radj 2, er definert som R 2 adj = SSE/(n k ) SST/(n ) der k er antall kovariater i modellen. Diskuter hvorfor denne kan være å foretrekke fremfor R 2 i mange (hvilke?) situasjoner. (e) Hvilke hypoteser testes i siste linje i R-utskriften (F-test), og hvorledes blir konklusjonen? 7