Fasit og løsningsforslag STK 1110

Fasit og løsningsforslag STK 1110 Uke 36: Eercise 8.4: a) (57.1, 59.5), b) (57.7, 58, 9), c) (57.5, 59.1), d) (57.9, 58.7) og e) n 239. (Hint: l(n) = 1 = 2z 1 α/2 σ/n 1/2 ). Eercise 8.10: a) (2.7, 7.5), b) (2.4, 9.2) og c) Samme som i punkt a). ST 101 V. 1991: d) Vi får estimatoren ˆθ = 2/π 1/2 Xn, hvor X n = 1/n i X i og Var(ˆθ) = θ 2 (4/π 1)/n. e) Vi har at l n (θ data) = n[log(2) log(θ)]+ i log(x i) 1/θ 2 i X2 i θ ML = (1/n i X2 i )1/2, bruk det du fant i punkt c) for å argumentere for at dette er en rimelig estimator, kan du finne et bedre argument? Tilleggsoppgave 2: b) Får at ˆp = 0.80 og konfidensintervalle gitt ved (0.77, 0.83). c) At lengden skal være høst fem prosentpoeng, betr at lengden av intervallet skal være mindre enn fem hundredeler, altså l(n) = 2z 1 α/2 (ˆp(1 ˆp)/n) 1/2 5/100 n 400z 2 1 α/2 med tallene fra b) blir n 1038. (Hint: Bruk at ˆp(1 ˆp) 1/4). d) Vi har at 1 α Pr{z α/2 (ˆp p)/(p(1 p)/n) 1/2 z 1 α/2 } = Pr{(ˆp p) 2 /(p(1 p)/n) z 2 1 α/2 }, bruk dette og finn andregradspolnomet ap 2 + bp + c = 0 hvor a = (n + z 2 1 α/2 ), b = (2nˆp + z2 1 α/2 )( 1), c = nˆp2 løs dette og sammenlign med intervallet gitt på s. 388 i boka. 1

2 Uke 37: Eercise 8.34: a) Normal Q-Q Plot Sample Quantiles 20 22 24 26 28 30-2 -1 0 1 2 Theoretical Quantiles b) (23.8, 26.3). Eercise 8.38: a) (0.89, 0.96), b) (0.75, 1.10).

3 Uke 39: Eercise 9.16: a) α = 0.001), b) α = 0.01) og c) α = 0.1). Eercise 9.24: Fikk ( X n µ 0 )/(S/n 1/2 ) = t = 2.32 < t 0.05/2,4 1 = 3.18, så forkaster ikke H 0 på nivå α = 0.05. Eercise 9.30: Fikk t = 6.17 < 1.66 = t 0.05,115 1, så forkaster H 0 på nivå α = 0.05. Eercise 9.38: Fikk z = (ˆp p 0 )/(p 0 (1 p 0 )/n 1/2 ) = 3.67 > 2.32 = z 0.01, så forkaster H 0 på nivå α = 0.01. Eercise 9.44: a) Fikk z = 4.90 > 1.645 = z 0.05, så forkaster H 0 på nivå α = 0.05. b) Med signifikansnivå α = 0.01 blir Pr{forkaste H 0 p = 0.95} = 0.13. c) n 780.

4 Uke 44: STK 1110 H. 2006: Gitt n = 17 observasjoner Y 1,..., Y n fra modellen og 1,..., n er kjente tall. Y i = β 0 + β 1 i + ɛ i, hvor ɛ 1,..., ɛ n er u.i.f og ɛ 1 N(0, σ 2 ) a) Det kan da vises at minste kvadraters estimatroene er gitt av ˆβ 1 = n i i i i i i i n i 2 i ( i i) 2 = [ i i og ˆβ 0 = Ȳ + ˆβ 1 = i 2 i i i i i i i i n i 2 i ( i i) 2 fra data får jeg ˆβ 0 0.726 og ˆβ 1 0.498. b) Anta en n modell hvor = i j ( j ) 2 ] i [ j 2 j i n j ( j ) 2 Y i = γ i + η i, hvor η 1,..., η n er u.i.f og η 1 N(0, τ 2 ) vi finner ˆγ ved minste kvadraters metode, altså j j ] i, S(γ) = i ( i γ i i ) 2 ˆγ = i i i / i 2 i og fra data får jeg ˆγ 0.520. c) Siden ˆβ 0 og ˆβ 1 er lineær kombinasjoner av normalfordelte observasjoner er de selv også normalfordelte. Vi trenger derfor bare å beregne forventning og varians. Vi har først at E[ ˆβ 1 ] = [ ] i i j ( j ) 2 E[ i ] = [ ] i i j ( j ) 2 (β 0 + β 1 i ) = β 1 siden i ( i ) = 0 og E[ ˆβ 0 ] = E[Ȳ ˆβ ] = β 0 + β 1 β 1 = β 0. Videre er variansen til ˆβ 1 gitt ved Var( ˆβ 1 ) = [ ] i 2 i j ( j ) 2 Var( i ) = og til ˆβ 0 ved Var( ˆβ 0 ) = ( i 2 i )2 ( i i) 2 i 2 i n 2 [ j ( j ) 2 ] 2 σ 2 = i ( i ) 2 [ j ( j ) 2 ] 2 σ2 = i 2 i ( i 2 i ( i i) 2 ) n 2 [ j ( j ) 2 ] 2 σ 2 = nσ 2 n j 2 j ( j j) 2 σ 2 i 2 i n j 2 j ( i j) 2. Vi ønsker nå å teste H 0 : β 0 = 0 mot H 1 : β 0 0, siden ( ˆβ i β i )/s ˆβi t n 2, hvor s ˆβi = ˆσ βi med ˆσ 2 = RSS/(n 2) finner vi p-verdien ved Pr{ ˆβ 0 0.726 H 0 sann } =... 0.65 hvor s ˆβi 1.549. Vi forkastet ikke H 0 og har derfor mer tiltro til den lille modellen b) enn den store a). Kan det være andre årsaker til å velge β 0 = 0, hva ville det betdd for modellen om ˆβ 0 < 0?

5 Uke 45: Eercise 12.34: Vi ønsker å teste H 0 : β i = 0 mot H 1 : β i 0 for i = 0, 1. a) Fra tabellen på side s. 625 får vi forkastning av H 0 på nivå α = 0.01 for i = 0, 1 siden t 0.005,11 = 4.44. b) Vi får tilsvarende konklusjon som i a) med p-verdier p 0 0.0036 og p 1 0.00026. c) Vi ønsker å teste H 0 : β 1 = 1.5 mot H 1 : β 1 1.5. Siden t = 2.91 < t 0.01,13 2 = 2.72 forkaster vi H 0 på nivå α = 0.01 (fikk også at p 0.007). Eercise 12.47: c) Det som det blir spurt etter er et 95% konfidensintervall for β 1, altså ˆβ 1 ± s β1 t α/2,n 2. Eercise 12.52: Hvis l(a) = lengden av intervallet i a) så vil l(a) l(b), l(a) l(c), l(c) l(d) og l(b) l(d). ST 100 H. 2001: a) For forutsetninger og presisering se "The Simple Linear Regression Model" side 604. Minste kvadraters metode går ut på å minimere kvadratsummen S(β 0, β 1 ) med hensn på β 0 og β 1, hvor n S(β 0, β 1 ) = (Y i β 0 β 1 i ) 2. i=1 Hvis vi gjør dette får vi ˆβ 0 99.4 og ˆβ 1 8.9. b) Resibualene ê i er estimerte støledd, siden e i = Y i β 0 β 1 i estimerer vi ê i ved spesielt er ê 9 8.4. ê i = Y i Ŷi = Y i ˆβ 0 ˆβ 1 i, for i = 1,..., 9, c) Fra residualplottet, Figure 0.1, kan det se ut som om antagelsen om konstant varians ikke holder og det er derfor fristende å prøve en mer kompleks modell. Vi prøver med Z i = β 0 +β 1 i + β 2 2 i + e i, for i = 1,..., 9 (ellers samme antagelser som over), vi får da følgende residualplott, Figure 0.2. e.hat -6-4 -2 0 2 4 6 8 1 2 3 4 5 6 7 Figure 0.1

6 e.hat -3-2 -1 0 1 1 2 3 4 5 6 7 Figure 0.2 ST 100 H. 2005: a) Vi trenger samme antagelser som i punkt a) over. Merk at vi egentlig kun trenger linearitet for at modellen vi estimerer skal gi mening. Videre har vi bruk for at støleddene, e 1,..., e n, er uavhengige med E[e i ] = 0 og Var(e i ) = σ 2 for de pene egenskapene til estimatorene, til slutt trenger vi antagelsen om normalitet for å utlede t-testen. b) Får ˆβ 0 36.9 og ˆβ 1 0.58, se utregningene fra UKE 44. c) Se Figure 0.3 under 50 55 60 65 70 75 160 165 170 175 180 Figure 0.3 d) Får ˆσ β1 0.39, se utregningene fra UKE 44. e) Får at ˆβ 1 0.36 se også Figure 0.4. Siden vi estimerte ˆβ 0 < 0 kan det være fornuftig å jobbe med modellen hvor vi setter β 0 = 0 siden vi da unngår muligheten for å få en negativ vekt hos veldig lave personer, noe som ikke gir mening.

7 50 55 60 65 70 75 160 165 170 175 180 Figure 0.4

8 Uke 46: Eercise 12.54: a) Det er egentlig ingen grunn til å tro at det skulle være en deterministisk sammenheng, men de vil nok at vi skal argumentere med at i j for i = j, som betr at det ikke er noen enkel funksjonell sammenheng mellom og = () under den enkle modellantagelsen. b) og c) Finner ˆβ 0 = 19.67 og ˆβ 1 = 3.29. 20 40 60 80 10 15 20 25 30 d) La = 20 da er = ˆβ 0 + ˆβ 1 = 46.02 og et 95% prediksjonsintervall er gitt av (24.93, 67.12). Eercise 12.58: a) Finner r = 0.966 så det kan se ut til å være en god lineær sammenheng. 2.2 2.4 2.6 2.8 3.0 3.2 3.4 60 80 100 120 140 160 180

b) De spør om det er en voksende eller avtagende sammenheng, den er voksende, som vi ser både på plottet og fortegnet til r. c) Den vil ikke forandre seg, la c være en positiv konstant og la i = c i da er n r i=1 = ( i )( i ȳ) n ( n i=1 ( i ) 2 ) 1/2 ( n i=1 ( i ȳ) 2 ) 1/2 = i=1 (c i c )( i ȳ) ( n i=1 (c i c ) 2 ) 1/2 ( n i=1 ( i ȳ) 2 ) 1/2 = r d) r 2 = 0.934. e) T = 14.99 > 2.58 = t 0.01,18 2 og vi forkaster H 0 på nivå α = 0.01 og kan med stor overbevisning konkludere med at det er en positiv lineær sammenheng. Eercise 12.74: Fra Figure 0.5 kan det tde på at det er positiv lineær sammenheng, men det ser ikke helt optimalt ut og det kan spesielt se ut som om spredningen øker med økende verdier av. 9 20 30 40 50 60 70 45 50 55 60 65 70 Figure 0.5 Figure 0.6 er observerte mot predikerte verdier, dette plottet viser optimalt punkter omkring en stigene linje (45% grader) hvis modellantagelsene er oppflt. Fra plottet kan det se ut som om det er noe avvik siden vi får en slags flat liggende S form. Figure 0.7 plotter residualer e i -er mot i -er hvor vi da får forsterket inntrkket om at det kan være er en økende variasjon for økende. Figure 0.8 som er residualer mot predikerte gir omtrent samme bilde, det er ingen andre veldig tdelige trender. Figure 0.9 er et normal probabilit plot hvor punktene skal ligge langs en rett linje hvis antagelsen om normalitet holder. Det kan her se ut som dette ikke er helt oppflt siden punktene ser mer ut som en utstrakt S.

10 pred 20 30 40 50 60 20 30 40 50 60 70 Figure 0.6 res -10-5 0 5 10 45 50 55 60 65 70 Figure 0.7 Eercise 12.78: a) Vi tolker β 1 slik at hvis verdien til 1 øker med en enhet (en kilo) så vil responsen MOO (maksimalt oksigen opptak) øke med 0.01, det har derfor en positiv effekt på MOO hvis man går opp i vekt. Siden β 3 har negativt fortegn betr det at MOO vil øke hvis tiden på å gå en mile går ned, eller responsen minker med 0.13 for hvert ekstra minutt man bruker på å gå en mile. b) Y = 5 + 0.01 76 0.05 20 0.13 12 0.01 140 = 1.8. c) Siden oppgaven antar det litt unormale om at alt er kjent får vi at Pr{1.00 Y 2.60} = 0.95, hvor Y N(µ b, σ 2 ) og (µ b, σ) = (1.8, 0.4).

11 res -10-5 0 5 10 20 30 40 50 60 pred Figure 0.8 Normal Q-Q Plot Sample Quantiles -10-5 0 5 10-2 -1 0 1 2 Theoretical Quantiles Figure 0.9