Fasit og løsningsforslag STK 1110

Like dokumenter
UNIVERSITETET I OSLO

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

UNIVERSITETET I OSLO

Løsningsforslag eksamen 25. november 2003

TMA4240 Statistikk Høst 2009

Hypotesetesting. Formulere en hypotesetest: Når vi skal test om en parameter θ kan påstås å være større enn en verdi θ 0 skriver vi dette som:

TMA4240 Statistikk Høst 2016

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag eksamen 27. februar 2004

UNIVERSITETET I OSLO

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Oppgave N(0, 1) under H 0. S t n 3

Tilleggsoppgaver for STK1110 Høst 2015

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2009

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

TMA4240 Statistikk 2014

STK Oppsummering

UNIVERSITETET I OSLO

vekt. vol bruk

Oppgave 14.1 (14.4:1)

UNIVERSITETET I OSLO

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Eksamensoppgave i TMA4240 Statistikk

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

10.1 Enkel lineær regresjon Multippel regresjon

Oppgave 1. Kilde SS df M S F Legering Feil Total

ST0202 Statistikk for samfunnsvitere

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Løsningsforslag, eksamen statistikk, juni 2015

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Dekkes av kap , 9.10, 9.12 og forelesingsnotatene.

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

TMA4240 Statistikk H2010 (20)

TMA4245 Statistikk Eksamen desember 2016

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4245 Statistikk

LØSNINGSFORSLAG ) = Dvs

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Høst 2007

TMA4240 Statistikk Høst 2018

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

EKSAMENSOPPGAVE STA-1001.

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

TMA4240 Statistikk Eksamen desember 2015

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4240 Statistikk

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up!

STK juni 2016

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i TMA4255 Anvendt statistikk

Fasit for tilleggsoppgaver

TMA4240 Statistikk H2010

Kort overblikk over kurset sålangt

Løsningsforslag: STK2120-v15.

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Prøveeksamen STK2100 (fasit) - vår 2018

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

Eksamensoppgåve i TMA4240 Statistikk

Kapittel 10: Hypotesetesting

Kapittel 2: Hendelser

Inferens i regresjon

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Eksamensoppgave i ST0103 Brukerkurs i statistikk

TMA4240 Statistikk H2010 (19)

Oppsummering av STK2120. Geir Storvik

Eksamensoppgave i TMA4255 Anvendt statistikk

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2009

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

EKSTRAOPPGAVER I STK1110 H2017

Forelesning 3 STK3100

Løsningsforslag til obligatorisk oppgave i ECON 2130

Eksamensoppgave i ST0103 Brukerkurs i statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

Transkript:

Fasit og løsningsforslag STK 1110 Uke 36: Eercise 8.4: a) (57.1, 59.5), b) (57.7, 58, 9), c) (57.5, 59.1), d) (57.9, 58.7) og e) n 239. (Hint: l(n) = 1 = 2z 1 α/2 σ/n 1/2 ). Eercise 8.10: a) (2.7, 7.5), b) (2.4, 9.2) og c) Samme som i punkt a). ST 101 V. 1991: d) Vi får estimatoren ˆθ = 2/π 1/2 Xn, hvor X n = 1/n i X i og Var(ˆθ) = θ 2 (4/π 1)/n. e) Vi har at l n (θ data) = n[log(2) log(θ)]+ i log(x i) 1/θ 2 i X2 i θ ML = (1/n i X2 i )1/2, bruk det du fant i punkt c) for å argumentere for at dette er en rimelig estimator, kan du finne et bedre argument? Tilleggsoppgave 2: b) Får at ˆp = 0.80 og konfidensintervalle gitt ved (0.77, 0.83). c) At lengden skal være høst fem prosentpoeng, betr at lengden av intervallet skal være mindre enn fem hundredeler, altså l(n) = 2z 1 α/2 (ˆp(1 ˆp)/n) 1/2 5/100 n 400z 2 1 α/2 med tallene fra b) blir n 1038. (Hint: Bruk at ˆp(1 ˆp) 1/4). d) Vi har at 1 α Pr{z α/2 (ˆp p)/(p(1 p)/n) 1/2 z 1 α/2 } = Pr{(ˆp p) 2 /(p(1 p)/n) z 2 1 α/2 }, bruk dette og finn andregradspolnomet ap 2 + bp + c = 0 hvor a = (n + z 2 1 α/2 ), b = (2nˆp + z2 1 α/2 )( 1), c = nˆp2 løs dette og sammenlign med intervallet gitt på s. 388 i boka. 1

2 Uke 37: Eercise 8.34: a) Normal Q-Q Plot Sample Quantiles 20 22 24 26 28 30-2 -1 0 1 2 Theoretical Quantiles b) (23.8, 26.3). Eercise 8.38: a) (0.89, 0.96), b) (0.75, 1.10).

3 Uke 39: Eercise 9.16: a) α = 0.001), b) α = 0.01) og c) α = 0.1). Eercise 9.24: Fikk ( X n µ 0 )/(S/n 1/2 ) = t = 2.32 < t 0.05/2,4 1 = 3.18, så forkaster ikke H 0 på nivå α = 0.05. Eercise 9.30: Fikk t = 6.17 < 1.66 = t 0.05,115 1, så forkaster H 0 på nivå α = 0.05. Eercise 9.38: Fikk z = (ˆp p 0 )/(p 0 (1 p 0 )/n 1/2 ) = 3.67 > 2.32 = z 0.01, så forkaster H 0 på nivå α = 0.01. Eercise 9.44: a) Fikk z = 4.90 > 1.645 = z 0.05, så forkaster H 0 på nivå α = 0.05. b) Med signifikansnivå α = 0.01 blir Pr{forkaste H 0 p = 0.95} = 0.13. c) n 780.

4 Uke 44: STK 1110 H. 2006: Gitt n = 17 observasjoner Y 1,..., Y n fra modellen og 1,..., n er kjente tall. Y i = β 0 + β 1 i + ɛ i, hvor ɛ 1,..., ɛ n er u.i.f og ɛ 1 N(0, σ 2 ) a) Det kan da vises at minste kvadraters estimatroene er gitt av ˆβ 1 = n i i i i i i i n i 2 i ( i i) 2 = [ i i og ˆβ 0 = Ȳ + ˆβ 1 = i 2 i i i i i i i i n i 2 i ( i i) 2 fra data får jeg ˆβ 0 0.726 og ˆβ 1 0.498. b) Anta en n modell hvor = i j ( j ) 2 ] i [ j 2 j i n j ( j ) 2 Y i = γ i + η i, hvor η 1,..., η n er u.i.f og η 1 N(0, τ 2 ) vi finner ˆγ ved minste kvadraters metode, altså j j ] i, S(γ) = i ( i γ i i ) 2 ˆγ = i i i / i 2 i og fra data får jeg ˆγ 0.520. c) Siden ˆβ 0 og ˆβ 1 er lineær kombinasjoner av normalfordelte observasjoner er de selv også normalfordelte. Vi trenger derfor bare å beregne forventning og varians. Vi har først at E[ ˆβ 1 ] = [ ] i i j ( j ) 2 E[ i ] = [ ] i i j ( j ) 2 (β 0 + β 1 i ) = β 1 siden i ( i ) = 0 og E[ ˆβ 0 ] = E[Ȳ ˆβ ] = β 0 + β 1 β 1 = β 0. Videre er variansen til ˆβ 1 gitt ved Var( ˆβ 1 ) = [ ] i 2 i j ( j ) 2 Var( i ) = og til ˆβ 0 ved Var( ˆβ 0 ) = ( i 2 i )2 ( i i) 2 i 2 i n 2 [ j ( j ) 2 ] 2 σ 2 = i ( i ) 2 [ j ( j ) 2 ] 2 σ2 = i 2 i ( i 2 i ( i i) 2 ) n 2 [ j ( j ) 2 ] 2 σ 2 = nσ 2 n j 2 j ( j j) 2 σ 2 i 2 i n j 2 j ( i j) 2. Vi ønsker nå å teste H 0 : β 0 = 0 mot H 1 : β 0 0, siden ( ˆβ i β i )/s ˆβi t n 2, hvor s ˆβi = ˆσ βi med ˆσ 2 = RSS/(n 2) finner vi p-verdien ved Pr{ ˆβ 0 0.726 H 0 sann } =... 0.65 hvor s ˆβi 1.549. Vi forkastet ikke H 0 og har derfor mer tiltro til den lille modellen b) enn den store a). Kan det være andre årsaker til å velge β 0 = 0, hva ville det betdd for modellen om ˆβ 0 < 0?

5 Uke 45: Eercise 12.34: Vi ønsker å teste H 0 : β i = 0 mot H 1 : β i 0 for i = 0, 1. a) Fra tabellen på side s. 625 får vi forkastning av H 0 på nivå α = 0.01 for i = 0, 1 siden t 0.005,11 = 4.44. b) Vi får tilsvarende konklusjon som i a) med p-verdier p 0 0.0036 og p 1 0.00026. c) Vi ønsker å teste H 0 : β 1 = 1.5 mot H 1 : β 1 1.5. Siden t = 2.91 < t 0.01,13 2 = 2.72 forkaster vi H 0 på nivå α = 0.01 (fikk også at p 0.007). Eercise 12.47: c) Det som det blir spurt etter er et 95% konfidensintervall for β 1, altså ˆβ 1 ± s β1 t α/2,n 2. Eercise 12.52: Hvis l(a) = lengden av intervallet i a) så vil l(a) l(b), l(a) l(c), l(c) l(d) og l(b) l(d). ST 100 H. 2001: a) For forutsetninger og presisering se "The Simple Linear Regression Model" side 604. Minste kvadraters metode går ut på å minimere kvadratsummen S(β 0, β 1 ) med hensn på β 0 og β 1, hvor n S(β 0, β 1 ) = (Y i β 0 β 1 i ) 2. i=1 Hvis vi gjør dette får vi ˆβ 0 99.4 og ˆβ 1 8.9. b) Resibualene ê i er estimerte støledd, siden e i = Y i β 0 β 1 i estimerer vi ê i ved spesielt er ê 9 8.4. ê i = Y i Ŷi = Y i ˆβ 0 ˆβ 1 i, for i = 1,..., 9, c) Fra residualplottet, Figure 0.1, kan det se ut som om antagelsen om konstant varians ikke holder og det er derfor fristende å prøve en mer kompleks modell. Vi prøver med Z i = β 0 +β 1 i + β 2 2 i + e i, for i = 1,..., 9 (ellers samme antagelser som over), vi får da følgende residualplott, Figure 0.2. e.hat -6-4 -2 0 2 4 6 8 1 2 3 4 5 6 7 Figure 0.1

6 e.hat -3-2 -1 0 1 1 2 3 4 5 6 7 Figure 0.2 ST 100 H. 2005: a) Vi trenger samme antagelser som i punkt a) over. Merk at vi egentlig kun trenger linearitet for at modellen vi estimerer skal gi mening. Videre har vi bruk for at støleddene, e 1,..., e n, er uavhengige med E[e i ] = 0 og Var(e i ) = σ 2 for de pene egenskapene til estimatorene, til slutt trenger vi antagelsen om normalitet for å utlede t-testen. b) Får ˆβ 0 36.9 og ˆβ 1 0.58, se utregningene fra UKE 44. c) Se Figure 0.3 under 50 55 60 65 70 75 160 165 170 175 180 Figure 0.3 d) Får ˆσ β1 0.39, se utregningene fra UKE 44. e) Får at ˆβ 1 0.36 se også Figure 0.4. Siden vi estimerte ˆβ 0 < 0 kan det være fornuftig å jobbe med modellen hvor vi setter β 0 = 0 siden vi da unngår muligheten for å få en negativ vekt hos veldig lave personer, noe som ikke gir mening.

7 50 55 60 65 70 75 160 165 170 175 180 Figure 0.4

8 Uke 46: Eercise 12.54: a) Det er egentlig ingen grunn til å tro at det skulle være en deterministisk sammenheng, men de vil nok at vi skal argumentere med at i j for i = j, som betr at det ikke er noen enkel funksjonell sammenheng mellom og = () under den enkle modellantagelsen. b) og c) Finner ˆβ 0 = 19.67 og ˆβ 1 = 3.29. 20 40 60 80 10 15 20 25 30 d) La = 20 da er = ˆβ 0 + ˆβ 1 = 46.02 og et 95% prediksjonsintervall er gitt av (24.93, 67.12). Eercise 12.58: a) Finner r = 0.966 så det kan se ut til å være en god lineær sammenheng. 2.2 2.4 2.6 2.8 3.0 3.2 3.4 60 80 100 120 140 160 180

b) De spør om det er en voksende eller avtagende sammenheng, den er voksende, som vi ser både på plottet og fortegnet til r. c) Den vil ikke forandre seg, la c være en positiv konstant og la i = c i da er n r i=1 = ( i )( i ȳ) n ( n i=1 ( i ) 2 ) 1/2 ( n i=1 ( i ȳ) 2 ) 1/2 = i=1 (c i c )( i ȳ) ( n i=1 (c i c ) 2 ) 1/2 ( n i=1 ( i ȳ) 2 ) 1/2 = r d) r 2 = 0.934. e) T = 14.99 > 2.58 = t 0.01,18 2 og vi forkaster H 0 på nivå α = 0.01 og kan med stor overbevisning konkludere med at det er en positiv lineær sammenheng. Eercise 12.74: Fra Figure 0.5 kan det tde på at det er positiv lineær sammenheng, men det ser ikke helt optimalt ut og det kan spesielt se ut som om spredningen øker med økende verdier av. 9 20 30 40 50 60 70 45 50 55 60 65 70 Figure 0.5 Figure 0.6 er observerte mot predikerte verdier, dette plottet viser optimalt punkter omkring en stigene linje (45% grader) hvis modellantagelsene er oppflt. Fra plottet kan det se ut som om det er noe avvik siden vi får en slags flat liggende S form. Figure 0.7 plotter residualer e i -er mot i -er hvor vi da får forsterket inntrkket om at det kan være er en økende variasjon for økende. Figure 0.8 som er residualer mot predikerte gir omtrent samme bilde, det er ingen andre veldig tdelige trender. Figure 0.9 er et normal probabilit plot hvor punktene skal ligge langs en rett linje hvis antagelsen om normalitet holder. Det kan her se ut som dette ikke er helt oppflt siden punktene ser mer ut som en utstrakt S.

10 pred 20 30 40 50 60 20 30 40 50 60 70 Figure 0.6 res -10-5 0 5 10 45 50 55 60 65 70 Figure 0.7 Eercise 12.78: a) Vi tolker β 1 slik at hvis verdien til 1 øker med en enhet (en kilo) så vil responsen MOO (maksimalt oksigen opptak) øke med 0.01, det har derfor en positiv effekt på MOO hvis man går opp i vekt. Siden β 3 har negativt fortegn betr det at MOO vil øke hvis tiden på å gå en mile går ned, eller responsen minker med 0.13 for hvert ekstra minutt man bruker på å gå en mile. b) Y = 5 + 0.01 76 0.05 20 0.13 12 0.01 140 = 1.8. c) Siden oppgaven antar det litt unormale om at alt er kjent får vi at Pr{1.00 Y 2.60} = 0.95, hvor Y N(µ b, σ 2 ) og (µ b, σ) = (1.8, 0.4).

11 res -10-5 0 5 10 20 30 40 50 60 pred Figure 0.8 Normal Q-Q Plot Sample Quantiles -10-5 0 5 10-2 -1 0 1 2 Theoretical Quantiles Figure 0.9