MOT30 Statistisk mtodr, høstn 20 Løsningr til rgnøving nr. 8 (s. ) Oppgavr fra boka: Oppgav 2. (utg. 9) Modll: Y = µ Y x,x 2 + ε = β 0 + β x + β 2 x 2 + ε, dvs md n obsrvasjonr får vi n ligningr Y = β 0 + β x + β 2 x 2 + ε. llr Y n = β 0 + β x n + β 2 x 2n + ε n Y x x 2. =... Y n x n x 2n Y = Xβ + ε β 0 β β 2 + ε. ε n Md d oppgitt datan har vi at X =.32.5 2.69 3.40... 0.65 40.40 og y = 6.40 5.05..42 Vi har fra pnsum at stimatorn for β r dn b som minimrr SSE = n i= (y i ŷ i ) 2 = (y i b 0 b x b 2 x 2 ) 2 = (y Xb) T (y Xb) og dnn r gitt vd b = (X T X) X T y. Md datan i dnn oppgavn blir dtt b = b 0 b b 2 = (XT X) X T y = 0.58 2.72 2.050 som vi lsr ut av datautskriftn. Dvs stimrt rgrsjonslinj blir ŷ = ˆµ Y x,x 2 = 0.58 + 2.72x + 2.050x 2
MOT30 Statistisk mtodr, høstn 20 Løsningr til rgnøving nr. 8 (s. 2) Oppgav 2.2 (utg. 9) Rgrssion Statistics Multipl R 0,996 R Squar 0,99 Adjustd R Squar 0,987 Standard Error 633,30 Obsrvations 7 df SS MS F Significanc F Rgrssion 5 494692629,3 98938525,9 246,8 6,5876E- Rsidual 4409389,6 400853,6 Total 6 4990208,9 Cofficints Standard Error t Stat P-valu Lowr 95% Uppr 95% Intrcpt 70,768 058,38,66 0,34-68,74 4040,249 x -9,625 96,20-0,00 0,922-22,382 202,32 x2 0,056 0,02 2,685 0,02 0,00 0,02 x3,377 3,047 0,452 0,660-5,329 8,083 x4-3,988 7,06-0,565 0,584-9,530,554 x5-358,003 207,06 -,729 0,2-83,84 97,836 a) Ja. Vi sr at F -tstn for H 0 : β = β 2 = β 3 = β 4 = β 5 = 0 mot H : minst én av β j 'n r ulik null, har n p-vrdi < 0.05, og dtt indikrr forkast H 0 ; minst én av x-variabln har btydning for forvntt vrdi av Y i. b) Forklaringsvariabl nr j har btydning (for forvntt vrdi av Y i ) drsom β j 0. Vi kan gjnnomfør tst av H 0 : β j = 0 mot H 0 : β j 0 f.ks. vha. p-vrdin i ndrst dl av tablln i utskriftn. Vi sr da at for j = 2 har vi p-vrdi = 0.02 < 0.05 som indikrr at dnn variabln har btydning. Variabl 5 har også rlativt lav p-vrdi (= 0.2), mn dn r ikk lavr nn 0.05. c) Vi bør undrsøk rsultatn vi får md modllr som bstår av kun t utvalg av d aktull forklaringsvariabln. (Stgvis prosdyrr, forlngs og baklngs.) Drsom vi prøvr md n modll md kun variabl 2 og 5, blir rsultatn: Rgrssion Statistics Multipl R 0,962 R Squar 0,925 Adjustd R Squar 0,95 Standard Error 630,024 Obsrvations 7 df SS MS F Significanc F Rgrssion 2 46904338,3 23095269,2 86,92 0,0000 Rsidual 4 3797680,6 2656977,2 Total 6 4990208,9 Cofficints Standard Error t Stat P-valu Lowr 95% Uppr 95% Intrcpt -3364,46 65,66-2,083 0,056-6828,649 99,726 x2 0,224 0,02 0,465 0,000 0,78 0,270 x5 79,8 288,693 2,49 0,026 99,996 338,367 Vi sr at nå har bgg diss variabln signikant forklaringsvrdi.
MOT30 Statistisk mtodr, høstn 20 Løsningr til rgnøving nr. 8 (s. 3) d) Rsidualr: i = y i ŷ i ; vi bør sjkk plott av: i v.s. ŷ i (rsidual v.s. prdikrt vrdi) i v.s. i (rsidual v.s. datainnsamlingsrkkfølg) i v.s. x ji for d j'n vi har md i modlln (rsidual v.s. vrdi på x-variabl nr. j). For modlln md x-variabl 2 og 5, får vi plottn: Rsidual v.s. prdikrt Histogram ovr rsidualn Frquncy 0 2 3 4 5 6 7 0 5000 0000 5000 20000 y.hat Rsidual v.s. x.2 Rsidual v.s. x.5 0 20000 40000 60000 80000 4 5 6 7 8 9 0 x.2 x.5 Histogrammt skal ikk avvik vsntlig fra formn til n normalfordling (rsidualn forutstts å komm fra n normalfordling) som kjnntgns md éntoppt og symmtrisk form. Datahistogrammt sr nonlund grit ut. Plott av rsidual v.s.... skal vis n jvn sprdning omkring null som indikrr at rsidualn har forvntning null og varians som ikk ndrr sg som funksjon av x'n llr forvnttvrdi av Y i. D trgurn for å sjkk dtt, kunn vi sagt r nonlund ok. Mn (som vi ikk har vært inn på i pnsum) gurn illustrrr n utfordring som forkommr nå og da: non få punktr liggr t godt stykk fra d andr (mrkt md rødt). Slik punktr vil kunn få stor btydning for rsultatn av rgrsjonsanalysn (kraft gangr arm!). Man bør i slik tilfllr sjkk hva som skjr drsom man gjør analysn utn diss punktn.
MOT30 Statistisk mtodr, høstn 20 Løsningr til rgnøving nr. 8 (s. 4) Md kun aldr: Oppgav Rgrsjon 73, 6364 73,6364 99,47 0,0000 Rsidualr 246 82,7039 0,7427 Md kun kjønn: Rgrsjon 0,36 0,36 0,264 0,7225 Rsidualr 246 256,2087,045 Md kun høyd: Rgrsjon 9,0668 9,0668 9,020 0,0029 Rsidualr 246 247,2735,0052 Md kun vkt: Rgrsjon 0,306 0,306 0,2984 0,5854 Rsidualr 246 256,0297,0408 Vi sr at aldr r dn variabln som gir størst SSR og altså r dn som vlgs til først å bli inkludrt i modlln. F obs = 99.47, p-vrdi = 0.0000; variabln tas md i modlln. Vi sr at høyd også r signikant (p-vrdi = 0.0029), mn aldr har størst SSR, og dt r drfor dnn variabln som tas vidr i framlngs variablutvlgls.
MOT30 Statistisk mtodr, høstn 20 Løsningr til rgnøving nr. 8 (s. 5) Md aldr og kjønn: Rgrssion 2 73, 9443 36,9722 49,6622 0,0000 Rsidual 245 82,3960 0, 7445 Total 247 256,3403 Økning i SSR: 73.94 73.64 = 0.3, F obs = 0.3 MSE = 0.3 0.7445 = 0.403, ikk signikant (f 0.05,,245 3.84); variabln tas ikk md i modlln i tillgg til aldr. Md aldr og høyd: df SS MS F Signicanc F Rgrssion 2 74, 7033 37,357 50,386 0,0000 Rsidual 245 8,6370 0, 744 Total 247 256,3403 Økning i SSR: 74.70 73.64 =.06, F obs =.06 MSE =.06 0.744 =.43, ikk signikant (f 0.05,,245 3.84); variabln tas ikk md i modlln i tillgg til aldr. Md aldr og vkt: df SS MS F Signicanc F Rgrssion 2 74, 458 37,0729 49,8525 0,0000 Rsidual 245 82,946 0, 7437 Total 247 256,3403 Økning i SSR: 74.6 73.64 = 0.52, F obs = 0.52 MSE =.06 0.7437 = 0.70, ikk signikant (f 0.05,,245 3.84); variabln tas ikk md i modlln i tillgg til aldr. Sidn ingn av d tr aktull variabln utnom aldr, gir no signikant økning av SSR sammn md aldr, stoppr prosdyrn for variablutvlgls ttr dtt. Rsultat: kun variabln aldr i modlln.
MOT30 Statistisk mtodr, høstn 20 Løsningr til rgnøving nr. 8 (s. 6) Oppgav 2 Modll: Y i = β 0 + β x i + ε i dr ε,..., ε n u.i.f. N(0, σ 2 ) a) b = i=(x i x)y i i=(x i x) = 2 i= x i y i x b 0 = ȳ b x = 20.49 27 0.77248.8 27 i= y i i=(x i x) 2 = = 0.637 Dvs stimrt rgrsjonslinj blir ŷ = b 0 + b x = 0.637 + 0.772x b) 40.027 (48.8/27)20.49 3.866 = 0.772 E(B ) = E ( (x i x)y i (x i x) 2 ) = (x i x)e(y i ) (x i x)(x i x) = (x i x)(β 0 + β x i ) (x i x)x i x n i= (x i x) = β 0 (x i x) + β ni= (x i x)x i (x i x)x i x n i= (x i x) (Sidn: = β n n n n n n (x i x) = x i x = x i n x = x i x i = 0) i= i= i= i= i= i= Dvs B r forvntingsrtt. ( ) ( ) 2 (x i x)y i n Var(B ) = Var = (x i x) 2 Var( (x (x i x) 2 i x)y i ) i= ( ) 2 uavh. n ( ) 2 = (x (x i x) 2 i x) 2 n Var(Y i ) = (x i= (x i x) 2 i x) 2 σ 2 i= σ 2 = (x i x) 2 c) Z = B E(B ) Var(B ) = B β σ 2 n i= (x i x) 2 N(0,) Når dn ukjnt σ 2 rstatts md stimatorn S 2 har vi fra pnsum at: T = B β S 2 n i= (x i x) 2 t n 2 dr S 2 = (Y n 2 i Ŷi) 2 = (Y n 2 i B 0 B x i ) 2 P ( t α/2,n 2 B β t α/2,n 2 ) = α S 2 n i= (x i x) 2 P (B t α/2,n 2 S (x i x) β 2 B + t α/2,n 2 S (x i x) ) 2. α
y MOT30 Statistisk mtodr, høstn 20 Løsningr til rgnøving nr. 8 (s. 7) Innsatt b = 0.772 og i=(x i x) 2 = 3.866, s = 0.0276 = 0.66 og md t 0.025,25 = 2.060 får vi 95% kondnsnintrvall for β : [0.772 2.060 0.66, 0.772 + 2.060 0.66 ] = [0.598, 0.946] 3.866 3.866 H 0 : β = 0 mot H : β 0 β = 0 r ikk innhold i kondnsintrvallt, dvs vi forkastr H 0 på 5% nivå og kan påstå at luft/damp-forholdt har btydning for koksforbrukt. d) -.0-0.5 0.0 0.5.0 0.0 0.2 0.4 0.6 0.8.0 x Figur : Eksmpl på ok rsidualplott. Et rsidualplott bør s ut omtrnt som på gurn ovr drsom modllantaglsn r oppfylt, dvs dt bør ha - Ingn klar mønstr - Gjnnomsnitt 0 - Konstant variasjon U-mønstrt vi sr i rsidualn i gur 2 i oppgavtkstn tydr på at dn tilpassd modlln ikk r tilfrdstillnd. Dnn typn avvik indikrr ntn ikk-linær sammnhng mllom x og y llr avhngightr i datan. (Plottt av datan i gur i oppgavtkstn tydr på at vi har n ikk-linær sammnhng mllom x og y.)