Kp. 12 Multippel regresjon

Like dokumenter
Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Oppgave N(0, 1) under H 0. S t n 3

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Løsningsforslag eksamen 25. november 2003

MOT310 Statistiske metoder 1, høsten 2011

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Kp. 13. Enveis ANOVA

Tilleggsoppgaver for STK1110 Høst 2015

Oppgave 1. Kilde SS df M S F Legering Feil Total

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Kp. 14 Flerfaktoreksperiment. Kp. 14: Flerfaktor-eksperiment; oversikt

10.1 Enkel lineær regresjon Multippel regresjon

Oppgave 1. og t α/2,n 1 = 2.262, så er et 95% konfidensintervall for µ D (se kap 9.9 i læreboka): = ( 0.12, 3.32).

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Kp. 9.8 Forskjell mellom to forventninger

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Oppgave 14.1 (14.4:1)

HØGSKOLEN I STAVANGER

TMA4240 Statistikk Høst 2009

HØGSKOLEN I STAVANGER

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

ST0202 Statistikk for samfunnsvitere

Oppgave 1. a) Anlysetype: enveis variansanalyse (ANOVA). Modell for y ij = ekspedisjonstid nr. j for skrankeansatt nr. i:

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

STK Oppsummering

Eksamensoppgave i TMA4267 Lineære statistiske modeller

STK juni 2016

TMA4240 Statistikk Høst 2016

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Inferens i regresjon

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

UNIVERSITETET I OSLO

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

TMA4245 Statistikk Eksamen desember 2016

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

EKSAMEN I TMA4255 ANVENDT STATISTIKK

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

TMA4240 Statistikk 2014

Modellvalg ved multippel regresjon notat til STK2120

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Ridge regresjon og lasso notat til STK2120

Forelesning 3 STK3100

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4255 Anvendt statistikk

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Oppgave 1. (x i x)(y i Y ) (Y i A Bx i ) 2 er estimator for σ 2 (A er minstek-

ÅMA110 Sannsynlighetsregning med statistikk, våren

Fra krysstabell til regresjon

Fasit og løsningsforslag STK 1110

UNIVERSITETET I OSLO

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Om eksamen. Never, never, never give up!

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

TMA4240 Statistikk H2010

Løsningsforslag, eksamen statistikk, juni 2015

Oppgaver fra boka: Oppgave 12.1 (utg. 9) Y n 1 x 1n x 2n. og y =

Kort overblikk over kurset sålangt

Statistisk analyse av data fra planlagte forsøk

Kapittel 2: Hendelser

Eksamensoppgave i TMA4240 Statistikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMENSOPPGAVER STAT100 Vår 2011

Regresjon med GeoGebra

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

UNIVERSITETET I OSLO

Løsningsforslag til oppgaver brukt i STA100

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Transkript:

Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Kp 12 Multippel Bjørn H Auestad Kp 11: Regresjonsanalyse 1 / 46 Kp 12 Multippel ; oversikt Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt 121 Introduction 122 Estimating the Coefficients 123 Linear Regression Model Using Matrices 124 Properties of the Least Squares Estimators 125 Inferences in Multiple Linear Regression 126 Choice of a Fitted Model Through Hypothesis Testing 128 Categorial or Indicator Variables 129 Sequential Methods for Model Selection 1213 Potential Misconceptions (127, 1210, 1211 og 1212 er ikke med i pensum) Bjørn H Auestad Kp 11: Regresjonsanalyse 2 / 46

Kp 12 Multippel ; introduksjon Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Eksempel 121 (i boken): Nitrogenoksydutslipp (y i )fra dieselmotor Regner med at det avhenger av luftfuktighet (x 1i ), temperatur (x 2i ) og trykk (x 3i ) Har gjort målinger (n =20) under ulike (eksperiment)betingelser: Bjørn H Auestad Kp 11: Regresjonsanalyse 3 / 46 Kp 12 Multippel ; introduksjon Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Spredningsdiagram (én-om-gangen): Det kan synes som om alle x-variablene har sammenheng? Bjørn H Auestad Kp 11: Regresjonsanalyse 4 / 46

Kp 12 Multippel ; introduksjon Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Modell som kan være aktuell: Y i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 3i + ɛ i, i =1,,20 Forventning: E(Y i x 1i,x 2i,x 3i )=μ Y x1i,x 2i,x 3i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 3i β j : endring i E(Y i x 1i,x 2i,x 3i ) når x ji endres én enhet ɛ i : Forventing null, varians σ 2 Hvorfor ikke bruke tre analyser med enkel lineær? Bjørn H Auestad Kp 11: Regresjonsanalyse 5 / 46 Kp 12 Multippel ; introduksjon Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Generelt: Multippel lineær smodell: Y i = β 0 + β 1 x 1i + + β k x ki + ɛ i, i =1,,n k uavhengige variable (forklaringsvariable) E(Y i x 1i,,x ki )=μ Y x1i,,x ki = β 0 + β 1 x 1i + + β k x ki E(ɛ i )=0, Var(ɛ i )=Var(Y i )=σ 2 (uavh av x j ene) Hvordan estimere β j ene? Hvordan estimere støyvariansen σ 2? Bjørn H Auestad Kp 11: Regresjonsanalyse 6 / 46

Estimering Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Data: (x 11,,x k1,y 1 ),,(x 1n,,x kn,y n ) Vi bruker dataene til å estimere de ukjente: β 0,β 1,,β k Estimert slinje: ŷ = b 0 + b 1 x 1 + + b k x k Residual: e i = y i ŷ i = y i (b 0 + b 1 x 1i + + b k x ki ) SSE = n e 2 i = n (y i ŷ i ) 2 = n { yi (b 0 + b 1 x 1i + + b k x ki ) } 2 Metode: Velg b 0, b 1,,b k (konstantledd og stigningstallene) slik at SSE blir minimert! s 444-445 i boken Bjørn H Auestad Kp 11: Regresjonsanalyse 7 / 46 Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Modell for n observasjoner: Matriseform: Y = Xβ + E, der Y = Y 1 Y n, X = Y 1 = β 0 + β 1 x 11 + + β k x k1 + ɛ 1 Y i = β 0 + β 1 x 1i + + β k x ki + ɛ i Y n = β 0 + β 1 x 1n + + β k x kn + ɛ n 1 x 11 x k1 1 x 1n x kn, β = β 0 β 1 β k og E = ɛ 1 ɛ n Bjørn H Auestad Kp 11: Regresjonsanalyse 8 / 46

Bruk av Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Matrisehjelp, produkt Feks har vi: Xβ = 1 x 11 x k1 1 x 1n x kn Matrisehjelp, transponering [ a b c d e f ] T a = b c β 0 β 1 β k d e f = β 0 + β 1 x 11 + + β k x k1 β 0 + β 1 x 1i + + β k x ki β 0 + β 1 x 1n + + β k x kn og (AB) T = B T A T Bjørn H Auestad Kp 11: Regresjonsanalyse 9 / 46 Minmering av SSE Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Minimering av SSE på matriseform: Da: SSE = datavektor: y = y 1 y n, og b = n { yi (b 0 + b 1 x 1i + + b k x ik ) }2 = = (y Xb) T (y Xb)= [e 1,,e n ] b 0 b 1 b k n (e i ) 2 = (y T b T X T )(y Xb) =y T y y T Xb b T X T y + b T X T Xb e 1 e n = y T y 2b T X T y + b T X T Xb Bjørn H Auestad Kp 11: Regresjonsanalyse 10 / 46

Minmering av SSE Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt e 1 e 2 (y Xb) =, e n fordi: y 1 1 x 11 x k1 b 0 e 1 y 2 (y Xb) = 1 x 12 x k2 b 1 = e 2 y n 1 x 1n x kn b k e n Bjørn H Auestad Kp 11: Regresjonsanalyse 11 / 46 Minmering av SSE Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Med matrisehåndtering får vi enkelt resultatet: SSE b = SSE b 0 SSE b 1 SSE b k = 2X T y +2X T Xb SSE b = 2XT y +2X T Xb = 0 b = ( X T X ) 1 X T y X T X er invertibel dersom X har rang k +1 Dette krever at n k +1og at ingen av x-variablene er en lineærkombinasjon av de andre Bjørn H Auestad Kp 11: Regresjonsanalyse 12 / 46

Minmering av SSE Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Forklaring Vi ønsker å løse ligningssettet: SSE b j = b j = 2 n { yi (b 0 + b 1 x 1i + + b k x ki ) } 2 n { yi (b 0 + b 1 x 1i + + b k x ki ) } x ji = 2 ( n y i x ji = 2 { n y i x ji n b 0 x ji n (b 0 + n b 1 x 1i x ji k } b l x li )x ji l=1 n ) b k x ki x ji = 0, j =0, 1, 2,,k (x 1i =1) Bjørn H Auestad Kp 11: Regresjonsanalyse 13 / 46 Minmering av SSE Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Dette kan skrives slik: 2X T y +2X T Xb = 0, fordi: 1 1 1 y n 1 y i X T x 11 x 12 x 1n y 2 n y = = y ix 1i, x k1 x k2 x kn y n n y ix ki og 1 1 1 b 0 + k j=1 X T x 11 x 12 x 1n b jx j1 b 0 + k j=1 Xb = b jx j2 x k1 x k2 x kn b 0 + k j=1 b jx jn n ( b0 + k j=1 b ) jx ji n ( b0 + k j=1 = b ) jx ji x1i n ( b0 + k j=1 b ) jx ji xki Bjørn H Auestad Kp 11: Regresjonsanalyse 14 / 46

Minmering av SSE Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Eksempel, dieselmotordata: Regresjonslinje (?): ŷ i = 3508 0003x 1i +0001x 2i +0154x 3i Fortolkning: Bjørn H Auestad Kp 11: Regresjonsanalyse 15 / 46 Kp 12 Multippel ; oversikt Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt 121 Introduction 122 Estimating the Coefficients 123 Linear Regression Model Using Matrices 124 Properties of the Least Squares Estimators 125 Inferences in Multiple Linear Regression 126 Choice of a Fitted Model Through Hypothesis Testing 128 Categorial or Indicator Variables 129 Sequential Methods for Model Selection 1213 Potential Misconceptions (127, 1210, 1211 og 1212 er ikke med i pensum) Bjørn H Auestad Kp 11: Regresjonsanalyse 16 / 46

Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Multippel lineær smodell: Y i = β 0 + β 1 x 1i + + β k x ki + ɛ i, På matriseform: Y = Xβ + E, eller: Y 1 Y 2 Y n = 1 x 11 x k1 1 x 12 x k2 1 x 1n x kn β 0 β 1 β k + i =1,,n ɛ 1 ɛ 2 ɛ n Bjørn H Auestad Kp 11: Regresjonsanalyse 17 / 46 Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Minstekvadraters estimatene av β 0,β 1,,β k : b = ( X T X ) 1 X T y Minstekvadraters estimatorene av β 0,β 1,,β k : β = ( X T X ) 1 X T Y Vi må undersøke de statistiske egenskapene til estimatorene Først litt generelt angående egning med forventning og varians Bjørn H Auestad Kp 11: Regresjonsanalyse 18 / 46

Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Generelt i forbindelse med vektorer og : Dersom V er en vektor av tilfeldige variable, så definerer vi: E(V 1 ) E(V) = E(V n ), Var(V) = Dersom A (m n) er en konstantmatrise, så gjelder: E(AV)=AE(V) Var(AV)=AVar(V)A T V = V 1 V n Var(V 1 ) Cov(V 1,V 2 ) Cov(V 1,V n ) Cov(V n,v 1 ) Cov(V n,v 2 ) Var(V n ) A = a 11 a 12 a 1n a m1 a m2 a mn Bjørn H Auestad Kp 11: Regresjonsanalyse 19 / 46 Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Egenskaper til estimatorene: β = ( X T X ) 1 X T Y E( β) = ( X T X ) 1 X T E ( Y ) (E(Y) =E(Xβ + E) =Xβ) = ( X T X ) 1 X T Xβ = β { (X Var( β) = Var T X ) } 1 X T Y = σ 2( X T X ) 1 = σ 2 C Dvs: β er forventingsrett for β Matrisen C = ( X T X ) 1 beregnes vanligvis av statistikkprogrammet Bjørn H Auestad Kp 11: Regresjonsanalyse 20 / 46

Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Egenskaper til estimatorene: Var( β j )=σ 2 c jj, der C = c 00 c 01 c 0k c 10 c 11 c 1k c k0 c k1 c kk og matrisen C beregnes av statistikkprogrammet = ( X T X ) 1, Vanligvis blir verdi av S 2 c jj som estimat av variansen til β j vist, se eksempel Bjørn H Auestad Kp 11: Regresjonsanalyse 21 / 46 Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Eksempel, dieselmotordata: Feks, estimert verdi av: Var( β 1 )=σ 2 c 11 er 0001 2 (Det er valigvis kun dette (verdiene i kollonnen Standard Error ) vi trenger Hele matrisen skrives vanligvis ikke ut) Bjørn H Auestad Kp 11: Regresjonsanalyse 22 / 46

Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Forventningsrett estimator for Var(ɛ i )=σ 2 (Teorem 121): σ 2 = S 2 = = Estimat beregnes vha: Matriseuttrykk: S 2 = 1 n k 1 1 n k 1 n ( Yi Ŷi) 2 n { Yi ( β 0 + β 1 x 1i + + β k x ki ) } 2 SSE n k 1 SSE n k 1 = 1 n k 1 (når MK-estimatene er innsatt i SSE) n ( Yi Ŷi) 2 = (Y X β) T (Y X β) n k 1 (Kan vise at (n k 1)S2 σ 2 χ 2 n k 1 og uavhengig av β) Bjørn H Auestad Kp 11: Regresjonsanalyse 23 / 46 Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Inferens om β j : Vikanviseat: βj N(β,σ 2 c jj ) og at β j β j S 2 c jj t(n k 1) Dette brukes til å lage hypotesetester og/eller konfidensintervall for β j Eks, dieselmotordata Coefficients Standard Error t Stat P-value Intercept -3,5078 3,0049 0,2602 x 1 (hum) -0,0026 0,0007 0,0010 x 2 (temp) 0,0008 0,0020 0,7012 x 3 (trykk) 0,1542 0,1014 0,1478 Oppgave: Beregn T obs og 95% konfint for β 0, β 1, β 2 og β 3 Bjørn H Auestad Kp 11: Regresjonsanalyse 24 / 46

Inferens Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Eks, dieselmotordata Coefficients Standard Error t Stat P-value Intercept -3,5078 3,0049 0,2602 x 1 (hum) -0,0026 0,0007 0,0010 x 2 (temp) 0,0008 0,0020 0,7012 x 3 (trykk) 0,1542 0,1014 0,1478 Hvilke (om noen) x-variable har sammenheng med y en?? Vi vil gjennomføre testene H 0 : β i =0mot H 0 : β i 0, i =1, 2, 3 Hvordan? Bjørn H Auestad Kp 11: Regresjonsanalyse 25 / 46 Konfidensintervall Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Inferens om μ Y x 0 = E(Y x 0 ): (x T 0 =[1,x 10,,x k0 ]) μ Y x 0 = β 0 + β 1 x 10 + + β k x k0 = x T 0 β Estimator: μ Y x 0 = β 0 + β 1 x 10 + + β k x k0 = x T 0 β Vi finner at: E( μ Y x 0 )=β 0 +β 1 x 10 + +β k x k0 og Var( μ Y x 0 )=Var(x T 0 β) = = σ 2 x T 0 Cx 0 Det kan vises at: μ Y x 0 μ Y x 0 S 2 x T 0 C x 0 t(n k 1) Brukes til å lage hypotesetester / konfidensintervall for μ Y x0 Oppgave: dieselmotordataene; Lag et 95% konfidensintervall for forventet nitrogenoksydmengde ved forholdene x 1 =50, x 2 =75og x 3 =293 Det oppgis at x T 0 C x 0 =00688 og at estimat av σ 2 er: 000315 Bjørn H Auestad Kp 11: Regresjonsanalyse 26 / 46

Prediksjonsintervall Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Prediksjonsintervall for Y 0, (Y -utfall for x = x 0 ): Y 0 = β 0 + β 1 x 10 + + β k x k0 + ɛ 0 Estimator: Ŷ0 = β 0 + β 1 x 10 + + β k x k0 = μ Y x 0 Vi betrakter Ŷ0 Y 0 = μ Y x 0 Y 0 Egenskaper: E( μ Y x 0 Y 0 )=0 og Var( μ Y x 0 Y 0 )=σ 2( 1+x T 0 C x 0 ) Det kan vises at: μ Y x 0 Y 0 S 2( 1+x T0 C x 0 ) t(n k 1) Brukes til å lage prediksjonsintervall for Y 0 Et(1 γ) 100% predint for Y 0 : ( μ Y x 0 t γ/2,n k 1 S 2( 1+x T0 C x 0 ), μy x 0 + t γ/2,n k 1 S 2( 1+x T0 C x 0 ) ) Oppgave: dieselmotordataene; Lag prediksjonsintervall for Y 0 når x T 0 =[1, 50, 75, 293] Bjørn H Auestad Kp 11: Regresjonsanalyse 27 / 46 ANOVA-tabell Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt ANOVA-tabell lages også i multippel Eksempel: ANOVA-tabell for dieselmotordataene: Struktur: ANOVA df SS MS F Significance F Regression 3 0,20250 0,06750 21,39516 0,00001 Residual 16 0,05048 0,00315 Total 19 0,25298 Kilde fg SK GK F p-verdi Source df SS MS F p-value Regresjon k SSR Residual n k 1 SSE Total n 1 SST SSR k SSE n k 1 MSR MSE P (F >f obs ) Bruk? Bjørn H Auestad Kp 11: Regresjonsanalyse 28 / 46

ANOVA-tabell Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Også for multippel gjelder: n (Y i Y ) 2 = der Ŷ i = β 0 + β 1 x 1i + + β k x ki n (Y i Ŷi) 2 + SST = SSE + SSR, SSE n k 1 estimerer σ2 (= Var(Y i )=Var(ɛ i )) SSR k n (Ŷi Y ) 2 Modell: Y i = β 0 + β 1 x 1i + + β k x ki + ɛ i estimerer σ 2,dersomβ 1 = β 2 = β k =0 E( SSR k ) >σ2 dersom minst én β j 0 Bjørn H Auestad Kp 11: Regresjonsanalyse 29 / 46 ANOVA-tabell Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Derfor bruker vi stor verdi av som indikasjon på at minst én β j 0 Dieselmotordataene: SSR / k SSE / n k 1 = MSR MSE, k n k 1 n 1 k n k 1 P (F >f ) Bjørn H Auestad Kp 11: Regresjonsanalyse 30 / 46

ANOVA-tabell Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Vi har at: Under H 0 : β 1 = β 2 = β k =0er: SST χ 2 σ 2 n 1 }{{} jf teorem 84 Test: Forkast H 0 dersom: F = SSR / σ k 2 SSE / = σ n k 1 2 SSE χ 2 σ 2 n k 1 }{{} jf kp 124 Med ANOVA-innfallsvinkelen tester vi: SSR χ 2 σ 2 k }{{} n 1=(n k 1)+(k) SSR / k SSE / n k 1 = MSR MSE f α,k,n k 1 H 0 : β 1 = β 2 = β k =0mot H 1 : minst en β j 0 Dvs: Test for om modellen samlet er av betydning Bjørn H Auestad Kp 11: Regresjonsanalyse 31 / 46 ANOVA-tabell Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Dieselmotordataene: Modellen samlet er åpenbart av betydning! Men ikke alle variablene synes å være signifikante? Hvordan kan vi undersøke dette nærmere? Bjørn H Auestad Kp 11: Regresjonsanalyse 32 / 46

Kp 12 Multippel ; oversikt Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt 121 Introduction 122 Estimating the Coefficients 123 Linear Regression Model Using Matrices 124 Properties of the Least Squares Estimators 125 Inferences in Multiple Linear Regression 126 Choice of a Fitted Model Through Hypothesis Testing 128 Categorial or Indicator Variables 129 Sequential Methods for Model Selection 1213 Potential Misconceptions (127, 1210, 1211 og 1212 er ikke med i pensum) Bjørn H Auestad Kp 11: Regresjonsanalyse 33 / 46 Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Hvilke forklaringsvariable skal være med i modellen? Vi kan ha signifikant F samtidig som alle (!) T j = β j / S 2 c jj er ikke-signifikante Dette indikerer at kun et underutvalg av variablene bør være med i modellen Vi bør i slike situasjoner finne fram til en modell som har et underutvalg av alle forklaringsvariablene inkludert Hvordan? Bjørn H Auestad Kp 11: Regresjonsanalyse 34 / 46

Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Ta ut variablene med ikke-signifikant T j = β j / S 2 c jj? (Dvs: β 2 og β 3 skal vekk) Obs: Estimater og p-verdier endres og derfor kan en slik framgangsmåte gi uheldig resultat Bjørn H Auestad Kp 11: Regresjonsanalyse 35 / 46 Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt (Lite endringer i dette eksempelet) Bjørn H Auestad Kp 11: Regresjonsanalyse 36 / 46

Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt R 2 som mål på hvilken modell som er best? R 2 = SSR SST =1 SSE SST R 2 utrykker hvor stor del av total variasjon en forklarer (På samme måte som i enkel lineær ) MEN: SSE kan ikke øke når flere x-variable tas med i modellen Problem: S 2 = økende k ( R 2 kan ikke avta) SSE, kan øke selv om SSE avtar med n k 1 Medfører mer usikre estimat, analyser og prediksjoner! Dersom i tillegg x-variable med sterk sammenheng (korrelasjon) tas inn i modellen, blir C =(X T X) 1 slik at Var( β j )=σ 2 c jj blir stor! Jf s 466, 467 i boken Bjørn H Auestad Kp 11: Regresjonsanalyse 37 / 46 Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Bedre kriterium: R 2 justert = R2 adj Mulig strategi for modellvalg: Dieselmotordata Vi skal i tillegg se på stegvise prosedyrer =1 SSE/(n k 1) SST/(n 1) Velg den modellen som har størst R 2 justert mål med 3 x-variable med 2 x-variable R 2 0800 0799 Rjustert 2 0763 0775 Forlengs og baklengs utvelgelse Stegvis utvelgelse (kombinasjon av forlengs og baklengs) Bjørn H Auestad Kp 11: Regresjonsanalyse 38 / 46

Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt To alternative modeller (den ene har en delmengde av x-variablene i forhold til den andre) kan sammenlignes vha SSR Vi ser på differanse i SSR Dersom vi vil sammenligne stor : Y i = β 0 + β 1 x 1i + + β k x ki + ɛ i med redusert : der 1 <m k av x-variablene er utelatt, SSR stor SSR justert m kanvisepåstørrelsen S 2 Denne er F (m, n k 1)-fordelt dersom stor modell ikke er bedre enn redusert (de mβ j ene er alle null) Benyttes i stegvise prosedyrer Bjørn H Auestad Kp 11: Regresjonsanalyse 39 / 46 Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Forlengs utvelgesle: Steg 1: β 0 og β (1) x (1) Steg 2: β 0, β (1) x (1) og vi skal bestemme: β (2) x (2) Ser på differanser i SSR: SSR(β (2) β 0,β (1) )=SSR(β 0,β (1),β (2) ) SSR(β 0,β (1) ) Velg den x-variabelen som har størst SSR(β (2) β 0,β (1) ) Vi forkaster H 0 : β (2) =0(dvs inkluderer i modellen) dersom F = SSR(β (2) β 0,β (1) ) SSE/(n 3) >f α,1,n 3 SSE/(n 3) = S 2 fra modell i steg 2 Fortsetter å ta inn variable til ingen gir forkastning Bjørn H Auestad Kp 11: Regresjonsanalyse 40 / 46

Modellvalg Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Ved valg av modell må også vi også undersøke om modellforutsetningene synes å være tilfredsstilt for aktuell modell Vi må (ihvertfall) studere residualene (egentlig i kp 1210 som ikke er pensum (!), men ) e i = y i ŷ i = y i (b 0 + b 1 x 1i + + b k x ki ), i =1,,n Plott residualene, e i, mot hver av variablene x 1i,,x ki, mot ŷ i og mot i Residualene skal vise gjennomsnitt null, konsant varians og ikke noe mønster (indikerer uavhengighet) Lag også normalplott av residualene Bjørn H Auestad Kp 11: Regresjonsanalyse 41 / 46 Polynomisk Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Multippel lineær smodell: Y i = β 0 + β 1 x 1i + + β k x ki + ɛ i, Modell for på polynom i x: Y i = β 0 + β 1 x i + β 2 x 2 i + + β k x k i + ɛ i, I praksis lager vi bare de nye variablene i =1,,n i =1,,n x ji x j i Bjørn H Auestad Kp 11: Regresjonsanalyse 42 / 46

Polynomisk Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Designmatrisen for polynomisk : Modell på matriseform: Y = Xβ + E, eller: Y 1 Y 2 Y n = X = 1 x 1 x 2 1 x k 1 1 x 2 x 2 2 x k 2 1 x n x 2 n x k n 1 x 1 x 2 1 x k 1 1 x 2 x 2 2 x k 2 1 x n x 2 n x k n β 0 β 1 β k + ɛ 1 ɛ 2 ɛ n Modellen er lineær i parameterene β 0,β 1,,β k Analysene blir som før! Bjørn H Auestad Kp 11: Regresjonsanalyse 43 / 46 Polynomisk Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Andreordens polynom for dataene fra oppgave 1141? Bjørn H Auestad Kp 11: Regresjonsanalyse 44 / 46

Polynomisk Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt Andreordens polynom for dataene fra oppgave 1141? Bjørn H Auestad Kp 11: Regresjonsanalyse 45 / 46 Kp 12 Multippel ; oversikt Kp 12 Multippel Bruk av Kp 12 Multippel ; oversikt 121 Introduction 122 Estimating the Coefficients 123 Linear Regression Model Using Matrices 124 Properties of the Least Squares Estimators 125 Inferences in Multiple Linear Regression 126 Choice of a Fitted Model Through Hypothesis Testing 128 Categorial or Indicator Variables 129 Sequential Methods for Model Selection 1213 Potential Misconceptions (127, 1210, 1211 og 1212 er ikke med i pensum) Bjørn H Auestad Kp 11: Regresjonsanalyse 46 / 46