Spesialisering: Anvend makro 5. Modul 1.B Lineære regresjonsmodeller og minse kvadraers meode (MKM) Drago Berghol Norwegian Business School (BI) 10. november 2011
Oversik I. Inroduksjon il økonomeri II. Lineær regresjonsanalyse - Oversik og noasjon III. Minse Kvadraers Meode (MKM) IV. Foruseninger for analyse V. Problemer Auokorrelasjon, Mulikolinearie, Heeroskedasisie 2
I. Inroduksjon - Hva er økonomeri? Kvanifiserer sammenhenger i økonomien ved å kombinere: Økonomisk eori Saisisk(maemaisk) eori Økonomiske daa Tidsrekkedaa Tverrsnisdaa Paneldaa 3
Økonomerisk meode innebærer å spesifisere: a) En hypoese man ønsker å ese b) En økonomerisk modell for å ese eorien/hypoesen c) Esimere paramerene i den valge modellen d) Verifisere saisisk forklaringskraf e) Prognoser f) Bruk av modell for poliikkanalyser 4
a-b) Spesifikasjon av hypoese og økonomerisk modell Keynesiansk konsumfunksjon: Consumpion increases as income increases, bu no by as much as he increase in income. 0<MPC<1 Maemaisk modell (Y; Konsum, X; Innek): Y= + X, 0< <1 Saisisk modell ( er e sokasisk resledd) Y= + X+ 5
Keynesiansk konsumfunksjon 60 50 40 30 20 10 0 1970 1980 1990 2000 6
c-d) Esimering og verifisering Regresjonsanalyse, e vanlig verkøy for å esimerer økonomiske sammenhenger: Hvor mye av variasjonen i Y kan forklares av X? Verifisering (saisisk inferens)/hypoese esing Ana a (MPC) = 0,9. Er dee signifikan forskjellig fra 1, eller e resula av ilfeldigheer? 7
e-f) Prediksjon og poliikk eksperimener Prediksjon av Y baser på gi (forvene) verdi på X Men en dårlig prediksjon beyr ikke a man skal forkase modellen. Den kan ha sor forklaringskraf over esimer periode. De er de uforusee hendelsene eer prognoseidspunke som bidrar il de sørse prognosefeilene. Modellen kan brukes il poliikkeksperimener. Hvilke inneksnivå vil garanere e gi nivå på konsume? 8
II. Lineær regresjonsanalyse - Oversik Regresjonsmodell kan rekke sluninger med gyldighe uover de gie maeriale. Fra maemaisk il saisisk modell Y= 0+ 1 X (1) Y X ( Y ( X 2 2 Y1 ) X ) 1 1 Y= 0+ 1 X + (2) E(Y X)= 0+ 1 X, Y=E(Y X)+ 9
En eoreisk sammenheng: Y 0 1X (3) Esimeres som: Y Yˆ ˆ ˆ 0 0 ˆ ˆ 1 1 X X e (4) Gir e som residual: e Y Yˆ Mens resledde (error erm) er definer som: Y E ( Y X ) 10
Regresjon versus korrelasjon Mulivariae modeller. Konrollerer for flere variable. Y X X... 0 1 1 2 2 k X k (5) Samme egenskaper som enkel regresjon 11
III. Minse kvadraers meode (MKM) Føyning av en re linje il daa MKM (Ordinary leas squares, OLS): Den linjen som minimerer summen av kvadrere residualer n n 2 ˆ 2 ( ) 1 1 e Y Y RSS TSS = ESS + RSS Toal Sum of Squares = Explained Sum of Squares + Residual Sum of Squares 2 2 2 ( Y Y ) ( Y Y ) e ˆ 12
Evaluering av modell R 2 Coefficien of deerminaion R 2 ESS TSS 1 RSS TSS 1 ( Y e 2 Y ) 2 0 R 2 1 Merk: Lav R^2 ikke ensbeydende med dårlig modell! 13
Tesing av hypoeser Tese H 0 (Nullhypoese) mo H 1 (Alernaiv hypoese). Type I feil Man kan forkase nullhypoesen selv om den er sann Sannsynlighe lik sørrelsen på esen ( signifikansnivå). Type II feil Man kan unnlae å forkase nullhypoesen selv om den er feil. Syrke på en es er sannsynligheen for a man korrek forkaser den falske nullhypoesen = 1- Prob (ype II feil). 14
-es Tes for individuelle koeffisiener ˆ 1 H 1 0 se..( ˆ ) -verdier følger en -disribusjon med N-(K+1) frihesgrader. Kriiske -verdier (se abell A2 s. 754 i Paerson) Forkas H 0 hvis > c 15
Ensidig es rund null H 0 : 0 H 1 : 0 (eller mosa) Tosidig es rund null H 0 : = 0 H 1 : 0 16
Tosidig kriisk nivå: Ensidig kriisk nivå: /2 F.eks. Velger =5%, 25 d.f., = 1,708, /2 = 2,060 Daaprogrammer eser som regel H 0 : = 0 Tommelfingerregel: Forkas H 0 hvis >2 Konfidensinervall = ˆ ( ) s. e.( ˆ ) c 17
F-es Teser en hypoese som gjelder flere koeffisiener. H 0 : 1 = 2 = = k = 0 (Y= 0 + ) H 1 : H 0 er usann F ESS RSS /( n / n k 1) Forkas H 0 hvis F F c 18
IV. Foruseninger for analyse Klassisk lineær regresjonsmodell 1. Regresjons modellen er lineær i koeffisienene og er korrek spesifiser. 2. Resledde har forvenning lik 0 3. Alle forklaringsvariablene er ukorrelere med resledde 4. Resleddene er ukorrelere med hverandre mål over id 5. Resledde har konsan varians 6. Ingen av forklaringsvariablene kan skrives som perfek lineær funksjon av noen av de andre forklaringsvariablene. 7. Resledde er normalfordel 19
1. Regresjonsmodellen er lineær i koeffisienene og er korrek spesifiser Modellen må være lineær i koeffisienene, men ikke i variablene. Kan a log. Modellen er korrek spesifiser - ingen uelae variable eller feilakig funksjonsform. Addiaive resledd Esimeringsprosedyre (D. Hendry) General o specific, ikke specific o general. 20
Akaike, Schwarz krieria Teser bla.a for signifikane lags. Juserer RSS for uvalgssørrelse (n) og anall uavhengige variable (K). Ramsey s Regression specificaion Error Tes (RESET) Teser for sannsynligheen for uelae variable, eller feil funksjonsform. Ikke daa mining Dummier 21
E( i X i )=0 2. Resledde har forvenning lik 0 Resledde skal i gjennomsni ha en fordeling som er lik 0. I små uvalg vil ikke fordelingen være lik 0, men når uvalge går mo uendelig skal gjennomsnie for fordelingen for resledde gå mo 0. Konsanledd sikrer gjennomsni lik 0. (Fas andel av Y som ikke forklares av X ene). Resledd: Sokasisk andel av Y som ikke forklares av X ene. 22
3. Alle forklaringsvariablene er ukorrelere med resledde Cov( I,X i )=E( i X i )=0 Forklaringsvariablene er besem uenfor regresjonsanalysen og uavhengig av resledde. Forklaringsvariablene og resledde er korreler: MKM vil gi X ene noe variasjon fra Y, som kommer fra resledde. X er og resledd posiiv korreler, esimere koeffisiener vil ha en bias oppover. (Høyere enn deres sanne verdier). Simulane ligningssysemer bryer denne foruseningen. 23
4. Resleddene er ukorrelere med hverandre mål over id (ingen seriekorrelasjon) E( i j )=0, i j Vikig i idsserieanalyser Observasjoner av resledde er rukke hel uavhengige av hverandre. Hvis de var en sysemaisk korrelasjon mellom de forskjellige observasjonene av resledde over id, vil bli vanskelig å få presise esimaer på koeffisienene. 24
5. Resledde har konsan varians (ingen heeroskedasisie) var( i X i )=E( i2 )= 2 Vikig for verrsnisanalyser, men også akuel problem i idsseriesudier (regimeendringer ec.) Observasjonene av resledde er rukke koninuerlig fra like fordelinger. Gir upresise esimaer - sandardavvike feil. 25
6. Forklaringsvariablene kan ikke skrives som lineær funksjon av hverandre (ingen mulikolinearie) Perfek kolinearie - Samme variable. Addiaiv, konsanleddjusering, o variabler summerer seg il en redje. Relaive momener vil være like selv om sørrelsen vil variere. MKM kan ikke skille variablene fra hverandre. 26
7. Resledde er normalfordel Hvordan fordelingen ser u. Observasjoner av resledde er rukke fra en fordeling som er normalfordel. En normalfordelingen ser symmerisk u. Vikig for hypoeseesing, ikke for MKM esimering 27
Gauss Markov Theorem og BLUE Gauss-Markov Theorem: Gi foruseningene fra den klassiske lineære regresjonsmodeller, vil MKM esimaene, blan en serie med unbiased lineære esimaer ha mins varians, med andre ord, de er BLUE Lineær, Unbiased forvene verdi på koeffisienene er lik den sanne verdier E( ˆ) minimum varians Effisiene esimaer. Noen problemer: Seriekorrelasjon Mulikolinearie Heeroskedasisie 28
V Noen problemer a) Seriekorrelasjon Resledde fra en periode avhenger på en sysemaisk måe av resleddene fra idligere perioder. E( i j ) 0, i j Seriekorrelasjon er lik auokorrelasjon i idsseriesudier Førseordens seriekorrelasjon (AR): -1< <1 1 u Posiiv eller negaiv seriekorrelasjon 29
Årsak: Resledde fanger opp uelae variable, feil funksjonsform, ikke-lineærie, manglende lags, målefeil ec. Y 0 1X1 2X 2 Y 0 1X1 v v 2X 2 30
Hvilke problemer gir de. Ingen feil i koeffisienene (unbiased), men ikke BLUE Øker variansen i fordelingen il koeffisienene (og -verdier faller). Fanges ikke opp av MKM. MKM vil ikke lenger gi minimum varians. MKM vil underesimere sandardavvike il de esimere koeffisienene (og residualene), mens -verdier og R 2 vil bli overesimer. Får feilakig bedre ilpasning. Mer sannsynlig a vi vil forkase H 0 ( =0) når den er sann. 31
Hvordan oppdage seriekorrelasjon Se på e grafisk plo av resledde Durbin-Wason d-saisikk ˆ d ee ˆ 2(1 ), 1 1 0 d 4 e 2 1 d=2, ingen førse ordens seriekorrelasjon. 0<d<d L, posiiv seriekorrelasjon, 4-d L <d<4, negaiv seriekorrelasjon. 0 < d L < d U < 2 < 4 - d U < 4- d L < 4 32
Hvordan bli kvi seriekorrelasjon Tilføye uelae variable hvis de er mulig Endre funksjonsform Generalised Leas Squares 33