SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05 Erling Berge Institutt for sosiologi og statsvitenskap NTNU Fall 2004 Erling Berge 2004 1 Forelesing V Kritikk av regresjon I Hamilton Kap 4 s109-123 Fall 2004 Erling Berge 2004 2 Erling Berge 2004 1
Modellanalysar bygg på føresetnader OLS er ein enkel analyseteknikk med gode teoretiske eigenskapar, men Eigenskapane er basert på visse føresetnader Dersom føresetnadane ikkje held vil dei gode eigenskapane forvitre Å undersøkje i kva grad føresetnadane held er den viktigaste delen av analysen Fall 2004 Erling Berge 2004 3 OLS-REGRESJON: føresetnader I SPESIFIKASJONSKRAVET Føresetnaden er at modellen er rett II GAUSS-MARKOV KRAVA Sikrar at estimata er BLUE III NORMALFORDELTE RESTLEDD Sikrar at testane er valide Fall 2004 Erling Berge 2004 4 Erling Berge 2004 2
FØRESETNADER: I Spesifikasjonskravet Modellen er rett spesifisert dersom Forventa verdi av y, gitt verdien av dei uavhengige variablane, er ein lineær funksjon av parametrane til x-variablane Alle inkluderte x-variablar verkar på forventa y-verdi Ingen andre variablar verkar på forventa y- verdi samtidig som dei korrelerer med inkluderte x-variablar Fall 2004 Erling Berge 2004 5 FØRESETNADER: II Gauss-Markov krava (i) (1) x er gitt, dvs utan stokastisk variasjon (2) Feila har ein forventa verdi på 0 for alle i E(ε i )=0 for alle i Gitt (1) og (2) vil ε i vere uavhengig av x k for alle k. Da gir OLS forventningsrette estimat av β (unbiased = forventningsrett) Fall 2004 Erling Berge 2004 6 Erling Berge 2004 3
FØRESETNADER: II Gauss-Markov krava (ii) (3) Feila har konstant varians for alle i Var(ε i )=σ 2 for alle i Dette vert kalla homoskedastisitet (4) Feila er ukorrelerte med kvarandre Cov(ε i, ε j )=0 for alle i j Det er ikkje autokorrelasjon Fall 2004 Erling Berge 2004 7 FØRESETNADER: II Gauss-Markov krava (iii) Gitt (3) og (4) i tillegg til (1) og (2) får vi a. Estimat av standardfeilen til regresjonskoeffisientane er forventningsrette, og b. Gauss-Markov teoremet: OLS estimata har mindre varians enn alle andre lineære forventningsrette estimat. OLS gir BLUE (Best Linear Unbiased Estimate) Fall 2004 Erling Berge 2004 8 Erling Berge 2004 4
FØRESETNADER: II Gauss-Markov krava (iv) (1) - (4) kallast GAUSS-MARKOV krava Gitt (2) - (4) med tillegg av krav om at feila er ukorrelerte med variablane (jfr. Hardy s5), dvs.: cov (x ik, ε i )=0 for alle i,k er koeffisientar og standardfeil konsistente Fall 2004 Erling Berge 2004 9 Fotnote 1: Forventningsrette (unbiased) estimatorar Forventningsrett tyder at E[b k ] = β k I det lange løp vil vi treffe populasjonsverdien - β k - dersom vi trekkjer mange nok utval, reknar ut b k og tar gjennomsnittet av desse Fall 2004 Erling Berge 2004 10 Erling Berge 2004 5
Fotnote 2: Konsistente estimatorar Estimatoren er konsistent dersom vi, når utvalsstorleiken (n) veks mot uendeleg, finn at b nærmar seg β og s b nærmar seg σ β [b k er ein konsistent estimator for β k dersom vi for vilkårleg liten c har lim n [Pr{ Ib k - β k I < c }] = 1 Fall 2004 Erling Berge 2004 11 Fotnote 3: I BLUE tyder Best Variansminimal estimator Variansminimale (effisiente) estimatorar tyder at var(b k ) < var(a k ) for alle estimatorar a ulik b Ekvivalent: E[b k - β k ] 2 < E[a k - β k ] 2 for alle estimatorar a ulik b. Fall 2004 Erling Berge 2004 12 Erling Berge 2004 6
Fotnote 4: Skeive estimatorar Sjølv om krava til BLUE er oppfylt vil ein stundom kunne finne skeive estimatorar (dvs. dei er ikkje forventningsrette) som har mindre varians, t.d. i Ridge Regression Fall 2004 Erling Berge 2004 13 Fotnote 5: Ikkje-lineære estimatorar Det kan finnast ikkje-lineære estimatorar som er forventningsrette og har mindre varians enn BLUE estimatorane Fall 2004 Erling Berge 2004 14 Erling Berge 2004 7
FØRESETNADER: III Normalfordelte restledd (5) Dersom alle feila er normalfordelt med forventning 0 og standardavvik på σ 2, dvs. dersom ε i ~N(0, σ 2 ) for alle i vil det kunne testast hypotesar om β og σ, og OLS estimata vil ha mindre varians enn estimat frå alle andre forventningsrette estimatorar OLS gir BUE (Best Unbiased Estimate) Fall 2004 Erling Berge 2004 15 Problem i regresjonsanalysar som ikkje kan testast Om alle relevante variablar er med Om det er målefeil i x ane Om forventa verdi til feilleddet er 0 (Dette er der same som at vi ikkje kan sjekke om korrelasjonen mellom feilledd og x-variabel faktisk er 0. Dette er i prinsippet det same som første punkt om at modellen er rett spesifisert) Fall 2004 Erling Berge 2004 16 Erling Berge 2004 8
Problem i regresjonsanalysar som kan oppdagast (1) Ikkje-lineære samband Inkludert irrelevant variabel Ikkje-konstant varians hos feilleddet (heteroskedastisitet) Autokorrelasjon hos feilleddet Korrelasjonar mellom feilledd Ikkje-normale feilledd Multikollinearitet Fall 2004 Erling Berge 2004 17 Konsekvensar av problem (Hamilton, s113) Uønska eigenskapar ved estimata Krav Problem Skeive estimat av b Skeive estimat av SE b Ugyldige t&ftestar Høg var[b] Spesifikasjonskrav Ikkje-lieært samband - - - Utelatt relevant variabel - - - Inkludert irrelevant variabel 0 0 0 Gauss- Markov krav er målt med feil - - - Heteroskedastisitet 0 - - Autokorrelasjon 0 - - er korrelert med ε - Normalfordeling ε er ikkje normalfordelt 0 0 Multikollinearitet 0 0 0 Fall 2004 Erling Berge 2004 18 Erling Berge 2004 9
Problem i regresjonsanalysar som kan oppdagast (2) Utliggarar (ekstreme y-verdiar) Innverknad (case med stor innverknad: uvanlege kombinasjonar av y og x- verdiar) Leverage (potensiale for innverknad) Fall 2004 Erling Berge 2004 19 Studiar av Hjelpemiddel Ein-variabel fordelingar (frekvens fordeling og histogram) To-variabel samvariasjon (korrelasjon og scatterplott) Residualen (fordeling og i samvariasjon med predikert verdi) Fall 2004 Erling Berge 2004 20 Erling Berge 2004 10
Korrelasjon og scatterplott ENERGY CONSUMPTION PER PERSON MEAN ANNUAL POPULATION GROWTH FERTILIZER USE PER HECTARE CRUDE BIRTH RATE Pearson Correlation N Pearson Correlation N Pearson Correlation N Pearson Correlation N ENERGY CONSUM PTION PER PERSON -,689 Fall 2004 Erling Berge 2004 21 1 125 -,505 122,533 125 122 MEAN ANNUAL POPULATIO N GROWTH -,505 122 1 125 -,469 125,829 125 FERTILIZER USE PER HECTARE,533 125 -,469 125 1 128 -,589 125 CRUDE BIRTH RATE -,689 122,829 125 -,589 125 1 125 Korrelasjon og scatterplott CRUDE BIRTH... FERTILIZER USE... MEAN ANNUAL... ENERGY... ENERGY CONSUMPTION PER PERSON FERTILIZER USE PER HECTARE MEAN ANNUAL POPULATION GROWTH CRUDE BIRTH RATE Fall 2004 Erling Berge 2004 22 Erling Berge 2004 11
Heteroskedastisitet, (ikkje-konstant varians hos feilleddet) kan skuldast: Målefeil (t.d. y meir nøyaktig ved større x) Utliggarar At ε i inneheld eit viktig ledd som varierer saman med x og y (spesifikasjonsfeil) Spesifikasjonsfeil er det same som feil modell og kan gje heteroskedastisitet Eit viktig diagnoseverktøy er plott av residual mot predikert verdi ( y ) Fall 2004 Erling Berge 2004 23 Example: Hamilton table 3.2 Dependent Variable: Summer 1981 Water Use Unstandardized Coefficients B Std. Error t Sig. (Constant) 242,220 206,864 1,171,242 Income in Thousands 20,967 3,464 6,053,000 Summer 1980 Water Use,492,026 18,671,000 Education in Years -41,866 13,220-3,167,002 head of house retired? 189,184 95,021 1,991,047 # of People Resident 1981 248,197 28,725 8,641,000 Increase in # of People 96,454 80,519 1,198,232 Fall 2004 Erling Berge 2004 24 Erling Berge 2004 12
10000,00000 7500,00000 Unstandardized Residual 5000,00000 2500,00000 0,00000-2500,00000-5000,00000 0,00000 2000,00000 4000,00000 6000,00000 8000,00000 Unstandardized Predicted Value From the regression reported in table 3.2 in Hamilton Fall 2004 Erling Berge 2004 25 Fotnote til føregåande figur Dersom spreiinga til residualen (variasjonen rundt ein typisk verdi) varierer systematisk med verdien på ein eller fleire x-variablar har vi heteroskedastisitet I figuren her ser vi at spreiinga til residualen aukar med aukande predikert y. Predikert Y er her ein indeks som viser til høge gjennomsnittlege x-verdiar. Når spreiinga av residualen varierer systematisk med verdiane på x-variablane har vi heteroskedastisitet. Fall 2004 Erling Berge 2004 26 Erling Berge 2004 13
Box-plott av residualen viser Tunge halar Mange utliggarar Svakt positiv skeiv fordeling 10000,00000 7500,00000 5000,00000 2500,00000 483 489 496 491 494 486 481 476 477 479 490 482 0,00000 Vil nokon av utliggarane påverke regresjonen? -2500,00000-5000,00000 384 54 358 152 236 112 435 Unstandardized Residual Fall 2004 Erling Berge 2004 27 Fordelinga sett frå ein annan vinkel Fall 2004 Erling Berge 2004 28 Erling Berge 2004 14
Band-regresjon Homoskedastisitet tyder at medianen (og gjennomsnittet) til absoluttverdien av residualen, dvs: median{iei}, skal vere om lag den same for alle verdiar av predikert y Dersom vi finn at medianen av Ie i I for gitt predikert verdi av y endrar seg systematisk med verdien av predikert y indikerer det heteroskedastisitet Slike analysar kan lett gjerast i SPSS Fall 2004 Erling Berge 2004 29 6000,00 5000,00 absoluttverdiresidual 4000,00 3000,00 2000,00 1000,00 0,00 0,00000 2000,00000 4000,00000 6000,00000 8000,00000 Unstandardized Predicted Value Absoluttverdien av e i (Basert på regresjonen i tabell 3.2 i Hamilton) Fall 2004 Erling Berge 2004 30 Erling Berge 2004 15
6000,00 Tilnærma bandregresjon (jfr figur 4.4 i Hamilton) 5000,00 483 489 absoluttverdiresidual 4000,00 3000,00 2000,00 1000,00 377 225 182 442 392 3 19 361 394 261 54 56 112 481 491 0,00 1 2 3 4 5 6 7 8 9 10 11 Unstandardized Predicted Value (Banded) Fall 2004 Erling Berge 2004 31 Bandregresjon I SPSS Først lagrar vi residualen og predikert y frå regresjonen. Så reknar vi om residualen til ein ny variabel med absoluttverdien gjennom Compute under Transform. Så deler vi opp predikert y i band gjennom prosedyren Visual bander under Transform Deretter nyttar vi Boxplot under Graphs der vi spesifiserer absoluttverdi av residual som variabel og bandvariabelen som kategoriakse Fall 2004 Erling Berge 2004 32 Erling Berge 2004 16
Autokorrelasjon (1) Korrelasjon mellom variabelverdiar på same variabel over ulike case (t.d. mellom ε i og ε i -1 ) Autokorrelasjon gir større varians og skeive estimat av standardfeil slik som heteroskedastisitet Når vi har enkelt tilfeldig utval frå ein populasjon, er autokorrelasjon usannsynleg Fall 2004 Erling Berge 2004 33 Autokorrelasjon (2) Autokorrelasjon kjem frå feilspesifikasjon av modellen Ein finn det typisk i tidsseriar og ved geografisk ordna case Testar (t.d. Durbin-Watson) er basert på sorteringsrekkefølgja av casa. Derfor: Ei hypotese om autokorrelasjon må spesifisere korleis casa skal sorterast Fall 2004 Erling Berge 2004 34 Erling Berge 2004 17
Durbin-Watson testen (1) d = n i= 2 ( e e ) 2 i n i= 1 e 2 i i 1 Bør ikkje nyttast for autoregressive modellar, dvs. modellar der y-variabelen også finst som forklaringsvariabel (x-variabel) jfr tabell 3.2 Fall 2004 Erling Berge 2004 35 Durbin-Watson testen (2) Samplingfordelinga til d-observatoren er kjent og tabellert som d L og d U (tabell A4.4 i Hamilton), talet av fridomsgrader baserer seg på n og K-1 Testregel: Forkast dersom d<d L Forkast ikkje dersom d>d U Dersom d L < d < d U kan det ikkje konkluderast d=2 tyder ukorrelerte residualar Positiv autokorrelasjon gir d<2 Negativ autokorrelasjon gir d>2 Fall 2004 Erling Berge 2004 36 Erling Berge 2004 18
Dagleg vassforbruk, gjennomsnitt pr månad Eksempel: 5,50 AVERAGE DAILY WATER USE 5,00 4,50 4,00 3,50 3,00 137,00 133,00 129,00 125,00 121,00 117,00 113,00 109,00 105,00 101,00 97,00 93,00 89,00 85,00 81,00 77,00 73,00 69,00 65,00 61,00 57,00 53,00 49,00 45,00 41,00 37,00 33,00 29,00 25,00 21,00 17,00 13,00 9,00 5,00 1,00 INDE NUMBER 1-137 Fall 2004 Erling Berge 2004 37 Vanleg OLS-regresjon der caset er månad Dependent Variable: AVERAGE DAILY WATER USE Unstandardized Coefficients t Sig. (Constant) B 3,828 Std. Error,101 38,035,000 AVERAGE MONTHLY TEMPERATURE,013,002 7,574,000 PRECIPITATION IN INCHES -,047,021-2,234,027 CONSERVATION CAMPAIGN DUMMY -,247,113-2,176,031 Predictors: (Constant), CONSERVATION CAMPAIGN DUMMY, AVERAGE MONTHLY TEMPERATURE, PRECIPITATION IN INCHES Fall 2004 Erling Berge 2004 38 Erling Berge 2004 19
Test for autokorrelasjon Dependent Variable: AVERAGE DAILY WATER USE 1 R,572(a) R Square,327 Adjusted R Square,312 Std. Error of the Estimate,36045 Durbin- Watson,535 Predictors: (Constant), CONSERVATION CAMPAIGN DUMMY, AVERAGE MONTHLY TEMPERATURE, PRECIPITATION IN INCHES N = 137, K-1 = 3 Finn grensene for å forkaste / akseptere nullhypotesa om ingen autorkorrelasjon med nivå 0,05 Hjelpemiddel: Sjekk opp tabell A4.4 i Hamilton side 355 Fall 2004 Erling Berge 2004 39 Autokorrelasjonskoeffisient m-te ordens autokorrelasjonskoeffisient r m = T m t= 1 ( e )( ) t e et+ m e T t= 1 ( e ) t e 2 Fall 2004 Erling Berge 2004 40 Erling Berge 2004 20
Residual Dagleg vassforbruk, månad 1,00000 Mean Unstandardized Residual 0,50000 0,00000-0,50000 136,00 131,00 126,00 121,00 116,00 111,00 106,00 101,00 96,00 91,00 86,00 81,00 76,00 71,00 66,00 61,00 56,00 51,00 46,00 41,00 36,00 31,00 26,00 21,00 16,00 11,00 6,00 1,00 INDE NUMBER 1-137 Fall 2004 Erling Berge 2004 41 Glidande gjennomsnitt Hanning Glidande median Glatting med 3 punkt e + e + e * t 1 t t+ 1 et = 3 et et et = + + 4 2 4 * 1 + 1 et {,, } e = median e e e * t t 1 t t+ 1 Fall 2004 Erling Berge 2004 42 Erling Berge 2004 21
Residual, glatta ein gong 0,75000 0,50000 Mean MA(RES_1,3,3) 0,25000 0,00000-0,25000-0,50000-0,75000 134,00 131,00 128,00 125,00 122,00 119,00 116,00 113,00 110,00 107,00 104,00 101,00 98,00 95,00 92,00 89,00 86,00 83,00 80,00 77,00 74,00 71,00 68,00 65,00 62,00 59,00 56,00 53,00 50,00 47,00 44,00 41,00 38,00 35,00 32,00 29,00 26,00 23,00 20,00 17,00 14,00 11,00 8,00 5,00 2,00 INDE NUMBER 1-137 Fall 2004 Erling Berge 2004 43 Residual, glatta to gonger 0,75000 0,50000 Mean MA(MA3RES_1,3,3) 0,25000 0,00000-0,25000-0,50000-0,75000 135,00 132,00 129,00 126,00 123,00 120,00 117,00 114,00 111,00 108,00 105,00 102,00 99,00 96,00 93,00 90,00 87,00 84,00 81,00 78,00 75,00 72,00 69,00 66,00 63,00 60,00 57,00 54,00 51,00 48,00 45,00 42,00 39,00 36,00 33,00 30,00 27,00 24,00 21,00 18,00 15,00 12,00 9,00 6,00 3,00 INDE NUMBER 1-137 Fall 2004 Erling Berge 2004 44 Erling Berge 2004 22
Residual, glatta fem gonger 0,60000 0,40000 Mean MA(MA3RES_5,3,3) 0,20000 0,00000-0,20000-0,40000-0,60000 132,00 129,00 126,00 123,00 120,00 117,00 114,00 111,00 108,00 105,00 102,00 99,00 96,00 93,00 90,00 87,00 84,00 81,00 78,00 75,00 72,00 69,00 66,00 63,00 60,00 57,00 54,00 51,00 48,00 45,00 42,00 39,00 36,00 33,00 30,00 27,00 24,00 21,00 18,00 15,00 12,00 9,00 6,00 INDE NUMBER 1-137 Fall 2004 Erling Berge 2004 45 Konsekvensar av autokorrelasjon Hypotesetestar og konfidensintervall er upålitelege. Regresjon kan likevel gi ein god beskrivelse av utvalet. Parametrane er forventningsrette Spesialprogram kan estimere standardfeil konsistent Ta inn i analysen variablar som påverkar hosliggjande case Ta i bruk teknikkar frå tidsserieanalyse (t.d.: analyser differansen mellom to tidspunkt) ( y) Fall 2004 Erling Berge 2004 46 Erling Berge 2004 23