Forelesning 4 Regresjonsanalyse To typer bivariat analyse: Bivariat tabellanalyse: Har enhetenes verdi på den uavhengige variabelen en tendens til å gå sammen med bestemte verdier på den avhengige variabelen? Kjønn χ 2 EUsyn Bivariat regresjonsanalyse: Er den eventuelle sammenhengen mellom slengde og timelønn lineær? Utdanning β Hvor mye vil vi anta at lønnstakere tjener i timer ut fra denne tabellen? Lønnstaker: 8 2 3 2 4 4 5 6 6 8 Y = 3, s = 37,4 Det beste anslaget på timelønn blir gjennomsnitverdien på 3 kroner Er det enklere å anslå timelønna hvis vi vet slengden? Lønnstaker: Utdanning 8 2 2 3 4 2 4 6 4 5 8 6 6 8 Datamatrise med og timelønn for seks lønnstakere
Sammenhengen mellom i timelønn vist grafisk 2 8 6 4 ved års 2 i Kroner 8 6 4 2 år kroner Lønnsøkning ved et år ekstra 2 4 6 8 Regresjonsanalyse med SPSS UTD Utdanning Unstandardi a. Dependent Variable: LONN 8......... Generell regresjonsformel: Y = a + bx = 8 + X Prediksjonene for timelønn ut fra utover obligatorisk skole blir da: Ingen : Y = 8 + * = 8 Et år : Y = 8 + * = 9 To år : Y = 8 + *2 = Ti år Y = 8 + * = 8 Mer realistisk datamatrise med og timelønn Lønnstaker: Utdanning 8 2 2 3 3 4 2 4 6 3 5 8 2 6 2 Y = 45, s = 5, 2
Grafisk fremstilling av sammenhengen mellom og timelønn 25 2 5 i Kroner 5 2 4 6 8 Hvor skal vi sette inn regresjonslinjen her? a. Dependent Variable: LONN Vi lar SPSS finne regresjonslinjen Unstandardi 84.286 7.83 4.934.8 2.43 2.82.97 4.34.3 Regresjonslikningen blir: Y = 84,29 + 2,4X Ingen : Y = 84,29 + 2,4* = 84,29 Et år : Y = 84,29 + 2,4* = 96,43 To år : Y = 84,29 + 2,4*2 = 8,57 Ti år Y = 84,29 + 2,4* = 25,69 Grafisk fremstilling av sammenhengen mellom og timelønn ved års 25 2 Y = 84,29 + 2,4X + i Kroner 5 5 + 2,4 kroner år Lønnsøkning ved et år ekstra 2 4 6 8 Men dette stemmer da ikke helt! Regresjonslikningen blir derfor: mens riktig svar for den enkelte blir: i Yˆ = 84,29 + 2, 4 X Y = 84,29 + 2, 4 X + e i i 3
Er det like greit om vi bare bruker gjennomsnitlønna på kr.45,? 25 2 5 b =? RSS ESS TSS 2 ESS R = TSS i Kroner a. 5 Dependent Variable: LONN b =2,4? 2 4 6 8 Unstandardi B Std. Error Beta t Sig. 84.286 7.83 4.934.8 2.43 2.82.97 4.34.3 Nei har signifikant effekt Her ser vi nærmere på resten av statistikken som kommer ut av SPSS Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 32.429 32.429 8.526.3 a 2228.57 4 557.43 255. 5 a. Predictors:, b. Dependent Variable: LONN ESS /( K ) 32,429 2 ESS 32,429 R = = =,822 F = = = 8,526 TSS 255, TSS /( n K) 557,43 Summary Adjusted Std. Error of R R Square R Square the Estimate.97 a.822.778 23.6 a. Predictors:, over obligatorisk skole Konklusjon: Det er bare,3% sannsynlighet for at de uavhengige variablene i modellen ikke har betydning for lønn i populasjonen Tabellen med koeffisientene er likevel den viktigste a. Dependent Variable: LONN Unstandardi 84.286 7.83 4.934.8 2.43 2.82.97 4.34.3 b 2,43 t = = = 4,34 SE b 2,82 Det er bare,3% sannsynlighet for at en ikke har betydning for lønn i populasjonen Hvorfor blir pverdien den samme for variabelen og for hele regresjonsmodellen? 4
> Hva skjer hvis vi legger inn enda en uavhengig variabel i modellen? Lønnstaker: Utdanning Menn: 8 2 2 3 3 4 2 4 6 3 5 8 2 6 2 Y ˆ = b + b X + b X 2 2 Eller kanskje den blir lettere å forstå hvis vi skriver den slik: Predikert timelønn = b + b utd+ b 2 menn Men kjønn er da ikke kontinuerlig. Hvordan kan vi da sette opp et lineært forholdet mellom kjønn og timelønn? Løsning: Vi koder om variabelen kjønn til dummyvariabelen menn SPSS gir dette resultatet Unstandardi 5. 2.472 4.9.28 5..58.2 9.487.2 MENN Menn=, 4..8.437 3.73.34 kvinner= a. Dependent Variable: LONN Etter kontroll for kjønnsforskjeller øker timelønna med kr.5 for hvert år med utover grunnskole Menn tjener kr.4 mer i timer enn kvinner selv om vi kontrollerer for sforskjellen mellom menn og kvinner Både og kjønn har statistisk signifikant betydning på 5% nivå for timelønn Likningen blir da: PRED.LØNN = 5 + 5UTD + 4MENN Hvordan ser dette ut grafisk? 25 Y = b + b X + b 2 X 2 = 5 + 5X + 4X 2 2 5 Menn (menn=) b 2 =4, i Kroner b =5, 5 b =5, Kvinner (menn=) 2 4 6 8 5
Klarer vi nå å tolke resultatene fra disse regresjonsmodellene? Ulike regresjonsmodeller som predikerer timelønn 989, n=3759. l B Std. Beta t Sig. Konstant 76,6,65 8.67, ED 5,2,8,43 29.7, R 2,84 2 Konstant 54,24,55 35.7, ED 5,3,7,44 3., AGE 5,55,35,23 5.8, R 2,235 3 Konstant 64,2,533 4.84, ED 4,87,63,4 29.97, AGE 5,42,332,22 6.32, FEMALE 7,6,83,29 2.32, R 2,37 B: regresjonskoeffisienten, Std.: regresjonskoeffisientens standardfeil, t: Studen t, Sig.: signifikanssannsynligheten til t. 6