Forelesning 3 Regresjonsanalyse To typer bivariat analyse: Bivariat tabellanalyse: Har enhetenes verdi på den uavhengige variabelen en tendens til å gå sammen med bestemte verdier på den avhengige variabelen? Kjønn χ EUsyn Bivariat regresjonsanalyse: Er den eventuelle sammenhengen mellom slengde og timelønn lineær? Utdanning β Hvor mye vil vi anta at lønnstakere i populasjonen tjener i timer ut fra denne tabellen? Lønnstaker: 8 3 5 8 Y = 3, s = 37, Det beste anslaget på timelønn i populasjonen blir gjennomsnitverdien på 3 kroner Er det enklere å anslå timelønna i populasjonen hvis vi vet slengden? Lønnstaker: Utdanning 8 3 5 8 8 Datamatrise med og timelønn for seks lønnstakere 3
Sammenhengen mellom i timelønn vist grafisk 8 ved års i Kroner 8 år kroner Lønnsøkning ved et år ekstra 8 Regresjonsanalyse med SPSS UTD Utdanning a Unstandardi a. Dependent Variable: LONN 8......... Generell regresjonsformel: Y = a + bx = 8 + X Prediksjonene for timelønn ut fra utover obligatorisk skole blir da: Ingen : Y = 8 + * = 8 Et år : Y = 8 + * = 9 To år : Y = 8 + * = Ti år Y = 8 + * = 8 5 Mer realistisk datamatrise med og timelønn Lønnstaker: Utdanning 8 3 3 3 5 8 Y = 5, s = 5,
Grafisk fremstilling av sammenhengen mellom og timelønn 5 5 i Kroner 5 8 Hvor skal vi sette inn regresjonslinjen her? 7 a. Dependent Variable: LONN Vi lar SPSS finne regresjonslinjen a Unstandardi 8.8 7.83.93.8.3.8.97.3.3 Regresjonslikningen blir: Y = 8,9 +,X Ingen : Y = 8,9 +,* = 8,9 Et år : Y = 8,9 +,* = 9,3 To år : Y = 8,9 +,* = 8,57 Ti år Y = 8,9 +,* = 5,9 8 Grafisk fremstilling av sammenhengen mellom og timelønn ved års 5 Y = 8,9 +,X + i Kroner 5 5 +, kroner år Lønnsøkning ved et år ekstra 8 Men dette stemmer da ikke helt! Likningen for populasjonen blir: mens likninga for utvalget blir: i Yˆ = 8,9 +, X9 Y = 8,9 +, X + e i i 3
Er det like greit om vi bare bruker gjennomsnitlønna på kr.5,? 5 5 b =? RSS ESS TSS ESS R = TSS i Kroner a. 5 Dependent Variable: LONN b =,? 8 a Unstandardi B Std. Error Beta t Sig. 8.8 7.83.93.8 Nei har signifikant effekt.3.8.97.3.3 Her ser vi nærmere på resten av statistikken som kommer ut av SPSS Regression Residual Total ANOVA b Sum of Squares df Mean Square F Sig. 3.9 3.9 8.5.3 a 8.57 557.3 55. 5 a. Predictors:, b. Dependent Variable: LONN ESS /( K ) 3,9 ESS 3,9 R = = =,8 F = = = 8,5 TSS 55, TSS /( n K) 557,3 Summary Adjusted Std. Error of R R Square R Square the Estimate.97 a.8.778 3. a. Predictors:, over obligatorisk skole Konklusjon: Det er bare,3% sannsynlighet for at de uavhengige variablene i modellen ikke har betydning for lønn i populasjonen Tabellen med koeffisientene er likevel den viktigste a. Dependent Variable: LONN a Unstandardi 8.8 7.83.93.8.3.8.97.3.3 b,3 t = = =,3 SE b,8 Det er bare,3% sannsynlighet for at en ikke har betydning for lønn i populasjonen Hvorfor blir pverdien den samme for variabelen og for hele regresjonsmodellen?
> Hva skjer hvis vi legger inn enda en uavhengig variabel i modellen? Lønnstaker Lønnstaker 3 5 Utdanning Utdanning 8 Y ˆ = b + b X + b X 8 8 3 3 3 Kjønn Menn Eller kanskje den blir lettere å forstå hvis vi skriver den slik: Predikert timelønn = b + b utd+ b menn Men kjønn er da ikke kontinuerlig. Hvordan kan vi da sette opp et lineært forholdet mellom kjønn og timelønn? Løsning: Vi koder om variabelen kjønn til dummyvariabelen menn 3 SPSS gir dette resultatet a Unstandardi 5..7.9.8 5..58. 9.87. MENN Menn=,..8.37 3.73.3 kvinner= a. Dependent Variable: LONN Etter kontroll for kjønnsforskjeller øker timelønna med kr.5 for hvert år med utover grunnskole Menn tjener kr. mer i timer enn kvinner selv om vi kontrollerer for sforskjellen mellom menn og kvinner Både og kjønn har statistisk signifikant betydning på 5% nivå for timelønn Likningen blir da: LØNN = 5 + 5UTD + MENN Hvordan ser dette ut grafisk? 5 Y = b + b X + b X = 5 + 5X + X 5 Menn (menn=) b =, i Kroner b =5, 5 b =5, Kvinner (menn=) 8 5 5
Klarer vi nå å tolke resultatene fra disse regresjonsmodellene? Ulike regresjonsmodeller som predikerer timelønn 989, n=3759. l B Std. Beta t Sig. Konstant 7,,5 8.7, ED 5,,8,3 9.7, R,8 Konstant 5,,55 35.7, ED 5,3,7, 3., AGE 5,55,35,3 5.8, R,35 3 Konstant,,533.8, ED,87,3, 9.97, AGE 5,,33,.3, FEMALE 7,,83,9.3, R,37 B: regresjonskoeffisienten, Std.: regresjonskoeffisientens standardfeil, t: Studen t, Sig.: signifikanssannsynligheten til t.