Forelesning 4 REGRESJOSAALYSE II Regresjonsanalyse Saisisk meode for å forklare variansen i en avhengig variabel u fra informasjon fra en eller flere uavhengige variabler. Eksempel: Kjønn Udanning Alder Ansiennie Timelønn Hva kommer u hvis vi ber SPSS om å beregne denne modellen? 2 Slik sees modellen opp i SPSS 3: Trykk på denne knappen : Legg inn avhengig variabel 2: Legg inn de uavhengige variablene 3
Summary Adjused Sd. Error of R R Square R Square he Esimae.568 a.323.322 24.9573 a. Predicors: (Consan), 89-A, A440.DIGIT,, AGE0 (Consan) A440.DIGIT AGE0 89-A Likningen blir da slik: Unsandardi Sandardi Coefficien s len forklarer 32,3% av variansen i imelønn Alle variablene har sign. effek på imelønn 66.032.564 42.224.000-6.850.833 -.277-20.23.000 4.94.62.44 30.422.000 4.028.42.64 9.767.000 3.224.573.096 5.625.000 4 TIME89 = 66,03 6,85FEMAL + 4,94ED + 4,03AGE0 + 3,22 Hvordan bør vi see opp resulaene i en abell? Tabell. Regresjonsanalyse av forskjeller i imelønn u fra kjønn, udanning, alder og ansiennie. B SE B Bea Kvinner (kvinne=, mann=0) -6,85 0,83-0,27-20,23 < 0,00 Udanning (anall år eer grunnskole) 4,94 0,6 0,4 30,42 < 0,00 Alder (anall 0-år) 4,03 0,4 0,6 9,77 < 0,00 Bedrifserfaring (anall 0-år) 3,22 0,57 0,0 5,63 < 0,00 Konsanledd 66,03,56 42,22 < 0,00 0,32 I denne modellen er de re koninuerlige variabler på forholdsallsnivå og en o-del (dikoomiser) variabel. Hvordan kan vi legge inn kaegorisere uavhengige variabler på nominal og ordinalnivå? 5 Uavhengige kaegorivariabler Prosen. Ø vre serviceklasse 8 2. edre serviceklasse 29 3. Ruinefunksjonærer 3 4. Faglære arbeidere 6 5. Ufaglære arbeidere 6 Sum 00 (=) (427) Variabelen KLASSE89 kan plasseres på ordinalnivå, og vi har da følgende alernaiv:. Hvis vi ønsker å bruke klassevariabelen for å ese en hypoese om a lønnsnivåe øker med økende rang i klassehierarkie, bør vi bruke klassevariabelen slik den er og ese om de er en lineær sammenheng mellom klasse og imelønn. 2. Hvis vi bruker klassevariabelen for å konrollere for a ikke lønnsforskjellene mellom kvinner og menn skyldes ulikheer i kjønnenes klasseilhørighe, bør vi heller dummy-kode variabelen for å få med mes 6 mulig av informasjonen om klasseilhørighe. 2
Klassevariabelen bruk som koninuerlig variabel B SEB Bea Kvinner(kvinne=, mann=0) -8,49 0,85-0,30-2,79 < 0,00 Udanning (anall år eer grunnskole) 3,87 0,20 0,33 9,8 < 0,00 Alder (anall 0-år) 3,85 0,4 0,6 9,36 < 0,00 Bedrifserfaring (anall 0-år) 2,85 0,57 0,08 4,98 < 0,00 Klasse (=høy - 5=lav) -3,85 0,43-0,5-9,0 < 0,00 Konsanledd 82,39 2,39 34,49 < 0,00 0,34 Timelønna øker med kr.3,83 for hver rinn oppover i klassehierarkie. Grunnen il de negaive foregne er a klasseilhørigheen blir lavere jo høyere verdi. Dee kan vi unngå ved å snu verdiene på variabelen Effeken av udanning, som i den forrige modellen var på 4,94, blir nå lavere fordi klassevariabelen ar bor en del av forklaringseffeken av udanning 7 Klassevariabelen som dummy-variabler Variabelen må førs kodes om il K- (som her blir 5-) dummy-variabler, der den verdien som ikke ugjør en egen dummy-variabel blir referansekaegorien for de andre dummy-variablene: Klasse Beskrivelse Dummy I Øvre serviceklasse KL=, 0 ellers II edre serviceklasse =, 0 ellers III Runinefunksjonærer =, 0 ellers V-VI Faglære arbeidere =, 0 ellers VIIa Ufaglære arbeidere Ref., 0 for alle Disse fire dummy-variablene (KL,, og ) kan så sees inn i regresjonsmodellen, og vi får følgende resula: 8 SPSS-uskrif av regresjonsmodellen med dummy-variabler (Consan) A440.DIGIT AGE0 89-A KL Sandardi Unsandardi Coefficien s 67.786.77 38.285.000-6.544.947 -.272-7.474.000 3.332.2.279 5.87.000 3.609.408.47 8.835.000 2.63.568.077 4.597.000 6.376 2.073.46 7.900.000 2.79.440.8 8.459.000 -.587.303 -.009 -.45.652 -.88.447 -.002 -.30.897 De karakerisiske med dummy-variablene kommer bedre fram hvis vi selv seer resulaene inn i en mer beskrivende abell9 3
Regresjonsabell med dummy-variabler Dummyvariablene B SEB Bea ar opp enda Kvinner(kvinne=, mann=0) -6,54 0,95-0,27-7,47 < 0,00 Udanning mer av u- (anall år eer grunnskole) 3,33 0,2 0,28 5,82 < 0,00 Alder (anall 0-år) dannings- 3,6 0,4 0,5 8,84 < 0,00 Bedrifserfaring (anall 0-år) effeken 2,6 0,57 0,08 4,60 < 0,00 Klasse (Dummy-variabler med ufaglære arbeidere som referansekaegori) Øvre serviceklasse 6,38 2,07 0,5 7,90 < 0,00 edre serviceklasse 2,8,44 0,8 8,46 < 0,00 Ruinefunksjonærer -0,59,30-0,0-0,5 0,652 Faglære arbeidere -0,9,45-0,02-0,3 0,897 Konsanledd 67,79,77 38,29 < 0,00 0,34 Medlemmene i øvre serviceklasse jerner kr.6,38 mer pr ime enn ufaglære arbeidere Medlemmene i nedre serviceklasse jener kr.2,8 mer pr ime enn de ufaglære Ruinefunksjonærer og faglære arbeidere jener omren de samme som ufaglære arbeidere 0 Dummykoding kan også brukes på variabler på nominalnivå S iv ilsa n d il in fo rm a n e n e i V erd iu n d e rsø k elsen. A n a ll P ro s e n. G if 770 62 2. Sam boer 24 0 3. S k il 4 6 4 4. S ep arer 4 5. Enke/enkem ann 47 4 6. Enslig 23 9 Toal 232 00 Hvordan kan vi kode om denne variabelen il e se med dummyvariabler il bruk i en regresjonsmodell? Vi bør lage 5 (dvs. 6-) dummyer, og bruke en av verdiene som referansekaegori. Hvilken referansegruppe skal vi velge? Sivilsand Dummy. Gife SIVIL=, 0 ellers 2. Samboere SIVIL2=, 0 ellers 3. Skile SIVIL3=, 0 ellers 4. Separere SIVIL4=, 0 ellers 5. Enker/enkemenn SIVIL5=, 0 ellers 6. Enslige Referansekaegori, 0 for alle Forholde mellom den opprinnelige variabelen og de fem nye dummy-variablene Gammel variabel ye dummy-variabler Sivilsand SIVIL SIVIL2 SIVIL3 SIVIL4 SIVIL5. Gife 0 0 0 0 2. Samboere 0 0 0 0 3. Skile 0 0 0 0 4. Separere 0 0 0 0 5. Enker 0 0 0 0 6. Enslige 0 0 0 0 0 I regresjonsmodellen må da effekene av hver enkel dummyvariabel forklares som forskjeller i forhold il de som er i referansekaegorien (dvs. de enslige). 2 4
Er de saisisk signifikane forskjeller mellom sivilsandene? (Consan) A440.DIGIT AGE0 89-A KL SIVIL SIVIL2 SIVIL3 SIVIL4 SIVIL5 Unsandardi Sandardi 67,72,833 36,648,000-6,533,948 -,272-7,448,000 3,334,2,279 5,805,000 3,606,409,47 8,824,000 2,60,569,077 4,585,000 6,37 2,074,46 7,892,000 2,64,443,8 8,432,000 -,558,306 -,009 -,427,669 -,72,448 -,002 -,9,906,00,862,08,275,202 -,26,488 -,002 -,75,86 3,570 2,208,022,67,06-4,47E-02 4,369,000 -,00,992 -,254 3,696 -,00 -,069,945 3 Hvordan beskriver vi så disse resulaene? (Consan) A440.DIGIT AGE0 KL PROMOT OE GAG FORFREMMET 89-A PRIVATE PRIVAT SEKTOR FRA L75 Sandardi Unsandardi Coefficien s 57.389 2.052 27.970.000 3.655.20.306 7.369.000 4.444.409.8 0.873.000-4.098.962 -.232-4.656.000 5.588 2.063.39 7.554.000 0.470.436.56 7.29.000 -.060.289 -.06 -.822.4 -.22.423 -.003 -.49.882 7.082.875.3 8.095.000.467.577.043 2.544.0 6.807.896.09 7.600.000 4 Summary Adjused Sd. Error of R R Square R Square he Esimae.6 a.374.372 24.029 a. Predicors: (Consan), PRIVATE PRIVAT SEKTOR FRA L75, PROMOT OE GAG FORFREMMET,, AGE0, KL,, A440.DIGIT,, 89-A, Regression Residual Toal AOVA b Sum of Squares df Mean Square F 264956 0 26495.552 29.078.000 a 28475 3669 577.398 338343 3679 Predicors: (Consan), PRIVATE PRIVAT SEKTOR FRA L75, PROMOT OE GAG FORFREMMET,, AGE0, KL,, A440.DIGIT,, 89-A, a. b. Dependen Variable: TIME89 5 5