Forelesning 16 Regresjonsanalyse 3 Modeller med samspill år effekten av en uavhengig variabel er betinget av en annen uavhengig variabel Eksempel: Hvis effekten av utdanning på timelønn er sterkere for menn enn for kvinner Kurvelineære sammenhenger En bøyd regresjonslinje Eksempel: Hvis den positive sammenhengen mellom alder og timelønn flater ut eller blir negativ når lønnstakerne nærmer seg pensjonsalderen Den lineære sannsynlighetsmodellen Regresjonsmodell med todelt avhengig variabel Eksempel: Modell med sannsynligheter for å stemme JA til EU 1 Regresjonsanalyse av timelønn Kvinner(kvinne=1, mann=0) -14,10 0,96-0,3-14,66 < 0,001 Utdanning (antall år etter grunnskole) 3,66 0,1 0,31 17,37 < 0,001 Alder (antall 10-år) 4,44 0,41 0,18 10,87 < 0,001 Øvre serviceklasse 15,59,06 0,14 7,55 < 0,001 edre serviceklasse 10,47 1,44 0,16 7,9 < 0,001 Rutinefunksjonærer -1,06 1,9-0,0-0,8 0,411 Faglærte arbeidere -0,1 1,4-0,00-0,15 0,88 Forfremmet (ja=1, nei=0) 7,08 0,88 0,11 8,10 < 0,001 Bedriftserfaring (antall 10-år i bedriften) 1,47 0,58 0,04,54 0,011 Privat sektor (privat=1, offentlig=0) 6,81 0,90 0,11 7,60 < 0,001 Konstantledd 57,39,05 7,97 < 0,001 R 3680 0,37 Modellen viser at for hvert år med ekstra utdanning ut over grunnskolen vil timelønna i gjennomsnitt øke med 3,66 kroner for alle i utvalget. Vi kan så gå videre i analysen og undersøke om dette gjelder både for menn og kvinner Modeller med samspill Subgruppeanalyse Vi kan splitte opp analysen etter verdiene på en av de uavhengige variablene, og estimere egne modeller for hver gruppe Eksempel: Vi splitter opp datasettet etter kjønn, og kjører en modell for menn og en modell for kvinner Produktledd Vi legger inn et samspilledd i regresjonsmodellen Eksempel: Vi estimerer timelønn ut fra utdanningslengde (utdanning i antall 10-år), kjønn (kvinner=1, menn=0) og produktet av disse to variabelen (utdanningslengde kjønn) 3 1
Regresjonsanalyse av timelønn for kvinner og menn Menn Kvinner B SEB Sig. t B SEB Sig. t Utdanning (antall år etter grunnskole) 4,7 0,30 < 0,001,73 0,8 < 0,001 Alder (antall 10-år) 5,47 0,66 < 0,001 3,3 0,48 < 0,001 Klasse (Dummy-variabler der ref. er ufaglærte arbeidere) Øvre serviceklasse 16,1,80 < 0,001 15,67 3,18 < 0,001 edre serviceklasse 10,5,04 < 0,001 11,33 1,94 < 0,001 Rutinefunksjonærer -1,5,6 0,58-1,49 1,5 0,36 Faglærte arbeidere -0,31 1,80 0,865 7,99 3,36 0,017 Forfremmet (ja=1, nei=0) 8,61 13,08 < 0,001 5,41 1,10 < 0,001 Bedriftserfaring (antall 10-år i bedriften) 0,90 0,85 0,88 1,95 0,77 0,011 Privat sektor (privat=1, offentlig=0) 14, 1,46 < 0,001 0,03 1,04 0,976 Konstantledd 45,99 3,07 < 0,001 53,45,41 < 0,001 R 195 0,31 178 0,9 Forskjellen i effekt av utdanning mellom menn og kvinner er: 4,7,73 = 1,54 For å finne ut om denne forskjellen er statistisk signifikant må vi finne standardfeilen til differansen ved hjelp av formelen: SE diff = SEmenn + SEkvinner = 0,30 + 0,8 = 0,41 1,54 T-verdien for differansen er da: t = 0,41 = 3, 76 Kritisk verdi for t på 5%-nivå er 1,96 Forskjellen er derfor statistisk 4 signifikant Regresjonsanalyse av timelønn med samspill Kvinner(kvinne=1, mann=0) -11,49 1,35-0,19-8.49 < 0,001 Utdanning (antall år etter grunnskole) 4,05 0,5 0,34 15.91 < 0,001 Alder (antall 10-år) 4,3 0,41 0,18 10.5 < 0,001 Øvre serviceklasse 14,9,08 0,13 7,19 < 0,001 edre serviceklasse Er denne forskjellen 10,55 1,44 0,16 7,36 < 0,001 Rutinefunksjonærer statistisk signifikant -1,58 1,30-0,0-1,1 0,6 Faglærte arbeidere 0,13 1,43 0,00 0,09 0,98 Forfremmet på 5%-nivå? (ja=1, nei=0) 7,05 0,87 0,11 8,07 < 0,001 Bedriftserfaring (antall 10-år i bedriften) 1,59 0,58 0,05,75 0,006 Privat sektor (privat=1, offentlig=0) 6,71 0,90 0,11 7,49 < 0,001 Samspill (utdanning kvinner) -0,91 0,33-0,06 -,74 0,006 Konstantledd 56,70,07 7,45 < 0,001 R 3680 0,38 5 Sammenhengen mellom utdanningslengde og timelønn når vi tar med samspillet mellom kjønn og utdanning Stigningskoeffisienten for menn blir 4,05 10 100 Predikert timelønn 80 60 40 0 0 1 3 4 5 6 7 8 9 10 11 Utdanning i år Kvinner Menn Stigningskoeffisienten for kvinner blir: 4,05-0,91 = 3,14 6
Kurvelineære sammenhenger Ved både å legge inn et førstegradsledd og et andregradsledd i samme modell, kan vi finne ut om det er en kurvelineære sammenheng mellom en uavhengig og en avhengig variabel i modellen 7 Regresjonsmodell med kurvelineær sammenheng mellom alder og timelønn Kvinner(kvinne=1, mann=0) -,10 1,85-0,04-1,13 0,58 Utdanning (antall år etter grunnskole) 4,17 0,5 0,35 16,60 < 0,001 Alder (antall 10-år) 5,16 1,99 1,03 1,66 < 0,001 Alder kvadrert -,55 0,4-0,87-10,73 < 0,001 Øvre serviceklasse 15,05,04 0,13 7,37 < 0,001 edre serviceklasse Hvordan kan den 9,43 1,41 0,14 6,69 < 0,001 Rutinefunksjonærer -1,4 1,7-0,0-1,1 0,64 Faglærte arbeidere standardiserte betakoeffisienten bli 0,08 1,40 0,00 0,05 0,957 Forfremmet (ja=1, nei=0) 6,6 0,86 0,10 7,30 < 0,001 Bedriftserfaring (antall 10-år i bedriften) større en 1,0?,11 0,57 0,06 3,7 < 0,001 Privat sektor (privat=1, offentlig=0) 13,96 1,8 0, 10,91 < 0,001 Samspill (utdanning kvinner) -1,37 0,34-0,09-4,09 < 0,001 Samspill (privat sektor kvinner) -1,54 1,7-0,17-7,30 < 0,001 Konstantledd 1,31 4,18,94 0,003 3680 R 0,40 8 Kurvelineær sammenheng mellom alder og timelønn Predikert timelønn Timelønn 80 70 60 50 40 30 0 10 0 0 3 6 9 3 35 38 41 44 47 50 53 56 59 6 65 68 Alder 9 3
I metodelitteraturen opereres det ofte med en del forutsetninger for en korrekt spesifisert regresjonsmodell Alle relevante X-variabler er tatt med, og irrelevante er eliminert Tenk heller: Har vi gode begrunnelser for valget av variabler i teoridelen? Bør vi endre på modellen? Sammenhengen mellom X-variablene og Y er lineær Tenk heller: Skal vi analysere sammenhengene mellom den avhengige og de uavhengige variablene som om de er lineære, eller spesifisere ikke-lineære sammenhenger (f.eks. dummykoding)? Modellen er additiv Tenk heller: Vi analyserer modellen som om den er additiv, noe som vil si at hver enkelt uavhengig variabel har en unik effekt, og at det ikke er skjulte samspill mellom de uavhengige variablene I tillegg er det en del tekniske forutsetninger som ikke legger vekt på i dette kurset 10 Hva hvis den avhengige variabelen er to-delt? I utgangspunktet bør vi bruke logistisk regresjon hvis Y-variabelen bare har verdiene 1 og 0 Vi kan likevel forsvare bruken av den langt enklere lineære regresjonsmodellen hvis de to gruppene er omtrent like store Da kan regresjonskoeffisientene tolkes som sannsynligheter for at Y skal være 1 [P(Y=1)] 11 Lineær sannsynlighetsmodell som predikerer om timelønna er mer enn 90 kroner Kvinner(kvinne=1, mann=0) -0,4 0,03-0,4-7,5 < 0,001 Utdanning (antall år etter grunnskole) 0,05 0,01 0,5 11,16 < 0,001 Alder (antall 10-år) 0,31 0,03 0,77 9,1 < 0,001 Alder kvadrert -0,00 0,00-0,70-8,5 < 0,001 Øvre serviceklasse 0,3 0,03 0,13 6,57 < 0,001 edre serviceklasse 0,19 0,0 0,17 7,89 < 0,001 Rutinefunksjonærer -0,00 0,0-0,00-0,09 0,99 Faglærte arbeidere -0,01 0,0-0,01-0,50 0,614 Forfremmet (ja=1, nei=0) 0,10 0,01 0,10 7,00 < 0,001 Bedriftserfaring (antall 10-år i bedriften) 0,04 0,01 0,08 4,6 < 0,001 Privat sektor (privat=1, offentlig=0) 0,10 0,0 0,10 4,51 < 0,001 Samspill (utdanning kvinner) 0,01 0,01 0,0 1,00 0,319 Samspill (privat sektor kvinner) -0,04 0,03-0,04-1,40 0,16 Konstantledd -0,46 0,07-6,50 < 0,001 3680 R 0,34 1 4
Enhetene i utvalget får omtrent de samme sannsynlighetene for timelønn over 90 kroner med den lineære sannsynlighetsmodellen og den logistiske regresjonsmodellen Den eneste vesentlige forskjellen er at den lineære modellen beregner noen sannsynligheter til under 0 og noen over 1,0 13 5