Forelesning 8 SOS002 Bruk av regresjonsmodeller til å predikere verdier? Hvordan kan vi predikere timelønn ut fra denne lineære regresjonsmodellen? B SEB Beta t Sig. t Kvinner(kvinne=, mann=0) -4,0 0,96-0,23-4,66 < 0,00 Utdanning (antall år etter grunnskole) 3,66 0,2 0,3 7,37 < 0,00 Alder (antall 0-år) 4,44 0,4 0,8 0,87 < 0,00 Klasse (Dummy-variabler med ufaglærte arbeidere som referansekategori) Øvre serviceklasse 5,59 2,06 0,4 7,55 < 0,00 Nedre serviceklasse 0,47,44 0,6 7,29 < 0,00 Rutinefunksjonærer -,06,29-0,02-0,82 0,4 Faglærte arbeidere -0,2,42-0,00-0,5 0,882 Forfremmet (ja=, nei=0) 7,08 0,88 0, 8,0 < 0,00 Bedriftserfaring (antall 0-år i bedriften),47 0,58 0,04 2,54 0,0 Privat sektor (privat=, offentlig=0) 6,8 0,90 0, 7,60 < 0,00 Konstantledd 57,39 2,05 27,97 < 0,00 N R 2 3680 0,37 2 Hva predikerer den lineære regresjonsmodellen som timelønn for en kvinnelig ufaglærte arbeidere i offentlig sektor med gjennomsnittlig utdanning (2,65), alder (3,94) og yrkeserfaring (0,94), men som ikke har blitt forfremmet? Y kvinne =-4,0 kvinne+3,66 utdanning+4,44 alder +5,59 Kl+0,47 Kl2-,06 Kl3-2 Kl4 +7,08 forfremmet+,47 bedriftserfaring +6,8 privat+57,39 Y kvinne =-4,0 +3,66 2,65+4,44 3,94 +5,59 0+0,47 0-,06 0-2 0 +7,08 0+,47 0,94 +6,8 0+57,39 Y kvinne = 7,86 3
Hva predikerer den lineære regresjonsmodellen som timelønn for en mannlig ufaglærte arbeidere i offentlig sektor med gjennomsnittlig utdanning (2,65), alder (3,94) og yrkeserfaring (0,94), men som ikke har blitt forfremmet? Y mann = -4,0 kvinne+3,66 utdanning+4,44 alder +5,59 Kl+0,47 Kl2-,06 Kl3-2 Kl4 +7,08 forfremmet+,47 bedriftserfaring +6,8 privat+57,39 Y mann = -4,0 0+3,66 2,65+4,44 3,94 +5,59 0+0,47 0-,06 0-2 0 +7,08 0+,47 0,94 +6,8 0+57,39 Y mann = 85,96 4 Hva er differansen mellom de to prediksjonene? Y kvinne = 7,86 Y mann = 85,96 Diff. = - 4,0 Men hvorfor blir differansen mellom kvinnen og mannen akkurat det samme som regresjonskoeffisienten for kvinne? Grunnen er at regresjonskoeffisienten for kvinne viser jo nettopp forskjellen mellom kvinner og menn når de andre variablene holdes like! Men slik blir det IKKE når vi bruker logistisk regresjon! 5 Hvordan forklarer vi denne logistiske regresjonsmodellen? Logistisk regresjonsmodell for sannsynligheten for å tjene 83 kroner eller mer pr time ut fra diverse uavhengige variabler. B SEB Oddratio Sig. Kvinner(kvinne=, mann=0) -,34 0,0 0,26 < 0,00 Utdanning (antall år etter grunnskole) 0,30 0,02,35 < 0,00 Alder (antall 0-år) 0,27 0,04,3 < 0,00 Klasse (Dummy-variabler med ufaglærte arbeidere som ref.) Øvre serviceklasse,76 0,25 5,78 < 0,00 Nedre serviceklasse,09 0,5 2,99 < 0,00 Rutinefunksjonærer -0,09 0,3 0,9 0,497 Faglærte arbeidere 0,22 0,3,25 0,093 Forfremmet (ja=, nei=0) 0,82 0,09 2,27 < 0,00 Bedriftserfaring (antall 0-år i bedriften) 0,23 0,06,26 < 0,00 Privat sektor (privat=, offentlig=0) 0,52 0,0,68 < 0,00 Konstantledd -2,42 (N=) (3680) 6 2
Kan oddratioene gi oss informasjon om sannsynligheter for å tjene 83 kroner eller mer pr time? Oddratio Forskjellene i Sig. prosent (OR-)*00 Kvinner(kvinne=, mann=0) 0,26-74 0,000 Utdanning (antall år etter grunnskole),35 35 0,000 Alder (antall 0-år),3 3 0,000 Klasse (Ufaglærte arbeidere som ref.) -00 Øvre serviceklasse 5,78 478 0,000 Nedre serviceklasse 2,99 99 0,000 Rutinefunksjonærer 0,9-9 0,497 Faglærte arbeidere,25 25 0,093 Forfremmet (ja=, nei=0) 2,27 27 0,000 Bedriftserfaring (antall 0-år i bedriften),26 26 0,000 Privat sektor (privat=, offentlig=0),68 68 0,000 Konstantledd 0,09 (N=) (3680) Oddsen for å tjene mer enn 83 kroner i timen er 74% lavere for kvinner enn for menn For hvert år økning i utdanning, øker oddsen for å komme i denne høyinntektsgruppen med 35% 7 NB! Odds er ikke det samme som sannsynligheter De fleste er mindre fortrolige med begrepene odds og oddratioer enn med prosenter og prosentdifferanser. Høy utdanning 0 Lav utdanning Odds (Høy/Lav) Byer og tettsteder 50 50 00 20 8 NB! Odds er ikke det samme som sannsynligheter De fleste er mindre fortrolige med begrepene odds og oddratioer enn med prosenter og prosentdifferanser. Prosentdifferanse Landsbygda 30 70 00 Byer og Landsbygda tettsteder Oddratio Høy utdanning 50 30 0 Lav utdanning 50 70 Odds (Høy/Lav),00 0,43 2,33 Det vil si at oddsen for å ha høy utdanning er 33% høyere i byene enn på landsbygda ((2,33-)*00=33) Prosentdifferansen mellom by og land er derimot 20 prosentpoeng Og sannsynlighetene for å ha høy utdanning er 0,5 i byene og 0,3 på landsbygda Det vil si at sannsynligheten for å ha høy utdanning er 20 prosentpoeng høyere i byene enn på landsbygda, ikke 33 prosent høyere. 9 3
Omregning til sannsynligheter NB! Dette er en ikke-lineær tolkning Det vil si at effekten i form av sannsynligheter må identifiserer for et gitt sett av verdier på de andre variablene Statistisk P = / (+ e -L ) der e er den naturlige logaritmen 2,78 Fremgangsmåte a) Sett opp hele regresjonsligninga b) Bestem deg for hvilken X-variabel du vil beregne sannsynligheter for c) Sett inn gjennomsnittsverdiene på alle andre kontinuerlige X-variabler og de mest utbredte kombinasjonene på de andre dummykodede X- variablene d) Beregn predikerte logiter (L) for hver verdi på den valgte X- variabelen e) Beregn så sannsynlighetene med formelen: P = + e L 0 Hvor sannsynlig er det at den en kvinnelig ufaglærte arbeidere i offentlig sektor med gjennomsnittlig utdanning (2,65), alder (3,94) og yrkeserfaring (0,94), men som ikke har blitt forfremmet, tjener mer enn 83 kroner i timen? L kvinne =-,338 kvinne+0,300 utdanning+0,269 alder+,755 Kl +,094 Kl2-0,090 Kl3+0,222 Kl4+0,82 forfremmet +0,232 bedriftserfaring+0,57 privat-2,48 L kvinne =-,338 +0,300 2,65+0,269 3,94+,755 0 +,094 0-0,090 0+0,222 0+0,82 0 +0,232 0,94+0,57 0-2,48 L kvinne =-,686 = = = 0,57 (,686) + e + e P kvinne L Hvor sannsynlig er det at den en mannlig ufaglærte arbeidere i offentlig sektor med gjennomsnittlig utdanning (2,65), alder (3,94) og yrkeserfaring (0,94), men som ikke har blitt forfremmet, tjener mer enn 83 kroner i timen? L mann = -,338 kvinne+0,300 utdanning+0,269 alder+,755 Kl +,094 Kl2-0,090 Kl3+0,222 Kl4+0,82 forfremmet +0,232 bedriftserfaring+0,57 privat-2,48 L mann = -,338 0+0,300 2,65+0,269 3,94+,755 0 +,094 0-0,090 0+0,222 0+0,82 0 +0,232 0,94+0,57 0-2,48 L mann = -0,345 = 0, 45 ( 0,345) + e = + e = P mann L 2 4
Hva er differansen mellom de to sannsynlighetene? P kvinner = 0,57 P menn = 0,45 Diff. = - 0,258 Kvinner med de oppsatte kjennetegnene har 26 prosentpoeng lavere sannsynlighet enn menn, med samme kjennetegnene, for å tjene mer enn 83 kroner 3 5