Forelesning 17 Logistisk regresjonsanalyse Logistiske regresjons er den mest brukte regresjonsanalysen når den avhengige variabelen er todelt Metoden kan brukes til å: teste hypoteser om variablers effekt på en todelt avhengig variabel beregne sannsynligheter for at enheter med bestemte kjennetegn tilhører en bestemt gruppe beregne sannsynligheter for at noe bestemt vil skje eller ikke (død, naturkatastrofer osv.) 1 Når skal vi bruke logistisk regresjon? Dette er et spørsmål om Y-variabelens egenskaper Forutsetningen for OLS-regresjon er at Y er en kontinuerlig variabel på intervall- eller forholdstallsnivå ( men også tilfeller der man forutsetter at det som strengt talt er en variabel med ordinaltallsnivå, likevel kan behandles som om den var på intervallnivå hvis den har minst 5 kategorier) Logistisk regresjon kan derimot anvendes også på Y- variabler som er på nominal- eller ordinalnivå 2 Den avhengige variabelen i logistisk regresjon Y har bare to verdier: 0 eller 1 Eksempler: Ap-velger (1) eller ikke (0) Sosiologi (1) eller andre studenter som tar SOS1002 (0) Religiøs (1) eller ikke-religiøs (0) Den logistiske regresjon beregner da sannsynligheten for p(y=1) (hvor sannsynlig at man er Ap-velger, sosiolog, religiøs osv.) NB! Skill mellom sannsynlighet og empirisk utfall (jfr. skillet mellom predikert og observert verdi) 3 1
Empiriske utfall Bivariat fordeling av alder og sivilstand Sannsynlighet Alder N Antall gifte/ samboende (1) Antall enslige (0) Andel gift/sam. 17-18 200 8 192 0.04 19-20 189 17 172 0.09 21-22 205 39 166 0.19 23-24 206 72 134 0.35 25-26 180 99 81 0.55 27-28 29-30 196 201 143 173 53 28 0.73 0.86 Totalt 1377 551 826 4 NB: SKILLET MELLOM OLS- REGRESJON OG LOGISTISK REGRESJON Kun et spørsmål om Y Det er ingen forskjell når det gjelder behandlingen av X-ene Også i logistisk regresjon kan vi teste ut om de uavhengige variablenes effekt på den avhengige variabelen er: lineær kurvelineær ikke-lineær (dummykodede variabler) virker i samspill med andre uavhengige variabler 5 Hvorfor logistisk regresjon? Hvis man bruker lineær regresjon på en dikotom avhengig variabel (0 eller 1) får man to problemer. 1: Urealistiske prediksjoner over 1 eller under 0 2: Heteroskedastisitet Logistisk regresjon løser begge disse problemene 6 2
HVA ER ANNERLEDES MED LOGISTISK REGRESJON? Annen grunnleggende logikk koeffisientene har en annen mening I logistisk regresjonen beregner man ikke hvor mye Y endrer seg for hver enhets endring i X. I stedet beregner man hvor mye den naturlige logaritmen til oddsen for Y=1 endrer seg for hver enhets endring i X Annen estimeringsmetode: Ikke OLS (minste kvadrats metode), men maximum likelihood (sannsynlighetsmaksimering) R 2 erstattes med andre mål på modellens forklaringskraft, men disse målene får så forskjellige verdier at vi ser bort fra dem i dette kurset. 7 SORRY så det kreves en viss innsats dvs. praktisk regneøvelser for å forstå logikken helt & fullt MEN HELDIGVIS er det fortsatt mulig å tolke en logistisk regresjonsmodell rimelig meningsfullt uten inngående matematiske ferdigheter 8 Tolkning av en logistisk regresjonsmodell Den logistiske regresjonsmodellen kan tolkes etter tre skalaer: Tolkning av de logistiske regresjonskoeffisientene Ser på koeffisientens fortegn, og ser om det er statistisk signifikans Tolkning av koeffisientene i oddsskalaen Her får vi bedre forståelse av styrken på sammenhengen. Omregning til sannsynligheter Resultatene blir enkle å formidle, men det krever en god del beregningsarbeid for å få fram sannsynlighetene. Dette ser vi på i neste forelesning 9 3
Før vi starter med logistisk regresjon må lage en ny to-delt avhengig variabel Forslag: Vi deler inntektsvariabelen i to grupper ut fra medianen på 83 kroner 10 Så kan vi sette opp en logistisk regresjonsmodell i SPSS Vi trenger bare å sette inn en avhengig variabel, og så setter vi inn de uavhengige variablene i boksen for kovariater. 11 Resultatet fra SPSS ser slik ut Step 1 a female ed age10 kl1 kl2 kl3 kl4 promot fexp private Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -1.338.099 181.163 1.000.262.300.024 157.115 1.000 1.350.269.042 40.726 1.000 1.309 1.755.252 48.599 1.000 5.782 1.094.146 56.528 1.000 2.987 -.090.132.462 1.497.914.222.132 2.816 1.093 1.248.821.089 84.495 1.000 2.272.232.060 15.043 1.000 1.261.517.096 28.884 1.000 1.676-2.418.215 126.464 1.000.089 a. Variable(s) entered on step 1: female, ed, age10, kl1, kl2, kl3, kl4, promot, fexp, private. Hva skal vi se på når vi tolker resultatene? 12 4
Hvordan tolker vi koeffisientene (B-ene) i denne logistiske regresjonsmodellen? B SEB Sig. Kvinner(kvinne=1, mann=0) -1,34 0,10 < 0,001 Utdanning (antall år etter grunnskole) 0,30 0,02 < 0,001 Alder (antall 10-år) 0,27 0,04 < 0,001 Klasse (Dummy-variabler med ufaglærte arbeidere som ref.) Øvre serviceklasse 1,76 0,25 < 0,001 Nedre serviceklasse 1,09 0,15 < 0,001 Rutinefunksjonærer -0,09 0,13 0,497 Faglærte arbeidere 0,22 0,13 0,093 Forfremmet (ja=1, nei=0) 0,82 0,09 < 0,001 Bedriftserfaring (antall 10-år i bedriften) 0,23 0,06 < 0,001 Privat sektor (privat=1, offentlig=0) 0,52 0,10 < 0,001 Konstantledd -2,42 (N=) (3680) Kvinner har statistisk signifikant lavere sannsynlighet for å tjene over 83 kroner enn menn For hvert år med ekstra utdanning utover grunnskolen øker sannsynligheten statistisk signifikant for å tjene minst 83 kroner pr arbeidstime 13 Hva er odds og oddsratio (Exp(B))? 1: Kvinner 0: Menn Oddsratio 1: 83 kr eller mer 281 843 0: Mindre enn 83 kr Odds (83+/<83) 1475 281/1475= 0.19 1160 843/1160= 0.73 0,19/0,73= 0.26 Oddsratioet for kjønnsforskjellen blir oddsen for kvinner dividert på oddsen for menn (0,19 / 0,73 = 0,26) 14 Oddratioer fra den logistiske regresjonsmodellen når vi ser på de som tjener mer enn 83 kroner pr time? Oddratio Forskjellene i Sig. prosent (OR-1)*100 Kvinner(kvinne=1, mann=0) 0,26-74 0,000 Utdanning (antall år etter grunnskole) 1,35 35 0,000 Alder (antall 10-år) 1,31 31 0,000 Klasse (Ufaglærte arbeidere som ref.) Øvre serviceklasse 5,78 478 0,000 Nedre serviceklasse 2,99 199 0,000 Rutinefunksjonærer 0,91-9 0,497 Faglærte arbeidere 1,25 25 0,093 Forfremmet (ja=1, nei=0) 2,27 127 0,000 Bedriftserfaring (antall 10-år i bedriften) 1,26 26 0,000 Privat sektor (privat=1, offentlig=0) 1,68 68 0,000 Konstantledd 0,09 (N=) (3680) Oddsen for å tjene mer enn 83 kroner i timen er 74% lavere for kvinner enn for menn For hvert år økning i utdanning, øker oddsen for å komme i denne høyinntektsgruppen med 35% 15 5
Logistisk regresjon for timelønn over 83 kroner. B SE B Oddratio Sig. Kvinner (kvinne=1, mann=0) -1,386 0,203 0,250 < 0,001 Utdanning (antall år etter grunnskole) 0,259 0,033 1,295 < 0,001 Alder (antall 10-år) 2,306 0,228 10,031 < 0,001 Klasse (Ufaglærte arbeidere som ref.) Øvre serviceklasse 1,732 0,258 5,652 < 0,001 Nedre serviceklasse 1,006 0,149 2,734 < 0,001 Rutinefunksjonærer -0,037 0,138 0,963 0,787 Faglærte arbeidere 0,230 0,135 1,259 0,089 Forfremmet (ja=1, nei=0) 0,766 0,091 2,152 < 0,001 Bedriftserfaring (antall 10-år i bedriften) 0,252 0,060 1,286 < 0,001 Privat sektor (privat=1, offentlig=0) 0,659 0,140 1,933 < 0,001 Alder kvadrert -0,246 0,027 0,782 < 0,001 Samspill kvinner-utdanning 0,064 0,041 1,066 0,121 Samspill kvinner-privat -0,205 0,189 0,815 0,277 Konstantledd -6,256 0,490 0,002 < 0,001 (N=) (3680) 16 6