Logistisk regresjon 1

Logistisk regresjon Hovedideen: Binær logistisk regresjon håndterer avhengige, dikotome variable Et hovedmål er å predikere sannsynligheter for å ha verdien på avhengig variabel for bestemte (sosiale) grupper Sannsynligheter Sannsynligheter er et kontinuum som varierer mellom 0 og Eks myntkast: Myntkast med en normal (rettferdig) mynt gir i det lange løp en 50/50 prosent sjanse for å få enten krone eller mynt. I så fall er sannsynligheten for den ene eller andre utfallet 0.5 Hvis sannsynligheten er er det helt sikkert at et fenomen inntreffer Hvis sannsynligheten er 0 er det derimot helt sikkert at fenomenet ikke inntreffer

Sannsynligheter og andeler er parallelle begreper Arbeidstidskategorier * Kjønn Crosstabulation Arbeidstidskategorier Total,00 Normal (<=40t),00 Høy (>= 4) Count % within Kjønn Count % within Kjønn Count % within Kjønn Kjønn,00 Mann,00 Kvinne Total 28 352 2570 70,3% 92,% 80,3% 55 6 63 29,7% 7,9% 9,7% 733 468 320 00,0% 00,0% 00,0% Mens sannsynligheter tar utgangspunkt i den enkelte enhet i undersøkelsen tar andeler utgangspunkt i grupper av enheter. Utregningen av andeler er identisk med, og gir samme resultat som, beregningen av sannsynligheter. Underliggende sannsynligheter på individnivå gir seg utslag i bestemte andeler på gruppenivå. Eks krysstabellanalysen: Andelen menn med høy arbeidstid: 55/733 * 00 = 29.7 % Andelen kvinner med høy arbeidstid: 6/468 * 00 = 7.9 % Sannsynligheten for at en mann har høy arbeidstid: 55/733 = 0.297 Sannsynligheten for at en kvinne har høy arbeidstid: 6/468 = 0.079 Innenfor en gitt gruppe er p(y i = ) lik andelen i gruppen som har egenskapen. Ifølge analysen ovenfor er for eksempel sannsynligheten for at en kvinne har høy arbeidstid 0.079 fordi andelen kvinner som har denne egenskapen er 7.9% Legg også merke til at: Gjennomsnittet av en diktom variabel er andelen som har verdien Gj.sn av arb.tidsvariabelen for menn: (0+0+0+..+++..)/733 = 55/733 = 0.297

Lineær sannsynlighetsregresjon (OLS) Her er avhengig variabel: Høy arbeidstid = mer enn 50 timer pr uke Model (Constant) Utdanning i år utover grunnskolenivå Kjønn a. Dependent Variable: ARBTID50 Coefficients a Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. 4,289E-02,006 7,266,000 3,933E-03,00,056 3,7,002-4,37E-02,007 -,20-6,7,000 Vi får automatisk en variabel som kan fortolkes som et sannsynlighetskontinuum som varierer mellom 0 og, med gjennomsnitt lik andelen som skårer på avhengig variabel. Sannsynlighet for høy arbeidstid 0,05 0,04 Sannsynlighet 0,03 0,02 0,0 Menn Kvinner 0-0,0 2 3 4 5 6 7 8 9 0 2 3 Antall år med utdanning Ved skjevfordelte avhengige variable vil lineær sannsynlighetsregresjon kunne predikere sannsynligheter utenfor 0 området nettopp fordi modellen forutsetter linearitet

Løsning : Odds Problem: En avhengig dummy-variabel er begrenset: varierer kun mellom 0 og Den øvre grensen fjernes ved å omforme variabelen til et forholdstall: odds Odds = forholdet mellom sannsynligheten for at noe inntreffer (p) og sannsynligheten for at det ikke inntreffer (-p): odds p ( p) Odds < : Odds = : Odds > : Det er mindre sannsynlig at noe inntreffer enn at det gjør det: p(y = )<.5 Det er like sannsynlig at noe inntreffer som at det ikke gjør det: p(y = ) =.5 Det er mer sannsynlig at noe inntreffer enn at det ikke gjør det: p(y = ) >.5 Sannsynlighet Odds M.a.o.: 0.75 0,75/(-0.75) = 3 p(y=) er 3 ganger høyere enn p(y=0) 0.25 0,25/(-0.25) = 0,333 P(y=) er en tredjedel av p(y=0) Odds varierer mellom 0 og positivt uendelig: p = 0.9 odds = 0.9/0. = 9 p = 0.99 odds = 0.99/0.0 = 99 p = 0.999 odds = 0.999/0.00 = 999

Løsning 2: Log Odds Det er fortsatt et problem at den nedre grensen på avhengig variabel er begrenset til 0 Den nedre grensen fjernes ved å ta den naturlige logaritmen (Ln) av oddsen Den naturlige tallet e = 2.78 Den naturlige logaritmen til et tall er det tallet man må opphøye e i for å få utgangstallet Ln(0) = 2.3026 fordi e 2.3026.. = 0 Ved å ta den naturlige logaritmen (Ln) av en rekke tall (her: odds) oppnår vi: Rangeringen av tallene blir den samme Logaritmen til tallet er 0 Tall mellom 0 og gir negativ logaritme, mens tall større enn gir positiv logaritme Sannsynlighet Odds Log odds Større enn 0.5 Større enn positiv Lik 0.5 null Mindre enn 0.5 Mellom 0 og negativ Log odds som avhengig variabel er en variabel som varierer mellom pluss/minus uendelig: p = 0. L = ln(0./0.9) = -2,20 p = 0.0 L = ln(0.0/0.99) = -4,60 p = 0.00 L = ln(0.00/0.999) = -6,9

Logistisk regresjon I logistisk regresjon er den avhengige variabelen definert som: Logiten L ln p( Y p( Y ) ) Dersom vi plotter sammenhengen mellom logiten og den underliggende sannsynligheten som den er beregnet fra får vi følgende figur: Sammenhengen mellom L og et sett av X-variable er derimot lineær. Modellen i logistisk regresjon er denne: L p( Y ) ln b0 b x b2 x2... p( Y ) b n x n e Logaritmen av oddsen er m.a.o. en lineær funksjon av et sett uavhengige variable. Koeffisientene uttrykker IKKE endringer i sannsynligheter (de må vi regne oss til), men endringer i logiten som følge av endringer i de uavhengige variablene.

Bivariat logistisk regresjon i SPSS For å få tak i nødvendig informasjon for testing av modellen, gå inn på Options og kryss av for Hosmer & Lameshow og Iteration History :

SPSS Utskrift Block : Method = Enter Iteration History a,b,c,d Iteration 2 3 4 a. Method: Enter -2 Log Coefficients likelihood Constant KJONN 3000,409 -,8 -,873 2924,32 -,860 -,4 2920,39 -,86 -,582 2920,300 -,86 -,595 b. Constant is included in the model. c. Initial -2 Log Likelihood: 377,903 d. Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Omnibus Tests of Model Coefficients Block Model Chi-square df Sig. 257,603,000 257,603,000 257,603,000 Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 2920,300,077,23 Hosmer and Lemeshow Test Contingency Table for Hosmer and Lemeshow Test 2 Arbeidstidskategorier =,00 Normal (<=40t) Arbeidstidskategorier =,00 Høy (>= 4) Observed Expected Observed Expected Total 352 35,992 6 6,008 468 28 28,000 55 55,000 733 Classification Table a Predicted Observed Arbeidstidskategorier Overall Percentage a. The cut value is,500 Normal (<=40t) Høy (>= 4) Arbeidstidskategorier Normal Percentage (<=40t) Høy (>= 4) Correct 2570 0 00,0 63 0,0 80,3 a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423

Fortolkning : Koeffisienter a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423 Avhengig variabel er arbeidstid: 0= inntil 40 timer pr uke = mer enn 40 timer pr uke Teknisk: Koeffisientene viser hvor mye logaritmen av oddsen for å ha høy arbeidstid logiten endres når den uavhengige variabelen øker med en enhet i verdi Konstant: Når uavhengig variabel er 0 dvs for menn er logiten -0.86 Kjønn: For kvinner er logiten i gjennomsnitt.595 lavere enn for menn (fortegnet er minus) Substansielt: Vi forholder oss til fortegnet på koeffisientene med tilhørende signifikanstest Fra tabellen ovenfor kan vi trekke følgende slutninger: Sannsynligheten for at menn jobber mer enn 40 timer er lavere enn sannsynligheten for at de jobber mindre enn 40 timer Sannsynligheten for at kvinner jobber mer enn 40 timer er enda lavere enn hva tilfellet er for menn

Fortolkning 2: Odds ratio a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423 Hvis vi tar anti-logaritmen til et tall får vi utgangstallet: e ln( x) (På kalkulatoren: slå inn koeffisienten, trykk deretter på e x ) ln(.595) Kjønnskoeffisienten omregnes da slik: exp( ) e 0. 203 b Kjonn b Fortolkningen følger av det faktum at dette tallet er en odds ratio, eller forholdet mellom to odds, nemlig forholdet mellom oddsen for å ha høy arbeidstid blant kvinner og den tilsvarende oddsen for menn: oddsratio p kvinner p ( Y kvinner ( y ) ) p menn p ( Y menn ( Y ) ) 0.203 Siden oddsratioen er mindre enn 0 er oddsen for å ha høy arbeidstid lavere blant kvinner enn menn. Sammenhengen mellom kjønn og arbeidstid er i tråd med koeffisientens negative fortegn altså negativ. Oddsratio har en prosentfortolkning: Oddsratio>: Oddsratio=: Oddsratio<: (oddsratio-)*00 = prosent høyere sjanse for Y= i den ene gruppen sammenliknet med den andre (oddsratio-)*00 = (-)*00 = 0, dvs. ingen sammenheng mellom avhengig og uavhengig variabel (-oddsratio)*00 = prosent lavere sjanse for Y= i den ene gruppen sammenliknet med den andre. Her: Oddsratio = 0.203: Oddsen eller sjansen for at kvinner har høy arbeidstid er 80 % lavere enn den tilsvarende sjansen for menn. Alternativt: Oddsen eller sjansen for at kvinner har høy arbeidstid er 20 % av den tilsvarende sjansen for menn.

Fortolkning 3: Predikerte sannsynligheter a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423 Siden den logistiske modellen er ikke-lineær kan ikke enkeltkoeffisienter omregnes til sannsynligheter. Derimot kan vi predikere sannsynligheter for Y= for sosiale grupper som lar seg definere ved hjelp av kombinasjoner av verdier på et sett av uavhengige variable L ln p( Y p( Y ) ) b 0 b x b 2 x 2... b n x n p e ( b 0 b x... b n x n ) Predikert andel kvinner med høy arbeidstid: Steg : Vi predikerer log-odds for kvinner: L = -0.86 + (-.595) = -2.456 ( 2.456) Steg 2: Vi tar anti-log en av minus log-oddsen: e. 658 Steg 3: Vi beregner andelen kvinner med høy arbeidstid: 0. 079 (.658) Tilsvarende regnestykke for menn: Steg : L = -0.86 ( 0.86) Steg 2: e 2. 366 Steg 3: 0. 297 ( 2.366)

Sammenlikning med krysstabellanalysen Arbeidstidskategorier * Kjønn Crosstabulation Arbeidstidskategorier Total,00 Normal (<=40t),00 Høy (>= 4) Count % within Kjønn Count % within Kjønn Count % within Kjønn Kjønn,00 Mann,00 Kvinne Total 28 352 2570 70,3% 92,% 80,3% 55 6 63 29,7% 7,9% 9,7% 733 468 320 00,0% 00,0% 00,0% Predikerte utfall i prosent: Høy arbeidstid Menn Kvinner Nei (Y=0) 70.3 92. Ja (Y=) 29.7 7.9 Total 00 00

This document was created with Win2PDF available at http://www.daneprairie.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only.