Logistisk regresjon 2

Logistisk regresjon 2 SPSS Utskrift: Trivariat regresjon a KJONN UTDAAR Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -,536,3 84,56,000,25,84,08 09,956,000,202 -,469,083 35,7,000,230 a. Variable(s) entered on step : KJONN, UTDAAR. Fortolkning av koeffisienter: Kvinner har mindre sannsynlighet enn menn til å jobbe mer enn 40 timer Utdanning er positivt relatert til arbeidstid, slik at sannsynligheten for å jobbe mer enn 40 time pr uke øker med økende antall år med utdanning Fortolkning av oddsratio [exp (B)]: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er 2.5 % av den tilsvarende oddsen for menn. Alternativt: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er (-.25)*00 = 78.5% lavere enn den tilsvarende oddsen for menn For hvert år med utdanning øker oddsen for å jobbe mer enn 40 timer med (oddsratio - )*00 = 20.2 % Alternativt: for hvert år med utdanning øker oddsen for høy arbeidstid med faktor.202. Altså, oddsen på ethvert nivå av utdanning er.202 ganger så høy som den tilsvarende oddsen på nivået under. Vi har m.a.o. å gjøre med en multiplikativ, kurvelineær sammenheng mellom utdanning or arbeidstid å gjøre Sannsynligheter: Sannsynligheter i tilknytning til kontinuerlige variable kan ofte med fordel fremstilles grafisk

Grafisk framstilling I dialogboksen for logistisk regresjon: velg save Predicted Values Probabilities SPSS lagrer nå de sannsynlighetene som modellen predikerer som en egen variabel pre_ eventuelt pre_n hvis man har lagret slike variable tidligere i SPSS. Denne kan nå plottes mot utdanning, og framstilles med kurver for menn og kvinner (Har modellen flere variable, eller ingen dummyvariable, blir det mer komplisert. I så fall må prediksjonene gjøres i regneark og fremstilles grafisk der)

Grafisk framstilling 2 Velg Graph line Multiple: Velg pre_ som Variable, kontinuerlig uavhengig variabel som Category Axis, og den dikotome uavhengige variabelen som Define Lines By. I vårt eksempel får vi denne grafen:,8,7,6,5 Mean Predicted probability,4,3,2, 0,0,00,00 3,00 5,00 7,00 9,00 Kjønn Mann Kvinne 2,00 Utdanning i år utover grunnskolenivå

Signifikanstest av koeffisienter a KJONN UTDAAR Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -,536,3 84,56,000,25,84,08 09,956,000,202 -,469,083 35,7,000,230 a. Variable(s) entered on step : KJONN, UTDAAR. Også i logistisk regresjon får vi estimert standardfeil til koeffisientene I logistisk regresjon er det korrekt å bruke z-verdier som kritiske verdier i hypotesetesting. z B SE b Testobservatoren er tilnærmet normalfordelt når utvalget er stort og effekten av variabelen i populasjonen er null slik som antatt under H 0 WALD z 2 B SE b 2 Denne testobservatoren er X 2 -fordelt med df= når utvalget er stort og effekten av variabelen i populasjonen er null slik som antatt under H 0. WALD er et alternativ til z ved to-halet hypotesetesting. Kritisk verdi er 3.84 Tester basert på z og WALD gir samme konklusjon Ved små utvalg er ingen av disse testene pålitelige. Da har vi kun Likelihood Ratio testen å holde oss til

Modelltest: Log Likelihood Iteration History a,b,c,d Iteration 2 3 4 a. Method: Enter -2 Log Coefficients likelihood Constant KJONN UTDAAR 2834,350 -,77 -,806,9 2739,66 -,42 -,330,72 2734,327 -,467 -,58,83 2734,293 -,469 -,536,84 b. Constant is included in the model. c. Initial -2 Log Likelihood: 30,24 d. Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. I logistisk regresjon er estimeringsmetoden Maximum likelihood estimering av maksimal sannsynlighet. Gitt det settet av uavhengige variable vi velger ut til analysen, går beregningsmetoden ut på å finne de koeffisienter som gjør det mest sannsynlig å få de observerte y-veridiene 0 -. Dette skjer ved hjelp av en såkalt likelihood funksjon: gjennom prøving og feiling såkalt iterasjoner er målet å komme fram til de koeffisienter som maksimerer logaritmen til denne funksjonen: log likelihood. Av tekniske grunner opererer man med et mål hvor Log Likelihood multipliseres med -2 den såkalte -2LL -2LL tilsvarer SSE i OLS-basert regresjon. Det er altså et mål på feilterm/ residualledd. En god modell er m.a.o. en modell med lav -2LL verdi I første iterasjon estimeres en -2LL for en modell uten variable. I eksempelet ovenfor er denne startverdien beregnet til 30.24. I de neste iterasjonene estimeres -2LL for den fulle modellen. Som vi ser er den beste tilpasningen 2734.293 med tilhørende konstantledd og koeffisienter for kjønn og utdanning Reduksjonen i log likelihood er (30.24-2734.293) = 366.947 Dette danner utgangspunkt for ulike tester av modellen

Pseudo R 2 I tråd med OLS-basert regresjon virker følgende mål fra Hosmer & Lameshow intuitivt fornuftig: PseudoR 2 HL 2LL 2LL full mod ell redusert mod ell For den trivariate modellen får vi: 2 PseudoR HL 2734.293 30.24.88. 2 Fortolkning av Pseudo R 2 : proporsjonal reduksjon i -2LL-statistikken I SPSS fins to andre varianter av Pseudo R 2 : Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 2734,293,,76 Problemer med Pseudo R 2 : Kan ikke fortolkes som forklart varians

Likelihood Ratio testen (LR-test) Iteration History a,b,c,d Iteration 2 3 4 a. Method: Enter -2 Log Coefficients likelihood Constant KJONN UTDAAR 2834,350 -,77 -,806,9 2739,66 -,42 -,330,72 2734,327 -,467 -,58,83 2734,293 -,469 -,536,84 b. Constant is included in the model. c. Initial -2 Log Likelihood: 30,24 d. Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Omnibus Tests of Model Coefficients Block Model Chi-square df Sig. 366,947 2,000 366,947 2,000 366,947 2,000 Denne testen tester hele modellen opp mot en modell med ingen variable H 0 : ingen av variablene i modellen har effekt Testobservator: (-2LL 0 ) (-2LL ) ~ X 2 -fordelt med df= antall variable i den fulle modellen Testen i SPSS-utskriften tester den trivariate analysen med kjønn og utdanning som uavhengige variable opp mot en modell med ingen variable. I modellen med ingen variable er -2LL = 30.24 I den trivariate analysen er -2LL = 2734.293 Differansen er 366.947 Df = 2 siden forskjellen på de to modellene er 2 variable Kritisk verdi: 5.99 Konklusjon: Modellen gir et signifikant forklaringsbidrag i forhold til en modell uten de to variablene

Likelihood Ratio testen 2 (LR-Test) Modell (Block ) Modell 2 (Block 2) Uavh variable: Kjønn Iteration History -2 Log Coefficients likelihood Iteration Constant KJONN 2924,337 -,803 -,882 2 2849,860 -,850 -,422 3 2846,24 -,85 -,593 4 2846,06 -,85 -,606 a Method: Enter b Constant is included in the model. c Initial -2 Log Likelihood: 30,24 d Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Uavh. Variable: kjønn, utdanning Iteration History -2 Log Coefficients likelihood Iteration Constant KJONNUTDAAR 2834,350 -,77 -,806,9 22739,66 -,42 -,330,72 32734,327 -,467 -,58,83 42734,293 -,469 -,536,84 a Method: Enter b Constant is included in the model. c Initial -2 Log Likelihood: 2846,06 d Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Omnibus Tests of Model Coefficients Chisquare df Sig. 255,35,000 Block 255,35,000 Model 255,35,000 Omnibus Tests of Model Coefficients Chisquare df Sig.,82,000 Block,82,000 Model 366,947 2,000 Denne testen tester den trivariate modellen (kjønn, utdanning) opp mot den bivariate modellen (bare kjønn som uavhengig variabel). H 0 : Den nye variabelen vi har inkludert representerer ingen forbedring i forhold til vår tidligere modell med færre variable. I modellen med kun én uavhengig variabel er -2LL = 2846.06 I den trivariate analysen er -2LL = 2734.293 Differansen er.82 Df = siden forskjellen på de to modellene er variabel Kritisk verdi: 3.84 Konklusjon: Den fulle modellen gir et signifikant forklaringsbidrag i forhold til en modell med bare én uavhengig

Hosmer & Lameshow Goodness of Fit Test Test fra den trivariate modellen: Hosmer and Lemeshow Test Chi-square df Sig. 7,855 6,249 2 3 4 5 6 7 8 Contingency Table for Hosmer and Lemeshow Test Arbeidstidskategorier =,00 Normal (<=40t) Arbeidstidskategorier =,00 Høy (>= 4) Observed Expected Observed Expected Total 265 258,22 6 2,788 27 482 485,2 32 28,879 54 256 258,744 25 22,256 28 298 297,855 44 44,45 342 236 235,305 54 54,695 290 266 277,3 88 76,689 354 450 437,988 63 75,02 63 246 248,45 205 202,549 45 Selv om vi har fått signifikante resultater betyr ikke det at vi har en god modell. En modell kan treffe godt i noen områder av dataene og dårlig i andre deler. Framfor alt forutsetter logistisk regresjon at sammenhengene mellom avhengig og uavhengige variable kan beskrives med en logistisk s-kurve. Dette tilsvarer forutsetningen om linearitet i OLS-regresjon. Hosmer & Lameshow-testen går ut på å undersøke akkurat dette: hvorvidt det er et akseptabelt eller for stort avvik mellom predikerte utfall og observerte verdier. Hvis avviket er for stort har vi en dårlig modell, dvs. en analyse som ikke oppfyller nevnte forutsetning. I tabellen ovenfor er materialet delt inn i 8 grupper. I hver av dem sammenliknes observerte og predikerte utfall på avhengig variabel. Generelt ser vi at modellen predikerer bedre for Y=0 enn Y=. Likevel ser avvikene ut til å være beskjedne. H & L gir oss en kjikvadrattest på avvikene: H 0 : Avvikene mellom observerte og predikerte utfall skyldes tilfeldigheter H : Det er et systematisk avvik mellom observerte og predikerte utfall I denne testen ønsker vi egentlig et ikke-signifikant resultat, for i så fall har vi støtte for modellen vår. Den aktuelle testen viser at gitt at H 0 er sann er det 24.9 % sjanse for å få et kjikvadrat på 7.855 eller høyere. H 0 kan m.a.o. ikke forkastes.

This document was created with Win2PDF available at http://www.daneprairie.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only.