SOS3003 Anvndt statistisk dataanalys i samfunnsvitnskap Forlsingsnotat, vår 2003 Erling Brg Institutt for sosiologi og statsvitnskap NTNU Vår 2004 Erling Brg 2004 Forlsing X Logistisk rgrsjon II Hamilton Kap 7 s223-233 Vår 2004 Erling Brg 2004 2
LOGISTISK REGRESJON ESTIMERING ML (Maximum liklihood) mtodn finn di paramtran i Logit likninga som maksimrr dn naturlg logaritmn til Liklihoodn, L n i= LogLiklihoodn = LL = ln(l) = log (L) = Σ i {Y i log P i + (-Y i )log (-P i )}, i=, 2, 3,..., n, LLr alltid ngativ. Maksimring av LL r drfor likvrdig md minimring av dn positiv LogLiklihoodn (dvs. -LL ) Y { ( ) ( ) } Y i i Pi P i = Vår 2004 Erling Brg 2004 3 Itrativ stimring Estimringa vart avslutta vd itrasjon nr 4 sidan paramtrstimata ndra sg md mindr nn 0,00. Utdrag frå Hamilton Tabll 7. Itration -2 Log Liklihood Constant Cofficints livd Initial 0 209,22 -,276 Stp 95,684,376 2 95,269,455 3 95,267,460 4 95,267,460 Utgangspunktt r in modll md konstantldd -,034 -,04 -,04 -,04 Vår 2004 Erling Brg 2004 4
LOGISTISK REGRESJON: TESTING () To tstar r aktull () Sannsynsrattstn Liklihood ratio tst Dnn kan nyttast analogt md F-tstn (2) Wald tstn Vår 2004 Erling Brg 2004 5 LOGISTISK REGRESJON: TESTING (2) Sannsynsrattstn : Diffransn mllom LogLiklihoodn (LL) til to modllar stimrt på samm datamatrial kan nyttast til å tst to nsta modllar mot kvarandr omlag som F obsrvatorn i OLS rgrsjon Tstn kan og nyttast på inskildkoffsintar. I små utval r dn btr nn Wald-tstn Vår 2004 Erling Brg 2004 6
LOGISTISK REGRESJON: TESTING (3) Sannsynsrat tst-obsrvatorn χ 2 Η = -2[LL(modll) - LL(modll2)] vil, drsom nullhypotsa om ingn skilnad mllom modllan r rtt, vr tilnærma (for stor n) kji-kvadratfordlt md fridomsgradr lik diffransn i talt på paramtrar i di to modllan (H) Vår 2004 Erling Brg 2004 7 Eksmpl på Sannsynsrattst Modll : brr konstant Modll 2: konstant pluss in variabl χ 2 Η = -2[LL(modll) - LL(modll2)] Finn vrdin av Kji-kvadratt og talt på fridomsgradr Eks.: LogLiklihood (mod) = 209,22/(-2) LogLiklihood (mod2) = 95,267/(-2) Frå Tab 7.: -2 Log liklihood 209,22 95,684 95,269 95,267 95,267 Vår 2004 Erling Brg 2004 8
LOGISTISK REGRESJON: TESTING (4) Wald-tstn Wald (kjikvadrat) obsrvatorn (oppgitt av SPSS) = t 2 = (b k / SE(b k )) 2 (t brukt av Hamilton) Obsrvatorn t = b k / SE(b k ) vil kunn nyttast til tsting av inskild paramtrar omlag som t-obsrvatorn i OLS rgrsjon Gitt at nullhypotsa r rtt vil t (for stor n) i logistisk rgrsjon vr tilnærma normalfordlt Gitt at nullhypotsa r rtt vil Wald obsrvatorn (for stor n) i logistisk rgrsjon vr tilnærma Kjikvadratfordlt md df= Vår 2004 Erling Brg 2004 9 Utdrag frå Hamilton Tabll 7.2 Itrasjon 0 2 3 4 5-2 Log liklihood 209,22 52,534 49,466 49,382 49,382 49,382 Variabls B S.E. Wald df Sig. Exp(B) Livd -,046,05 9,698,002,955 Educ -,66,090 3,404,065,847 Contam,208,465 6,739,009 3,347 Hsc 2,73,464 2,99,000 8,784 Constant,73,302,768,84 5,649 Vår 2004 Erling Brg 2004 0
LOGISTISK REGRESJON Konfidnsintrvall for paramtrstimat Konfidnsintrvall for paramtrstimat kan konstrurast ut frå at kvadratrota av Wald-obsrvatorn md fridomsgrad r tilnærma normalfordlt (sjå bild 9) b k -t α *SE(b k ) < β k < b k + t α *SE(b k ) dr t α r tabllvrdin tkn frå normalfordlinga md signifikansnivå α Vår 2004 Erling Brg 2004 Konfidnsintrvall basrt på t-fordlinga () I mangl av tabllar ovr normalfordling kan in gjr sg nytt av at t-fordlinga r tilnærma lik normalfordlinga vd stor n-k (t.d. n-k > 20) Vår 2004 Erling Brg 2004 2
Utdrag frå Hamilton Tabll 7.3 Stp livd B -,047 S.E.,07 Wald 7,550 df Sig.,006 Exp(B),954 duc -,206,093 4,887,027,84 contam,282,48 7,094,008 3,604 hsc 2,48,50 22,508,000,223 fmal -,052,557,009,926,950 kids -,67,566,406,236,5 nodad -2,226,999 4,964,026,08 Constant 2,894,603 3,259,07 8,060 Vår 2004 Erling Brg 2004 3 Mir om Hamilton Tabll 7.3 Itration -2 Log liklihood Cofficints Const livd duc contam hsc fmal kids nodad Stp0 209,22-0,276 Stp 47,028,565 -,027 -,30,782,764 -,05 -,365 -,074 2 4,482 2,538 -,04 -,87,47 2,239 -,037 -,580 -,844 3 4,054 2,859 -,046 -,204,269 2,40 -,050 -,662-2,84 4 4,049 2,893 -,047 -,206,282 2,48 -,052 -,67-2,225 5 4,049 2,894 -,047 -,206,282 2,48 -,052 -,67-2,226 Vår 2004 Erling Brg 2004 4
Er modlln i tabll 7.3 btr nn modlln i tabll 7.2? LL(modll i 7.3) = 4,049/(-2) LL(modll i 7.2) = 49,382/(-2) χ 2 Η = -2[LL(modll i 7.2) - LL(modll i 7.3)] Finn χ 2 Η vrdin Finn H Slå opp i tablln ovr kjikvadratfordlinga Vår 2004 Erling Brg 2004 5 Modlln av sannsynt for at vi skal obsrvr y= for prson i xp( Li ) Pr( yi = ) = E[ yi x] = = + xp + xp( L) K dr logitn L =β + β i 0 j ji j= av forklaringsvariablan X ( L ) i r in linær funksjon Ut frå formln r dt ikkj ltt å tolk kva koffsintan β tydr i Vår 2004 Erling Brg 2004 6
TOLKING: ODDS og ODDSRATER Logitn, L i, ( L i = β0 + Σj βj xji ) r dfinrt som dn naturlg logaritmn til oddsn. Dt tydr at oddsn = O i (Y i =) = xp(l i ) = L i og oddsratn = Oi (Y i = Li ) / O i (Y i = L i ) dr L i og L i har ulik vrdi for in x.j. Vår 2004 Erling Brg 2004 7 Oddsratn Oddsratn, O, kan tolkast som dn rlativ ffktn av å ha in variablvrdi hllr nn in annan t.d. drsom x ki = t+ i L i og x ki = t i L i O = O i (Y i = L i )/ O i (Y i = L i ) = xp[l i ]/ xp[l i ] = xp[β k ] Kvifor β k? Vår 2004 Erling Brg 2004 8
LOGISTISK REGRESJON Oddsratn: ksmpl Oddsn for å svar ja = b 0+b *Aldr+b 2 *Kvinn+b 3 *E.utd+b 4 *Barn i HH Oddsratn for å svar ja mllom kvinnr og mnn = b0+ b* Aldr+ b2* + b3* E. utd + b4* Barn _ i _ HH = b + b * Aldr+ b *0 + b * E. utd + b * Barn _ i _ HH 0 2 3 4 Hugs rknrglan for potnsar Vår 2004 Erling Brg 2004 9 b 2 LOGISTISK REGRESJON Oddsratn: ksmpl Oddsratn for å svar ja for itt års tilvkst i utdanning ( ) b0+ b* Aldr+ b2* Kvinn+ b3* E. utd + + b4* Barn _ i _ HH = b + b * Aldr+ b * Kvinn+ b * E. utd + b * Barn _ i _ HH 0 2 3 4 b 3 Hugs rknrglan for potnsar Vår 2004 Erling Brg 2004 20
Eksmpl frå Hamilton tabll 7.2 Kva r oddsratn for å gå inn for å stngj skoln vd itt års auk i skolgangn? Oddsratn r kvotintn mllom to odds dr dn in r oddsn for dn som har itt år mir utdanning b0+ b* ÅrBuddIByn+ b2*( Utdanning + ) + b3* UriningEigEigdom+ b4* MangHSCmøtr = b + b * ÅrBuddIByn+ b * Utdanning + b * UriningEigEigdom+ b * MangHSCmøtr 0 2 3 4 Oddsratn = Exp{b 2 } = xp(-0,66) = 0,847 Eitt kstra år utdanning førr til at oddsn vrt rdusrt md in faktor 0,847 Ein kan og si at oddsn aukar md 00(0,847-)% = -5,3% (dvs. minkar md 5,3%) b 2 Vår 2004 Erling Brg 2004 2 LOGISTISK REGRESJON BETINGA EFFEKT PLOTT Gi fast vrdiar til all x variablar unnatk in, t.d. variabl x k og st dss inn i likninga for logitn Plott Pr(Y=) som funksjon av x k, dvs P =/(+xp[-l]) = /(+xp[-konst - b k x k ]) for rimlg vrdiar av x k konst r konstantn in får vd innstting i logitn av di vald fast variablvrdian Vår 2004 Erling Brg 2004 22
Utdrag frå Hamilton Tabll 7.4 B S.E. Wald df Sig. Exp(B) Minimum Maximum Man livd -,040,05 6,559,00,96,00 8,00 9,2680 duc -,97,093 4,509,034,82 6,00 20,00 2,9542 contam,299,477 7,423,006 3,664,00,00,280 hsc 2,279,490 2,59,000 9,763,00,00,3072 nodad -,73,725 5,696,07,77,00,00,699 Constant 2,82,330 2,692,0 8,866 Logitn: L = 2.82-0.04*livd -0.97*duc +.299*contam +2.279*hsc -.73*nodad Hr lar vi livd varir og st inn høvlg vald vrdiar for di andr Vår 2004 Erling Brg 2004 23 Btinga ffkt plott frå Hamilton tabll 7.4 (fig7.5) ffktn av å bu lng i byn 0.8 0.6 0.4 0.2 0 0 20 y=/(+xp(-(2.82-0.04x-0.97 2.95+.299 0.28+2.279 0.3-.73 0.7))) y=/(+xp(-(2.82-0.04x-0.97 2.95+.299 +2.279 -.73 0))) y=/(+xp(-(2.82-0.04x-0.97 2.95+.299 0+2.279 0-.73 ))) 40 60 8 Vår 2004 Erling Brg 2004 24
Btinga ffkt plott frå Hamilton tabll 7.4 (fig7.6) ffktn av urining på ign igdom 0.8 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 y=/(+xp(-(2.82-0.04 9.27-0.97 2.95+.299x+2.279 0.3-.73 0.7))) y=/(+xp(-(2.82-0.04-0.97 6+.299x+2.279 -.73 0))) y=/(+xp(-(2.82-0.04 8-0.97 20+.299x+2.279 0-.73 ))) Vår 2004 Erling Brg 2004 25 Dtrminasjonskoffsintar I logistisk rgrsjonsmodllar finst ikkj mål tilsvarand dtrminasjons-koffsintn i OLS rgrsjon Flir analog mål har vor forslått Di r vrt oft kalla psudo R 2 Hamilton nyttar Aldrich og Nlson sitt psudo R 2 = χ 2 /(χ 2 +n) dr χ 2 = tstobsrvatorn for tstn av hil modlln mot in modll md brr konstant, og n = r talt på cas Vår 2004 Erling Brg 2004 26
Ulik psudo R 2 i SPSS SPSS rapportrr Cox og Snll, Naglkrk, og i multinomisk logistisk rgrsjon også McFaddn sin framlgg til R 2 Aldrich og Nlson sitt kan vi rkn ut sjølv Modl Summary Stp -2 Log liklihood *** Cox & Snll R Squar *** Naglkrk R Squar *** Psudo R-Squar Cox and Snll Naglkrk McFaddn *** *** *** Vår 2004 Erling Brg 2004 27