SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 07. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statstsk dataanalyse samfunnsvtenskap Forelesngsnotat 07 Erlng Berge Insttutt for sosolog og statsvtenskap NTNU Erlng Berge 2004 Forelesng VII Logstsk regresjon I Hamlton Kap 7 s27-234 Erlng Berge 2004 2 Erlng Berge 2004

LOGIT REGRESJON eller LOGISTISK REGRESJON Skal nyttast når avhengg varabel er på nomnalnvå Føreset at Y har verdane 0 eller Modellen av den betnga forventnnga tl Y, E[Y X], nyttar den logstske funksjonen Men Kvfor kan kkje E[Y X] vere en lneær funksjon også her? Erlng Berge 2004 3 Den lneære sannsynsmodellen: LPM Den lneære sannsynsmodellen (LPM) brukt på Y når Y berre kan ta to verdar (0,) føreset at v kan tolke E[Y X] som et sannsyn E[Y X] = b 0 + Σ j b j x j = Pr[Y =] Dette fører tl problem Erlng Berge 2004 4 Erlng Berge 2004 2

Er føresetnadene rette LPM? En føresetnad LPM er at resdualen e stettar krava tl OLS Resdualen er anten e = (b 0 + Σ j b j x j ) eller e = 0 (b 0 + Σ j b j x j ) Dette tyder heteroskedaststet (resdualen varerer med storleken på x-varablane) Det fnst estmerngsmetodar som kan komme rundt dette problemet (2-stegs vekta mnste kvadrats metode tl dømes) Et eksempel på LPM: Erlng Berge 2004 5 OLS regresjon av dkotom avhengg varabel på varabelen år budd byen ANOVA tabell Sum of Squares df Mean Square F Sg. Regresson 3, 3, 3,648,000(a) Resdual 34,48 5,228 Total 37,529 52 Dependent Varable: SCHOOLS SHOULD CLOSE (Constant) B,594 Std. Error,059 t 0,47 Sg.,000 YEARS LIVED IN TOWN -,008,002-3,694,000 Regresjonen ser helt OK ut desse tabellane. Erlng Berge 2004 6 Erlng Berge 2004 3

,00 0,80 SCHOOLS SHOULD CLOSE 0,60 0,40 0,20 Her kjem predkert y under 0 for rmelege verdar av x R Sq Lnear = 0,083 0,00 0,00 20,00 40,00 60,00 80,00 00,00 YEARS LIVED IN WILLIAMSTOWN Sprengsplott med regresjonslnje. Fgur 7. Hamlton Erlng Berge 2004 7 LPM er fel modell V ser eksempelet her at en for rmelege verdar av x-ane kan får en verd av predkert y der E[Y X] > eller E[Y X] < 0, Dette kan en kkje gjere noko med LPM er substanselt sett fel modell Det trengst en modell der en alltd har 0 < E[Y X] < Erlng Berge 2004 8 Erlng Berge 2004 4

Den logstske funksjonen Den generelle logstske funksjonen er Y = α/(+γ*exp[-βx ]) + ε α>0 gr den øvre grensa for Y, dvs v har at 0<Y< α γ fastlegg det horsontale punkt for rask vekst Set en α = og γ = Vl en alltd ha 0 < /(+exp[-βx ]) < Den logstske funksjonen vl for alle verdar av x lggje mellom 0 og Erlng Berge 2004 9 Logstske kurver for ulk β 0.8 0.6 0.4 0.2 y= y= +exp(-0.5x) +exp(-0.25x) +exp(-0.x) y= Horzontal lne through ( 0, ) 20 0 0 20 40 6 Erlng Berge 2004 0 Erlng Berge 2004 5

MODELL () Defnsjonar Sannsynet for at person skal ha verden på varabelen Y skrv v Pr(Y =). Da er Pr(Y ) = - Pr(Y =) Oddsen for at person skal ha verden på varabelen Y, her kalla O, er tlhøvet mellom to sannsyn: O ( y ) ( y = ) ( y ) Pr p = = = Pr = p Erlng Berge 2004 MODELL (2) Defnsjonar: LOGITEN, L, er den naturlege logartmen tl oddsen, O, for person : L = ln(o ) Modellen føreset at L er en lneær funksjon av forklarngsvarablane x j, dvs: L = β 0 + Σ j β j x j, der j=,...,k-, og =,...,n Erlng Berge 2004 2 Erlng Berge 2004 6

MODELL (3) Sett X = (samlnga av alle x j ), da er sannsynet for at Y = for person nr exp( L ) Pr( y = ) = E[ y x] = = + exp + exp( L ) der L K =β + β X 0 j j j= ( L ) Grafen tl dette sambandet er nyttg for tolknga av kva e endrng x tyder Erlng Berge 2004 3 MODELL (4) I modellen Y = E[Y X] + ε er felen enten ε = - E[Y X] med sannsyn E[Y X] (sdan Pr(Y = ) = E[Y X] ), eller felen er ε = - E[Y X] med sannsyn - E[Y X] mao felen har e fordelng kjent som bnomalfordelnga med p = E[Y X] Erlng Berge 2004 4 Erlng Berge 2004 7

Estmerng Metoden brukt for å estmere parametrane modellen heter Maxmum Lkelhood ML-metoden gr oss de parametrane som maksmerer sannsynet (Lkelhood) for å fnne de observasjonane v faktsk har Dette sannsynet skal v kalle L Krteret for å velje regresjonsparametrar er at lkelhooden skal vere størst mogeleg Erlng Berge 2004 5 Maxmum Lkelhood () Lkelhooden er lk produktet av sannsynet for kvar enskld observasjon. For en dkotom varabel der Pr(Y = )=P kan dette skrvast L n = { ( ) ( ) } Y Y P P = Erlng Berge 2004 6 Erlng Berge 2004 8

Maxmum Lkelhood (2) For lettare å kunne maksmere sannsynet L tar en den naturlege logartmen tl L : n ( L) = { y P+ ( y) ( P) } ln ln ln = Den naturlege logartmen tl L kallar v LogLkelhooden, V kan kalle den LL. LLhar e sentral rolle logstsk regresjon. Erlng Berge 2004 7 Logstsk modell staden for LPM Iteraton Step 0 2 3 4-2 Log Lkelhood 209,22 95,684 95,269 95,267 95,267 Coeffcents Constant Lved n town -,275 0,376 -,034,455 -,04,460 -,04,460 -,04 Dependent: Schools should close Lved n town Constant B -,04,460 S.E.,02,263 Wald,399 3,069 df Sg.,00,080 Exp(B),960,584 Erlng Berge 2004 8 Erlng Berge 2004 9

Fotnotar tl tabellen Step 0: Utgangspunktet er en modell med konstantledd og ngen varablar Iteratv estmerng Estmernga vart avslutta ved terasjon nr 4 sdan parameterestmata endra seg med mndre enn 0,00 Observatoren Wald som SPSS gr oss er lk kvadratet av den t som Hamlton (og STATA) gr. Erlng Berge 2004 9,00000 0,80000 SCHOOLS SHOULD CLOSE YEARS LIVED IN WILLIAMSTOWN Predcted probablty YEARS LIVED IN WILLIAMSTOWN 0,60000 Fg 7.4 Hamlton 0,40000 0,20000 Den lneære modellen er lagt nn ved sda av den logstske 0,00000 0,00 20,00 40,00 60,00 80,00 00,00 Erlng Berge 2004 20 Erlng Berge 2004 0

TESTING To testar er aktuelle () Sannsynsratetesten Lkelhood rato test Denne kan nyttast analogt med F-testen (2) Wald testen Kvadratrota av denne kan nyttast analogt med t-testen Erlng Berge 2004 2 Tolknng () Sklnaden mellom den lneære modellen og den logstske er stor nærleken av 0 og LPM er lett å tolke: Y = β 0 når x =0, og når x veks med e enng veks Y med β engar Logtmodellen er vanskelegare å tolke. Den er kkje-lneær både høve tl oddsen og sannsynet. Erlng Berge 2004 22 Erlng Berge 2004

ODDS og ODDSRATER Logten, L, ( L = β0 + Σj βj xj ) er defnert som den naturlege logartmen tl oddsen. Det tyder at oddsen = O (Y =) = exp(l ) = e L og oddsraten = O (Y = L ) / O (Y = L ) der L og L har ulk verd for en x.j. Erlng Berge 2004 23 Tolknng (2) Når alle x er lk 0 er L = β 0 Det tyder at oddsen for at y = det høvet er exp{β 0 } Dersom en held alle x-ane fast (set de lk en konstant) medan x aukar med vl oddsen for at y = verte multplsert med exp{β } Det tyder at den vl endre seg med 00(exp{β } ) % Sannsynet Pr{y = } vl endre seg med en faktor som er påverka av alle elementa logten Erlng Berge 2004 24 Erlng Berge 2004 2

LOGISTISK REGRESJON: FØRESETNADER Modellen er korrekt spesfsert logten er lneær parametrane alle relevante varablar er med ngen rrelevante er med x-varablane er målt utan fel Observasjonane er uavhengge Ikkje perfekt multkollneartet Ikkje perfekt dskrmnerng Stort nok utval Erlng Berge 2004 25 FØRESETNADER som kkje kan testast Modellen er korrekt spesfsert alle relevante varablar er med x-varablane er målt utan fel Observasjonane er uavhengge To vl teste seg sjølve Ikkje perfekt multkollneartet Ikkje perfekt dskrmnerng Erlng Berge 2004 26 Erlng Berge 2004 3

LOGISTISK REGRESJON Statstske problem kan komme av For lte utval Høg grad av multkollneartet Fører tl store standardfel (uskre estmat) Vert oppdaga og handtert på same måten som OLS regresjon Høg grad av dskrmnerng (eller separasjon) fører tl store standardfel (uskre estmat) Vert oppdaga automatsk av SPSS Erlng Berge 2004 27 Dskrmnerng/ separasjon Problem med dskrmnerng dukkar opp når v for en gtt x-verd får nesten perfekt predksjon av y-verden (nesten alle med en gtt x-verd har same y-verd) I SPSS kan dette g følgjande meldng: Warnngs There s possbly a quas-complete separaton n the data. Ether the maxmum lkelhood estmates do not exst or some parameter estmates are nfnte. The NOMREG procedure contnues despte the above warnng(s). Subsequent results shown are based on the last teraton. Valdty of the model ft s uncertan. Erlng Berge 2004 28 Erlng Berge 2004 4

Dskrmnerng Hamlton tabell 7.5 Odds for svakare krav er 44/202 = 0,28 mellom kvnner utan småbarn Odds for svakare krav er 0/79 = 0 mellom kvnner med småbarn Oddsraten er 0/0,28 = 0 slk at exp{b kvnne }=0 Dette tyder at b kvnne = mnus uendeleg Ikkje svakare krav Svakare krav OK Kvnne utan små barn 202 44 Kvnne med små barn 79 0 Erlng Berge 2004 29 Logstsk regresjon Dersom føresetnadene er korrekte vl logstsk regresjon g oss normalfordelte, forventnngsrette og varansmnmale estmat av parametrane Erlng Berge 2004 30 Erlng Berge 2004 5