Logistisk regresjon 1

Like dokumenter
Logistisk regresjon 2

Fra krysstabell til regresjon

Forelesning 17 Logistisk regresjonsanalyse

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

EKSAMENSOPPGAVE I SOS3003:

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMENSOPPGAVE I SOS3003 ANVENDT STATISTISK DATAANALYSE I SAMFUNNSVITENSKAP VÅR 2008.

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Hvorfor har forskjellen. i t-testen på nå blitt redusert til ?

SKOLEEKSAMEN 2. november 2007 (4 timer)

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

EKSAMEN I SOS1120 KVANTITATIV METODE 23. NOVEMBER 2004 (6 timer)

Forelesning 18 SOS1002

Frequencies. Frequencies

NTNU, Norges teknisk-naturvitenskapelige universitet

Frequencies. Frequencies

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

Arbeidsnotat nr Per Arne Tufte

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

International Research Institute of Stavanger AS

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Forelesning 13 Regresjonsanalyse

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Forelesning 10 Kjikvadrattesten

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

Forelesning 10 Statistiske mål for bivariat tabellanalyse. Korrelasjonsmål etter målenivå. Cramers V

SOS3003 Eksamensoppgåver

SKOLEEKSAMEN 29. september 2006 (4 timer)

Generelle lineære modeller i praksis

Lineære modeller i praksis

SOS3003 Eksamensoppgåver

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

MA Universitetet i Agder Institutt for matematiske fag EKSAMEN. Emnekode: MA-202 Emnenavn: Statistikk 2

EKSAMEN I SOS1120 KVANTITATIV METODE 5. DESEMBER 2005 (4 timer)

Kort innføring i SPSS

Statistikk er begripelig

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap EKSAMEN I SOS3003

Eksamensoppgave i ST3001

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

EKSAMENSOPPGAVE FOR SOS3003: ANVENDT STATISTISK DATAANALYSE

Forord. Norges miljø- og biovitenskapelige universitet. Ås, 15. mai Pål Adrian Clausen Ryen

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

NTNU, Norges teknisk-naturvitenskapelige universitet

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Regresjonsmodeller. HEL 8020 Analyse av registerdata i forskning. Tom Wilsgaard

Løsningsforslag eksamen STAT100 Høst 2010

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Spørsmål. 21 april Vår Krav til semesteroppgåva

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Påvirker regionale forhold bedrifters verdiskapning og innovasjonsevne? Jarle Aarstad Senter for nyskaping Høgskolen i Bergen

Forelesning 10 STK3100

Høye skårer indikerer høye nivåer av selvkontroll.

EKSAMEN I SOS1120 KVANTITATIV METODE 2. DESEMBER 2010 (4 timer)

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

INSTITUTT FOR SOSIOLOGI OG SAMFUNNSGEOGRAFI EKSAMEN I SOSIOLOGI (MASTER) SOS KVANTITATIV METODE. SKOLEEKSAMEN 11. mai 2005 (4 timer)

NTNU, Norges teknisk-naturvitenskapelige universitet

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMEN I SOS1120 KVANTITATIV METODE 27. NOVEMBER 2003 (6 timer)

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Eksamensoppgave i ST3001

EKSAMEN I SOS1120 KVANTITATIV METODE 12. DESEMBER 2011 (4 timer)

UNIVERSITETET I OSLO

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

SKOLEEKSAMEN 8. januar 2008 (4 timer)

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

UNIVERSITETET I OSLO

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

1 + γ 2 X i + V i (2)

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

UNIVERSITETET I OSLO

Multippel lineær regresjon

OPPGAVE 1 MA Universitetet i Agder Institutt for matematiske fag EKSAMEN. Emnekode: MA-202 Emnenavn: Statistikk 2

EXAMININATION FOR SOS3003 Advanced statistical data analysis in the social sciences

UNIVERSITETET I OSLO

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Psykologisk institutt

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2001

Logistisk regresjon. Regresjonsmodeller. Prediksjon versus assosiasjon. En epidemiologisk problemstilling. Et multivariabelt problem

Transkript:

Logistisk regresjon Hovedideen: Binær logistisk regresjon håndterer avhengige, dikotome variable Et hovedmål er å predikere sannsynligheter for å ha verdien på avhengig variabel for bestemte (sosiale) grupper Sannsynligheter Sannsynligheter er et kontinuum som varierer mellom 0 og Eks myntkast: Myntkast med en normal (rettferdig) mynt gir i det lange løp en 50/50 prosent sjanse for å få enten krone eller mynt. I så fall er sannsynligheten for den ene eller andre utfallet 0.5 Hvis sannsynligheten er er det helt sikkert at et fenomen inntreffer Hvis sannsynligheten er 0 er det derimot helt sikkert at fenomenet ikke inntreffer

Sannsynligheter og andeler er parallelle begreper Arbeidstidskategorier * Kjønn Crosstabulation Arbeidstidskategorier Total,00 Normal (<=40t),00 Høy (>= 4) Count % within Kjønn Count % within Kjønn Count % within Kjønn Kjønn,00 Mann,00 Kvinne Total 28 352 2570 70,3% 92,% 80,3% 55 6 63 29,7% 7,9% 9,7% 733 468 320 00,0% 00,0% 00,0% Mens sannsynligheter tar utgangspunkt i den enkelte enhet i undersøkelsen tar andeler utgangspunkt i grupper av enheter. Utregningen av andeler er identisk med, og gir samme resultat som, beregningen av sannsynligheter. Underliggende sannsynligheter på individnivå gir seg utslag i bestemte andeler på gruppenivå. Eks krysstabellanalysen: Andelen menn med høy arbeidstid: 55/733 * 00 = 29.7 % Andelen kvinner med høy arbeidstid: 6/468 * 00 = 7.9 % Sannsynligheten for at en mann har høy arbeidstid: 55/733 = 0.297 Sannsynligheten for at en kvinne har høy arbeidstid: 6/468 = 0.079 Innenfor en gitt gruppe er p(y i = ) lik andelen i gruppen som har egenskapen. Ifølge analysen ovenfor er for eksempel sannsynligheten for at en kvinne har høy arbeidstid 0.079 fordi andelen kvinner som har denne egenskapen er 7.9% Legg også merke til at: Gjennomsnittet av en diktom variabel er andelen som har verdien Gj.sn av arb.tidsvariabelen for menn: (0+0+0+..+++..)/733 = 55/733 = 0.297

Lineær sannsynlighetsregresjon (OLS) Her er avhengig variabel: Høy arbeidstid = mer enn 50 timer pr uke Model (Constant) Utdanning i år utover grunnskolenivå Kjønn a. Dependent Variable: ARBTID50 Coefficients a Unstandardized Coefficients Standardized Coefficients B Std. Error Beta t Sig. 4,289E-02,006 7,266,000 3,933E-03,00,056 3,7,002-4,37E-02,007 -,20-6,7,000 Vi får automatisk en variabel som kan fortolkes som et sannsynlighetskontinuum som varierer mellom 0 og, med gjennomsnitt lik andelen som skårer på avhengig variabel. Sannsynlighet for høy arbeidstid 0,05 0,04 Sannsynlighet 0,03 0,02 0,0 Menn Kvinner 0-0,0 2 3 4 5 6 7 8 9 0 2 3 Antall år med utdanning Ved skjevfordelte avhengige variable vil lineær sannsynlighetsregresjon kunne predikere sannsynligheter utenfor 0 området nettopp fordi modellen forutsetter linearitet

Løsning : Odds Problem: En avhengig dummy-variabel er begrenset: varierer kun mellom 0 og Den øvre grensen fjernes ved å omforme variabelen til et forholdstall: odds Odds = forholdet mellom sannsynligheten for at noe inntreffer (p) og sannsynligheten for at det ikke inntreffer (-p): odds p ( p) Odds < : Odds = : Odds > : Det er mindre sannsynlig at noe inntreffer enn at det gjør det: p(y = )<.5 Det er like sannsynlig at noe inntreffer som at det ikke gjør det: p(y = ) =.5 Det er mer sannsynlig at noe inntreffer enn at det ikke gjør det: p(y = ) >.5 Sannsynlighet Odds M.a.o.: 0.75 0,75/(-0.75) = 3 p(y=) er 3 ganger høyere enn p(y=0) 0.25 0,25/(-0.25) = 0,333 P(y=) er en tredjedel av p(y=0) Odds varierer mellom 0 og positivt uendelig: p = 0.9 odds = 0.9/0. = 9 p = 0.99 odds = 0.99/0.0 = 99 p = 0.999 odds = 0.999/0.00 = 999

Løsning 2: Log Odds Det er fortsatt et problem at den nedre grensen på avhengig variabel er begrenset til 0 Den nedre grensen fjernes ved å ta den naturlige logaritmen (Ln) av oddsen Den naturlige tallet e = 2.78 Den naturlige logaritmen til et tall er det tallet man må opphøye e i for å få utgangstallet Ln(0) = 2.3026 fordi e 2.3026.. = 0 Ved å ta den naturlige logaritmen (Ln) av en rekke tall (her: odds) oppnår vi: Rangeringen av tallene blir den samme Logaritmen til tallet er 0 Tall mellom 0 og gir negativ logaritme, mens tall større enn gir positiv logaritme Sannsynlighet Odds Log odds Større enn 0.5 Større enn positiv Lik 0.5 null Mindre enn 0.5 Mellom 0 og negativ Log odds som avhengig variabel er en variabel som varierer mellom pluss/minus uendelig: p = 0. L = ln(0./0.9) = -2,20 p = 0.0 L = ln(0.0/0.99) = -4,60 p = 0.00 L = ln(0.00/0.999) = -6,9

Logistisk regresjon I logistisk regresjon er den avhengige variabelen definert som: Logiten L ln p( Y p( Y ) ) Dersom vi plotter sammenhengen mellom logiten og den underliggende sannsynligheten som den er beregnet fra får vi følgende figur: Sammenhengen mellom L og et sett av X-variable er derimot lineær. Modellen i logistisk regresjon er denne: L p( Y ) ln b0 b x b2 x2... p( Y ) b n x n e Logaritmen av oddsen er m.a.o. en lineær funksjon av et sett uavhengige variable. Koeffisientene uttrykker IKKE endringer i sannsynligheter (de må vi regne oss til), men endringer i logiten som følge av endringer i de uavhengige variablene.

Bivariat logistisk regresjon i SPSS For å få tak i nødvendig informasjon for testing av modellen, gå inn på Options og kryss av for Hosmer & Lameshow og Iteration History :

SPSS Utskrift Block : Method = Enter Iteration History a,b,c,d Iteration 2 3 4 a. Method: Enter -2 Log Coefficients likelihood Constant KJONN 3000,409 -,8 -,873 2924,32 -,860 -,4 2920,39 -,86 -,582 2920,300 -,86 -,595 b. Constant is included in the model. c. Initial -2 Log Likelihood: 377,903 d. Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Omnibus Tests of Model Coefficients Block Model Chi-square df Sig. 257,603,000 257,603,000 257,603,000 Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 2920,300,077,23 Hosmer and Lemeshow Test Contingency Table for Hosmer and Lemeshow Test 2 Arbeidstidskategorier =,00 Normal (<=40t) Arbeidstidskategorier =,00 Høy (>= 4) Observed Expected Observed Expected Total 352 35,992 6 6,008 468 28 28,000 55 55,000 733 Classification Table a Predicted Observed Arbeidstidskategorier Overall Percentage a. The cut value is,500 Normal (<=40t) Høy (>= 4) Arbeidstidskategorier Normal Percentage (<=40t) Høy (>= 4) Correct 2570 0 00,0 63 0,0 80,3 a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423

Fortolkning : Koeffisienter a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423 Avhengig variabel er arbeidstid: 0= inntil 40 timer pr uke = mer enn 40 timer pr uke Teknisk: Koeffisientene viser hvor mye logaritmen av oddsen for å ha høy arbeidstid logiten endres når den uavhengige variabelen øker med en enhet i verdi Konstant: Når uavhengig variabel er 0 dvs for menn er logiten -0.86 Kjønn: For kvinner er logiten i gjennomsnitt.595 lavere enn for menn (fortegnet er minus) Substansielt: Vi forholder oss til fortegnet på koeffisientene med tilhørende signifikanstest Fra tabellen ovenfor kan vi trekke følgende slutninger: Sannsynligheten for at menn jobber mer enn 40 timer er lavere enn sannsynligheten for at de jobber mindre enn 40 timer Sannsynligheten for at kvinner jobber mer enn 40 timer er enda lavere enn hva tilfellet er for menn

Fortolkning 2: Odds ratio a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423 Hvis vi tar anti-logaritmen til et tall får vi utgangstallet: e ln( x) (På kalkulatoren: slå inn koeffisienten, trykk deretter på e x ) ln(.595) Kjønnskoeffisienten omregnes da slik: exp( ) e 0. 203 b Kjonn b Fortolkningen følger av det faktum at dette tallet er en odds ratio, eller forholdet mellom to odds, nemlig forholdet mellom oddsen for å ha høy arbeidstid blant kvinner og den tilsvarende oddsen for menn: oddsratio p kvinner p ( Y kvinner ( y ) ) p menn p ( Y menn ( Y ) ) 0.203 Siden oddsratioen er mindre enn 0 er oddsen for å ha høy arbeidstid lavere blant kvinner enn menn. Sammenhengen mellom kjønn og arbeidstid er i tråd med koeffisientens negative fortegn altså negativ. Oddsratio har en prosentfortolkning: Oddsratio>: Oddsratio=: Oddsratio<: (oddsratio-)*00 = prosent høyere sjanse for Y= i den ene gruppen sammenliknet med den andre (oddsratio-)*00 = (-)*00 = 0, dvs. ingen sammenheng mellom avhengig og uavhengig variabel (-oddsratio)*00 = prosent lavere sjanse for Y= i den ene gruppen sammenliknet med den andre. Her: Oddsratio = 0.203: Oddsen eller sjansen for at kvinner har høy arbeidstid er 80 % lavere enn den tilsvarende sjansen for menn. Alternativt: Oddsen eller sjansen for at kvinner har høy arbeidstid er 20 % av den tilsvarende sjansen for menn.

Fortolkning 3: Predikerte sannsynligheter a KJONN Constant a. Variable(s) entered on step : KJONN. Variables in the Equation B S.E. Wald df Sig. Exp(B) -,595,0 209,827,000,203 -,86,053 268,200,000,423 Siden den logistiske modellen er ikke-lineær kan ikke enkeltkoeffisienter omregnes til sannsynligheter. Derimot kan vi predikere sannsynligheter for Y= for sosiale grupper som lar seg definere ved hjelp av kombinasjoner av verdier på et sett av uavhengige variable L ln p( Y p( Y ) ) b 0 b x b 2 x 2... b n x n p e ( b 0 b x... b n x n ) Predikert andel kvinner med høy arbeidstid: Steg : Vi predikerer log-odds for kvinner: L = -0.86 + (-.595) = -2.456 ( 2.456) Steg 2: Vi tar anti-log en av minus log-oddsen: e. 658 Steg 3: Vi beregner andelen kvinner med høy arbeidstid: 0. 079 (.658) Tilsvarende regnestykke for menn: Steg : L = -0.86 ( 0.86) Steg 2: e 2. 366 Steg 3: 0. 297 ( 2.366)

Sammenlikning med krysstabellanalysen Arbeidstidskategorier * Kjønn Crosstabulation Arbeidstidskategorier Total,00 Normal (<=40t),00 Høy (>= 4) Count % within Kjønn Count % within Kjønn Count % within Kjønn Kjønn,00 Mann,00 Kvinne Total 28 352 2570 70,3% 92,% 80,3% 55 6 63 29,7% 7,9% 9,7% 733 468 320 00,0% 00,0% 00,0% Predikerte utfall i prosent: Høy arbeidstid Menn Kvinner Nei (Y=0) 70.3 92. Ja (Y=) 29.7 7.9 Total 00 00

This document was created with Win2PDF available at http://www.daneprairie.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only.