Logistisk regresjon 2



Like dokumenter
Logistisk regresjon 1

Forelesning 17 Logistisk regresjonsanalyse

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Fra krysstabell til regresjon

Forelesning 10 Kjikvadrattesten

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

Eksamensoppgave i ST3001

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Forelesning 13 Regresjonsanalyse

SKOLEEKSAMEN 2. november 2007 (4 timer)

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Høye skårer indikerer høye nivåer av selvkontroll.

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

EKSAMENSOPPGAVE I SOS3003:

Løsningsforslag eksamen STAT100 Høst 2010

EKSAMENSOPPGAVE I SOS3003 ANVENDT STATISTISK DATAANALYSE I SAMFUNNSVITENSKAP VÅR 2008.

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

SOS3003 Eksamensoppgåver

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

International Research Institute of Stavanger AS

10.1 Enkel lineær regresjon Multippel regresjon

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

SKOLEEKSAMEN 29. september 2006 (4 timer)

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

Sammenlikninger av gjennomsnitt. SOS1120 Kvantitativ metode. Kan besvare to spørsmål: Sammenlikning av to gjennomsnitt

SOS3003 Eksamensoppgåver

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

Kapittel 3: Studieopplegg

Univariate tabeller. Bivariat tabellanalyse. Forelesning 8 Tabellanalyse. Formålet med bivariat analyse:

UNIVERSITETET I OSLO

Lineære modeller i praksis

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Forelesning 18 SOS1002

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

Til bruk i metodeundervisningen ved Høyskolen i Oslo

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

Kort overblikk over kurset sålangt

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Løsningsforslag øving 9, ST1301

Oppgaver til Studentveiledning 3 MET 3431 Statistikk

STK juni 2016

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

INSTITUTT FOR SOSIOLOGI OG SAMFUNNSGEOGRAFI EKSAMEN I SOSIOLOGI (MASTER) SOS KVANTITATIV METODE. SKOLEEKSAMEN 11. mai 2005 (4 timer)

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

3.A IKKE-STASJONARITET

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

Generelle lineære modeller i praksis

HØGSKOLEN I STAVANGER

Logistisk regresjon. Regresjonsmodeller. Prediksjon versus assosiasjon. En epidemiologisk problemstilling. Et multivariabelt problem

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Skoleeksamen i SOS Kvantitativ metode

ST0202 Statistikk for samfunnsvitere Kapittel 10: Inferens om to populasjoner

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Løsningsforslag Til Statlab 5

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Psykologisk institutt

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2010 Løsninger til regneøving nr. 11 (s. 1) der

Analyse med uavhengige variabler på nominal- /ordinalnivå

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

Kort innføring i SPSS

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Transkript:

Logistisk regresjon 2 SPSS Utskrift: Trivariat regresjon a KJONN UTDAAR Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -,536,3 84,56,000,25,84,08 09,956,000,202 -,469,083 35,7,000,230 a. Variable(s) entered on step : KJONN, UTDAAR. Fortolkning av koeffisienter: Kvinner har mindre sannsynlighet enn menn til å jobbe mer enn 40 timer Utdanning er positivt relatert til arbeidstid, slik at sannsynligheten for å jobbe mer enn 40 time pr uke øker med økende antall år med utdanning Fortolkning av oddsratio [exp (B)]: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er 2.5 % av den tilsvarende oddsen for menn. Alternativt: Kvinners sjanse (odds) for å jobbe mer enn 40 timer er (-.25)*00 = 78.5% lavere enn den tilsvarende oddsen for menn For hvert år med utdanning øker oddsen for å jobbe mer enn 40 timer med (oddsratio - )*00 = 20.2 % Alternativt: for hvert år med utdanning øker oddsen for høy arbeidstid med faktor.202. Altså, oddsen på ethvert nivå av utdanning er.202 ganger så høy som den tilsvarende oddsen på nivået under. Vi har m.a.o. å gjøre med en multiplikativ, kurvelineær sammenheng mellom utdanning or arbeidstid å gjøre Sannsynligheter: Sannsynligheter i tilknytning til kontinuerlige variable kan ofte med fordel fremstilles grafisk

Grafisk framstilling I dialogboksen for logistisk regresjon: velg save Predicted Values Probabilities SPSS lagrer nå de sannsynlighetene som modellen predikerer som en egen variabel pre_ eventuelt pre_n hvis man har lagret slike variable tidligere i SPSS. Denne kan nå plottes mot utdanning, og framstilles med kurver for menn og kvinner (Har modellen flere variable, eller ingen dummyvariable, blir det mer komplisert. I så fall må prediksjonene gjøres i regneark og fremstilles grafisk der)

Grafisk framstilling 2 Velg Graph line Multiple: Velg pre_ som Variable, kontinuerlig uavhengig variabel som Category Axis, og den dikotome uavhengige variabelen som Define Lines By. I vårt eksempel får vi denne grafen:,8,7,6,5 Mean Predicted probability,4,3,2, 0,0,00,00 3,00 5,00 7,00 9,00 Kjønn Mann Kvinne 2,00 Utdanning i år utover grunnskolenivå

Signifikanstest av koeffisienter a KJONN UTDAAR Constant Variables in the Equation B S.E. Wald df Sig. Exp(B) -,536,3 84,56,000,25,84,08 09,956,000,202 -,469,083 35,7,000,230 a. Variable(s) entered on step : KJONN, UTDAAR. Også i logistisk regresjon får vi estimert standardfeil til koeffisientene I logistisk regresjon er det korrekt å bruke z-verdier som kritiske verdier i hypotesetesting. z B SE b Testobservatoren er tilnærmet normalfordelt når utvalget er stort og effekten av variabelen i populasjonen er null slik som antatt under H 0 WALD z 2 B SE b 2 Denne testobservatoren er X 2 -fordelt med df= når utvalget er stort og effekten av variabelen i populasjonen er null slik som antatt under H 0. WALD er et alternativ til z ved to-halet hypotesetesting. Kritisk verdi er 3.84 Tester basert på z og WALD gir samme konklusjon Ved små utvalg er ingen av disse testene pålitelige. Da har vi kun Likelihood Ratio testen å holde oss til

Modelltest: Log Likelihood Iteration History a,b,c,d Iteration 2 3 4 a. Method: Enter -2 Log Coefficients likelihood Constant KJONN UTDAAR 2834,350 -,77 -,806,9 2739,66 -,42 -,330,72 2734,327 -,467 -,58,83 2734,293 -,469 -,536,84 b. Constant is included in the model. c. Initial -2 Log Likelihood: 30,24 d. Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. I logistisk regresjon er estimeringsmetoden Maximum likelihood estimering av maksimal sannsynlighet. Gitt det settet av uavhengige variable vi velger ut til analysen, går beregningsmetoden ut på å finne de koeffisienter som gjør det mest sannsynlig å få de observerte y-veridiene 0 -. Dette skjer ved hjelp av en såkalt likelihood funksjon: gjennom prøving og feiling såkalt iterasjoner er målet å komme fram til de koeffisienter som maksimerer logaritmen til denne funksjonen: log likelihood. Av tekniske grunner opererer man med et mål hvor Log Likelihood multipliseres med -2 den såkalte -2LL -2LL tilsvarer SSE i OLS-basert regresjon. Det er altså et mål på feilterm/ residualledd. En god modell er m.a.o. en modell med lav -2LL verdi I første iterasjon estimeres en -2LL for en modell uten variable. I eksempelet ovenfor er denne startverdien beregnet til 30.24. I de neste iterasjonene estimeres -2LL for den fulle modellen. Som vi ser er den beste tilpasningen 2734.293 med tilhørende konstantledd og koeffisienter for kjønn og utdanning Reduksjonen i log likelihood er (30.24-2734.293) = 366.947 Dette danner utgangspunkt for ulike tester av modellen

Pseudo R 2 I tråd med OLS-basert regresjon virker følgende mål fra Hosmer & Lameshow intuitivt fornuftig: PseudoR 2 HL 2LL 2LL full mod ell redusert mod ell For den trivariate modellen får vi: 2 PseudoR HL 2734.293 30.24.88. 2 Fortolkning av Pseudo R 2 : proporsjonal reduksjon i -2LL-statistikken I SPSS fins to andre varianter av Pseudo R 2 : Model Summary -2 Log Cox & Snell Nagelkerke likelihood R Square R Square 2734,293,,76 Problemer med Pseudo R 2 : Kan ikke fortolkes som forklart varians

Likelihood Ratio testen (LR-test) Iteration History a,b,c,d Iteration 2 3 4 a. Method: Enter -2 Log Coefficients likelihood Constant KJONN UTDAAR 2834,350 -,77 -,806,9 2739,66 -,42 -,330,72 2734,327 -,467 -,58,83 2734,293 -,469 -,536,84 b. Constant is included in the model. c. Initial -2 Log Likelihood: 30,24 d. Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Omnibus Tests of Model Coefficients Block Model Chi-square df Sig. 366,947 2,000 366,947 2,000 366,947 2,000 Denne testen tester hele modellen opp mot en modell med ingen variable H 0 : ingen av variablene i modellen har effekt Testobservator: (-2LL 0 ) (-2LL ) ~ X 2 -fordelt med df= antall variable i den fulle modellen Testen i SPSS-utskriften tester den trivariate analysen med kjønn og utdanning som uavhengige variable opp mot en modell med ingen variable. I modellen med ingen variable er -2LL = 30.24 I den trivariate analysen er -2LL = 2734.293 Differansen er 366.947 Df = 2 siden forskjellen på de to modellene er 2 variable Kritisk verdi: 5.99 Konklusjon: Modellen gir et signifikant forklaringsbidrag i forhold til en modell uten de to variablene

Likelihood Ratio testen 2 (LR-Test) Modell (Block ) Modell 2 (Block 2) Uavh variable: Kjønn Iteration History -2 Log Coefficients likelihood Iteration Constant KJONN 2924,337 -,803 -,882 2 2849,860 -,850 -,422 3 2846,24 -,85 -,593 4 2846,06 -,85 -,606 a Method: Enter b Constant is included in the model. c Initial -2 Log Likelihood: 30,24 d Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Uavh. Variable: kjønn, utdanning Iteration History -2 Log Coefficients likelihood Iteration Constant KJONNUTDAAR 2834,350 -,77 -,806,9 22739,66 -,42 -,330,72 32734,327 -,467 -,58,83 42734,293 -,469 -,536,84 a Method: Enter b Constant is included in the model. c Initial -2 Log Likelihood: 2846,06 d Estimation terminated at iteration number 4 because log-likelihood decreased by less than,00 percent. Omnibus Tests of Model Coefficients Chisquare df Sig. 255,35,000 Block 255,35,000 Model 255,35,000 Omnibus Tests of Model Coefficients Chisquare df Sig.,82,000 Block,82,000 Model 366,947 2,000 Denne testen tester den trivariate modellen (kjønn, utdanning) opp mot den bivariate modellen (bare kjønn som uavhengig variabel). H 0 : Den nye variabelen vi har inkludert representerer ingen forbedring i forhold til vår tidligere modell med færre variable. I modellen med kun én uavhengig variabel er -2LL = 2846.06 I den trivariate analysen er -2LL = 2734.293 Differansen er.82 Df = siden forskjellen på de to modellene er variabel Kritisk verdi: 3.84 Konklusjon: Den fulle modellen gir et signifikant forklaringsbidrag i forhold til en modell med bare én uavhengig

Hosmer & Lameshow Goodness of Fit Test Test fra den trivariate modellen: Hosmer and Lemeshow Test Chi-square df Sig. 7,855 6,249 2 3 4 5 6 7 8 Contingency Table for Hosmer and Lemeshow Test Arbeidstidskategorier =,00 Normal (<=40t) Arbeidstidskategorier =,00 Høy (>= 4) Observed Expected Observed Expected Total 265 258,22 6 2,788 27 482 485,2 32 28,879 54 256 258,744 25 22,256 28 298 297,855 44 44,45 342 236 235,305 54 54,695 290 266 277,3 88 76,689 354 450 437,988 63 75,02 63 246 248,45 205 202,549 45 Selv om vi har fått signifikante resultater betyr ikke det at vi har en god modell. En modell kan treffe godt i noen områder av dataene og dårlig i andre deler. Framfor alt forutsetter logistisk regresjon at sammenhengene mellom avhengig og uavhengige variable kan beskrives med en logistisk s-kurve. Dette tilsvarer forutsetningen om linearitet i OLS-regresjon. Hosmer & Lameshow-testen går ut på å undersøke akkurat dette: hvorvidt det er et akseptabelt eller for stort avvik mellom predikerte utfall og observerte verdier. Hvis avviket er for stort har vi en dårlig modell, dvs. en analyse som ikke oppfyller nevnte forutsetning. I tabellen ovenfor er materialet delt inn i 8 grupper. I hver av dem sammenliknes observerte og predikerte utfall på avhengig variabel. Generelt ser vi at modellen predikerer bedre for Y=0 enn Y=. Likevel ser avvikene ut til å være beskjedne. H & L gir oss en kjikvadrattest på avvikene: H 0 : Avvikene mellom observerte og predikerte utfall skyldes tilfeldigheter H : Det er et systematisk avvik mellom observerte og predikerte utfall I denne testen ønsker vi egentlig et ikke-signifikant resultat, for i så fall har vi støtte for modellen vår. Den aktuelle testen viser at gitt at H 0 er sann er det 24.9 % sjanse for å få et kjikvadrat på 7.855 eller høyere. H 0 kan m.a.o. ikke forkastes.

This document was created with Win2PDF available at http://www.daneprairie.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only.