SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Like dokumenter
SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

SOS3003 Eksamensoppgåver

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 06. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

Logistisk regresjon 2

Logistisk regresjon 1

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

Spørsmål. 21 april Vår Krav til semesteroppgåva

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS 31 MULTIVARIAT ANALYSE

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 04. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 02. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

EKSAMENSOPPGÅVER SVSOS3003 Vår 2004 FRAMLEGG TIL LØYSING

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

10.1 Enkel lineær regresjon Multippel regresjon

Kausalanalyse og seleksjonsproblem

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 13

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Lineære modeller i praksis

Generelle lineære modeller i praksis

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 09. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

UNIVERSITETET I OSLO

NTNU, Norges teknisk-naturvitenskapelige universitet

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Til bruk i metodeundervisningen ved Høyskolen i Oslo

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 07. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMENSOPPGÅVER SVSOS316 HAUST 2001 FRAMLEGG TIL LØYSING

Eksamensoppgåve i TMA4255 Anvendt statistikk

Høye skårer indikerer høye nivåer av selvkontroll.

Forelesning 17 Logistisk regresjonsanalyse

FRAMLEGG TIL LØYSING AV EKSAMENSOPPGÅVER I SOS311 / SOS MAI 1998

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Kapittel 3: Studieopplegg

EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

EKSAMENSOPPGAVE I SOS3003:

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Forelesning 9 Kjikvadrattesten. Kjikvadrattest for bivariate tabeller (klassisk variant) Når kan vi forkaste H 0?

PENSUM SOS Mål for kurset. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Oversikt over Forelesingsnotat, vår 2003

EKSAMENSOPPGÅVE I SVSOS316 REGRESJONSANALYSE

Kort overblikk over kurset sålangt

Sensorveiledning til eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

EKSAMENSOPPGÅVER Haust 1995 FRAMLEGG TIL LØYSING Erling Berge

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

NTNU, Norges teknisk-naturvitenskapelige universitet

Tid: Torsdag 11. desember Emneansvarleg: Trygve Almøy

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

Eksamensoppgåve i TMA4255 Anvendt statistikk

Spørsmål. 17 mars ) Kan du gi enforklaring på hva som menes med "nullhypotese" og at denne forkastes? Vil bare ha det oppklart.

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

UNIVERSITETET I OSLO

SOS 31 MULTIVARIAT ANALYSE

Språk og skrift som er brukt i SOS3003

TMA4240 Statistikk Eksamen desember 2015

Fra krysstabell til regresjon

PENSUM SOS Forelesing I. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår 2003

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

SOS 31 MULTIVARIAT ANALYSE

EKSAMENSOPPGAVE I SOS3003 ANVENDT STATISTISK DATAANALYSE I SAMFUNNSVITENSKAP VÅR 2008.

Om eksamen. Never, never, never give up!

EKSAMENSOPPGÅVER Sommar 1996 FRAMLEGG TIL LØYSING Erling Berge

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

Checking Assumptions

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

UNIVERSITETET I OSLO

Eksamensoppgave i ST3001

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

Eksamensoppgave i PSY2017/PSYPRO4317. Statistikk og kvantitative forskningsmetoder. Målform/språk: Bokmål Antall sider: 10. Psykologisk institutt

TMA4245 Statistikk Eksamen desember 2016

Litt enkel matematikk for SOS3003

Eksamensoppgåve i TMA4255 Anvendt statistikk

Forelesning 10 Kjikvadrattesten

Transkript:

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår 003 Erling Berge Institutt for sosiologi og statsvitenskap NTNU Vår 004 Erling Berge 004 1 Forelesing XI Logistisk regresjon III Hamilton Kap 7 s33-4 Vår 004 Erling Berge 004

LOGISTISK REGRESJON: FØRESETNADER Modellen er korrekt spesifisert logiten er lineær i parametrane alle relevante variablar er med ingen irrelevante er med x-variablane er målt utan feil Observasjonane er uavhengige Ikkje perfekt multikollinearitet Ikkje perfekt diskriminering Stort nok utval Vår 004 Erling Berge 004 3 FØRESETNADER som ikkje kan testast Modellen er korrekt spesifisert alle relevante variablar er med x-variablane er målt utan feil Observasjonane er uavhengige To vil teste seg sjølve Ikkje perfekt multikollinearitet Ikkje perfekt diskriminering Vår 004 Erling Berge 004 4

LOGISTISK REGRESJON Statistiske problem kan komme av For lite utval Høg grad av multikollinearitet Fører til store standardfeil (usikre estimat) Vert oppdaga og handtert på same måten som i OLS regresjon Høg grad av diskriminering (eller separasjon) fører til store standardfeil (usikre estimat) Vert oppdaga automatisk av SPSS Vår 004 Erling Berge 004 5 Diskriminering/ separasjon Problem med diskriminering dukkar opp når vi for ein gitt x-verdi får nesten perfekt prediksjon av y-verdien (nesten alle med ein gitt x-verdi har same y-verdi) I SPSS kan dette gi følgjande melding: Warnings There is possibly a quasi-complete separationin the data. Either the maximum likelihood estimates do not exist or some parameter estimates are infinite. The NOMREG procedure continues despite the above warning(s). Subsequent results shown are based on the last iteration. Validityofthe model fit is uncertain. Vår 004 Erling Berge 004 6

Diskriminering Hamilton tabell 7.5 Odds for svakare krav er 44/0 = 0,18 mellom kvinner utan småbarn Odds for svakare krav er 0/79 = 0 mellom kvinner med småbarn Oddsraten er 0/0,18 = 0 slik at exp{b kvinne }=0 Dette tyder at b kvinne = minus uendeleg Ikkje svakare krav Svakare krav OK Kvinne utan små barn 0 44 Kvinne med små barn 79 0 Vår 004 Erling Berge 004 7 Statistiske problem: linearitet i logiten? Kurvelinearitet i logiten kan gi skeive parameterestimat Spreiingsplott for y-x er lite informative sidan y berre har to verdiar For å teste om Logiten er lineær i ein x- variabel kan vi gjere følgjande Gruppere x-variabelen For kvar gruppe finne y-gjennomsnitt og rekne det om til logit Lag ein graf av logitane mot gruppert x Vår 004 Erling Berge 004 8

Y=Lukke skolen mot x= år budd i byen 1,00 0,80 SCHOOLS SHOULD CLOSE 0,60 0,40 0,0 Spreiingsplottet er lite informativt 0,00 0,00 0,00 40,00 60,00 80,00 100,00 YEARS LIVED IN WILLIAMSTOWN Vår 004 Erling Berge 004 9 Linearitet i logiten: eksempel SCHOOLS SHOULD CLOSE YEARS LIVED IN WILLIAMSTOWN (Banded) <= 3 4-6 7-11 1-3-33 34-44 45+ N OPEN 7 14 7 11 13 13 N Within group CLOSE Mean (=p) 13,65 14,50 10,59 17,44 8,4,13,13 Logit Ln(p/(1-p)) 0,619 0 0,364-0,41-0,33-1,901-1,901 Vår 004 Erling Berge 004 10

Er logiten lineær i år budd i byen? Tja, kanskje det. Chart ln(b/(1-b)) 1 0-1 - -3 1 3 4 5 6 7 GroupedLived GroupedLived 1 3 4 5 6 7 Vår 004 Erling Berge 004 11 Statistiske problem: påverknad Påverknad frå utliggjarar og uvanlege x- verdiar er like problematisk i logistisk regresjon som i OLS regresjon Transformasjon av x-variablar til symmetri vil minimere innverknaden til ekstreme variabelverdiar Store residualar er indikator på stor innverknad Vår 004 Erling Berge 004 1

Påverknad: residualar Det finst ulike måtar å standardisere residualar på: Pearsonresidualar og Avviksresidualar Påverknad kan baserast på Pearsonresidualen Avviksresidualen Leverage (potensiale for påverknad): dvs. observatoren h j Vår 004 Erling Berge 004 13 Diagnosegrafar Utliggjarplott kan baserast på plott av estimert sannsyn for Y i =1 (estimert P i ) mot Delta B, B j, eller Delta Pearson Kjikvadratet, χ P(j), eller Delta Avviks Kjikvadratet, χ D(j) Vår 004 Erling Berge 004 14

SPSS output Cook's = delta B hos Hamilton The logistic regression analog of Cook's influence statistic. A measure of how much the residuals of all cases would change if a particular case were excluded from the calculation of the regression coefficients. Leverage Value = h hos Hamilton The relative influence of each observation on the model's fit. DfBeta(s) er ikkje nytta av Hamilton i logistisk regresjon The difference in beta value is the change in the regression coefficient that results from the exclusion of a particular case. A value is computed for each term in the model, including the constant. Vår 004 Erling Berge 004 15 0,70000 Delta B 0,60000 Analog of Cook's influence statistics 0,50000 0,40000 0,30000 0,0000 0,10000 0,00000 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004 16

SPSS output frå Save (1) Unstandardized Residuals. The difference between an observed value and the value predicted by the model. Logit Residual. (ukjen tolking) Den storleiken programmet rapporterer er ikkje i samsvar med dokumentasjonen Vår 004 Erling Berge 004 17 SPSS output frå Save () Standardized = Pearson residual På komandoen standardized vil SPSS skrive ut noko som vert kalla ZRE_1 (normaized residual) Dette er det same som Pearson residualen hos Hamilton Studentized = [SQRT(delta avvikskjikvadrat)] På komandoen Studentized vil SPSS skrive ut noko det kallar SRE_1 (standard residual) Dette er det same som kvadratrota av delta Vår 004 Erling Berge 004 18

Utrekning av χ P(i) Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut delta Pearsonkjikvadratet Der det står r j i formelen set vi inn ZRE_1 og der det står h j set vi inn LEV_1 χ = P( j) r j ( 1 hj ) Vår 004 Erling Berge 004 19 1. For å finne delta avvikskjikvadratet kvadrerer vi SRE_1. Alternativt set vi inn d j =DEV_1 og h j =LEV_1 i formelen Utrekning av χ D(i) Med utgangspunkt i dei storleikane SPSS gir oss kan vi rekne ut delta Avviks-kjikvaratet χ D ( j ) = SRE_1* SRE _1 χ = D ( j) ( 1 h j ) Vår 004 Erling Berge 004 0 d j

DeltaAvviksKvikvadrat (m/caseno) 7,00 96,00 6,00 99,00 5,00 DeltaAvviksKjiKv 4,00 3,00 3,00 65,00,00 1,00 0,00 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004 1 DeltaAvviksKvikvadrat (m/delta B) 7,00,4141 6,00,6366 5,00 DeltaAvviksKjiKv 4,00 3,00,08437,0584,1697,33699,00 1,00 0,00 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004

Delta Pearson KjiKvadrat (m/caseno) 30,00 96,00 5,00 DeltaPearsonKjiKv 0,00 15,00 10,00 99,00 65,00 5,00 3,00 0,00 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004 3 Delta Pearson KjiKvadrat (m/ delta B) 30,00,4141 5,00 DeltaPearsonKjiKv 0,00 15,00 10,00,6366,33699 5,00,08437,0584,1697 0,00 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004 4

Case med stor innverknad Variables Y=close Case No 96 1,00 Case No 65,00 Case No 99,00 Variables ZRE_1 Case No 96 4,1 Case No 65 -,48 Case No 99-5,36 lived 68,00 40,00 1,00 DEV_1,4-1,98 -,61 educ contam 1,00,00 1,00 1,00 1,00 1,00 DFB0_1 DFB1_1 -,3,01,01,00 -,36,00 hsc nodad,00,00 1,00,00 1,00,00 DFB_1 DFB3_1,0 -,08,01 -,15,0 -,18 PRE_1 COO_1 RES_1,05,64,95,86,34 -,86,97,41 -,97 DFB4_1 DFB5_1 DeltaPearsonKjiKv -,06 -,08 18,34 -,17,16 6,47 -,19,14 9,0 SRE_1,46 -,04 -,6 DeltaAvviksKjiKv 6,07 4,14 6,89 Vår 004 Erling Berge 004 5 Frå Case til Mønster Figurane ovanfor er ikkje identisk med Hamilton sine figurar Hamilton har korrigert for effekten av identiske mønster Vår 004 Erling Berge 004 6

Påverknad ved felles mønster av x- variablar I logistisk regresjon med få variablar vil mange case ha dei same verdiane på alle x-variablane. Kvar kombinasjon av x-variabel verdiar kallar vi eit mønster. Når mange case har same mønster, kan kvart case ha liten innverknad medan dei samla kan ha uvanleg stor innverknad på parameterestimata Påverknadsrike mønster i x verdiane kan dermed gi skeive parameterestimat Vår 004 Erling Berge 004 7 Påverknad: Mønster i x-verdiar Predikert verdi, og dermed residualen vil vere lik for alle case som har same mønster Påverknad frå mønster j kan finnast ved hjelp av Frekvensen til mønsteret Pearsonresidualen Avviksresidualen Leverage: dvs. observatoren h j Vår 004 Erling Berge 004 8

Finne X-Mønster ved hjelp av SPSS I Data menyen finn vi kommandoen Identify duplicate cases Marker dei x-variablane som skal nyttast i modellen og flytt dei til Define matching cases by Kryss av for Sequential count of matching cases in each group og Display frequencies for created variables Dette lagar to nye variablar. Den eine, MatchSequence, nummerer sekvensielt 1,, der fleire mønster er identiske. Der mønsteret er unikt får variabelen verdien 0. Den andre variabelen Primary har verdien 0 for duplikat og 1 for unike mønster Vår 004 Erling Berge 004 9 X-Mønster i SPSS i Hamilton s38-4 Frequency Percent Valid Percent Cumulative Percent Duplicate Case 1 13,7 13,7 13,7 Primary Case Total 13 153 86,3 100,0 86,3 100,0 100,0 Sequential count of matching cases 0 [115 mønster med 1 case] 1 [17 mønster med eller 3 case] [17 4=13 mønster med case] 3 [4 mønster med 3 case] Frequency 115 17 17 4 Percent 75, 11,1 11,1,6 Valid Percent 75, 11,1 11,1,6 Cumulative Percent 75, 86,3 97,4 100,0 Total 153 100,0 100,0 Vår 004 Erling Berge 004 30

J m j Pˆj Y j r j χ P d j χ D h i h j Hamilton tabell 7.6 Symbolbruk Talet av unike mønster av x-verdiar i data (J<=n) Talet av case med mønsteret j (m>=1) Predikert sannsyn for Y=1 for case med mønster j Sum av y-verdiar for case med mønster j (=talet av case med mønster j og y=1) Pearsonresidual for mønster j Pearsonkjikvadrat observator Avviksresidual for mønster j Avvikskjikvadrat observator Leverage for case i Leverage for mønster j Vår 004 Erling Berge 004 31 Nye verdiar for χ P(i) og χ D(i) Ved Compute kan ein no rekne ut Pearson residualen (formel 7.19 i Hamilton) og delta Pearson kjikvadratet (formel 7.4 i Hamilton) på nytt og vil da finne korrigerte verdiar Tilsvarande kan gjerast for avviksresidualen (formel 7.1) og delta avvikskjikvadratet (formel 7.5a) Vår 004 Erling Berge 004 3

Leverage og residualar (1) Leverage til eit mønster finn vi som talet av case med mønsteret gonger leverage for eit av casa med mønsteret. Leverage for eit case er det same som i OLS regresjonen h j = m j *h i Pearson residualen finn vi som r j = Y mpˆ mpˆ j j j ( 1 Pˆ ) j j j Vår 004 Erling Berge 004 33 Leverage og residualar () Avviksresidualen finn vi som Y j mj Y j d =± Y ln ( m Y ) ln j j + j j mpˆ ( 1 ˆ j j mj Pj) Vår 004 Erling Berge 004 34

To Kji-kvadrat observatorar Pearson Kji-kvadrat observatoren Avviks kjikvadrat observatoren Formlane er dei same anten vi reknar case eller mønster χ χ J P = rj j= 1 J D = d j j= 1 Vår 004 Erling Berge 004 35 Kjikvadrat observatorane Begge kjikvadrat observatorane 1. Pearson-kjikvadratet χ P og. Avviks-kjikvadratet χ D Kan lesast som ein test av nullhypotesa om ingen skilnad mellom den estimerte modellen og ein metta modell, dvs. ein modell med like mange parametrar som case / mønster Vår 004 Erling Berge 004 36

Meir om mål for påverknad Mål for påverknad ved endring ( ) i observator/ parameterverdi pga utelatne case med mønster j B j delta B - analog til Cook s D χ P(i) delta Pearsonkjikvadrat χ D(i) delta Avvikskjikvadrat Vår 004 Erling Berge 004 37 Kva er store verdiar av χ P(i) og χ D(i) χ P(i) og χ D(i) måler begge kor dårleg modellen passar med mønsteret j. Store verdiar indikerer at modellen ville passe til data mye betre dersom alle case med mønsteret vart utelatne. Sidan begge måla er asymptotisk kjikvadratfordelt vil verdiar større enn 4 indikere at eit mønster påverkar parameterestimata signifikant Vår 004 Erling Berge 004 38

B j delta B Måler den standardiserte endringa i dei estimerte parametane (b k ) som oppstår når ein utelet alle case med eit gitt mønster j B = j rh j j ( 1 h ) j Til større verdi til meir påverknad. Bj >= 1 må i alle fall reknast som stor påverknad Vår 004 Erling Berge 004 39 delta B (m/caseno) 0,70 99,00 0,60 0,50 96,00 deltab_m 0,40 0,30 66,00 56,00 65,00 0,0 0,10 0,00 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004 40

χ P(i) delta Pearsonkjikvadrat Måler minken i Pearson χ som følgjer av utelating av alle case med mønster j χ = P( j) r j ( 1 h ) j Vår 004 Erling Berge 004 41 delta Pearsonkjikvadrat (m/delta B) 30,00,4141 5,00 mdeltapearsonkjikv 0,00 15,00 10,00,6366,33699 5,00,08437,04734,038,1697 0,00 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004 4

χ D(i) delta Avvikskjikvadrat Måler endring i avvik som følgje av å j utelate alle case med χd( j) = mønster j 1 h j Dette er ekvivalent med D( j ) = LLK LLK(j) ( ) Vår 004 Erling Berge 004 43 d χ LL K er LogLikelihooden for ein modell med K parametrar estimert på heile utvalet og LL K(j) er frå estimatet av same modellen etter at alle case med mønster j er utelatne delta Avvikskjikvadrat (m/delta B) 7,00,4141 6,00,6366 5,00,04734 mdeltaavvikskjikv 4,00 3,00,08437,038,33699,00 1,00 0,00 0,00000 0,0000 0,40000 0,60000 0,80000 1,00000 Predicted probability Vår 004 Erling Berge 004 44

Effekten av utelatne case/mønster Variable i modellen lived educ contam hsc nodad Constant *LL(modell) Heile utvalet -,040 -,197 1,99,79-1,731,18-14,65 Logit koeffesient Minus case 99 χp(i) =18,34 -,045 -,4 1,490,49-1,889,575-135,45 Minus case 96 χp(i) =9,0 -,05 -,14 1,38,347-1,658,530-136,14 Vår 004 Erling Berge 004 45 1 Effekten av utelatne case/mønster 0.8 0.6 0.4 0. 0 0 0 40 60 80 y=1/(1+exp(-(.18-0.04x-0. 13+1.3 0.8+.8 0.31-1.73 0.17))) y=1/(1+exp(-(.53-0.05x-0.1 13+1.38 0.8+.35 0.31-1.65 0.17))) y=1/(1+exp(-(.58-0.04x-0. 13+1.49 0.8+.49 0.31-1.89 0.17))) Vår 004 Erling Berge 004 46

Konklusjonar (1) Vanleg OLS verkar dårleg ved dikotome avhengige variablar sidan vi umogeleg kan får normalfordelte feil eller homoskedastisitet, og sidan modellen gir sannsyn utanfor intevallet 0-1 Logit-modellen er betre Likelihoodrateobservatoren kan teste nesta modellar omlag som F-observatoren I store utval vil Wald-observatoren [eller t=sqrt(wald)] kunne teste einskildkoeffesientar og konfidensintervall kan konstuerast Det finst ikkje nokon determinasjonskoeffesient Vår 004 Erling Berge 004 47 Konklusjonar () Koeffesientane i estimerte modellar kan tolkast ved 1. Log-odds (direkte tolking). Odds 3. Oddsrater 4. Sannsyn (betinga effekt plott) Ikkje-linearitet, case med innverknad, og multikollinearitet gir same typen problem som i OLS regresjon (usikre parameterverdiar) Diskriminering gir problem av same typen (høge variansestimat, dvs. usikre parameterverdiar) Diagnosearbeid er viktig Vår 004 Erling Berge 004 48