Kausalanalyse og seleksjonsproblem

Like dokumenter
KAUSALANALYSE. Literature. Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK. Design for impact assessment

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 02. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

The comparative change design. Literature. Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK. Regression and quasi-experiments

SOS3003 Eksamensoppgåver

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

Literature. Regression towards the mean. Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK.

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Eksamensoppgåve i TMA4255 Anvendt statistikk

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

Litt enkel matematikk for SOS3003

SOS3003 Eksamensoppgåver

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMENSOPPGAVE STA-1001.

TMA4240 Statistikk Eksamen desember 2015

Repeated Measures Anova.

EKSAMENSOPPGÅVER Sommar 1996 FRAMLEGG TIL LØYSING Erling Berge

SOS3003 Eksamensoppgåver

Litt enkel matematikk for SOS3003. Om matematikk. Litt om kva vi treng. Erling Berge

10.1 Enkel lineær regresjon Multippel regresjon

TMA4245 Statistikk Eksamen desember 2016

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

STV1020 våren 2018 oppgave 31. Se nederst i dokumentet for nynorsk versjon.

Instrumentvariabler en introduksjon for samfunnsforskere

Språk og skrift som er brukt i SOS3003

Kapittel 3: Studieopplegg

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

6.2 Signifikanstester

Eksamensoppgåve i TMA4240 Statistikk

Eksperimentelle design

Litt enkel matematikk for SOS3003

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgåve i TMA4255 Anvendt statistikk

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

FRAMLEGG TIL LØYSING AV EKSAMENSOPPGÅVER I SOS311 / SOS MAI 1998

Oppgåver Oppgåvetype Vurdering Status. 1 DEL 1 Vitenskapsteori Skriveoppgave Manuell poengsum Levert

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Eksamensoppgave i TMA4255 Anvendt statistikk

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

TMA4240 Statistikk Eksamen desember 2015

Verdens statistikk-dag.

UNIVERSITETET I OSLO

Simulering med Applet fra boken, av z og t basert på en rekke utvalg av en gitt størrelse n fra N(μ,σ). Illustrerer hvordan estimering av variansen

SOS 31 MULTIVARIAT ANALYSE

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Kapittel 1 Vitenskap: grunnleggende antakelser

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Lineære modeller i praksis

Eksamensoppgave i SØK3515 / SØK8615 Mikro- og paneldataøkonometri

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Epidemiologi og risikovurdering. Disposisjon. Epidemiologi. Noen begreper. Metoder epidemiologi

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

EKSAMENSOPPGAVE I SØK3001 ØKONOMETRI I

EKSAMENSOPPGAVE I SØK 3515/8615 MIKRO- OG PANELDATAØKONOMETRI

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Noen momenter ved vurdering av eksamen PSY1010 PSYC1100 våren 2019.

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Generelle lineære modeller i praksis

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

UNIVERSITETET I OSLO

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Mandag 13. april 2015 kl

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

Eksamensoppgave i TMA4255 Anvendt statistikk

Kan vi forbedre våre årsaksslutninger ved å tegne grafer?

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 06. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Kort overblikk over kurset sålangt

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Observatorar og utvalsfordeling. Torstein Fjeldstad Institutt for matematiske fag, NTNU

UNIVERSITETET I OSLO

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

UNIVERSITETET I OSLO

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

Noen momenter ved vurdering av eksamen PSY1010 PSYC1100 høsten 2018.

Eksamensoppgave i SØK3515 Mikro- og paneldataøkonometri

Transkript:

ERLING BERGE SOS316 REGESJONSANALYSE Kausalanalyse og seleksjonsproblem Institutt for sosiologi og statsvitenskap, NTNU, Trondheim Erling Berge 2001 Litteratur Breen, Richard 1996 Regression Models. Censored, Sample Selected, or Truncated Data, Sage University Paper: QASS 111, London, Sage Winship, Chrisopher, and Stephen L. Morgan 1999 The Estimation of Causal Effects from Observational Data, Annual Review of Sociology Vol 25: 659-707

KAUSALANALYSE Eksperiment randomisering av påverknad ( behandling ) gir presise kausale konklusjonar om verknader ( respons ) ved signifikant skilnad i gjennomsnitt kan vere umogeleg på grunn av praktisk tilhøve økonomiske skrankar etiske vurderingar Kvasi-eksperiment der eksperiment er umogeleg t.d. regresjonsanalyse Eksperimetet plasserer case tilfeldig i ei av to grupper: BEHANDLING (T) med observasjon FØR behandling KONTROLL (C) med observasjon FØR ikkje-behandling ETTER behandling ETTER ikkjebehandling

Modell av kausaleffektar Studiar av observasjonsdata brukar omgrep fra eksperimentell design Påverknad/ Behandling, Stimulus (Treatment/ Stimulus) Effekt, Utfall (Effect/ Outcome) Modell av kausaleffektar: Den Kontrafaktiske hypotesa for studiet av kausalitet Individet i kan i utgangspunktet tenkjast selektert til ei av to grupper behandlingsgruppa, T, eller kontrollgruppa, C. Behandlinga, t, så vel som ikkjebehandling, c, kan i utgangspunktet tenkjast gitt til individ både i T- og C-gruppa Faktisk vil vi kunne observere t i T og c i C

Modell av kausaleffektar: Den Kontrafaktiske hypotesa For kvart individ i kan ein tenkje seg fire mogelege utfall Y i (c,c) eller Y i (t,c); ved plassering i kontrollgruppe Y i (c,t) eller Y i (t,t) ; ved plassering i behandlingsgruppa Berre Y i (c,gitt i med i C) eller Y i (t,gitt i med i T) kan observerast for eit gitt individ Modell av kausaleffektar: Den Kontrafaktiske hypotesa Mogelege utfall for person i Behandling: t Ikkje beh.: c T-gruppa Y t i T Y c i T C-gruppa Y t i C Y c i C

Modell av kausaleffektar: Den Kontrafaktiske hypotesa Kausaleffekten for individ i er da δ i = Y i (t) - Y i (c) Berre ein av desse to storleikane kan observerast for eit gitt individ Modell av kausaleffektar: Den Kontrafaktiske hypotesa Vi kan til dømes observere Y i (c; gitt i med i C), men ikkje Y i (t; gitt i med i C) Problemet kan seiast å vere manglande data I staden for individeffektar vil ein estimere gjennomsnittseffektar i heile populasjonen

Modell av kausaleffektar: Gjennomsnittseffektar lar seg estimere, men som regel berre med store vanskar Ein føresetnad er at effekten av påverknad vil vere den samme for eit gitt individ uansett kva gruppe individet er plassert i Dette er imidlertid ikkje sjølvsagt Modell av kausaleffektar: Den Kontrafaktiske hypotesa antar at endring av behandlingsgruppe for eitt individ ikkje verkar inn på utfallet for andre individ (fravær av interaksjon) at behandlinga, påverknaden, faktisk er manipulerbar (t.d. kjønn er ikkje manipulerbar)

Modell av kausaleffektar: Ein av vanskane er at i eit utval vil den prosessen som plasserer personen i i kontroll- eller behandlings-gruppa kunne verke inn på det estimerte gjennomsnittsutfallet (seleksjonsproblemet) I ein del tilhøve er imidlertid den interessante størrelsen gjennomsnittseffekten for dei som får påverknaden Modell av kausaleffektar: Det kan visast at det er to kjelder til feil (bias) i estimata av gjennomnsitseffekten ein eksisterande skilnad mellom C- og T-gruppene behandlinga verkar i prinsippet ulikt for dei som er i T- gruppa samanlikna med dei som er i C -gruppa For å handtere dette må vi utvikle modellar for korleis folk hamnar i C- og T-gruppene

Modell av kausaleffektar: Ein generell klasse metodar som kan nyttast til å estimere kausaleffektar er regresjonsmodellane Dei vil kunne kontrollere for observerbare skilnader mellom T- og C-gruppene, men ikkje for ulik respons på behandling KAUSALANALYSE Kvasi-eksperiment (Regresjonsanalyse) vil (som regel) ha store problem ved skeive utval (sensurerte, selekterte eller trunkerte utval) slike utval oppstår både fordi samfunnet fungerer selektivt og fordi vi ikkje får fullstendige svar på spørsmål vi stiller derfor seleksjonsprosessen må inkluderast i modellen eller i analysen

Inntekt Verkeleg samanehng Estimert samanheng Utdanning L M H Betinga gjennomsnitt av Y i populasjonen Betinga gjennomsnitt av Y i utvalet Kjelde: Winship, Christopher, and Robert D. Mare 1992 «Models for sample selection bias», Annual Review of Sociology, 18:327-350 Trunkering Ein variabel, X, vert kalla trunkert dersom vi for X<c eller for X>c ikkje veit meir enn at X<c eller X>c Dette kan omtalast som venstre eller høgretrunkering Vi kan også ha multippel trunkering, t.d. samtidig venstre og høgretrunkering

SKEIVE UTVAL OG MANGLANDE DATA I Sensurerte utval (eksplisitt seleksjon på Y) Y er ukjent når Y har verdiar over eller under c x er kjent for heile utvalet Selekterte utval (usystematisk seleksjon) Y er ukjent dersom t.d. Z=1 og kjent når Z=0 x er kjent for heile utvalet SKEIVE UTVAL OG MANGLANDE DATA II Trunkert utval (eksplisitt seleksjon på Y) Y er ukjent når Y har verdiar over eller under c x er kjent når Y er kjent Seleksjon på uavhengig variabel Y er kjent år x har verdiar over eller under c x er kjent når Y er kjent

SKEIVE UTVAL OG MANGLANDE DATA III Seleksjon på uavhengig variabel er uproblematisk Trunkerte, selekterte og sensurerte utval fører til at restleddet er korrelert med dei uavhengige variablane. Både ekstern og intern validitet er kompromitert. SKEIVE UTVAL OG MANGLANDE DATA IV Datainnsamlingsprosedyrer og manglande svar kan gi opphav til trunkerte, selekterte eller sensurerte utval eks: missing på avhengig variabel gir eit selektert utval basert på Z: gir svar eller ikkje I alle ikkje-tilfeldige utval er det eit potensiale for feil i konklusjonane på grunn av skeive utval

SKEIVE UTVAL OG MANGLANDE DATA V Ein bør i analysen ta utgangspunkt i dette og bruke modellar som korrigerer for biasen dersom ein ikkje kan argumentere for at problemet er lite. Løysinga er 1) lage ein modell som predikerer seleksjonen 2) bruke dette i ein modell som predikerer y gitt at personen er selektert Basismodellen for sensurerte utval E[Y X] = Pr[Y>c X]*E[Y Y>c & X] + Pr[Y<=c X]*E[Y Y<=c & X] Venstretrunkering av Y ved c gir E[Y Y<=c & X]=c Kan alltid transformer Y slik at c=0, dermed er den verkelege regresjonen, E[Y X] : E[Y X] = Pr[Y>c X]*E[Y Y>c & X]

Modellen i trunkerte utval Y i = E[Y i Y i <a & X i ] + e i Det kan visast at dette er det samme som Y i = E[Y i X i ] - σλ i (m) +e i der λ i (m) er estimert hasardraten for punktet m= (a - E[Y i X i ] )/σ parametrane i E[Y i X i ] vert overestimert Modellen kan estimerast med ML-metoden Tostegsestimering i sensurerte utval Seleksjonsmodellen, Pr[Y>c X], kan vi modellere ved probit regresjon på det sensurerte utvalet Utfallsmodellen, E[Y Y>c & X], kan vi estimere på det sensurerte utvalet Resultata blir truverdige berre i STORE utval

Problem i tostegsmodellen Resultata er sensistive i høve til føresetnader om fordelinga på restledda Homoskedastisitet: brot er meir alvorlegenn i vanleg OLS sidan estimata i sensurert modell da verken er konsistente eller effisiente Normalfordeling Begge føresetnadene må testast grundig Problem med identifikasjon av parametrane (multikollinearitet mellom hasardraten og forklaringsvariablane, sjå t.d. Breen 1996, avsn. 2.2, s.16, likning 2.7) Tostegsestimering med OLS er sensitiv for korrelasjon mellom feil i seleksjonslikning (ui) og feil i utfallslikning (ei) korrelasjon mellom variablane i seleksjons og utfallslikninga graden av sensurering i utvalet (kor stor del av observasjonane av y manglar) Konklusjon: bruk ML-estimering

Selektert eller sensurert utval? Generelt er dette eit spørsmål om tolking og teoretisk fornuft Når manglande observasjon av Y skuldast målemetode eller data innsamling er utvalet sensurert Når manglande observasjon av Y skuldast atferd hos individa er utvalet selektert