Literature. Regression towards the mean. Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK.

Like dokumenter
KAUSALANALYSE. Literature. Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK. Design for impact assessment

The comparative change design. Literature. Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK. Regression and quasi-experiments

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 02. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Kausalanalyse og seleksjonsproblem

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 04. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Generelle lineære modeller i praksis

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Slope-Intercept Formula

Lineære modeller i praksis

EXAMINATION PAPER. Exam in: STA-3300 Applied statistics 2 Date: Wednesday, November 25th 2015 Time: Kl 09:00 13:00 Place: Teorifagb.

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Neural Network. Sensors Sorter

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

Dynamic Programming Longest Common Subsequence. Class 27

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

SOS3003 Eksamensoppgåver

Dean Zollman, Kansas State University Mojgan Matloob-Haghanikar, Winona State University Sytil Murphy, Shepherd University

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

SVM and Complementary Slackness

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EN Skriving for kommunikasjon og tenkning

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

TMA4245 Statistikk Eksamen 9. desember 2013

Databases 1. Extended Relational Algebra

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

SOS 31 MULTIVARIAT ANALYSE

Verifiable Secret-Sharing Schemes

Checking Assumptions

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Logistisk regresjon 1

Hvorfor har forskjellen. i t-testen på nå blitt redusert til ?

Checking Assumptions

PSY 1002 Statistikk og metode. Frode Svartdal April 2016

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Gir vi de resterende 2 oppgavene til én prosess vil alle sitte å vente på de to potensielt tidskrevende prosessene.

Satellite Stereo Imagery. Synthetic Aperture Radar. Johnson et al., Geosphere (2014)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Besvar tre 3 av følgende fire 4 oppgaver.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Exercise 1: Phase Splitter DC Operation

Logistisk regresjon 2

NORGES TEKNISK-NATURVITENSKAPELIGE UNIVERSITET Geografisk institutt

Eksamen PSY1010 PSYC1100 Forskningsmetode I vår 2013

Physical origin of the Gouy phase shift by Simin Feng, Herbert G. Winful Opt. Lett. 26, (2001)

Std. Error. ANOVA b. Sum of Squares df Square F Sig , , ,600, , , ,

TMA4245 Statistikk. Øving nummer 12, blokk II Løsningsskisse. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

EKSAMENSOPPGAVE I BI2034 Samfunnsøkologi EXAMINATION IN: BI Community ecology

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 01. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

Forelesning 8 STK3100/4100

Sensorveiledning SPED1200 vår 2018

UNIVERSITETET I OSLO

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

Forelesning 13 Regresjonsanalyse

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

Graphs similar to strongly regular graphs

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

MÅLING OG VURDERING AV TEKSTUR I VEGOVERFLATER OG KOPLING TIL STØY

SOS 31 MULTIVARIAT ANALYSE

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

HONSEL process monitoring

SOS3003 Eksamensoppgåver

UNIVERSITETET I OSLO

PENSUM SOS Forelesing I. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår 2003

Innhold. Multisample inference - del 2 (Rosner, ) Data Effect of Lead Exposure (Eks. i Rosner Kap mm)

Oppgave 1. ( xφ) φ x t, hvis t er substituerbar for x i φ.

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Fra krysstabell til regresjon

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

SOS3003 Eksamensoppgåver

TFY4170 Fysikk 2 Justin Wells

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

SOS3003 Eksamensoppgåver

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

The exam consists of 2 problems. Both must be answered. English

What is is expertise expertise? Individual Individual differ diff ences ences (three (thr ee cent cen r t a r l a lones): easy eas to to test

STØTTEMATERIALE TIL FORELESNINGENE OM SKATT

Stationary Phase Monte Carlo Methods

Emneevaluering GEOV272 V17

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

RF Power Capacitors Class1. 5kV Discs

EXAMINATION PAPER. Exam in: STA-3300 Date: Wednesday 27. November 2013 Time: Kl 09:00 13:00 Place: Åsgårdsv All printed and written

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

SFI-Norman presents Lean Product Development (LPD) adapted to Norwegian companies in a model consisting of six main components.

Transkript:

Erling Berge POL3507 IMPLEMENTERING OG EVALUERING AV OFFENTLEG POLITIKK Regresjonsanalyse Ref.: L. B. Mohr 1995 Chapter 5 and 6 Spring 2007 Erling Berge 2007 1 Literature Breen, Richard 1996 Regression Models. Censored, Sample Selected, or Truncated Data, Sage University Paper: QASS 111, London, Sage Hamilton, Lawrence C. 1992 "Regression with graphics", Belmont, Duxbury, Kap. 1-7 Hardy, Melissa A. 1992 Regression with dummy variables Sage University Paper: QASS 93, London, Sage, Mohr, Lawrence B. 1995 Impact Analysis for Program Evaluation, Sage, London Winship, Christopher, and Robert D. Mare 1992 «Models for sample selection bias», Annual Review of Sociology, 18:327-350 Winship, Chrisopher, and Stephen L. Morgan 1999 The Estimation of Causal Effects from Observational Data, Annual Review of Sociology Vol 25: 659-707 Spring 2007 Erling Berge 2007 2 Regression towards the mean Occurs in the posttest Y 2 because sample is selected based on high or low values of pretest Y 1 In general: selection based on the dependent variable gives biased results like this Y 1 = α + β 11 X1 1 + β 12 X2 1 +... + ε 1 Y 1 is large if X1 and/ or X2 and/ or the error term ε are large In measuring Y 2 we can control changes in X1 and X2 but not in ε This is a serious problem only if ε comprises important (unmeasured) causal variables (causing a correlation between Y og ε ) Spring 2007 Erling Berge 2007 3 1

Bivariat Regresjon: Modell for populasjon Y i = β 0 + β 1 x 1i + ε i i=1,...,n n = # case i populasjonen Y og X må definerast eintydig, og Y må ha målenivå intervallskala i ordinær regresjon Spring 2007 Erling Berge 2007 4 Bivariat Regresjon: Modell for utval Y i = b 0 + b 1 x 1i + e i i=1,...,n n = # case i utvalet Y og X må definerast eintydig, og Y må ha målenivå intervallskala eller høvestalskala (målevariabel) i ordinær regresjon Spring 2007 Erling Berge 2007 5 Inntekt L M H Utdanning Estimat av populasjonen Observert i utvalet Spring 2007 Erling Berge 2007 6 2

Oppsummering I bivariat regresjon kan ein seie at OLS-metoden freistar finne den beste LINJA eller KURVA som passar til eit todimensjonalt spreiingsmønster Scatter-plott og residualanalyse er hjelpemiddel for å diagnostisere problem i regresjonen Transformsjon er eit generelt hjelpemiddel mot fleire typar problem, som t.d.: Kurvelinearitet Heteroskedastisitet Ikkje-normalitet i residualfordelinga Case med stor innverknad Regresjon med transformerte variablar er alltid kurvelineær. Vi tolkar resultatet letast ved hjelp av grafar Spring 2007 Erling Berge 2007 7 Multippel regresjon: modell (1) Målet med multippel regresjon er å finne nettoeffekten av ein variabel, kontrollert for variasjonen i alle dei andre Sett K = talet på parametrar i modellen (dvs. K-1 er talet på variablar). Da kan (populasjons) modellen skrivast y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 +...+ β K-1 x i,k-1 + ε i Spring 2007 Erling Berge 2007 8 Multippel regresjon: modell (2) Dette kan skrivast y i = E[y i ] + ε i, dette tyder at E[y i ] = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 +...+ β K-1 x i,k-1 E[y i ] les vi som forventa verdi av y i Spring 2007 Erling Berge 2007 9 3

Multippel regresjon: modell (3) Vi finn OLS estimata av modellen som dei b-verdiane i ŷ i = b 0 + b 1 x i1 + b 2 x i2 + b 3 x i3 +...+ b K-1 x i,k-1 (ŷ i les vi som estimert eller predikert verdi av y i ) som minimerer kvadratsummen av residualane n n 2 2 ( i ) i i= 1 i= 1 RSS = Y Y = e Spring 2007 Erling Berge 2007 10 Interaksjonseffektar i regresjon Ein interaksjonseffekt mellom x og w kan inkluderast i ein regresjonsmodell ved å ta inn ein hjelpevariabel lik produktet av dei to, dvs. Hjelpevariabel H=x*w y i = b 0 + b 1 *x i + b 2 *w i + b 3 *H i + e i y i = b 0 + b 1 *x i + b 2 *w i + b 3 *x i *w i + e i Spring 2007 Erling Berge 2007 11 Example from Hamilton(p85-91) Define y = natural logarithm of Chlorid consentration x = dept of well (1=deep, 0=shallow) w = natural logarithm of distance to road xw = interaction term between dept and distance to road (product x*w). Then ŷ i = b 0 + b 1 x i + b 2 w i + b 3 x i w i First take a look at the simple models without interaction Spring 2007 Erling Berge 2007 12 4

lnchlorideconcentra Figures 3.3 and 3.4 (Hamilton p85-86) Figure 3.3 is based on Dependent Variable: ln[chlorideconcentra] (Constant) B 3.775 Std. Error.429 Beta t 8.801 Sig..000 x= Deep (DEEP OR SHALLOW WELL?) -.706.477 -.205-1.479.145 Figure 3.4 is based on Dependent Variable: ln[chlorideconcentra] (Constant) B 4.210 Std. Error.961 Beta t 4.381 Sig..000 w= ln[distancefromroad] -.091.180 -.071 -.506.615 x= Deep (DEEP OR SHALLOW WELL?) -.697.481 -.202-1.449.154 Spring 2007 Erling Berge 2007 13 Figure 3.3 7,00 6,00 Ln[ChloridConsentration] 5,00 4,00 3,00 ỹ 0 = 3.78 ỹ 1 = 3.07 2,00 1,00 0,00 0,20 0,40 0,60 0,80 1,00 DEEP OR SHALLOW WELL? Spring 2007 Erling Berge 2007 14 7,00 Figure 3.4 6,00 lnchlorideconcentra 5,00 4,00 3,00 2,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 lndistancefromroad Spring 2007 Erling Berge 2007 15 5

Figures 3.5 and 3.6 (Hamilton p89-91) Figure 3.5 is based on Dependent Variable: ln[chlorideconcentra] (Constant) w= ln[distancefromroad] w*x= ln[distfromroad]*deep B 3.666 -.029 -.081 Std. Error.905.202.099 Beta -.022 -.128 t 4.050 -.144 -.819 Sig..000.886.417 Figure 3.6 is based on Also see Table 3.4 in Hamilton p90 Dependent Variable: ln[chlorideconcentra] (Constant) w= ln[distancefromroad] x= Deep (DEEP OR SHALLOW WELL?) B 9.073-1.109-6.717 Std. Error 1.879.384 2.095 Beta -.862-1.948 t 4.828-2.886-3.207 Sig..000.006.002 w*x= ln[distfromroad]*deep 1.256.427 1.979 2.942.005 Spring 2007 Erling Berge 2007 16 Figure 3.5 7,00 6,00 lnchlorideconcentra 5,00 4,00 3,00 X=0 X=1 2,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 lndistancefromroad Spring 2007 Erling Berge 2007 17 Figure 3.6 7,00 6,00 lnchlorideconcentra 5,00 4,00 3,00 X=1 2,00 1,00 X=0 2,00 3,00 4,00 5,00 6,00 7,00 8,00 lndistancefromroad Spring 2007 Erling Berge 2007 18 6

Adequasy ratio Adequacy = size of impact relative to size of problem, ie the proportion of the problem eleminated A= 1- R/C R = observed outcome of treatment C = counterfactual : that is the outcome without the treament effect A = β T /Y 0E Spring 2007 Erling Berge 2007 19 Comparisons Comparisons of gain scores are suspect Comparisons of proportional gain scores are suspect: Get individual level data and do regressions! Spring 2007 Erling Berge 2007 20 Test of significance Statistic Sampling distribution Model y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 +...+ β K-1 x i,k-1 + ε i Testing β i to determine confidence intervals The statement b k t α (SE bk ) β k b k + t α (SE bk ) is true with a probability of 1 α Spring 2007 Erling Berge 2007 21 7

Footnote on t-test Skilnaden mellom observert koeffisient (b k ) og uobserverte koeffisient (β k ) standardisert med standardavviket til den observerte koeffisienten (SE bk ) vil normalt vere svært nær null dersom den observerte b k ligg nær populasjonsverdien. Dette tyder at dersom vi i formelen t = (b k - β k )/ SE bk set inn H 0 : β k = 0 og finn at t er liten vil vi tru at populasjonsverdien β k eigentleg er lik 0. Kor stor t må vere for at vi skal slutte å tru at β k = 0 kan vi finne ut frå kunnskap om samplingfordlingane til b k og SE bk Spring 2007 Erling Berge 2007 22 Ways of testing Testing in causal models Testing in experimental designs: random assignment to treament group Testing of a descriptive statistic in surveys Assessing size of impact: What is large? Which is largest? Is it significanly different from zero? Spring 2007 Erling Berge 2007 23 Regression discontinuity design Assignment to treatmeent is not random and not autonomous, but controlled Selection is determined by the size of some measured quantitative variable A such that one group comprises those scoring below A=a and the other group scores above Assumes A measured without error and the relationship of Y and A is known Spring 2007 Erling Berge 2007 24 8

Y Ŷ 0E Y E E C A E a A Spring 2007 Erling Berge 2007 25 Why does assignment work? Y = β 0 + β A A + β T T + u(x 2, u ) X 2 = β 2 A + u A β 2 A + (1- β 2 )A u u + (u-u ) Y = β 0 +β A [β 2 A +(1-β 2 )A] + β T T +u +(u-u ) Y = β 0 +β A β 2 A+(β A A +u ) -β A β 2 A+β T T +(u-u ) Confounding impact of X 2 is removed from β T Spring 2007 Erling Berge 2007 26 Threats to validity Random measurement error in A is not a problem Fuzzy cutpoints Loss of testpossibilities and distortion of effect estimate Non-random mesurement error in A will often jeopardise the functional reltionship between A and X 2 The functional form of the A and X 2 relationship is critical, but in most cases relations other than linear (or logistic for dichotomous A) would seem farfetched or unrealistic, particularly if pretest data are available as controls Spring 2007 Erling Berge 2007 27 9

Modelling selection In ordinary regression the remedy to problems of selection bias is to estimate a model of the selection process The regression discontinuity design is doing the same to an extreme degree: determining the selection process unambigously Spring 2007 Erling Berge 2007 28 10