Utvalgsseleksjon og manglende data: Noen metodemessige utfordringer

ARBEIDSNOTAT 48/2006 Bjarne Strøm Utvalgsseleksjon og manglende data: Noen metodemessge utfordrnger

NIFU STEP Studer av nnovasjon, forsknng og utdannng Wergelandsveen 7, 0167 Oslo Arbedsnotat 48/2006 ISSN 1504-0887 For en presentasjon av NIFU STEPs øvrge utgvelser, se www.nfustep.no

Forord Dette arbedsnotatet nngår prosjektet Høyere utdannng og relevansen tl arbedsmarkedet, som er et Strategsk nsttuttprosjekt (SIP) ved NIFU STEP. Prosjektet er fnansert av Norges forsknngsråd. Arbedsnotatet dskuterer noen metodemessge utfordrnger ved håndterng av utvalgsseleksjon og manglende data, speselt hvordan James Heckman s seleksjonsmodell kan anvendes for dette formålet. Arbedsnotatet er skrevet på bakgrunn av et metodekurs som forfatteren holdt på NIFU STEP 2005. Forfatteren ønsker å takke kursdeltagerne for nyttge nnspll og speselt Jens B. Grøgaard for nteressante dskusjoner og nyttge kommentarer tl tdlgere utkast. Desember 2006 Petter Aasen Drektør Ars Kalouds Forsknngsleder 1

Innhold 1 Innlednng... 5 2 Informasjonsklder, utvalg og seleksjon... 7 2.1 Informasjonsklder... 7 2.2 Når er mssng eller manglende respons på spørreundersøkelser et problem?... 8 2.2 Utvalgsseleksjon økonometrske modeller.... 10 3 Seleksjon på grunn av ndvdenes atferd... 12 3.1 Heckman s seleksjonsmodell... 12 3.2 Anvendelse for kke-respons ntervju-data... 17 3.3 Frafall longtudnale ntervjuundersøkelser.... 19 4 Heckman s seleksjonsmodell anvendt effektstuder.... 23 5 Oppsummerng og konkluderende merknader... 27 Referanser:... 28 3

1 Innlednng Etterspørselen etter emprske analyser av samfunnsvtenskapelge problemstllnger er stadg voksende. Både offentlge myndgheter, prvate bedrfter og andre har behov for å vte hvordan ndvder og nsttusjoner reagerer på endrnger økonomske rammebetngelser, offentlge tltak, og nsttusjonsendrnger. Typske spørsmål er: Hva skjer med gjennomstrømnngen høyere utdannng når studefnanserngsordnngen endres? Hvordan påvrkes lønnsnvået for folk med høyere utdannng av endrnger arbedsledgheten? Presterer elever ved frttstående skoler bedre eller dårlgere enn elever ved offentlge skoler? Hvor stort er lønnsgapet mellom offentlg og prvat sektor? Slk spørsmålene er formulert er det de kausale sammenhengene som etterlyses. For eksempel: V er nteressert fnne ut om to dentske elever, der den ene tlfeldg er plassert en frskole og den andre en offentlg skole, presterer forskjellg. V ønsker altså å fjerne bdraget tl prestasjonsforskjellen fra elevenes valg av skole som påvrkes av motvasjon, foreldrebakgrunn etc. Samtdg er tlgangen på data både fra spørreundersøkelser og offentlge regstre økt sterkt. I dette perspektvet er det vktg å klargjøre hvlken grad det emprske materalet som anvendes gjør oss stand tl å avdekke kausale sammenhenger og hvlke metoder som bør brukes for å avdekke slke. Dette notatet systematserer og gr en overskt over noen av de metodemessge utfordrngene som møter emprsk forsknng stuasjoner der utvalget som observeres og analyseres er selektert på grunn av manglende respons ntervjuundersøkelser eller på grunn av ndvdenes atferd forøvrg. Det legges særlg vekt på å presentere problemstllnger og metodeutfordrnger som er relevant for NIFU STEP nnenfor arbedsmarkeds og utdannngsforsknng. Første del av notatet gr en drøftng av hvlke stuasjoner utvalgsseleksjon og manglende data er et problem og hvordan det tradsjonelt løses. Deretter behandles den grunnleggende modellen for utvalgsseleksjon (Heckman) og det dskuteres under hvlke forutsetnnger korreksjon for utvalgsseleksjon denne modellen kan g mer påltelge resultater. Det gs eksempler på anvendelse nnenfor arbedsmarkeds og utdannngsforsknng. Speselle problemstllnger rundt frafall longtudnale ntervjuundersøkelser behandles. Deretter 5

presenteres en varant av seleksjonsmodellen som er sentral nnenfor effektstuder. Tl slutt gs noen konkluderende bemerknnger. 6

2 Informasjonsklder, utvalg og seleksjon I emprsk forsknng vl problemet med manglende data og selekterte utvalg dukke opp en rekke sammenhenger. I mange studer vl datagrunnlaget være en kombnasjon av regsterbasert og ntervjubasert nformasjon. Den ntervjubaserte nformasjonen vl være et resultat av respondentenes valg av om de vl delta eller kke, og hvlken grad den nformasjonen de leverer fra seg er påltelg. Selv om den regsterbaserte nformasjonen gjerne oppfattes som objektv og påltelg, kan det også her være seleksjonsproblemer som gr metodemessge utfordrnger når kausale sammenhenger skal avdekkes. 2.1 Informasjonsklder Det kan være nyttg å sortere de ulke stuasjonene som kan oppstå og v starter med å sklle mellom ntervjubasert og regsterbasert nformasjon.. Intervjubasert nformasjon La oss anta at det er gjennomført en spørreundersøkelse ved at spørreskjema er sendt tl et tlfeldg trukket utvalg populasjonen som v ønsker å studere. Et eksempel her kan være Kanddatundersøkelsen fra NIFU STEP, hvor det sendes ut spørreskjema tl et tlfeldg (eller stratfsert) utvalg av de studentene som avsluttet høyere utdannng en gtt perode. Følgende stuasjoner kan da gjerne oppstå. Før det første vl noen kke returnere skjema slk at v mangler alle opplysnnger om ndvdet, bortsett fra de regsterbaserte opplysnnger som v hadde utgangspunktet. I engelskspråklg termnolog betegnes dette som unt nonresponse. For det andre vl noen returnere skjema med noen opplysnnger ubesvart (Engelsk termnolog: tem nonresponse ). Endelg vl v ha noen ndvder som fyller ut skjemaet fel. Regsterbasert nformasjon La oss dernest se på problemer som kan oppstå ved bruk av regsterbasert nformasjon. For det første kan v ha regsterbaserte data utgangspunktet, men enhetene er uvllge tl å delta eller unndrar seg regstrerng. Et eksempel på dette er gjennomførngen av de nasjonale prøvene ungdomsskolen og vderegående skole 2005, der det kom rapporter om at flere skoler valgte å kke gjennomføre prøvene, eller gjennomførte dem på en måte som avvek fra myndghetenes ntensjon. Et annet eksempel er bruk av regstrerte arbedsledghetsdata. Regstrert arbedsledghet er basert på de ndvder som regstrerer seg som ledge og mottar 7

dagpenger. Her vl opplagt ndvdenes beslutnng om å melde seg ledg eller kke kunne varere over td og mellom ndvder. Varasjoner regstrert arbedsledghet vl derfor delvs oppstå som følge av varasjoner meldetlbøyelgheten. Et annet eksempel er data fra skattestatstkken, der regsternformasjon fra selvangvelsesstatstkken om ndvdenes nntekt kan g et skjevt blde av den reelle nntektsstuasjon for noen på grunn av skatteunndragelse. Dersom omfanget av skatteunndragelse varerer over td og mellom grupper, vl nntektsvarable basert på den regsterbaserte selvangvelsesstatstkken kunne g systematsk felnformasjon. V kommer tlbake tl problemstllnger knyttet tl atferdsrelatert seleksjon senere notatet. 2.2 Når er mssng eller manglende respons på spørreundersøkelser et problem? Før v går vdere er det vktg å drøfte mer spesfkt hvlke tlfeller manglende data (mssng) og seleksjon er et problem eller kke. For det første avhenger det av om mssng er systematsk knyttet tl kjennetegn ved utvalgsenheten eller kke. For det andre avhenger det av hva v ønsker å beregne. For å llustrere poengene kan v se på tlfellet hvor man ønsker å beregne for eksempel populasjonsandeler. Ta som eksempel at v ønsker å beregne andelen populasjonen av kanddater med høyere utdannng som er arbedsledg et år etter eksamen basert på spørreundersøkelse ala NIFU STEP s kanddatundersøkelse. En relevant stuasjon er at noen utdannngskategorer har mer mssng på spørreskjemaene enn andre. De tradsjonelle metodene for å korrgere for dette er ) Vekte observasjonene med nverse av frafallsandelen ) Imputere verder hvs v har nformasjon om noen kjennetegn ved de som kke har svart. La oss se nærmere på ). V kan estmere en regresjonsmodell for nteressevarabelen (arbedsmarkedsstatus) mot kjennetegn ved respondentene. La y = arbedsmarkedsstatus et år etter eksamen 0 hvs kke jobb y = { 1 hvs jobb Sett at v har følgende kjennetegn på alle utvalget (både respondenter og kke respondenter) x x x 1 2 3 = alder = kjønn = utdannngstype 8

V er altså nteressert å beregne andelen populasjonen av uteksamnerte kanddater som er ledg et år etter eksamen. For å llustrere poenget velger v den enkleste varanten en kan tenke seg og estmerer en lneær sannsynlghetsmodell for y med x1, x2, x3som forklarngsvarable basert på de N respondentene. Det vl s at v estmerer følgende relasjon med OLS: (1) y = β 0 + β1x1 + β2x2 + β3x3 + restledd = 1,... N V betegner de estmerte koeffsenter fra denne relasjonen med β, β, β, β og bruker 0 1 2 3 smpelthen dsse estmatene sammen med observerte verder på x1, x2, x tl å beregne verden 3 på y for de =N+1,.,M kke-respondentene 1. En mplstt antakelse bak denne prosedyren er at den samme prosessen genererer ledghetshstoren for kke-respondentene som for respondentene. Hvs utvalget utgangspunktet var representatvt, vl da andelen ledge utvalget (nklusve kke-respondentene som har fått en beregnet verd på y) være et konsstent anslag på ledgheten populasjonen 2. Men hva hvs responsen på spørreskjemaet er systematsk knyttet tl både observerte og uobserverte kjennetegn ved ndvdet som også påvrker ledghetshstoren? Da vl generelt mputerngene bl systematsk fel, og følgelg også de konstruerte ledghetsrater. Denne og lgnende stuasjoner er utgangspunkt for den mer generelle ltteraturen om seleksjonsmodeller som er systematsk behandlet den klassske artkkelen av Heckman (1979) som v kommer grundg tlbake tl nedenfor. 1 Selv om den lneære sannsynlghetsmodellen under standardforutsetnngen om at forklarngsvarablene er ukorrelert med restleddet gr konsstente estmatorer for koeffsentene (1) er det velkjent at OLS/lneær sannsynlghetsmodell har betydelge svakheter, for eksempel heteroskedastske restledd og predksjoner utenfor 0-1 ntervallet. Ikke-lneære alternatver som logt og probt kan derfor være å foretrekke, men v går kke nn på dette denne omgang. 2 Imputerng blr også brukt når man mangler data for enkeltobservasjoner regresjonsmodeller. Imputerng vl påvrke standardavvkene tl de estmerte parametrene og nferens fra standard lneære regresjonsmodeller med mputerte data kan dermed bl fel. Cameron og Trved (2005), kapttel 27 gr en dskusjon av moderne metoder for regresjon med mputerte data som håndterer slke problemer. 9

2.2 Utvalgsseleksjon økonometrske modeller. Ovenfor behandlet v tlfellet der en populasjonsandel skulle beregnes på bass av ufullstendge opplysnnger gtt av en del av respondentene. I mange tlfeller vl en emprsk undersøkelse nnebære at v estmerer en multppel regresjonsmodell med en avhengg varabel og flere forklarngsvarable. Læreboksstuasjonen er at utvalget v benytter er tlfeldg trukket fra den underlggende populasjonen. Standardprosedyren hvs noen av enhetene utvalget mangler opplysnnger om en eller flere av de relevante varable modellen er å ekskludere observasjonene for dsse enhetene ved estmerngen. Dette reduserer altså det antall observasjoner v har tl rådghet. Spørsmålet er om det er andre statstske konsekvenser knyttet tl denne datareduksjonen. Dersom frafallet (mssng) er generert rent tlfeldg er det eneste problemet at estmatorene blr mndre presse ford nformasjonen datamateralet blr mndre. Den mest nteressante stuasjonen for en økonometrker er mdlertd når frafallet (mssng) kke er tlfeldg. V skal nå se på hvlke problemer slk systematsk utvalgsseleksjon gr oss når v skal estmere økonometrske modeller 3. Her er det nyttg å sklle mellom eksogen og endogen seleksjon. Eksogen seleksjon nnebærer at seleksjonen skjer på bass av verden på en eksogen varabel (forklarngvarabel), mens endogen seleksjon nnebærer at seleksjonen skjer på bass av den endogene (avhengge) varabel. For å llustrere dette vl v betrakte et eksempel der v ønsker å estmere sammenhengen mellom logartmen tl ndvduell lønn, w, alder og antall år utdannng og formulerer følgende enkle lgnng (2) 2 ln w = β0+ β1utdannng + β2alder + β3alder + u der u er et stokastsk restledd som oppfyller standardforutsetnngene: uavhengg og dentsk fordelt, samt ukorrelert med høyresdevarablene lgnngen. I. Eksogen seleksjon Sett at datamateralet er et tlfeldg trukket utvalg av personer over 35 år. Seleksjonen er med andre ord basert på nvået på den eksogene varabelen Alder. Så lenge modellen er den samme for alle delutvalg (her aldersgrupper) populasjonen og v har tlstrekkelg varasjon 3 Framstllngen her er basert på Woolrdge (2003), kap.9.4. 10

den avhengge varabelen delutvalget så vl seleksjon på bass av alder kke g skjevhet estmatorene for β0, β1, β2, β 3. II. Endogen seleksjon Sett nå stedet at utvalget som kan brukes estmerngen er bestemt av nvået på den avhengge varabelen: Trunkerng Sett at bare ndvder med lønnsnvå w<nok1000 000 er nkludert utvalget. Utvalget er altså kke tlfeldg, men basert på verden på den avhengge varabel. Dette vl g skjeve OLS-estmatorer for parametrene (1). Årsaken er, løst formulert, at forventnngen tl den avhengge varabel, betnget på forklarngsvarablene populasjonsmodellen (1) kke er den samme som forventet verd betnget på w<nok1000 000. Dette kan håndteres ved å estmere en sensurert regresjonsmodell som kan betraktes som et spesaltlfelle av mer generelle modeller for utvalgsseleksjon som behandles nedenfor 4. 4 Se Woolrdge (2003), kap.17.4 for en enkel nnførng temaet, mens Cameron og Trved (2005), kap.16.2, Green (2003) kap.22 og Woolrdge (2002), kap 16 nneholder mer avanserte framstllnger. 11

3 Seleksjon på grunn av ndvdenes atferd. 3.1 Heckman s seleksjonsmodell Økonomer er ofte nteressert effekten av for eksempel utdannng på lønnstlbudet som et ndvd får. Dette danner utgangspunkt for det klassske eksemplet for denne type utvalgsseleksjon. La oss for å llustrere anta at v anvender en varant av lønnsmodellen ovenfor der v ønsker å estmere en modell for lønnsnvået for populasjonen av kanddater som har avsluttet høyere utdannng et år etter endt utdannng. Datagrunnlaget kan v tenke på som NIFU STEP s kanddatundersøkelse. La den underlggende lønnsmodellen være: (3) ln 0 1 1 2 2 3 3 w = b + bx + b x + b x + u La oss foreløpg se bort fra problemet med de som kke har besvart spørreskjema (anta at frafallet er rent tlfeldg). V ønsker å fnne anslag på sammenhengen mellom lønnstlbudet, w og forklarngsvarablene x1, x2, x 3 som kan representere kjønn, utdannng etc. for populasjonen. Noen ndvder populasjonen arbeder kke. I standardtlfellet antas utvalget å være tlfeldg trukket fra den bakenforlggende populasjonen: Men nå er spørsmålet: Hvlke faktorer påvrker hvlke ndvder som er med utvalget v kan benytte? V kan bare benytte observasjonene for de ndvder som har rapportert lønnsnvå (altså de som jobber) regresjonsmodellen. Det krtsk spørsmålet v må stlle nå er: Hvlke faktorer bestemmer om personen jobber eller kke? Påvrker dsse også lønnsnvået? For å få tak på de problemer dette medfører, er det nødvendg med ltt formalserng. V må modellere den prosessen som genererer valget mellom å delta eller kke arbedslvet, og denne beslutnngen kan enkelt oppsummeres seleksjonslgnngen. La z være en latent varabel som ndkerer nettogevnsten ved å jobbe: Kanddaten jobber dersom nettogevnsten er postv. I økonomspråk betyr det at lønnstlbudet er høyere enn ndvdets reservasjonslønn. La vdere nettogevnsten z være en lneær funksjon av et sett av observerbare varable pluss et stokastsk restledd som representerer uobserverbare varable: (4) z = α + α x + α x + α x + α x +v 0 1 1 2 2 3 3 4 4 der det stokastske restleddet er normalfordelt. v 12

I tllegg tl kjønn, alder og utdannngstype har v antatt at varabelen x 4 = Antall barn påvrker nettogevnsten ved jobb Det v observerer er mdlertd kke z men en ndkator z som tar verden 1 hvs ndvdet jobber, og 0 ellers. Hvs v som ovenfor antar at ndvdet jobber dersom nettogevnsten ved å jobbe er postv, har v at: (5) z 1 hvs z { > 0 dvs hvs v > ( α 0 + α 1 x 1 + α 2 x 2 + α 3 x 3 + α4x4) = 0 hvs z < 0 dvs hvs v < ( α + α x + α x + α x + α x ) 0 1 1 2 2 3 3 4 4 V er altså nteressert å estmere parametrene (3), men lønna z = 1 ln w observeres bare når Lgnngene (4) og (5) karakterserer nå hvordan utvalget er trukket fra populasjonen Ytterlgere forutsetnnger modellen er: x1, x2, x3, x4 a) observeres alltd, u og y observeres bare når z = 1 b) er uavhengg av og har forventnng 0. c) u og v x, x, x, x 1 2 3 4 v følger en bvarat normalfordelng ( u, v ) N (0, σ ) σ er varans-kovaransmatrsa for u og v og er gtt ved σ σ σ u uv = σ uv σ v Det er verdt å merke seg betydnngen av de to første forutsetnngene. Forutsetnng a) nnebærer at de relevante varablene som nngår så vel lønnsmodellen som seleksjonslgnnga (altså de varablene som påvrker om du jobber eller kke) er observerbare. Forutsetnng b) nnebærer at både modellen for lønnstlbudet og seleksjonsmodellen er velspesfserte, den forstand at restleddene de to lgnngene er ukorrelert med forklarngsvarablene. Imdlertd følger det fra forutsetnngene over at 13

uv d) Eu ( v) = σ v = δv σ v Det betyr at restleddet lønnslgnngen er korrelert med restleddet seleksjonslgnngen og tolkngen er at de uobserverbare varablene som påvrker lønna er korrelert med de uobserverbare varablene som påvrker sannsynlgheten for at ndvdet jobber. I det følgende normalserer v varansen tl restleddet seleksjonslgnngen tl 1, dvs σ v = 1 Dersom v nå tar betnga forventnng lønnslgnnga (forventet lønn, gtt størrelsen på forklarngsvarablene lønnslgnngen og gtt at ndvdet jobber) får v: E(ln w x, x, x ; z = 1) = b + bx + b x + bx + E[ u x, x, x ; z = 1] 1 2 3 0 1 1 2 2 3 3 1 2 3 Benytter v forutsetnng (d), kan denne skrves: E(ln w x, x, x ; z = 1) = b + bx + b x + b x + δ E[ v z = 1] (6) 1 2 3 0 1 1 2 2 3 3 Her kan v sklle mellom to mulge tlfeller: 1) δ = 0. I dette tlfellet er de utelatte varablene lønnslgnngen ukorrelert med de utelatte varablene seleksjonslgnngen, σ uv = 0 og v er tlbake standardstuasjonen. Sste ledd (6) forsvnner og v kan estmere parametrene lønnslgnnga konsstent ved OLS på observerte lønnsnvåer 2) δ 0 Dette tlfellet er utgangspunkt for James Heckman s artkkel Econometrca fra 1979, Heckman (1979), hvor bdraget nettopp var formulerngen av seleksjonsproblemet som et problem med utelatte varable. La oss se nærmere på stuasjonen med δ 0 og v må da studere egenskapene tl leddet Ev [ z = 1] (6). V har at E[ v z = 1]=E[ v z > 0] = E[ v v > ( α0 + α1x1 + α2x2 + α3x3 + α4x4)] Denne forventnngen er den nverse Mlls-ratoen eller Heckman s lambda. V kan z > 0 nemlg vse at når v er en standard normalfordelt varabel så er: 14

E[ v v > ( α0 + α1x1 + α2x2 + α3x3 + α4x4)] = z > 0 φα ( + αx + αx + αx + αx ) Φ ( α + α x + α x + α x + α x ) 0 1 1 2 2 3 3 4 4 = = 0 1 1 2 2 3 3 4 4 λ der φ er tetthetsfunksjonen tl en standard normalfordelt varabel og Φ er den kumulatve tetthetsfunksjonen tl standard normalfordelt varabel. Det vktge for oss er nå at både φ og Φ er kjente funksjoner og (6) kan nå skrves: E(ln w x, x, x ; z = 1) = b + bx + b x + b x + δλ (7) 1 2 3 0 1 1 2 2 3 3 Ut fra (7) ser v nå at v har et utelatt varabelproblem dersom v estmerer lønnslgnngen (3) basert på de observerte lønnsnvåene uten å korrgere for λ. Effekten av varablene x, x, x på lønna vl da representere de kausale effektene pluss effekten av seleksjonen nn 1 2 3 jobb. Korreksjonsfaktoren λ er utgangspunktet ukjent, men deen er nå å lage en konsstent estmator for denne et første steg. Andre steget består da smpelthen å estmere lønnsrelasjonen med korreksjonsfaktoren λ,representert ved estmatet, nkludert. Framgangsmåten er altså enkel: 1.steg: Estmer seleksjonslgnngen (8) Når Pz= = Pz > = P + x + x + x + x + v> = ( 1) ( 0) ( α0 α1 1 α2 2 α3 3 α4 4 0) = Pv ( > ( α + α x + α x + α x + α x )) v 0 1 1 2 2 3 3 4 4 er en standard normalfordelt varabel [forutsatt over] så er dette en standard Probtmodell. Probtmodellen kan estmeres på vanlg måte ved Maxmum-Lkelhood-metoden (ML) og v får estmater på parametrene seleksjonslgnngen som: α, α, α, α, α. V kan da beregne et estmat på λ som: φα ( 0 + α1x1 + α2x2 + α3x3 + α4x4) λ = Φ ( α + α x + α x + α x + α x ) 0 1 1 2 2 3 3 4 4 0 1 2 3 4 Sden dette er forholdet mellom tettheten og den kumulatve fordelngsfunksjonen tl en standard normalfordelt varabel, som er kjente funksjoner, så kan denne størrelsen enkelt beregnes. 15

2.steg:Estmer lønnsmodellen: w = b 0 + bx 1 1 + b2x2 + b3x3 + δ λ + ε ln med OLS. Gtt våre forutsetnnger vl dette g konsstente estmatorer for b-ene. Det er for øvrg grunn tl å merke seg at de vanlge standardavvkene tl OLS-estmatorene 2. steget er nkonsstente. Heckman (1979) foreslo en konsstent varans-kovaransestmator som også er beskrevet Greene (2003) s. 785. Økonometrprogrammer som STATA genererer de korrekte standardavvkene automatsk når Heckman-opsjonen benyttes. Dessuten kan v også teste med standard tester om koeffsenten foran λ er sgnfkant ulk null. Dersom koeffsenten er kke-sgnfkant tyder det på at seleksjonsproblemet er av lten betydnng. Det er også mulg å estmere modellen med maxmum lkelhood-metoden (ML) drekte, se Cameron og Trved (2005) s. 548. I STATA er både ML-estmerng og tostegsprosedyren beskrevet over tlgjengelg. Identfkasjonsspørsmålet I eksemplet foran hadde v en varabel, x 4 (antall barn) som v antok påvrket sannsynlgheten for å jobbe, men kke lønnsnvået drekte. I prnsppet kan v estmere seleksjonsmodellen også når det samme sett av varable nngår både seleksjonslgnngen og lønnslgnngen. Men da er det bare kke-lnearteten λ som bdrar tl å dentfsere koeffsentene. Jo mer lneær den er, jo vanskelgere blr det å dentfsere b-ene lønnslgnngen, ford λ da vl være høyt korrelert med de øvrge varablene lønnslgnngen. V vl forvente høye standardavvk på de estmerte parametrene dette tlfellet. Det er en stor ltteratur som har undersøkt estmatorens egenskaper dette tlfellet med Monte-Carlo-smulernger, se Nawata og Nagase (1995) og Vella (1998) for en oppsummerng. 5 Resultatene tyder på at modellen fungerer dårlg endelge utvalg uten ekskluderngsrestrksjoner. I dag vl det prakss være vanskelg å få nternasjonal publserng av artkler som benytter Heckmans seleksjonsmodell uten en overbevsende ekskluderngsrestrksjon. 5 Grasdal (2001) er en norsk stude som sammenlgner hvordan ulke estmatorer fungerer på et eksperment helsesektoren (Bergensekspermentet) der noen av ndvdene ekspermentet faller fra underves. 16

3.2 Anvendelse for kke-respons ntervju-data Tl nå har v sett på hvordan seleksjon nn jobb medfører et problem estmerng av lønnsmodeller. Et lgnende tlfelle vl oppstå dersom det utvalget som besvarer spørreskjema er en selektert gruppe. Dersom v har noe nformasjon om alle enhetene (både de som responderer og de som kke responderer) har v en klar parallell tl seleksjonsmodellen dskutert over. La oss derfor se nærmere på dette. Ta som eksempel at v har sendt spørreskjema tl N personer men bare N 1 personer besvarer. La y = avhengg varabel (utfall) x og x 1 2 er forklarngsvarable V formuler følgende populasjonsmodell for den avhengge varabelen: y = α + α x + α x + u der ndeks angr ndvdet. (9) 0 1 1 2 2 V er altså utgangspunktet nteressert å fnne konsstente estmatorer for parametrene (9). V formulerer tllegg en modell for hvorvdt ndvdet besvarer spørreskjema eller kke: La den latente varabel spørreskjema. (10) z z = b + bx + b x + b x + v 0 1 1 2 2 3 3 Her har v altså antatt at den latente varabelen representere den (uobserverbare) tlbøyelgheten tl å besvare påvrkes av en ekstra varabel z 3 de varablene som nngår (9). V har en ndkator z som tar verden 1 hvs ndvdet responderer, og 0 ellers. Indvdet responderer (og v observerer y) dersom v < ( b0 + b1x1 + b2x2 + b3x3) z > 0, altså når x tllegg tl Dette er altså helt tlsvarende lønnsmodellen det foregående avsnttet og v kan dermed bruke en tlsvarende estmerngsprosdyre som korrgerer for seleksjon på grunn av responstlbøyelgheten. Det er verd å merke seg at denne prosedyren stller betydelge krav tl data for å kunne gjennomføres. Den krever at v har nformasjon for alle utvalget (både de som responderer 17

og de som kke responderer) om de andre relevante varablene som påvrker y og svartlbøyelgheten. Dsse kravene kan være oppfylt dersom v har regsternformasjon om alle ndvdene utvalget, men bruker nformasjon fra spørreundersøkelsen for å lage den avhengge varabelen y. I tllegg vl også her dentfkasjonsproblemet stå sentralt. Med andre ord, bør v ha en ekstra varabel ( x 3 ) som påvrker sannsynlgheten for å svare, men som kke påvrker utfallet (1). Dette er ofte kjerneproblemet her. Mulge kanddater tl dette er: 1) Egenskaper ved ntervjueren (ved personlg ntervju) 2) Varable som karakterserer forholdet mellom den nsttusjon som gjennomfører surveyen og respondenten I det følgende vl v gjeng et eksempel på en dentfkasjonsstrateg av type 2). Hamermesh og Donald (2006) studerer en problemstllng som er relevant for arbedet ved NIFU-STEP, nemlg avkastnngsforskjeller målt ved lønnsforskjeller på ulke typer høyere utdannng (majors). De har data fra et stort unverstet USA med mange utdannngstyper (majors): Arktechture&fne arts, Busness-soft, Busness-hard, Communcatons, Engneerng, Humantes, Socal scences, Natural Scences&Pharmacology, Nursng&Socal work. De kombnerer regsterdata fra unverstetet med spørreundersøkelse tl kanddater fra kullene 79/80, 84/85, 89/90, 94/95 og 1999/2000 om arbedsmarkedsstuasjonen deres 2001-2002. De sendte spørreskjema tl 7970 tdlgere studenter og bare 2015 svarte, altså en svarprosent på bare 25. De estmerte først en probt-modell for sannsynlgheten for respons, og fant at dummyer for utdannngstype (majors) hadde sgnfkant effekt på responsen. Dette tyder på at kke-respons er et betydelg problem ved estmerng av avkastnngsforskjeller mellom majors. For å håndtere dette setter Hamermesh og Donald opp en generell modell som både nnebærer responsseleksjon og seleksjon mellom jobb og kke jobb, altså en dobbel seleksjonsmodell. ' (11) y = 1 hvs ( xδ + ε > 0) Respons 1 1 1 1 ' (12) y = 1 hvs ( x δ + ε > 0) Sysselsatt hvs svart på spørreskjema 2 2 2 2 (13) ln y = xδ + ε hvs y = Lønn hvs sysselsatt ' 3 3 3 3 2 1 Identfkasjonsproblemet her består å fnne varable som a) påvrker svartlbøyelgheten, men b) kke påvrker sysselsettng og lønn drekte (ekskluderngsrestrksjonen) 18

Hamermesh og Donald s forslag går ut på å bruke en ndkator for om ndvdet var medlem av unverstetets alumnorgansasjon på ntervjutdspunktet som dentfserende varabel. De vser emprsk at responstlbøyelgheten er klart postvt korrelert med ndkatoren, altså tlfredsstller den krav a). Deres problem er mdlertd at krav b) kke er testbart. Spørsmålet er altså om v tror alumnmedlemskap er ukorrelert med lønn og sysselsettng. Hamermesh og Donald er selvsagt oppmerksom på dette, og argumenterer for at denne eksklusjonsrestrksjonen er mer troverdg enn ekskluderngsrestrksjonen som brukes tradsjonelle lønns-sysselsettngsmodeller, hvor antall barn forutsettes bare å påvrke beslutnngen om yrkesdeltakelse og kke lønn. Det får bl opp tl leseren å vurdere om dette er et godt argument eller kke. Hamermesh og Donald utleder ML-estmatoren for denne doble seleksjonsmodellen. Resultatene deres vser for det første at forskjellen avkastnng mellom ulke utdannngstyper (majors) målt ved standardavvket lønnsforskjellen, reduseres kraftg (halveres) når det kontrolleres for kjennetegn ved ndvdene. Korreksjonen for seleksjon reduserer standardavvket lønnsforskjellene ytterlgere med 10 prosent. 3.3 Frafall longtudnale ntervjuundersøkelser. Foreløpg har v behandlet stuasjoner der datamateralet er et rent tverrsnttsmaterale. Seleksjonsproblemet kan mdlertd også oppstå arbedet med paneldata (longtudnale data). Dette kan også være en problemstllng noen av de undersøkelsene som NIFU STEP arbeder med. Et eksempel kan være utvalget kanddatundersøkelsen 2000 der noen spørres gjen 2004 og 2008 6. I utgangspunktet kan paneldata være en fordel ved dentfkasjon av kausale effekter. Grunnen er at man da har mulghet for å kontrollere for alle ndvdvarable som er konstante over td ved å nkludere såkalte faste ndvdeffekter regresjonsmodellene eller transformere modellene tl førstedfferanser. Så lenge de varable som er av nteresse for undersøkelsen varerer tlstrekkelg over td nnen hver enhet (ndvd) kan dermed emprske analyser basert på paneldata g mer påltelge resultater enn tlsvarende analyser basert på rene tverrsntt. 6 Ifølge beskrvelsen av Kanddatundersøkelsen 2004 ble de som deltok 2000-undersøkelsen spurt om de var vllge tl å delta nye undersøkelser 2004 og 2008. Halvparten av de uteksamnerte ble spurt om å delta nye spørreskjemaundersøkelser mens den andre halvparten ble bedt om å g tllatelse tl at det nyttes opplysnnger fra Statstsk sentralbyrås regstre tl å følge deres vdere yrkeskarrere. Mellom halvparten og to tredjedeler av kullet sa seg vllge tl vdere deltakelse 2004 og 2008. Se http://www.nfustep.no/norsk/nnhold/prosjekter/kanddatunders_kelsene 1/spesalunders_kelser/kanddatunder s_kelsen_2004 19

Et problem som ofte kan dukke opp paneldata (longtudnale data) er mdlertd at noen av enhetene faller fra løpet av observasjonsperoden. Eksemplet med NIFU STEP sn kanddatundersøkelse fra 2002 kan belyse dette. Problemet består at noen av de som svarte 2000-undersøkelsen faller fra 2004 og eventuelt. 2008. I den engelskspråklge ltteraturen betegnes dette som the attrton problem. 7 For å gå vdere, la oss formalsere ltt. Longtudnale desgn på spørreundersøkelsen gr oss et panel. Med paneldata kan v elmnere ndvdspesfkke varable som er konstante over td ved å ta første-dfferanser. La modellen være (14) yt = a1x + a2zt + ut + η t=1,,t og =1,,N η er den ndvdspesfkke restleddskomponenten, mens er et dosynkratsk restledd (både varasjon over td og mellom ndvder). x betegner en observerbar varabel som bare varerer mellom ndvder, mens z betegner en observerbar varabel som varerer både mellom og nnen ndvder. Hvs den avhengge varabelen er lønnsnvå kan z være nvået på arbedsledghetsraten det området ndvdet jobber. V er bekymret for korrelasjon mellom det ndvdspesfkke restleddet og den observerbare personkarakterstkken x. u t Ved å ta første dfferanser av modellen fjernes den ndvdspesfkke komponenten, se s. 585-586 Woolrdge (2002). (15) y = a z + u t=2,. T t 2 t t Problemet som nå gjenstår er at noen enheter faller fra. La oss s at v starter på tdspunkt 1 med N ndvder. Fra og med tdspunkt 2 og framover, vl noen av ndvdene falle fra, og v antar at de som faller fra forblr ute av utvalget de resterende tdsperodene. Hvs dsse frafallene kke er tlfeldg, har v et seleksjonsproblem. En måte å håndtere dette på er å modellere sannsynlgheten for at ndvdet faller fra. Det betyr at v ntroduserer en seleksjonslgnng på samme måte som de foregående modellene. La s t være den latente 7 Framstllngen her bygger stor grad på Woolrdge (2002). 20

tlbøyelgheten tl å falle fra fra et tdspunkt tl et annet, mens ndvdet faktsk falt fra. Seleksjonslgnngen for ndvd på tdspunkt t kan da skrves: s t er en ndkator for om (16) s = 1 dersom s = w β + v > 0 t t t w t kan være laggede verd på Z, t 1 de er observert på det ntale tdspunktet (Eksempel: alder) Z eller varable som er mulg å beregne for alle, så lenge V antar nå at z er en eksogen varabel og at seleksjonen kke er korrelert med kontrollert for. z t, når w er Vdere antar v at forventngen tl restleddet betnget på z og wt kan skrves 8 : E( u z, w, s = 1) = E( u v ) =δ v t t t t t t t t Da blr den betngede forventnng for Δ y : E( y z, w, s = 1) = a z +δ λ( w β) (17) 2 t t t t t t t der λ tlsvarer Heckman s lambda de forrge anvendelsene u t t Igjen kan v følge en tostegsprosedyre: Steg 1: Estmer for hvert tdspunkt t=2,.t en probtlgnng for om ndvdet som responderte på tdspunkt t-1 også er med utvalget på tdspunkt t. Gr oss T-1 probt-lgnnger og et sett av estmerte Lambdaer, λt for hver observasjon nkludert år t. Steg2: Estmer (18) y = a z + δ d2 λ 3... 3 t + δ d λt + δ d λt + restledd t = 2,..., T t 2 t 2 t 3 t T T på panelet med OLS. der d2 t, d3 t,... dt T er tdsdummer 8 Denne vl gjelde dersom Δut og v t er smultant normalfordelt. 21

Under våre forutsetnnger vl dette g konsstente anslag på nteressevarabelen om seleksjonsskjevhet er et problem kan enkelt gjennomføres ved å teste den smultane hypotesen om δ2 = δ3 =... = δ T = 0 (18). Woolrdge (2002) s. 586 vser også hvordan a 2. En test på lgnngen kan estmeres ved en nstrumentvarabel-metode (IV-metode) når en eller flere av forklarngsvarablene modellen er endogene. V vl mdlertd kke gå nærmere nn på dette her. Dette avsnttet har bare gtt en smakebt på de metodeutfordrnger som speselt reser seg ved frafall paneldata. Problemene og mulge estmerngsmetoder er nngående behandlet Njman og Verbeek (1992), Woolrdge (1995) og Vella og Verbeek (1999). 22

4 Heckman s seleksjonsmodell anvendt effektstuder. Dette er en relatvt rett fram applserng av metodkken foran. Stuasjonen som skal håndteres er mdlertd noe annerledes. I motsetnng tl det foregående har v observasjoner om den avhengge varabelen for alle utvalget, men forklarngsvarabelen (dummyvarabel for behandlng (treatment)) er endogen. Den klassske ltteraturreferansen her er Heckman (1978). Anvendelsen av metodkken er svært omfattende. Her er noen anvendelser på arbedsmarkeds og utdannngsområdet som kan være relevant for NIFU-STEP: Studer av lønnsforskjeller mellom prvat og offentlg sektor Studer av lønnsforskjeller mellom fagorganserte og kke fagorganserte Studer av lønnsforskjell mellom ndvder med og uten høyere utdannng ( college wage premum) For å komme vdere må v formalsere ltt. V betrakter en enkel lneær modell for den avhengge varabel y : (19) y = β0 + αd + Xβx + u α er vår nteresseparameter. Den angr gjennomsnttseffekten av behandlng ( treatment ), der behandlngen, altså tolkngen av varabelen D, kan være ansettelse prvat sektor, fagorganserng eller høyere utdannng. D er altså en dummyvarabel som angr om ndvdet er behandlet eller kke-behandlet For eksempel D = 1 hvs ndvdet arbeder prvat sektor. D = 0 ellers X er et sett av andre varable som påvrker den avhengge varabel y. Det sentrale nå er at hvorvdt ndvdet er behandlet eller kke, kke beror på rene tlfeldgheter men er et resultatet av egne valg. V formulerer derfor en deltakermodell som er helt parallell tl seleksjonsmodellen foran. (20) D = Z γ + v der D er en latent varabel for ndvdets nettogevnst ved å delta. Z er et sett av varable som påvrker deltakelsen og Z kan prnsppet være dentsk med X. V observerer (21) D = 1 hvs D = Zγ + v>0 v > Zγ 23

Her er det verdt å gjenta forskjellen fra den forrge seleksjonsmodellen: Her observerer v altså den avhengge varabelen for alle enheter, men v har en behandlngsndkator, D som er resultat av beslutnnger. En annen måte å se det på er at v kke kan observere det kontrafaktske for samme person. V har en seleksjonsskjevhet ford det er en systematsk sammenheng mellom restleddet u, og behandlngsvarabelen D, betnget på X. Her kan v sklle mellom ulke stuasjoner 1) Seleksjon på observerbare varable Dette er stuasjonen hvs seleksjonsskjevheten skyldes korrelasjon mellom u og Z 2) Seleksjon på uobserverbare varable. Dette er stuasjonen hvs seleksjonsskjevheten skyldes korrelasjon mellom u og v: V skal dette notatet rendyrke stuasjon 2): Her er altså stuasjonen at u og v er ukorrelert med X og Z, men nnbyrdes korrelert, altså samme som Heckman-modellen foran. Dersom v tar betnga forventnng tl (19) får v E( y X, Z, D) = β + βx+ αd+ Eu ( X, Z, D) (22) 0 x Vårt problem er at leddet Eu ( X, Z, D)kke er lk null pga korrelasjonen mellom restleddene de to lgnngene. Intusjonen bak løsnng på problemet er at v ønsker å fnne et uttrykk for dette leddet og så estmere modellen med leddet (eller et estmat på det) nkludert modellen. Under normaltetsforutsetnngene om restleddene, dvs at u og v er bvarat normalfordelt med forventnng null, samt at v har normalsert varansen tl v tl 1, får v ϕ( Zγ ) Eu ( X, Z, D = 1) = δλ1 = δ Φ ( Z γ ) ϕ ( Zγ ) Eu ( X, Z, D = 0) = δλ0 = δ 1 Φ( Z γ ) Dette er formelt vst hos Heckman (1978), sde 937-938, ved bruk av relatvt standard resultater fra multvarat fordelngsteor. 24

Setter v dette resultatet nn (4) kan v skrve modellen ( for eksempel lønnsmodellen) som: y= β0+ βxx+ αd+ δ Dλ1 + (1 D) λ + u 0 (23) [ ] "LAMBDA" der u er et restledd med klassske egenskaper. LAMBDA (23) fungerer altså på samme måte som korreksjonsleddet utvalgsseleksjonsmodellen foran. Poenget er nå at LAMBDA kan beregnes sden den er en kjent funksjon av observerbare varable. Hvs v tar forventnngen tl (23) betnget på de observerbare X, D og Z får v E( y X, Z, D= 1) = β0 + βxx + α + δλ 1 (D=1) E( y X, Z, D 0) β0 βxx δ 0 = = + + λ (D=0) Dfferansen y mellom de behandlede og de kke-behandlede blr derfor: ϕ( Zγ ) (24) E( y X, Z, D = 1) E( y X, Z, D = 0) = α + δ( λ1 λ0) = α + δ Φ ( Zγ )(1 Φ ( Zγ )) Seleksjonsskjevheten nnebærer altså at dersom v kke kontrollerer for seleksjonen når v estmerer lgnngen med OLS vl v få overvurdert behandlngseffekten dersom δ >0, dvs. dersom restleddene er postvt korrelerte og undervurdert den det motsatte tlfellet. For å llustrere dette kan det være nyttg å tenke på lønnseksemplet: Dersom uobserverbar dyktghet både gr høyere lønn uavhengg av sektor og samtdg øker sannsynlgheten for å velge prvat sektor, så vl OLS uten korreksjon overvurdere lønnsforskjellen mellom prvat og offentlg sektor. Ved estmerngen kan v også her enten bruke en tostegs-prosedyre eller estmere begge lgnngene modellen smultant med maxmum-lkelhoodmetoden. Jeg skal her se nærmere på to-stegsmetoden. STEG 1: Fnn estmater for γ, γ ved å estmere en Probt-modell for D=1 versus D=0. Beregn elementene LAMBDA : ϕ( Zγ ) λ1 = og ( Z ϕ ( Z γ ) λ 0 = Φ γ ) 1 Φ ( Z γ ) Steg 2: 25

Estmer motstykket tl (23) med OLS: (25) y= β 0 + βxx + αd+ δ Dλ1+ (1 D) λ0 + u "LAMBDA" Under våre forutsetnnger gr det oss konsstente anslag på parametrene modellen. Som den vanlge seleksjonsmodellen er kke den estmerte varans-kovaransmatrsa som kommer ut av OLS-estmerng av (25) konsstent. Heckman (1978) foreslo en konsstent estmator for denne, som er mplementert treatreg -kommandoen STATA. Treatreg gr også mulghet for å estmere modellen med ML. Som de andre seleksjonsmodellene er dentfkasjonsproblemet også her avgjørende. Selv om modellen under de forutsetnnger som er beskrevet over kan estmeres også når det samme settet av varable nngår både strukturlgnngen og deltakerlgnngen (X og Z er dentske) vl tllten tl resultatene øke sterkt dersom det kan pålegges troverdge eksklusjonsrestrksjoner. Det vl s at det fnnes en eller flere varable som påvrker deltakerbeslutnngen (for eksempel beslutnngen om å jobbe prvat sektor), men kke lønnsnvået drekte. Igjen er det en stor utfordrng å fnne slke varable. 26

5 Oppsummerng og konkluderende merknader Dette notatet har gtt en nnførng hvordan problemer med selvseleksjon og manglende respons ntervjudata kan behandles økonometrske modeller. Ltteraturen på området er meget stor, og det har derfor bare vært mulg å g en lten smakebt på problemstllnger og metoder. Utgangspunktet er den klassske modellen for korrgerng av seleksjon ntrodusert av Heckman (1979). Det er grunn tl å understreke at mange av de metodene som er dskutert har både sterke og svake sder. For eksempel legges ofte sterke fordelngsforutsetnnger tl grunn og det stlles også betydelge krav tl datamateralet. Anvendelse på utvalgsskjevhet på grunn av manglende respons på spørreundersøkelser krever blant annet at det fnnes data for relevante varable som påvrker tlbøyelgheten for respons. I de tlfeller dette datakravet kke er oppfylt (for eksempel hvs det kke fnnes noen opplysnnger om de som kke har besvart spørreskjema) er man gjerne henvst tl å bruke mer skjønnsmessg vurderng av representatvteten av utvalget. Vdere er det et felles trekk ved de metoder som er presentert at de fungerer godt bare dersom det kan pålegges troverdge dentfserende eksklusjonsrestrksjoner, dvs. at det fnnes varable som påvrker deltakngsbeslutnngen, men kke den avhengge varabelen drekte. Det å fnne slke eksklusjonsrestrksjoner er ofte en stor utfordrng praktske anvendelser og krever ofte nngående kjennskap tl sektoren som analyseres og tl tdlgere studer på det aktuelle området. En pragmatsk tlnærmng er derfor å la estmerng av modeller som korrgerer for seleksjonsskjevhet nngå som en del av en generell robusthetssjekk og senstvtetsanalyse av økonometrske modeller. 27

Referanser: Cameron, A. C. og P. K. Trved (2005): Mcroeconometrcs. Methods and applcatons. Cambrdge Unversty Press. Grasdal, A. (2001): The performance of sample selecton estmators to control for attrton bas. Health Economcs 10, 385-398. Green, W. H. (2003): Econometrc Analyss. Ffth Edton. Prentce Hall. Hamermesh, D. S. og S. Donald (2006): The effect of college currculum on earnngs: An affnty dentfer for non-gnorable non-response bas. Revdert versjon av NBER Workng paper no. 10809, 2004. Heckman, J. J. (1978): Dummy endogenous varables n a smultaneous equatons system. Econometrca 46, 931-960. Heckman, J. J. (1979: Sample selecton bas as a specfcaton error. Econometrca 47, 153-161. Nawata, K. og N. Nagase (1996): Estmaton of sample selecton bas models. Econometrc Revews 15, 387-400. Vella, F. (1998): Estmatng Models wth Sample Selecton Bas: A Survey. Journal of Human Resources 33, 127-172. Vella, F. og M. Verbeek (1999): Two-step estmaton of panel data models wth censored endogenous varables and selecton bas. Journal of Econometrcs 90, 239-263. Woolrdge, J. (1995): Selecton correctons for panel data models under condtonal mean ndependence assumptons. Journal of Econometrcs 68, 115-132. Woolrdge, J. (2002): Econometrc Analyss of Cross Secton and Panel Data. MIT Press. Woolrdge, J. (2003): Introductory Econometrcs. 2.edton. Thomson South-Western. 28