EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

Transkript

1 EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING 1 Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet «Bruksanvisning» Når ein går igang med å løyse oppgåver må ein ha i minnet at oppgåvene ofte er problematiske i høve til modellbygginga sitt krav om at modellen må vere fundert på den best tilgjengelege teorien. Mangelen på teoretisk fundament for oppgåvene kan forsvarast ut frå to perspektiv. Det avgjerande er rett og slett mangelen på tid og høvelege data for å lage eksamensoppgåver av den «realistiske» typen det er tale om her. Men tar ein for gitt at oppgåvene sjeldan kan seiast å vere teoretisk velfundert, gir jo dette studentane lettare gode poeng i arbeidet med å vurdere modellane kritisk ut frå spesifikasjonskravet. Når ein studerer framlegga til løysingar er det viktig å vere klar over at det som er presentert ikkje er nokon fasit. Dei fleste oppgåvene kan løysast på mange måtar. Dei tekniske sidene av oppgåvene er sjølvsagt eintydige. Men i dei mange vurderingane (som t.d. «Er denne residualen tilstrekkeleg nær normalfordelinga til at vi kan tru på testane?») er det nett vurderingane og argumentasjonen som er det sentrale. På eksamen er tida knapp. Svært få rekk i eksamenssituasjonen å gjere grundig arbeid på heile oppgåvesettet. I arbeidet med dette løysingsframlegget har det vore gjort meir arbeid enn det som ein ventar å finne til eksamen. Somme stader er det teke med meir detaljar i utrekningar og tilleggsstoff som kan vere relevant, men ikkje nødvendig. Men det er ikkje gjort like grundig alle stader. Det må takast atterhald om feil og lite gjennomtenkte vurderingar. Underteikna har like stor kapasitet til å gjere feil som andre. Kritisk lesning av studentar er den beste kvalitetskontroll ein kan ønskje seg. Den som finn feil eller som meiner andre vurderingar vil vere betre, er hermed oppfordra til å seie frå (t.d. på <Erling.Berge@svt.ntnu.no> ) 2000

2 2 OPPGÅVE 1 (vekt 0,1) a) Kva gjer den justerte determinasjonskoeffesienten interessant samanlikna med den vanlege determinasjonskoeffesienten? Den justerte determinasjonskoeffesienten tar omsyn til kompleksiteten i regresjonsmodellen relativt til kompleksitdten av data. (Hamilton 1992:42) b) Heteroskedastisitet er eit større problem i modellar med sensurerte eller utvalsselekterte data enn i OLS modellar (med data frå eit enkelt tilfeldig utval). Kvifor? Dersom ein finn heteroskedastisitet i vanleg OLS-regresjon er estimatorane konsistente (forventingsrette i store utval), men ikkje effisiente (dei har ikkje den minste variansen). Heteroskedastisitet i modellar av sensurerte eller utvalsselekterte data gjer at estimata verken er konsistente eller effisiente. (Breen 1996:58)

3 3 OPPGÅVE 2 (vekt 0,45) I vedlegga til oppgåve 2 er det estimert 3 modellar av «HHinnt», bruttoinntekt i hushaldet. a) Formuler modellen som er estimert i modell 1. Finn eit konfidensintervall for effekten av eiga utdanning i modell 2. Test om kjelde til livsopphald gir ei signifikant yting til å forklare variasjonen i hushaldsinntekta. Når vi skal formulere ein modell må vi 1. definere elementa som inngår i modellen (variablar og data) 2. definere relasjonane mellom elementa (regresjonslikninga), og 3. presisere kva føresetnader som ein må gjere for å bruke modellen. I modell 1 er følgande variablar definert: Y = HHinnt = bruttoinntekt i hushaldet i 1000 kr X 1 = Alder X 2 = Kvinne X 3 = Eg.Utd X 4 = Fulltidsarb X 5 = Eg. arb off sektor X 6 = EktStat Før gift X 7 = EktStat Aldri gift X 8 = EktStat Uoppg X 9 = Barn i HH X 10 = Pers m innt i HH X 11 = Bost. Sentrum storby X 12 = Bost. Forst. storby X 13 = Bost. Småby X 14 = Bost. Tettst. X 15 = Bost. Uoppg I eit tilfeldig utval på 2948 personar er det opplysningar om desse variablane. Vi lar indeksen i=1,2,...,2948 indikere kva for ein person opplysningane gjeld for. I populasjonen antar vi at det er eit lineært eller kurvelineært samband mellom den avhengige variabelen, Y, og dei uavhengige X-variablane. Dette tyder i vårt høve at Y i = β 0 + β 1 X 1i + β 2 X 2i + β 3 X 3i + β 4 X 4i + β 5 X 5i + β 6 X 6i + β 7 X 7i + β 8 X 8i + β 9 X 9i + β 10 X 10i + β 11 X 11i + β 12 X 12i + β 13 X 13i + β 14 X 14i + β 15 X 15i + ε i

4 4 når vi lar i gå over heile populasjonen. Lar vi k=0, 1, 2,...,15, vil β k vere dei ukjente parametrane som viser kor mange måleeiningar av Y vi får i tillegg ved å auke X k med ei måleeining. ε i er eit feilledd som fangar opp dei faktorane vi ikkje har observert saman med reint tilfeldig støy i målinga av Y i. Vi kan estimere dei ukjente parametrane i denne modellen dersom vi har observasjonar for eit reint tilfeldig utval frå populasjonen og vi kan gjere følgjande føresetnader: I. Modellen er korrekt, dvs.: alle relevante variablar er med ingen irrelevante er med modellen er lineær i parametrane II.Gauss-Markov krava for «Best Linear Unbiased Estimates» (BLUE) er oppfylt, dvs.: Faste x-verdiar (dvs. vi kan i prinsippet trekke nye utval med samme x-verdiar men ulik y-verdi). Feilledda har forventning 0 for alle i, dvs: E(ε i ) = 0 for alle i. Feilledda har konstant varians (homoskedastisitet) dvs: var(ε i ) = σ 2 for alle i. Feilledda er ukorrelerte med kvarandre (ikkje autokorrelasjon) dvs: cov(ε i,ε j ) = 0 for alle i j. III. Normalfordeling av feilleddet: Feilledda er normalfordelte med samme varians for alle case, dvs: ε i ~ N(0, σ 2 ) for alle i. I modell 2 er b Eg.Utd, effekten av Eg.Utd, oppgitt til å vere med ein standardfeil på Dersom vi kan gå ut frå at feilledda er normalfordelte vil eit 95% konfidensintervall vere gitt ved b Eg.Utd - SE Eg.Utd *t 2,5% < β Eg.Utd < b Eg.Utd + SE Eg.Utd *t 2,5% der b er den estimerte regresjonskoeffesienten, SE er standardfeilen til regresjonskoeffesienten og t er fraktilen i t-fordelinga i ein tosidig test med signifikansnivå 0,05. I følge tabell A4.1 hos Hamilton (1992:350) vil vi med meir enn 120 fridomsgrader ha at t 2,5% =1,96. Set vi inn i formelen finn vi no at * 1.96 < β Eg.Utd < * 1.96

5 dvs < β Eg.Utd < Vi skal teste om variabelen «K. til livsopph», kjelde til livsopphald, yter signifikant til modellen. Vi må da gå ut frå at føresetnadene som er presisert ovanfor er rette. Kjelde til livsopphald er dummykoda. Kategorien «Arbeider» er utelatt og fungerer som referansekategori. Dei seks andre kategoriane i variabelen er inkludert i modell 2 og 3, men ikkje i modell 1. Vi kan da nytte testobservatoren F på modellane 1 og 2 for å samanlikne to «nesta» modellar. Når vi samanliknar to modellar, ein med K parametrer og ein med K - H parametrar vil observatoren (RSS[K-H] - RSS[K]) / H F H n-k = RSS[K] / (n-k) i eit utval på n personar vere F-fordelt med H og (n-k) fridomsgrader dersom det faktisk er rett at dei H ekstra variablane ikkje har effekt (dersom H 0 er rett). RSS(*) er residualane sin kvadratsum i dei ulike modellane. Vi forkastar nullhypotesa om at alle koeffesientane til dei H ekstra variablane er null med signifikansnivået α dersom F H n-k er større en α-fraktilen i F-fordelinga med H og (n-k) fridomsgrader. Samanliknar vi modell 1 og 2 ser vi at H = 6 K = 22 n-k= = 2566 RSS[K-H] = RSS[K] = Vi finn da at F H n-k = , og sidan 5 % fraktilen(α) i F-fordelinga med 6 og 2566 fridomsgrader er 2.1 (Hamilton 1992, tabell A4.2) vil vi forkaste nullhypotesa om at variabelen «Kjelde til livsopphald» ikkje bidrar til å forklare variasjonen i brutto hushaldsinntekt. Den forklarte variansen aukar da også frå 50.7% i modell 1 til 53.2% i modell 2.

6 6 b) Bruk modell 2. Finn forventa hushaldsinntekt for hushaldet til ei 40 år gammal kvinne med 12 års utdanning, gift med ein lærar, busett spredtbygd, med deltidsarbeid som funksjonær i kommunen når vi i tillegg får vite at ho har 2 barn og at det ikkje er andre medlemmer i hushaldet. Kva kan lesast ut av koeffesientane for bustadsvariabelen om hushaldsinntekter i Norge? Vi har oppgitt at Alder = 40 Kvinne = 1 Eg.Utd = 12 Fulltidsarb = 0 Eg. arb off sektor = 1 Alle Ekt Stat variablane = 0 Barn i HH = 1 Personar m innt i HH = 2 (kvinne + mann) Alle Bost. variablane = 0 (sidan spredbygd utelatt) KtL Funksj = 1 Resten av KtL variablane =0 (arbeider i kommunen) (sidan gift er utelatt) (variabelen dummykodar barn/ ikkje barn) Frå modell 2 finn vi parameterestimata for samanhengen E[brutto hushaldsinntekt x-variablane] = *Alder *Kvinne *Eg.Utd *Fulltidsarb *Eg. arb off sektor *Ekt Stat Før gift *Ekt Stat Aldri gift *Ekt Stat Uoppg *Barn i HH *Pers m innt i HH *Bost. Sentrum storby *Bost.Forst.storby *Bost. Småby *Bost. Tettst *Bost. Uoppg *KtL Funksj *KtL S.stend *KtL.Elev/ stud *KtL Pens/ trygd *KtL Andre *KtL Uoppg Set vi inn variabelverdiane ovanfor finn vi E[brutto hushaldsinntekt x-variablane] = * * * * * * * * * * * * * * *0

7 * * * * * *0 7 Dette reduserer seg til E[brutto hushaldsinntekt x-variablane] = * * * = * * *2 = Vi finn med andre ord at kvinna høyrer til i eit hushald med brutto hushaldsinntekt på ca 300 tusen kroner. Bustadsvariabelen «Bost. type», bustadstype, er dummykoda med «Bost. Spredtb» som referansekategori. Koeffesientane for dei inkluderte variablane er alle positive. Det tyder at hushaldsinntekta gjennomgåande er lågast for dei som bur spredtbygd. Det er imidlertid interessant å merke seg at verken i sentrum av storby eller for dei som har uoppgitt bostad er hushaldsinntekta signifikant ulike inntekta for hushalda som bur spredt. I den grad låg hushaldsinntekt er eit teikn på lågare levestandard kjem spredtbygd og sentrum av storby ut temmeleg likt når vi har kontrollert for dei andre variablane i modellen. Forstad til storby og småby kjem ut på topp, medan tettstad i landkommune blir liggande omlag midt mellom sentrum av storby og forstad til storby. Dette er vel i stor grad i samsvar med det almenne inntrykket av korleis levekår er fordelt i Norge. Inkludert dummy koeffesient Bost. Sentrum storby Bost. Forst. storby Bost. Småby Bost. Tettst Bost. Uoppg c) Vurder i kva grad modellane 2 og/ eller 3 stettar krava til OLS regresjon. Skilnaden mellom modell 2 og 3 er at i modell 3 er den avhengige variabelen i modell 2 transformert til naturlege logaritmer. Ln(HHinnt) er sett inn som avhengig variabel i staden for HHinnt. Denne typen transformasjon kan brukast t.d. til å lage symmetriske fordelingar for å nærme seg normalfordelte residualar eller til å redusere verknaden av innflytelsesrike case.

8 8 Krava som vart stilt til modell 1 (sjå svar for 2a) gjeld tilsvarande for modellane 2 og 3. Når vi skal vurdere om krava er oppfylt må vi legge til sides spørsmåla som ikkje kan testast. Vi kan ikkje teste modellspesifikasjonskravet at alle relevante variablar er med. Dette kravet kan vi berre argumentere for ut frå teoretisk innsikt i det fenomentet som skal modellerast. Vi kan heller ikkje teste Gauss-Markovkrava om at x-verdiane er faste (dvs. om vi i prinsippet kan trekke nye utval med dei samme x-verdiane) og at feilledda har forventning 0 for alle i At x-verdiane ikkje innheld stokaastiske komponentar må sikrast gjennom utvalsprosedyre og datainnsamling. Sidan OLS teknikken gjer at alle residualane får eit gjennomsnitt på 0 uansett korleis populasjonsverdiane (feilledda) ser ut vil det vere umogeleg å teste føresetnaden i ein OLS regresjon. Dei andre krava kan vi kommentere. Vi ser først på modell 2 1 Modellspesifikasjonen Vi kan her sjekke om irrelevante variablar er inkludert. Vi har alt konkludert med at kjelde til livsopphald yter signifikant til modellen. Alle einskildvariablar er signifikante på 5% nivå eller betre. For ekteskapeleg status og bustadstype kan vi ikkje gjere nokon nøyaktig test, men dei mange kategoriane som er signifikant ulik referansekategorien vil normalt tyde på at heile variabelen er signifikant. Linearitetsføresetnaden kan testast, men vedlegga her inkluderer ikkje diagram eller observatorar som høver til det. 2. Gauss-Marko krava Sidan vi studerer eit tilfeldig utval frå den norske befolkninga er det ikkje truleg vi kan finne autokorrelasjon. Vi har i alle fall ikkje noka hypotese om korleis casa kan sorterast for ein test av autokorrelasjonen. For å vurdere kravet om homoskedastisitet ser vi på plotta av residualen mot predikert Y-verdi (predikert y verdi er ein vekta sum av x-verdiane og fungerer som generell X-verdi i studiet av heteroskedastisitet: variansen til feilleddet skal vere upåverka av kva x-verdiar vi har). Både i modell 2 eller 3 viser plotta tydeleg korleis spreiinga på residualen heng saman med at vi berre har 8 ulike verdiar på den avhengige variabelen. Vi ser også at for låge og høge verdiar av predikert x er det mindre variasjon i residualane enn for midlare veridar. Den «diamantforma» vi her ser gjer at vi må konkludere med at vi har heteroskedastisitet. Dette fører til at testane våre blir feil. Heteroskedastisitet kan ha mange årsaker, som t.d. utelatte variablar eller innflytesesrike case. Ein transformasjon av ein eller fleire variablar kan stundom hjelpe. I oversikten over case som har høg verdi på hatt-observatoren eller på

9 9 Cook s D(i) finn vi ingen med h(i)> 0.13 eller D(i)> Det er berre tre case som har D(i)>0.009 Diagrammet over fordelinga av Cook s D(i) viser da også at det er 2-3 case som skil seg ut med høgare verdi enn dei fleste andre. Dette er casa nr 547, 752 og 2379: Case no. Alder Kvi nne Eg. Ut d HHinnt Fulltidsarb Eg. arb off sektor Ektesk Status Barn i HH Pers m innt i HH Bost. type K. til livsopph Case nr 752 er interessant sidan dette også har den nest høgaste verdien på h(i). Saman med nr 547 se vi at dette er undommar frå hushald med høg inntekt. Det mest «unormale» caset er likevel 2379: ung kvinne med høg utdanning. To inntektstakarar og barn i husholdet vil normalt føre til større brutto hushaldsinntekt enn Det kan vere feil i registreringa eller mistydingar i svar på andre spørsmål. Det er mogeleg at dette caset kan verke inn på regresjonsresultata, men det har neppe noko å seie for heteroskedastisiteten. 3. Krav om normalfordeling av residualen. Fordelinga av residualen ser rimeleg symmetrisk ut og med berre ørlite grann lettar høgrehale enn ei tilsvarande normalfordeling. For residualen finn vi at IQR= (-57.25) = Samanliknar vi standardavviket på med IQR/1.35= ser vi at halane er ørlite grann tyngre enn i ei normalfordeling (jfr. Hamilton 1992:6), men ikkje urovekkjande mye tyngre. Modell 2 ser dermed rimeleg god ut. Frå dei føresetnadene som kan testast finn vi ein viss grad av heteroskedastisitet. Det manglar kanskje også relevante variablar. Eitt case (nr. 2379) med stor innverknad burde truleg vore test vidare. Sidan residualen er tilnærma normalfordelt i modell 2 er det ikkje rimeleg å tru at ein transformasjon av den avhengige variabelen vil kunne gje noko betring. Dei få verdiane som bruttoinntekta kan ta, gjer det også vanskeleg å tenkje seg at transformasjoen kan påverke heteroskedastisiteten i nemnande grad. I tabellane og diagramma for modell 3 ser vi da også at graden av heteroskedastisitet truleg er større. Residualane er ikkje lenger tilnærma normalfordelt og mengda av høge Cook s D(i) er omlag den samme. Særleg ser vi at case nr 2379 framleis er det som har desidert størst D(i). Transformasjonen har ikkje gjort noko for å løyse problema i modell 2 og har forverra statusen for fleire testobservatorar.

10 10 d) Modellane 1-3 er estimert berre på dei observasjonane som inneheld hushaldsinntekt. Dei 360 utelatte personane svarte ikkje på spørsmålet om hushaldsinntekt eller nekta å svare. Drøft generelt problemet med manglande svar i utvalsgranskingar og spesielt problemet med å utelate observasjonar som manglar svar på avhengig variabel. Når personar som skulle vore med i ei gransking ikkje er til stades eller ikkje vil svare på eitt eller fleire spørsmål står vi i fare for å få eit skeivt utval. Det foregår ein seleksjonsprosess. Generelt kan ein seie at dersom seleksjonen på nokon måte kan knyttast til den avhengige variabelen, vil estimata vi finn i utvalet ikkje kunne gjerast gjeldande for populasjonen. Estimata blir skeive. Spesielt vil dette gjelde for manglande svar på den avhengige variabelen. Allment kan ein tenkje seg fleire ulike situasjonar: 1. Det manglar opplysningar for ei gruppe personar på ein eller fleire uavhengige variablar, eller det manglar opplysningar for dei personane som har visse gitte verdiar på ein uavhengig variabel, t.d. X>x eller X<x (X-variabelen seiest da å vere trunkert). Dette er rekna som lite problematisk. Fråfallet gir mindre utvalsstorleik, men fører elles ikkje til skeive parameterestimat. 2. Det manglar opplysningar om kva verdiar ei gruppe personar har på den avhengige variabelen. Dette fører ikkje til problem dersom personane er tilfeldig fordelt over variasjonsområdet til variabelen. Er dei ikkje det, vil det nærme seg situasjonen for sensurerte utval. 3. Sensurerte utval. Det manglar opplysningar om verdien på Y-variabelen for personar som har visse gitte verdiar på den avhengige variabelen, t.d. Y>y eller Y<y (Y-variabelen er trunkert). Opplysningar om kva verdiar dei observerte personane har på X-variablane manglar ikkje. Utvalet vert i dette høvet kalla sensurert. Dette gir alvorlege problem. Parametrar vil bli skeivt estimert og modellen kan bli feilspesifisert. 4. Selekterte utval. Det manglar opplysningar om verdien på variabelen Y for personar som har visse gitte verdiar på ein uobservert variabel Z, t.d. Z<z eller Z>z (Y-variabelen er også i dette høvet trunkert). Utvalet vert kalla selektert. Dersom Z på nokon måte er korrelert med den avhengige variabelen Y fører dette til problem. Parametrar vil bli skeivt estimert og modellen kan bli feilspesifisert.

11 11 5. Trunkerte utval. Det manglar opplysningar om verdiane på både y, og x- variablane for personar som har visse gitte verdiar på den avhengige variabelen, t.d. Y>y eller Y<y (Y-variabelen er trunkert). Sidan også opplysningane om verdiar på x-variablen manglar vert heile utvalet kalla trunkert. Dette gir alvorlege problem. Parametrar vil bli skeivt estimert og modellen kan bli feilspesifisert. I modell 1, 2 og 3 måtte 360 personar ekskluderast frå utvalet fordi det mangla opplysningar om brutto hushaldsinntekt. Når vi i det endeleg utvalet manglar opplysningar om både y og x-verdiar for ein del observasjonar kallast utvalet trunkert. Dette skaper alorlege problem dersom frafallet skjer systematisk i høve til verdien på y-variabelen, t.d. dersom det manglar opplysningar om hushaldsinntekt oftare i hushald med svært låg og/ eller svært høg inntekt. Vi har ikkje her indikatorar som kan seie noko om dette er tilfelle. Sidan det opprinnelege utvalet inneheld data for x-variablane også for dei 360 utelatte kan vi studert hushaldsinntekt i ein utvals-selektert modell (Breen 1996, kap 3). Vi må da laga ein modell av sannsynet for å svare på spørsmålet om hushaldsinntekt. Dersom vi antar at det er eit samband mellom fråfallet og verdiane på y-variabelen, indikert ved z i (y i ), tyder det at modellen vår (det vil her bli brukt matrisenotasjon: y, x, u og β er matriser, i gir rad nr, dvs ein vektor, sjå Breen 1996:34-38) ikkje lenger er y i = E[ y i x i ] + u i = x i β + u i men må modifiserast til y i = E[ y i z i (y i ) = 1 & x i ] + u i Gitt at u er normalfordelt (0, σ) vil modellen bli y i = x i β + σ ue λ i + u i der variabelen λ i er ein hasardrate som gir eit betinga sannsyn for å svare på spørsmålet (sannsynet gitt verdien på ei rad forklaringsvariablar som også verkar inn på svaret på spørsmålet) og σ ue er covariansen (korrelasjonen) mellom u og feilleddet i modellen av z. Denne modellen kan estimerast ved ML-metoden.

12 12 Sidan modellen som er estimert i modell 2 ikkje har med hasardratevariabelen vil estimata bli skeive dersom frafallet ikkje er tilfeldig med omsyn til y.

13 13 OPPGÅVE 3 (vekt 0,45) I vedlegga til oppgåve 3 er det estimert 4 modellar av variabelen «Besøke husflidsforretning» a) Finn eit konfidensintervall for effekten av «Kvinne» i modell 1. I tabellvedlegget for oppgåve 3 modell 1 finn vi at b st. feil ChiSq Pr > ChiSq oddsraten Kvinne < I modell 1 er effekten av Kvinne estimert til å vere med ein standardfeil på I logistisk regresjon er storleiken t= b k / Se bk tilnærma normalfordelt i store utval og i store utval er normalfordelinga og t-fordelinga tilnærma ekvivalente. I store utval kan vi med andre ord finne konfidensintervall for ein parameter i ein logistisk regresjonsmodell på samme måten som i OLS regresjon. Da vil eit 95% konfidensintervall vere gitt ved b Kvinne - SE Kvinne *t 2,5% < β Kvinne < b Kvinne + SE Kvinne *t 2,5% der b er regresjonskoeffesienten, SE er standardfeilen til regresjonskoeffesienten og t er fraktilen i t-fordelinga i ein tosidig test med signifikansnivå 0,05. I følge tabell A4.1 hos Hamilton (1992:350) vil vi med meir enn 120 fridomsgrader ha at t 2,5% =1,96. Set vi inn i formelen finn vi no at * 1.96 < β Kvinne < * < β Kvinne < < β Kvinne < I 95 av 100 granskingar av spørsmålet om kven som ønskjer å vitje husflidsforretninga vil vi vente å finne at kvinner har ein koeffesientverdi i logiten som er mellom 1.05 og 1.5 logiteiningar høgare enn menn sin koeffesientverdi. Forklar kva oddsraten for «Kvinne» seier oss. Ein oddsrate er forholdstalet mellom to odds. Oddsraten mellom oddsen for hendinga «ønskje om å vitje husflidsforretning» (få verdien 1 på avhengig variabel) for kvinner og oddsen for samme hendinga for menn seier kor mange gonger større oddsen for kvinner er samanlikna med oddsen for menn

14 14 Oddsraten for hendinga Y=1 for kvinner i høve til menn når vi kontrollerer for dei andre uavhengige variablane finn vi ved å dividere oddsen for kvinner, e L(kvinner), med oddsen for menn, e L(menn), der L står for den estimerte logiten. Sidan «Kvinne» er dummykoda vil divisjonen gi svaret e b KV = exp{b KV }, der b KV er den estimerte logistiske regresjonskoeffesienten for «Kvinne». Vi finn dermed at oddsraten mellom kvinner og menn i modell 1 er O KV (Y=1) = exp[ ] = , som tyder at oddsen for at kvinner skal ønskje å vitje husflidsforretning er vel 3.5 gonger høgare enn oddsen for menn. Sidan Kvinne er den einaste uavhengige variabelen i modell 1 er dette den ubetinga oddraten. b) Bruk sannsynsratetesten (Hamilton 1992:225) for å avgjere om «Alder» gir ei signifikant yting til å forklare variasjonen i sannsynet for å velje å «Besøke husflidsforretning». Dei fire modellane av «Besøke husflidsforretning» er hierarkisk oppbygd. Alder er inkludert med eit andregradspolynom i modellane 2, 3 og 4, men ikkje i modell 1. Vi kan teste om alder bidrar signifikant til modellspesifikasjonen ved å samanlikne modell 1 og 2 i ein sannsynsratetest (Liklihoodratetest). Testen nyttar den kjikvadratfordelte testobservatoren χ 2 H = -2{log e L K-H - log e L K } der L står for Likelihooden, K er talet på parametrar i den største modellen (her modell 2) og H= talet på fridomsgrader for testen (= talet på variablar som skil mellom dei to modellane = skilnaden i talet på estimerte parametrar: her er dette 2, ein for Alder og ein for Alder**2). Testen er basert på nullhypotesa at regresjonskoeffesientane for Alder og Alder**2 ikkje er statistisk ulik 0. Dersom denne hypotesa er rett er det urimeleg å vente at χ 2 H skal få ein verdi som er svært ulik 0. Loglikelihooden (log e L) i modell 1 er og i modell 2 er den slik at χ 2 H = -2([ ]-[ ])= -2*( )= Med 2 fridomsgrader vil eit kjikvadrat på eller større gi eit signifikansnivå (=sjansen for å forkaste ei rett nullhypotese) på 0.05 eller lågare. Med eit kjikvadrat på vil vi derfor forkaste nullhypotesa.

15 15 Finn oddsraten mellom personar med 17 og 7 års utdanning i modell 4. I følgje kommentarar til vedleggstabellane vil den oppgitte oddsraten i modell 4 gi oss oddsraten for hendinga Y=1 mellom personar som har høgaste verdi på ein gitt avhengig variable i høve til personar som har lågaste verdi. Alternativt kan vi finne dette som O EgUtd (Y=1 modellen) = , O EgUtd (Y=1 modellen) = exp[b EgUtd *(17-7)] = exp[ *10] = , der b EgUtd er den estimerte logit koeffesienten for EgUtd i modell 4. c) Formuler den modellen som er estimert som modell 4. La Y i =1 dersom person i svarar at ein ønskjer å vitje husflidsforretning. Vi lar Y i =0 for alle andre svar. La vidare X 1i = Kvinne, dummy for kvinne, X 2i = Alder, alder i år, X 3i = Alder**2, Alder*Alder, X 4i = Eg.Utd., eiga utdanning i år, X 5i = Barn i HH, dummy for barn i husholdet, der i=1,2,,n gir identiteten til personane i populasjonen. Modell 4 er da definert ved at vi antar at observasjonane våre kan modellerast ved Y i =1/(1+exp{-L i * }) + ε i, der ε i er feilleddet, og L i * er estimert forvente verdi av logiten, L i, som er modellert ved E[L i ]=β 0 +β 1 X 1i +β 2 X 2i +β 3 X 3i +β 4 X 4i +β 5 X 5i Ein antar vidare at modellen er rett spesifisert, dvs.:

16 16 den funksjonelle forma for alle betinga sannsyn for Y=1 er logistiske funksjonar av X-ane (eller Logiten er lineær i parametrane) ingen relevante variablar er utelatt ingen irrelevante variablar er inkluder alle X-variablane er utan målefeil alle case er uavhengige fravær av perfekt multikollinearitet Ein bør vidare vere merksam på at høg grad av multikollinearitet, innflytelsesrike case og sterk grad av diskriminering fører til problem for estimeringa. Finn frå modell 4 forventa sannsyn for å velje å «Besøke husflidsforretning» for ein barnlaus mann på 30 år med 12 års utdanning. Ut frå opplysningane i oppgåva finn vi at Kvinne = 0 Alder = 30 Alder**2 = 30*30 Eg.Utd. = 12 Barn i HH = 0 E[L i i=barnlaus mann på 30 år med 12 års utdanning] = *Kvinne *Alder *Alder** *Eg.Utd *Barn i HH = * * *30* * *0 = * *30* *12. = Pr{Y i = 1} = 1/(1+exp{-E[L i ]}) = 1/(1+exp{-(-2.772)}) = d) Vurder for modell 4 kva for ein variabel som kan seiast å ha størst verknad på sannsynet for å velje å «Besøke husflidsforretning». I dei betinga effekt plotta som er lagt ved for modell 4 har vi samme skala på alle y-aksane. Den maksimale effekten av ein variabel rekna i tilvekst i sannsyn for gitte verdiar av dei andre variablane vert dermed skilnaden mellom topp og botn på kurva i kvart plott Men sidan alle samanhengane er interaksjonar vil denne maksimale tilveksten variere med verdiane på dei andre variablane. Vi ser korleis denne maksimale effekten varierer med verdien på dei andre variablane ved å samanlikne kurvene for ein gitt variabel (dvs. lese plotta vertikalt, t.d. alle plotta for alder). Effekten av alder aukar dramatisk når vi går fra menn til kvinner, lav til høg utdanning og fra barn i hushaldet til ikkje barn i hushaldet. Ser vi på effekten

17 17 av Kvinne ser vi at den veks sterkt frå 20-åringar til middelaldrande, medan den deretter held seg på omlag same nivå for 70-åringar. Effektane av utdanning og barn i haushaldet oppfører seg omlag på same måten, men er heile tida mindre enn effektane av Kvinne og Alder. Alt i alt ser det ut til at alder har størst effekt på sannsynet for å vitje husflidsforretning med unntak for lavt utdanna middelaldrande og eldre. Der har kjønn mest å seie. Vurder kor «god» modell 4 kan seiast å vere. Føresetnadene for modellen er gitt under 3c. Vi kan teste om logiten er lineær i parametrane og om irrelevante variablar er med (jfr. Hamilton 1992:235). Ingen av testane indikerer irrelevante variablar. Vi har imidlertid ikkje nok data til å vurdere funksjonsforma. Ein måte å vurdere den på er å gruppere kvar x-variabel, innan kvar gruppering finn ein gjennomsnittleg y-verdi og reknar denne om til logitverdi. Denne logiten plottar ein inn i eit diagram i høve til den grupperte x- variabelen. Logitverdien bør da tilnærma ligge på ei linje. I desse modellane er alder inkludert med eit andregradspolynom. Dette tyder at logiten ikkje er lineær i alder aleine. På same vis som i OLS regresjon kan vi ikkje teste om alle variablane er inkludert. Det er berre teoretiske vurderingar som kan hjelpe oss i det spørsmålet. Men vi bør vere klar over at utelatne relevante variablar gir ein meir kompliser skjevhet i logistisk regresjon enn i OLS regresjon. Vi kan heller ikkje teste om x-variablane er utan målefeil eller om alle case er uavhengige. Det er datainnsamlingsprosedyren som må sikre oss det. Perfekt multikollinearitet testar seg sjølv. Det gjer estimering umogeleg. Det vi må passe på er om det er høg grad av multikolliearitet eller høg grad av diskriminering (jfr. Hamilton 1992: ). Dette gir usikre estimat (store standardfeil). Tabellvedlegga gir ikkje grunnlag for å vurdere verken multikollinearitet eller diskriminering. Ein modell kan og vurderast ut frå kor godt den passar med data. Eit kriterium på dette er forskjellen i tilpasningskriterium, LogLikelihood, mellom ein modell som berre har konstant (kalla reduced i Whole model test ) og ein modell som inkluderer alle forklaringsvariablane(kalla full i Whole model test ). Denne forskjellen er for modell 4 oppgitt å vere (difference i Whole model test ).

18 18 Kallar vi denne skilnaden i LogLikelihood χ 2 /2 kan denne definerast ved hjelp av testobservatoren χ 2 H frå χ 2 H = -2{log e L K-H - log e L K } med H = alle variablane i modellen, dvs skilnaden mellom den reduserte modellen med berre konstant og den modellen som har alle forklaringsvariablane. Men for å vurdere storleiken på χ 2 /2 bør den normerast. Dette er utgangspunktet for ulike framlegg til determinasjonskoeffesientar. Den enklaste er å sjå på reduksjonen i loglikelihood i høve til modellen med berre konstant (reduced). Denne vert kalla Rsquare(U). I tabellane for modell 4 ser vi at Rsquare (U) = / = Rsquare(U) kan variere mellom 0 og 1. I Hamilton (1992:233) er det definert ein «pseudo R 2» = χ 2 /(n + χ 2 ), Vi finn i modell 4 at pseudo R 2 = /( ) = Denne varierer mellom 1/n (når χ 2 = 0) til eit tal som nærmar seg 1 når vi får perfekt prediksjon. Ein tredje måte å vurdere modellen på er å samanlikne prediksjonane med observerte verdiar. To tabellar i vedlegget samanliknar prediksjon av Y=1 med faktisk observasjon av Y=1. Dersom vi set at predikert Y=1 dersom Pr(Y=1)>0.5 finn vi berre 2 personar i heile utvalet som får predikert Y=1. Desse har også observert Y=1, medan dei 492 andre som også har observert Y=1 får prediksjonen Y=0. Av 2948 case får 492 feil prediksjon. Mellom dei som har observert Y=0 vert prediksjonen rett i 100% av casa, mellom dei som har observert Y=1 vert den rett berre i 0,07% av casa. Senkjer vi kravet til å predikere Y=1 til Pr(Y=1)>0.3 finn vi 305 som får predikert Y=1. Av desse er det 103 som har observert Y=1. I alt finn vi 593 ( ) som får feil prediksjon, 2355 får rett. Mellom dei som har observert Y=0 vert det no predikert rett for 91.77% av casa, medan dei som har observert Y=1 får vi rett prediksjon i 20,85% av casa. Den store auken i rett prediksjon for dei som har observert Y=1 vert meir enn oppvogen av nedgangen i rett prediksjon mellom dei som har observert Y=0. Alt i alt er ikkje tilpasninga i modell 4 mellom observerte og predikerte verdiar så god at den duger til prediksjonsformål. I OLS regresjon kan vi utelate variablar utan konsekvensar for estimeringa av inkluderte effektar dersom dei utelatte er ukorrelert med inkluderte variablar. Slik

19 19 er det ikkje i logistisk regresjon. Utelatte variablar fører til kompliserte skjevheter i effektestimatet også når den utelatte er ukorrelert med dei inkluderte (sjå side 888 i William H. Greene 1997 Econometric Analysis, New Jersey, Prentice Hall). Dette tyder at den samla modellem bør vere ganske god også målt i prediksjonssamanheng før vi kan feste noko som helst slags lit til resultata.