Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

Like dokumenter
FRAMLEGG TIL LØYSING AV EKSAMENSOPPGÅVER I SOS311 / SOS MAI 1998

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

EKSAMENSOPPGÅVER Sommar 1996 FRAMLEGG TIL LØYSING Erling Berge

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMENSOPPGÅVER Haust 1995 FRAMLEGG TIL LØYSING Erling Berge

NORGES TEKNISK NATURVITSKAPELEGE UNIVERSITET Institutt for sosiologi og statsvitenskap FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS31 9 DES 1996

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 4 AUG 1997

EKSAMENSOPPGÅVER Vår 1997 FRAMLEGG TIL LØYSING Erling Berge

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Kausalanalyse og seleksjonsproblem

SOS3003 Eksamensoppgåver

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS 31 MULTIVARIAT ANALYSE

EKSAMENSOPPGÅVER SVSOS316 HAUST 2001 FRAMLEGG TIL LØYSING

EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

TMA4240 Statistikk Eksamen desember 2015

TMA4245 Statistikk Eksamen desember 2016

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

PENSUM SOS Mål for kurset. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Oversikt over Forelesingsnotat, vår 2003

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

STV1020 våren 2018 oppgave 31. Se nederst i dokumentet for nynorsk versjon.

Eksamensoppgåve i TMA4240 Statistikk

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 06. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Kapittel 10: Hypotesetesting

EKSAMENSOPPGAVE STA-1001.

SOS 31 MULTIVARIAT ANALYSE

TMA4245 Statistikk Eksamen august 2014

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS 31 MULTIVARIAT ANALYSE

Litt enkel matematikk for SOS3003

10.1 Enkel lineær regresjon Multippel regresjon

Om eksamen. Never, never, never give up!

Eksamensoppgåve i TMA4255 Anvendt statistikk

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Fasit for tilleggsoppgaver

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

Om eksamen. Never, never, never give up!

S1-eksamen hausten 2017

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2003

EKSAMEN I EMNE TMA4245 STATISTIKK

TMA4240 Statistikk 2014

HØGSKOLEN I STAVANGER

Eksamensoppgåve i TMA4245 Statistikk

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Språk og skrift som er brukt i SOS3003

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

EKSAMENSOPPGÅVER SVSOS316 VÅR 2001 FRAMLEGG TIL LØYSING

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Framflyt. Modellverktøy for flytteprognosar

UNIVERSITETET I OSLO

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

EKSAMENSOPPGÅVER SVSOS3003 Vår 2004 FRAMLEGG TIL LØYSING

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Skoleeksamen i SOS Kvantitativ metode

Seminaroppgave 10. (a) Definisjon: En estimator θ. = θ, der n er et endelig antall. observasjoner. Forventningsretthet for β: Xi X ) Z i.

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

UNIVERSITETET I OSLO

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

EKSAMENSOPPGAVE Georg Elvebakk NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

Sensorveiledning til eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

TMA4240 Statistikk Eksamen desember 2015

EKSAMEN I TMA4255 ANVENDT STATISTIKK

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 VÅREN 2007

Å løyse kvadratiske likningar

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

6.2 Signifikanstester

Løsningsforslag eksamen 25. november 2003

Litt enkel matematikk for SOS3003. Om matematikk. Litt om kva vi treng. Erling Berge

Eksamensoppgave i SØK1004 Statistikk for økonomer

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

TMA4245 Statistikk Eksamen desember 2016

EKSAMENSOPPGÅVE I SVSOS316 REGRESJONSANALYSE

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

TMA4240 Statistikk Høst 2016

Kort overblikk over kurset sålangt

i x i

Tid: Torsdag 11. desember Emneansvarleg: Trygve Almøy

Transkript:

1 EKSAMENSOPPGÅVER SVSOS316 Haust 1999 FRAMLEGG TIL LØYSING Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet «Bruksanvisning» Når ein går igang med å løyse oppgåver må ein ha i minnet at oppgåvene ofte er problematiske i høve til modellbygginga sitt krav om at modellen må vere fundert på den best tilgjengelege teorien. Mangelen på teoretisk fundament for oppgåvene kan forsvarast ut frå to perspektiv. Det avgjerande er rett og slett mangelen på tid og høvelege data for å lage eksamensoppgåver av den «realistiske» typen det er tale om her. Men tar ein for gitt at oppgåvene sjeldan kan seiast å vere teoretisk velfundert, gir jo dette studentane lettare gode poeng i arbeidet med å vurdere modellane kritisk ut frå spesifikasjonskravet. Når ein studerer framlegga til løysingar er det viktig å vere klar over at det som er presentert ikkje er nokon fasit. Dei fleste oppgåvene kan løysast på mange måtar. Dei tekniske sidene av oppgåvene er sjølvsagt eintydige. Men i dei mange vurderingane (som t.d. «Er denne residualen tilstrekkeleg nær normalfordelinga til at vi kan tru på testane?») er det nett vurderingane og argumentasjonen som er det sentrale. På eksamen er tida knapp. Svært få rekk i eksamenssituasjonen å gjere grundig arbeid på heile oppgåvesettet. I arbeidet med dette løysingsframlegget har det vore gjort meir arbeid enn det som ein ventar å finne til eksamen. Somme stader er det teke med meir detaljar i utrekningar og tilleggsstoff som kan vere relevant, men ikkje nødvendig. Men det er ikkje gjort like grundig alle stader. Det må takast atterhald om feil og lite gjennomtenkte vurderingar. Underteikna har like stor kapasitet til å gjere feil som andre. Kritisk lesning av studentar er den beste kvalitetskontroll ein kan ønskje seg. Den som finn feil eller som meiner andre vurderingar vil vere betre, er hermed oppfordra til å seie frå (t.d. på e-mail: <Erling.Berge@sv.ntnu.no> ) 2000

2 Hjelpemiddel som kan nyttast: Kalkulator. Norsk-engelsk/ engelsk-norsk ordbok. Hamilton, L.C. 1992 "Regression with Graphics" Hardy, Melissa A. 1993 «Regression with Dummy Variables» Beck, Richard A. 1983 «An Introduction to Sample Selection Bias in Sociological Data.», ASR Vol.48(June:386-398) SPSS (1998) «Missing Data the Hidden Problem.» -White Paper: http://www.spss.com/cool/papers/missdata.htm Ringdal,K. 1987 "Kausalanalyse i samfunnsvitenskap" Kompendium for SOS31/ SOS311 og SOS301: Multivariat analyse Omfang av pensum innan ulike variantar regresjon 3 vekter for alle variantar stianalyse 1 vekt for alle varantar det er med i logistisk regresjon 1 vekt for 301 og 316 fram til og med haust 98, 2 vekter sidan Fordeling av oppgåver på pensumvariantar og tilhøyrande vekting i karakteren sos 31/311 (fram til sos301 (frå sommar 1997 til sos316 (sommar og haust 1998) sos316 (frå vår 1999) våren 1998) vår 1998) Oppg1-A til D 0,2 0,2 0,15 0,15 Oppg2-A, B og C 0,5 Oppg2-A til D 0,4 0,4 0,4 Oppg3-A, og B 0,2 0,25 Oppg3-A til E 0,45 Oppg4-A til C 0,3 0,2 0,2

3 OPPGÅVE 1 (oppgåve 1 skal løysast av alle) A) Forklar korleis determinasjonskoeffesienten vert rekna ut og kva den tyder. Determinasjonskoeffesienten vert rekna ut som andelen av den totale variansen som kan forklarast av modellen: R 2 = RSS/ TSS y = Σ i (predikert Y i - gjennomsnittleg Y) 2 / Σ i (observert Y i - gjennomsnittleg Y) 2 Determinasjonskoeffesienten kan tolkast som proporsjonal forbetring av prediksjonsevna gitt av kunnskapen om x-variablane relativt til å nytte gjennomsnittet av Y som beste gjetning. Tolkninga er imidlertid avhengig av at føresetnadene for OLS er oppfylt. B) Forklar kva homoskedastisitet er for noko. Dersom variansen til residualen i ein regresjon er den samme for alle verdiar av x-variablane seier vi at regresjonen er homoskedastisk. Det vil seie at var(ε i )=σ 2 for alle i der i indikerer observasjon nr. Dermed er det samme spredning på feilleddet for alle ulike kombinasjonar av observerte x-verdiar. C) Forklar kva «bandregresjon» er for noko. I mange situasjonar både i vanleg regresjon og i logistisk regresjon vil bandregresjon vere eit heuristisk hjelpemiddel for å studere bivariate samanhengar utan at desse er påverka av brot på føresetnader som t.d. utliggarar eller ikkjelineære samanhengar. Framgangsmåten er å dele x-variabelen i visse intervall. Kvart intervall definerer eit band i spreiingsdiagrammet for y-variabelen og intervallet av x-variabelen. Innan dette bandet finn vi median y-verdi (eventuelt uttrykt som logit) og median x-verdi. Dette gir eitt punkt for kvart band og vi kan dra ei line mellom punkta. Lina vil vise «trenden» i data i meininga den mest typiske verdien av y for kvart intervall av x-variabelen. D) Gjer greie for korleis ein kan finne eit resistent alternativ til standardavviket til residualen når ein skal rekne ut skalerte residualar. Estimatet av variansen til ein variabel, s x 2 = var(x) = Σ i (x i - gjennomsnitt av x) 2, er ikkje resistent når data inneheld mange eller alvorlege utliggarar. Eit betre estimat kan lagast med utgangspunkt i medianen av det absolutte medianavviket, MAD = median x i - median(x i ). Variansen, eller standardavviket, er ein fast brøk av dette variasjonsmålet. Eit robust estimat av standardavviket til residualen finn vi dermed som s e =MAD / 0.6745 Dette vert nytta mellom anna til å skalere residualane i robust regresjon når ein skal verne mot effektane av utliggarar.

4 OPPGÅVE 2 I vedlegga til oppgåve 2 er det estimert 2 modellar (kalla stor modell og liten modell) på eit utval på 2634 personar (kalla stort utval). Dei same to modellane er også estimert på eit mindre utval på 2483 personar (kalla lite utval). Dette mindre utvalet får ein ved å trekke ut dei personane som er frå og med 19 til og med 79 år gamle i det store utvalet. A) Ta utgangspunkt i modell 2 og bruk den til å finne estimert verdi av den avhengige variabelen for ein mann på 40 år med 12 års utdanning når vi veit at vedkommande ikkje er sysselsatt på full tid. Finn eit 95% konfidensintervall for effekten av E.utdanning på Ln(E.inntekt). Korleis kan ein tolke regresjonskoeffesienten for E.utdanning? Vi finn estimert verdi for personen ved å sette inn i estimert likning dei variabelverdiane personen har. Modell 2 estimerer likninga Ln(E.inntekt) = 2,9184041+ 0,0590228Alder - 0,0005400Alder**2 + 0,1971411Kvinne - 0,0155570Kvinne*Alder + 0,0001193Kvinne*Alder**2 + 0,0379736E.utdanning + 0,5379283Fulltidsarbeid Estimert verdi av Ln(E.inntekt) for mann, 40 år, 12 års utdanning, deltidsarbeid, Identifikasjon av ledd Parameterestimat Variabelverdi Konstant 2,9184041 2,9184041 X 1i =Alder 0,0590228 *40 2,36091 X 2i =Alder**2-0,0005400 *40*40-0,864 X 3i =Kvinne 0,1971411 *0 0 X 4i =Kvinne*Alder -0,0155570 *0*40 0 X 5i =Kvinne*Alder**2 0,0001193 *0*40*40 0 X 6i =E.utdanning 0,0379736 *12 0,455683 X 7i =Fulltidsarbeid 0,5379283 *0 0 Estimert Y kolonnesum 4,871 Estimert verdi av Ln(E.inntekt) er lik 4,871. Da er inntekt lik exp{4,871} = 130 451, dvs ca 130.000 Når føresetnadene for regresjonen er oppfyllt vil regresjonskoeffesientane vere forventningsrett estimert og dei vil vere t-fordelt med (n-k) fridomsgrader der n er talet på observasjonar og K er talet på parametrar i modellen. I dette høvet er n=2634 og K=8. Talet på fridomsgrader er stort. Den kritiske verdien som i t-fordelinga gir eit 95% konfidensintervall når talet på fridomsgrader er større enn 120 er 1,96 i følge tabell A4.1 hos Hamilton (1992:350).

5 Eit 95% konfidensintervall for effekten av utdanning på Ln(E.inntekt) vert da <0,0379736±0,002375*1,96>, eller <0,0379736±0,004695>, eller <0,0332786, 0,0426686>. Dette tyder at intervallet mellom 0,033 og 0,042 med 95% sannsyn vil innehalde den verkelege verdien av effekten av E.utdanning på Ln(E.inntekt). Koeffesienten for E.utdanning, b 6 =0.036, tyder at dersom vi held andre variablar konstant vil den naturlege logaritmen til ein person si inntekt auke med 0.036 logaritme-einingar for kvart år utdanninga aukar. Dersom vi transformerer tilbake til E.inntekt finn vi at E.inntekt= exp{predikert verdi av Ln(E.inntekt)}= exp{[predikert verdi av Ln(E.inntekt) utan leddet 0,036 X 6 ] + 0,036 X 6 } Dersom vi aukar utdanninga med 1 eining finn vi E.inntekt= exp{[predikert verdi av Ln(E.inntekt) utan leddet 0,036 X 6 ] + 0,036(X 6 + 1)}= exp{[predikert verdi av Ln(E.inntekt) utan leddet 0,036 X 6 ] + 0,036X 6 + 0,036}= exp{[predikert verdi av Ln(E.inntekt) utan leddet 0,036 X 6 ] + 0,036X 6 }*exp{0,036}= exp{[predikert verdi av Ln(E.inntekt)]}*exp{0,036}= exp{[predikert verdi av Ln(E.inntekt)]}*1,037 Av dette ser vi at inntekta til denne personen vil auke med omlag 3,7% dersom alt anna er likt og utdanninga aukar med 1 år. I følge Hardy(1993:56-57) vil vi når den avhengige variabelen er transformert til den naturlege logaritmen til inntekta, kunne tolke regresjonskoeffesienten til ein kontinuerleg variabel (t.d. E.utdanning) som den prosentvise endringa i inntekt for kvar einings endring i variabelen. Med andre ord: for kvart år «E.utdanning» aukar vil inntekta auke med mellom 3,3 og 4,2 prosent. Denne tolkinga er hendig, men gjeld ikkje for dummykoda x-variablar, Dersom x er dummykoda må vi sjå på storleiken 100(exp{b x }-1) for å finne prosentvis endring (Hardy(1993:58)). Dette gir prosentvis endring i Y som skuldast at ein er i gruppa koda 1 heller enn i referansegruppa.

6 B) Formuler den modellen som er estimert som modell 2. Drøft i kva grad krava til OLS regresjon kan seiast å vere stetta. Sett Y 1 =Ln(E.inntekt) X 1i =Alder X 2i =Alder**2 X 3i =Kvinne X 4i =Kvinne*Alder X 5i =Kvinne*Alder**2 X 6i =E.utdanning X 7i =Fulltidsarbeid Modellen er da definert ved Yi = β 0 + β 1 X i1 + β 2 X i2 + β 3 X i3 + β 4 X i4 + β 5 X i5 + β 6 X i6 + β 7 X i7 + ε i, der feila, ε i, er uavhengige og identiske normalfordelte og indeksen i går over populasjonen. Modellestimata gir ein beskrivelse av utvalet. For å kunne dra valide konklusjonar om tilhøva i populasjonen, må følgjande føresetnader, vere rette: I. Modellen er korrekt, dvs.: alle relevante variablar er med ingen irrelevante er med modellen er lineær i parametrane II.Gauss-Markov krava for «Best Linear Unbiased Estimates» (BLUE) er oppfylt, dvs.: Faste x-verdiar (dvs. vi kan i prinsippet trekke nye utval med samme x- verdiar). Feilledda har forventning 0 for alle i, dvs: E(εi )=0 for alle i. Feilledda har konstant varians (homoskedastisitet) dvs: var(εi )=σ 2 for alle i. Feilledda er ukorrelerte med kvarandre (ikkje autokorrelasjon) dvs: cov(εi,εj ) = 0 for alle i j. III. Normalfordelingskravet, dvs.: Feilledda er normalfordelte, dvs: εi ~ N(0, σ 2 ) for alle i. Når desse føresetnadene er stetta vil OLS regresjonen gi oss dei estimata som har minst varians av alle forventningsrette estimat (BUE) og vi kan uttale oss med kjent grad av tryggleik om parameterverdiar i populasjonsmodellen.

7 Når det gjeld det første kravet om at modellen må vere korrekt merkar vi oss at effekten på den avhengige variabelen i modell 2 er signifikant på 5% nivå for alle variablane. Der er med andre ord ingen irrelevante variablar i modellen. Trass i at determinasjonskoeffesienten ligg på 0,61, kan det reisast tvil om alle relevante variablar er med. Reint allment veit ein at inntekter varierer mellom bransjar og mellom privat og offentleg sektor, desse variablane er ikkje med. Det kan imidlertid tenkjast at desse variablane ikkje korrelerer med dei inkluderte variablane. Dersom det er tilfelle er dei ikkje relevante for denne modellen. Dette har vi imidlertid ikkje høve til å sjekke. Vi går ut frå at dersom testane er truverdige vil krav I vere stetta. Når det gjeld Gauss-Markov krava om faste x-verdiar og at feilleddet har gjennomsnitt 0 kan dei ikkje testast. Sidan det her dreiar seg om ei landsomfattande surveygransking er det heller ikkje rimeleg å rekne med autokorrelasjon. Verken problemstilling eller variablar som er brukt gir grunnlag for slike hypoteser. Variansen til restleddet kan vi imidlertid sjekke eit stykke på veg gjennom plottet av residualen mot predikert y-verdi. Predikert Y-verdi er ein vekta sum av x-verdiane og vil fungere som ein indeks over ulike x-verdiar. Kravet om homoskedastisitet tyder at spreiinga til residualen skal vere den samme for ulike x-verdiar. Den avhengige variabelen har berre 8 ulike verdiar. Dette er problematisk i høve til kravet om homoskedastistiet. Vi ser også at spreiinga ser ut til å vekse frå små og opp til midlare verdiar av predikert y, deretter avtar den litt for dei største verdiane. Ein bør konkludere med at det er ein problematisk grad av heteroskedastisitet. Vi kan ikkje heilt tru på testane vi utfører. Vi merkar oss samtidig at vi har nokre observasjonar som ser ut til å vere utliggarar. I tabellen over Cook s D(i) finn vi 5 case med D(i) > 0,01. I følge Hamilton (1992:132) vil Cook s D(i) > 4/n (her er 4/n = 4/2634 = 0,0015) kunne vere observasjonar med stor innverknad. Desse få observasjonane kan og verke inn på testane gjennom effekten på estimatet av standardavviket. Leverage parameteren, h(i), viser små verdiar. Ingen case ser ut til å vere innflytelsesrike på grunn av uvanlege kombinasjonar av verdiar på uavhengige variable. Det tredje kravet om normalfordelte restledd ser imidlertid ut til å vere oppfyllt i rimeleg grad sjølv om medianen (-0,0205) er litt mindre enn gennomsnittet (fordelinga er altså litt høgreskeiv). Dette har samanheng med utliggarar. Det er 5 utliggarar som skil seg ut i boks-plottet av residualen i modell 2. Dette er dei 5 utliggarane som har Cook s D(i) større enn 0,01. Dei 4 største har alder utanfor intervallet 19-79 og vil bli ekskludert i det mindre

8 utvalet brukt i modellane 3 og 4. Dette bør føre til betre symmetri på fordelinga av residualane. Korrelasjonane mellom parameterverdiane viser at det er store element av multikollinearitet mellom Alder og Alder**2 og mellom desse og interaksjonsledda med Kvinne. Også mellom Kvinne og interaksjonsledda der Kvinne inngår er det høge verdiar på korrelasjonane. Dette er også vist i dei høge VIF- verdiane. Dette er imidlertid berre problematisk dersom vi er opptekne av å skille mellom t.d. effekten av Kvinne og interaksjonsledda der Kvinne er med. Det er vi normalt ikkje. Og å skille mellom effekten av Alder og Alder**2 er ikkje verken mogeleg eller teoretisk meiningsfullt. Så lenge estimering er mogeleg skaper ikkje slik innebygd multikollinearitet problem. C) Drøft samanhengen mellom alder og inntekt ut frå dei fire modellane. Modell 1 Modell 2 Modell 3 Modell 4 Konstant b 0 2,922 2,918 2,846 2,829 Alder b 1 0,103 0,059 0,109 0,065 Alder**2 b 2-0,0011-0,0005-0,0012-0,0006 Kvinne b 3 0,531 0,197 0,563 0,207 Kvinne*Alder b 4-0,040-0,016-0,042-0,016 Kvinne*Alder**2 b 5 0,0004 0,0001 0,0004 0,0001 E.utdanning b 6 0,038 0,037 Fulltidsarbeid b 7 0,538 0,530 Vi merkar oss først at effekten av alder og kjønn er svært tydeleg påverka av utdanning og arbeidstidsstatus. Når vi introduserer dei to siste går determinasjonskoeffesienten opp og verknaden til alder og kjønn minkar. Ut fra dette kan ein konkludere at modell 1 og 3 er feilspesifisert. Utdanning og arbeidstidsstatus høyrer med i ein rett modell. I både stor og liten modell gjeld det at dersom vi held dei andre variablane fast vil samanhengen mellom Ln(E.inntekt) og alder vere gitt ved Ln(E.inntekt gitt kjønn, utdanning og arbeidstid) = konstant + b 1 *Alder + b 2 *Alder**2 + b 3 *Kvinne + b 4 *Kvinne*Alder + b 5 *Kvinne*Alder**2, der konstant = b 0 + b 6 *E.utdanning + b 7 *Fulltidsarbeid i den store modellen og berre b 0 i den vesle modellen. For menn blir samanhengen mellom alder og Ln(E.inntekt, gitt utdanning og arbeidstid) = konstant + b 1 *Alder + b 2 *Alder**2 der konstanten= b 0 + b 6 *E.utdanning + b 7 *Fulltidsarbeid

9 For kvinner blir samanhengen mellom alder og Ln(E.inntekt, gitt utdanning og arbeidstid) = konstant + (b 1 + b 4 )*Alder + (b 2 + b 5 )*Alder**2 der konstanten = b 0 + b 3 + b 6 *E.utdanning + b 7 *Fulltidsarbeid Konstanten og koeffesientane for ledda i alderspolynomet blir altså ulik for dei to kjønna. Konstanten vert i tillegg også avhengig av kva verdi ein set på utdanning og arbeidstid. Dette er illusterert for modell 2 med utdanning sett til 17 år og fulltidssysselsetting. Samanhengen mellom alder og Ln(E.inntekt) for menn og for kvinner vil da vere som i figuren nedanfor. Sidan koeffesienten for kvinne-ledda er negative vil kvinner tene mindre enn menn. Vi ser også at forskjellen er størst i 55-60 års alderen. Skilnaden i inntekt mellom menn og kvinner blir for 55 åringar: exp{ b 0 + b 3 *0 + b 6 *17 + b 7 *1 + b 1 *55 + b 2 *55**2 + b 4 *0*55 + b 5 *0*55**2} - exp{ b 0 + b 3 *1 + b 6 *17 + b 7 *1 + b 1 *55 + b 2 *55**2 + b 4 *1*55 + b 5 *1*55**2} = exp{2,918+0,038*17 + 0,538*1 + 0,059*55-0,0005*55**2} - exp{2,918+0,197+0,038*17+0,538*1+(0,059-0,016)*55+(-0,0005+0,0001)*55**2} = exp{ 2,918 + 0,038*17 + 0,538 + 0,059*55-0,0005*55*55} - exp{ 3,115 + 0,038*17 + 0,538 + 0,043*55-0,0004*55*55} = exp{5,8345} - exp{5,454} = 108203 Vidare kan vi fastslå kva alder som gir toppunkt på kurva. Den alderen der inntekta målt i Ln(E.inntekt) er størst er den alderen der den partielt deriverte av Y med omsyn på Alder er lik null, dvs.: δ/δ(alder)y = 0. Sidan den deriverte av ein konstant er lik null vil alle ledda som ikkje inneheld Alder forsvinne. Dermed får vi kravet δ/δ(alder)y = b 1 +2*b 2 *Alder + b 4 *Kvinne + 2*b 5 *Kvinne*Alder = 0 som kan skrivast δ/δ(alder)y = b 1 + b 4 *Kvinne + 2*(b 2 + b 5 *Kvinne)*Alder = 0 Dette gir følgande «Alder for høgaste inntekt» = -(b 1 + b 4 *Kvinne)/( 2*(b 2 + b 5 *Kvinne)) Toppunkta er altså ulike for menn og kvinner Menn får topplønn i alderen -b 1 /2*b 2 Kvinner får topplønn i alderen -(b 1 + b 4 )/( 2*(b 2 + b 5 )) I modell 2 blir dette: Alder (toppinntekt menn) = -0,059/2*(-0,0005) = 59 Alder (toppinntekt kvinner) = -(0,059-0,016)/2*(-0,0005+0,0001) = 53,75

10 5,7 5,6 5,5 Pred Formula Ln(E.i) su sm 5,4 5,3 5,2 5,1 5,0 4,9 4,8 4,7 20 30 40 50 60 70 80 90 Alder D) Samanlikn dei 4 modellane og grei ut om dei viktigaste skilnadene i høve til krava til OLS regresjon.. Vi har ovanfor i punkt b) drøfta krava i høve til modell 2. Under c) noterte vi at modell 1 og 3 kan seiast å vere feilspesifiserte sidan introduksjonen av utdanning og arbeidstidsstatus verkar inn på estimata av effekten av både alder og kjønn. Modell 1 og 2 er estimert på det som vert kalla «stort utval». Dette har 2634 personar. Modellane 3 og 4 er estimert på eit trunkert utval der dei yngste, dei under 19 år, og dei eldste, dei over 79 år, er tatt ut. Dette er på 2483 personar. Ein viktig grunn til å utelate dei aller eldste ser vi i modellane 1 og 2. Dei er begge påverka av utliggarar, særleg modell 1. Og alle utliggarane er over 79 år

11 gamle. I følge Berk (1983:389) vil trunkering av utval etter verdien på ein uavhengig variabel ikkje føre til systematisk skeive utval så lenge modellen er rett spesifisert. Vi får for alle modellane lista opp dei 15 personane som har størst potensiale for innverknad rangert etter hatt-observatoren, h(i). Vi får også lista opp dei personane som har størst verdi på Cook s D(i). D(i) indikerer innverknad på heile regresjonen. Alle dei 15 største h(i) er mye større enn 2K/n som er gitt som grense for å vurdere innverknad. Men i absolutt storleik er dei mye mindre enn verdien 0,2 som er sett som grense for problematiske case. Stort utval 2634 personar i alder 15-94 år M1 K=6 M2 K=8 Lite utval 2483 personar i alder 19-79 M3 K=6 M4 K=8 #case #case #case #case h(i) Alder>79 15 15 h(i) Alder>74 15 15 Cook s D(i) Alder>79 12 9 Cook s D(i) Alder>74 8 6 Cook s D(i) Alder<19 1 1 Cook s D(i) Alder<22 2 5 h(i) h(i) h(i) h(i) Alle h(i) er større enn 0,0168 0,0179 Alle h(i) er større enn 0,0130 0,0133 Største h(i) er 0,0441 0,0451 Største h(i) er 0,0166 0,0178 h(i): 2K/n=2*K/2634 0,0045 0,0061 h(i): 2K/n=2*K/2483 0,0048 0,0064 D(i) D(i) D(i) D(i) Alle D(i) er større enn 0,0061 0,0050 Alle D(i) er større enn 0,0034 0,0048 Største D(i) 0,0608 0,0311 Største D(i) 0,0140 0,0144 D(i): 4/n=4/2634 0,0015 0,0015 4/n=4/2483 0,0016 0,0016 Dei personane som har størst potensiale for å ha innverknad på grunn av uvanlege x-verdiar er alle blant dei eldste i utvalet. Det gjeld også etter at dei over 79 er tekne ut. Den faktiske innverknaden av gamle personar slik denne er målt ved Cook s D(i) minkar imidlertid frå det store til det vesle utvalet. I modell 4 er det omlag like mange unge som gamle med stor innverknad. Reduksjonen i maksimum D(i) frå det store til det vesle utvalet er markert. Tilnærminga til normalfordelinga i fordelinga av residualane vert klart betre når vi går fra modell 1 til modell 2. Residualane i modell 3 ser imidlertid ut til å vere mindre tilnærma normalfordelinga enn dei i modell 1. Modell 4 er likevel minst like bra som modell 2. I plotta av residualen mot predikert verdi av Y finn vi for modell 1 eit tydeleg innslag av heteroskedastisitet. Dette er

12 mindre tydeleg i modell 2. I modell 3 ser vi lite endring fra modell 2. Men modell 4 er kanskje noko betre enn modell 2. Testprosedyrene ser dermed ut til å vere mest truverdige i modell 4. Men modell 2 er ikkje opplagt dårlegare. Dei viktige skilnadene mellom modellane i høve til krava til OLS regresjon er med andre ord at spesifikasjonskravet er mye bedre oppfyllt i dei store modellane 2 og 4 at verknaden av utliggarar minkar markert fra stort til lite utval, at residualane vert meir tilnærma normalfordelt når vi går frå liten til stor modell og at heteroskedastisitetsproblemet vert markert mindre når vi går frå liten til stor modell.

13 OPPGÅVE 3 I ein studie av marknadsføring av landbruksprodukt vart det spurt om interesse for direkte levering av varer frå produsenten. I vedlegget til oppgåve 3 er det estimert to modellar av kven som uttrykkjer interesse for dette. Ved ein beklageleg feil er kodane for Y bytt om slik at modellen som er estimert gir oss sannsynet for svaret Y= nei/ veit ikkje. Sannsynet for Y=ja finn vi da som 1 - Pr(Y=nei/ veit ikkje). Vi skal følgje dei taballane som er gitt i oppgåveteksten men ta omsyn til feilen i tolkninga av resultata. A) I vedlegget med variabeldefinisjonar er det ein variabel kalla «Ekteskapeleg status». Forklar korleis slike variablar kan nyttast i logistisk regresjon. Kategoriske variablar som t.d. «Ekteksapeleg status» kan inkluderast i regresjonar dersom ein lagar nye hjelpevariablar ES i (j), ein for kvar av dei 4 kategoriane i «Ekteskapeleg Status». Indeksen i viser til person nr og j til kategori nr. Ved dummykoding vert ES i (j) sett til 1 dersom person i er i kategori j på «Ekteskapeleg Status», 0 dersom person i ikkje er det. Det finst andre kodemåtar enn dummy koding. Hamilton (1992: 99) omtalar effekt koding. Hardy (1993:71) nemner også kontrast koding. Vi kan nytte ein av hjelpevariablane som avhengig variabel i logistisk regresjon, t.d. den som indikerer om ein person er gift eller ikkje er gift. Vi kan da lage ein modell for å predikere sannsynet for å vere gift. Vi kan vidare nytte «Ekteskapeleg status» variabelen som uavhengig variabel i logistisk på samme måten som vi gjer det i lineær regresjon ved å ta inn i modellen alle utan ein av hjelpevariablane. Den utelatte hjelpevariabelen gir oss referansekategorien. B) Test om variabelen «Ekteskapeleg status» gir eit signifikant bidrag til modell 1 og forklar korleis koeffesienten for variabelen «Aldri gift» kan tolkast. For å teste om «Ekteskapeleg status» har ein effekt på avhengig variabel testar vi om regresjonskoeffesientane for «Aldri gift», «Før gift» og «Uoppgitt e.status» samtidig er lik 0. Testobservatoren er da minus to gonger skilnaden i LogLiklihood. Denne observatoren er kjikvadratfordelt med H (=skilnaden i talet på estimerte parametrar) fridomsgrader dersom nullhypotesa er rett. Observatoren er definert som

14 χ H 2 = -2{log e L K-H - log e L K } der L står for Liklihooden og K er talet på parametrer i den største modellen og H er talet på variablar som skil mellom dei to modellane (=skilnaden i talet på estimerte parametrar). Ut fra skilnadene i logliklihood mellom modell 1 og meodell 2 finn vi kjikvadratet χ 3 2 = -2{log e L 5 - log e L 8 }=-2{-1933.150545-(-1925.868906)}=-2{-7,28164} χ 3 2 = 14.5633 Med 3 fridomsgrader og 5% signifikansnivå forkastar vi nullhypotesa når kjikvadratet er større enn 7,815. Det observerte kjikvadratet er nesten dobbelt så stort. Ekteskapeleg status gir dermed eit signifikant bidrag til modellen av kven som IKKJE kan tenkje seg leveringsavtale. Referansekategorien for hjelpevariabelen «Aldri Gift» er «Gift». «Aldri gift» har ein koeffesient på 0,37. Dette tyder at «logiten» til ein aldri gift person er 0,37 «logit-einingar» større enn det ein tilsvarande gift person har. Det tyder vidare at oddsen for at ein aldri gift person skal vere negativ til leveringsavtale er exp{0,37}=1,45 gonger større enn oddsen for ein tilsvarande gift person. C) Formuler den modellen som er estimert i vedlegget «Oppgåve 3 modell 1» La Y i =1 dersom person i IKKJE svarar ja på spørsmålet «Kunne du tenkje deg å inngå avtale med ein bonde om fast levering på døra av t.d. poteter, egg eller kjøtt til vanleg butikkpris?» og la Y i =0 dersom personen svarar ja. Sett vidare X 1i 2i = «Alder» «Kvinne» = 1 alder dersom for person ii er kvinne, 0 elles X 3i = «E.utdanning» = talet av år utdanning hos person i X 4i = «Barn i hushaldet» = 1 dersom det er barn i hushaldet til person i X 5i = «Aldri gift» = 1 dersom person i aldri har vore gift, 0 elles X 6i = «Før gift» = 1 dersom person i er i «før gift» status, 0 elles X 7i = «Uoppgitt e. sta» = 1 dersom person i sin ekteskapelege status er ukjent, 0 elles

15 Modell 1 er da defiinert ved at vi antar at Y i =1/(1+exp{-L i * }) + ε i, der ε i er feilleddet og L i * er estimert verdi av logiten L i som er modellert ved E[L i ]=β 0 + β 1 X 1i + β 2 X 2i + β 3 X 3i + β 4 X 4i + β 5 X 5i + β 6 X 6i + β 7 X 7i Ein antar vidare at modellen er rett spesifisert, dvs.: den funksjonelle forma for alle betinga sannsyn for Y=1 er logistiske funksjonar av X-ane ingen relevante variablar er utelatt ingen irrelevante variablar er inkludert alle case er uavhengige fravær av perfekt multikollinearitet Ein bør vidare vere merksam på at høg grad av multikollinearitet, innflytelsesrike utliggarar og sterk grad av diskriminering fører til problem for estimeringa. D) Finn sannsynet for at ei 50 år gammal aldri gift kvinne utan barn IKKJE svarar ja på spørsmålet om interesse for direkte levering når vi får vite at ho har 12 års utdanning. Frå modell 1 finn vi at vi kan estimere logiten til person i ved L i * =0.337 +0.016X 1i -0.206X 2i -0.032X 3i -0.184X 4i +0.374X 5i -0.023X 6i -0.212X 7i der x-ane er gitt som under punkt c) Vi har gitt at Alder= 50 Kvinne= 1 E.utdanning= 12 Barn i husholdet= 0 Aldri gift= 1 Før gift= 0 Uoppgitt e. sta= 0 Da kan vi rekne ut logiten L * (alder 50 år, kvinne, 12 år utdanning, ingen barn, aldri gift)= 0.337 +0.016*50-0.206*1-0.032*12-0.184*0+0.374*1-0.023*0-0.212*0= 0.337 +0.016*50-0.206-0.032*12+0.374= 0.337 +0.8-0.206-0.384+0.374=0,921

16 Eit estimat av sannsynet for at ei 50 år gammal aldri gift kvinne utan barn IKKJE svarar ja på spørsmålet om interesse for direkte levering, når vi får vite at ho har 12 års utdanning, finn vi da ved å sette logiten inn i Y i * =1/(1+exp{-L i * }): Estimert Pr(Y=1 alder 50 år, kvinne, 12 år utdanning, ingen barn, aldri gift) = 1/ (1+ exp{-0,921}) = 0,715 E) I tre tabellar er prediksjonar frå dei to modellane samanlikna med observerte svar. Kva kan ein lese ut av tabellane? På grunn av kodefeilen i estimeringsfasen er dei tabellane som er presentert vanskelege å tolke. Hugs at i observerte data tyder 1=ja medan i predikerte data tyder 0=ja (1= ikkje-ja) Prediksjon av «Leveringsavtale -IKKJE ja» stor modell mot «Leveringsavtale - ja» Prediksjon av «Leveringsavtale -IKKJE ja» liten modell mot «Leveringsavtale - ja» Leveringsavtale -ja observerte frekvensar Count 0 1 Sum prediksjon 0 1715 1056 2771 stor modell 1 94 83 177 Sum 1809 1139 2948 Leveringsavtale -ja observerte frekvensar Count 0 1 Sum prediksjon 0 1784 1114 2898 liten modell 1 25 25 50 Sum 1809 1139 2948 Prediksjon av «Leveringsavtale -IKKJE ja» liten modell mot prediksjon av «Leveringsavtale -IKKJE ja» stor modell Leveringsavtale -ja prediksjon stor modell Count 0 1 Sum prediksjon 0 2744 154 2898 liten modell 1 27 23 50 Sum 2771 177 2948 Samanliknar vi predikerte med observerte frekvensar ser vi at av 1139 som svarte ja på spørsmålet klarer modellen å predikere rett for 1056 personar stor modell. I liten modell er det enno fleire, 1114. som får rett prediksjon av ja svar.

17 Begge modellane ser dermed ut til å «treffe» bra dei som svarar ja. Men dersom prediksjonen er den samme for dei fleste, er det ikkje oppsiktsvekkjane at ein treffer godt på nett den kategorien. Av 2948 personar som er med i studien er begge modellane einige om prediksjonen «ja» for 2744, medan det berre var 1139 som faktisk svarte slik. Og enno verre: det er berre 23 som får predikert IKKJE-«ja» i begge modellane, medan det faktisk var 1809 som svarte slik. Ein kan forsøksvis rekne ut andel med rett prediksjon av alle I modell 1: (1056+94)/2948=0,39 I modell 2: (1114+25)/2948=0,39 Dette er nett proporsjonen av observerte case som svarar «ja» på spørsmålet. Hovudkonklusjonen frå desse tabellane må vere at modellane som er estimert er lite eigna til prediksjon. Det hindrar likevel ikkje at dei kan vere teoretisk interessante.

18 OPPGÅVE 4 (oppgåve 4 skal løysast av alle som skal ha eksamen i SOS31/ SOS311/ SOS301/ og SOS316 gammalt pensum) I vedlegga til oppgåve 4 er det estimert 5 ulike modellar. Tre av dei kan lesast som eit estimat av ein fullspesifisert rekursiv stimodell. A) Teikn sti-diagrammet slik at det viser kausalstrukturen i relasjonane mellom variablane i modellen. Bruk diagrammet til å finne dei direkte og inndirekte effektane av «Kvinne» på «Flyreiser i Norge». Stidiagram for kausalstrukturen i forklåringa av «Flyreiser i Norge» ζ 2 =0,491 ρ X3X2 = 0,43 X 5 =Fulltidsarbeid X 1 =Kvinne X 2 =Alder γ 25 =0,535 γ 21 =-0,190 γ 22 =0,177 γ 23 =-0,080 γ 11 =-0,051 Y 2 =Egen inntekt β 21 =0,284 γ 35 =-0,051 γ 31 =-0,044 γ 33 =0,069 β 32 =0,260 Y 3 = Flyreiser i Norge X 3 =Mors utd. ρ X4X3 = 0,64 γ 12 =-0,171 γ 13 =0,145 Y 1 =Egen utdanning β 31 =0,132 X 4 =Fars utd. γ 14 =0,238 ζ 1 =0,798 ζ 3 =0,883

19 Direkte effekt av «Kvinne» på «Flyreiser i Norge», γ 31 =-0,04400 Indirekte effekt av «Kvinne» på «Flyreiser i Norge», 1) fra «Kvinne» via «Egen inntekt», β 32 * γ 21 = 0,260*(-0,190) = -0,04940 2) fra «Kvinne» via «Egen utd.», β 31 * γ 11 = 0,132*(-0,051) = -0,00673 3) fra «Kvinne» via «Egen utd.» og «Egen inntekt», β 32 * β 21 * γ 11 =0,260*0,284*(-0,051) = -0,00377 Sum indirekte effektar = -0,05990 B) Formuler den fullspesifiserte modellen som ligg til grunn for diagrammet. Kva kan seiast om brot eller ikkje brot på føresetnadene i den estimerte stimodellen? Sett Y 3 = Y 2 = Y 1 = X 1 = X 2 = X 3 = X 4 = X 5 = Flyreiser i Norge Egen inntekt Egen utdanning Alder Kvinne Mors utd. Fars utd. Fulltidsarbeid Då er den fullspesifiserte rekursive modellen definert ved Y 1 = γ 13 X 3 + γ 12 X 2 + γ 11 X 1 + ζ 1, Y 2 = β 21 Y 1 + γ 23 X 3 + γ 22 X 2 + γ 21 X 1 + ζ 2 og Y 3 = β 32 Y 2 + β 31 Y 1 + γ 33 X 3 + γ 32 X 2 + γ 31 X 1 + ζ 3 der vi antar at variablane er standardiserte z-skårar, at restledda ζ 1, ζ 2, og ζ 3 stettar krava til OLS-regresjon og at dei er ukorrelerte med kvarandre. OLS føresetnadene kan presiserast til: I. Modellen er korrekt, dvs.: alle relevante variablar er med ingen irrelevante er med modellen er lineær i parametrane

20 II.Gauss-Markov krava for «Best Linear Unbiased Estimates» (BLUE) er oppfylt, dvs.: Faste x-verdiar (dvs. vi kan i prinsippet trekke nye utval med samme x- verdiar). Feilledda har forventning 0 for alle i, dvs: E(εi )=0 for alle i. Feilledda har konstant varians (homoskedastisitet) dvs: var(εi )=σ 2 for alle i. Feilledda er ukorrelerte med kvarandre (ikkje autokorrelasjon) dvs: cov(εi,εj ) = 0 for alle i j. III. Normalfordelingskravet, dvs.: Feilledda er normalfordelte, dvs: εi ~ N(0, σ 2 ) for alle i. Når desse føresetnadene er stetta vil OLS regresjonen gi oss dei estimata som har minst varians av alle forventningsrette estimat og vi kan uttale oss med kjent grad av tryggleik om parameterverdiar i populasjonsmodellen. Tabellane gir ikkje mye opplysningar som kan nyttast til å vurdere om føresetnadene er oppfylt. Kravet om rett spesifikasjon på modellen kan vanskeleg vurdrast. Nokre av variablane er ikkje signifikante. Men dette har ingen store konsekvensar for tolkingane. Det kan på allment grunnlag reisast tvil om linearitetsføresetnaden, t.d. i sambandet mellom alder og inntekt, men det kan ikkje kommenterast vidare. Plottet av residualen mot predikert verdi viser heteroskedastisitet på grunn av få verdiar på den avhengige variabelen både for Flyreiser i Norge og Egen utd. For inntekt er det også antydning til aukande spreiing av residualen etter som predikert inntekt vert større. Autokorrelasjon er ikkje rimeleg å forvente og fordelinga av residualane er det ikkje gitt opplysningar om. Av tabellane er det dermed berre antydninga til heteroskedastisitet som peikar mot at ein i mindre grad bør stole på testane som er nytta.

21 C) Bruk Alwin-Hauser sin metode for å dekomponere effekten av «Mors utdanning» på «Flyreiser i Norge» Dekomponering av varians kan skje framover eller bakover. Slik modellane er estimert her kan vi berre dekomponere framover. Modellen for «Flyreiser i Norge» har ein forklart varians på 11,7%. Variansen til variabelen vert dermed dekomponert i ein forklart varians på 0,117 og ein uforklart varians på 0,883 Ein dekomponerer den forklarte variansen til «Flyreiser i Norge» framover ved å sjå på differansar i determinasjonskoeffesientane for dei reduserte likningane til modellen (jfr. Ringdal 1987:103): 1. Varians forklårt av eksogene variablar: R(X 1, X 2 X 3, X 4, X 5 ) = 0,051 2. Tillegg i forklårt varians frå Y 1 : R(Y 1, X 1, X 2 X 3, X 4, X 5 ) - R(X 1, X 2 X 3, X 4, X 5 ) = 0,084-0,051 = 0,033 3. Tillegg i forklårt varians frå Y 2 : R(Y 2, Y 1, X 1, X 2 X 3, X 4, X 5 ) - R(Y 1, X 1, X 2 X 3, X 4, X 5 ) = 0,117-0,084 = 0,033 Sum= 0,117