EKSAMENSOPPGÅVER Vår 1997 FRAMLEGG TIL LØYSING Erling Berge

Like dokumenter
FRAMLEGG TIL LØYSING AV EKSAMENSOPPGÅVER I SOS311 / SOS MAI 1998

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

SOS3003 Eksamensoppgåver

NORGES TEKNISK NATURVITSKAPELEGE UNIVERSITET Institutt for sosiologi og statsvitenskap FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS31 9 DES 1996

SOS3003 Eksamensoppgåver

EKSAMENSOPPGÅVER Sommar 1996 FRAMLEGG TIL LØYSING Erling Berge

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 4 AUG 1997

SOS3003 Eksamensoppgåver

EKSAMENSOPPGÅVER Haust 1995 FRAMLEGG TIL LØYSING Erling Berge

SOS3003 Eksamensoppgåver

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS 31 MULTIVARIAT ANALYSE

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

Kausalanalyse og seleksjonsproblem

TMA4245 Statistikk Eksamen desember 2016

STV1020 våren 2018 oppgave 31. Se nederst i dokumentet for nynorsk versjon.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 06. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

EKSAMENSOPPGÅVER SVSOS316 HAUST 2001 FRAMLEGG TIL LØYSING

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Eksamensoppgåve i TMA4240 Statistikk

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS 31 MULTIVARIAT ANALYSE

Kapittel 10: Hypotesetesting

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

Løsningsforslag eksamen 25. november 2003

SOS 31 MULTIVARIAT ANALYSE

TMA4245 Statistikk Eksamen august 2014

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

HØGSKOLEN I STAVANGER

Eksamensoppgåve i TMA4255 Anvendt statistikk

S1-eksamen hausten 2017

PENSUM SOS Mål for kurset. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Oversikt over Forelesingsnotat, vår 2003

EKSAMENSOPPGAVE STA-1001.

Fasit for tilleggsoppgaver

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Om eksamen. Never, never, never give up!

EKSAMENSOPPGÅVER SVSOS316 VÅR 2001 FRAMLEGG TIL LØYSING

Seminaroppgave 10. (a) Definisjon: En estimator θ. = θ, der n er et endelig antall. observasjoner. Forventningsretthet for β: Xi X ) Z i.

TMA4240 Statistikk Eksamen desember 2015

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Kort overblikk over kurset sålangt

UNIVERSITETET I OSLO

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Å løyse kvadratiske likningar

Framflyt. Modellverktøy for flytteprognosar

Om eksamen. Never, never, never give up!

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

UNIVERSITETET I OSLO

10.1 Enkel lineær regresjon Multippel regresjon

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 02. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

ST0202 Statistikk for samfunnsvitere

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

EKSAMENSOPPGÅVER SVSOS3003 Vår 2004 FRAMLEGG TIL LØYSING

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Matematikk 1, 4MX25-10

Informasjon om eksamen SOS Kvantitativ metode

TMA4245 Statistikk Eksamen desember 2016

FY1006/TFY Løysing øving 7 1 LØYSING ØVING 7

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i TMA4245 Statistikk

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

Tid: Torsdag 11. desember Emneansvarleg: Trygve Almøy

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

TMA4240 Statistikk 2014

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Oversikt over Forelesing Erling Berge Institutt for sosiologi og statsvitskap NTNU

TMA4240 Statistikk Høst 2016

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

i x i

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Prøveeksamen STK2100 (fasit) - vår 2018

Mulige sammenhenger for plassering på samfunnsstigen

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Skoleeksamen i SOS Kvantitativ metode

1 + γ 2 X i + V i (2)

Forslag. Her er to bilde av gutar og jenter som har det fint saman.

Teknisk rapport og analyse av resultat frå Nasjonale prøvar i engelsk 2009

ST0202 Statistikk for samfunnsvitere

Inferens i regresjon

EKSAMEN I EMNE TMA4245 STATISTIKK

Transkript:

1 EKSAMENSOPPGÅVER Vår 1997 FRAMLEGG TIL LØYSING Erling Berge Norges Teknisk Naturvitskapelege Universitet «Bruksanvisning» Når ein går igang med å løyse oppgåver må ein ha i minnet at oppgåvene ofte er problematiske i høve til modellbygginga sitt krav om at modellen må vere fundert på den best tilgjengelege teorien. Mangelen på teoretisk fundament for oppgåvene kan forsvarast ut frå to perspektiv. Det avgjerande er rett og slett mangelen på tid og høvelege data for å lage eksamensoppgåver av den «realistiske» typen det er tale om her. Men tar ein for gitt at oppgåvene sjeldan kan seiast å vere teoretisk velfundert, gir jo dette studentane lettare gode poeng i arbeidet med å vurdere modellane kritisk ut frå spesifikasjonskravet. Når ein studerer framlegga til løysingar er det viktig å vere klar over at det som er presentert ikkje er nokon fasit. Dei fleste oppgåvene kan løysast på mange måtar. Dei tekniske sidene av oppgåvene er sjølvsagt eintydige. Men i dei mange vurderingane (som t.d. «Er denne residualen tilstrekkeleg nær normalfordelinga til at vi kan tru på testane?») er det nett vurderingane og argumentasjonen som er det sentrale. På eksamen er tida knapp. Svært få rekk i eksamenssituasjonen å gjere grundig arbeid på heile oppgåvesettet. I arbeidet med dette løysingsframlegget har det vore gjort meir arbeid enn det som ein ventar å finne til eksamen. Somme stader er det teke med meir detaljar i utrekningar og tilleggsstoff som kan vere relevant, men ikkje nødvendig. Men det er ikkje gjort like grundig alle stader. Det må takast atterhald om feil og lite gjennomtenkte vurderingar. Underteikna har like stor kapasitet til å gjere feil som andre. Kritisk lesning av studentar er den beste kvalitetskontroll ein kan ønskje seg. Den som finn feil eller som meiner andre vurderingar vil vere betre, er hermed oppfordra til å seie frå (t.d. på e-mail: <Erling.Berge@sv.ntnu.no> ) Erling Berge 2000

2 Oppgåve 1 (tel 20% i karakteren) a) Forklar kva determinasjonskoeffesienten er for noko og korleis den skal tolkast. Determinasjonskoeffesienten (R 2 ) er storleiken av den felles variansen mellom ein avhengig variabel og ei gruppe uavhengige variablar. R 2 er eit standardisert mål som vil variere mellom 0 og 1. Vi kan finne den som ein proporsjon ved å sjå kor stor andel den «forklarte variansen» (ESS) utgjer av den totale variansen (TSS): R 2 =ESS/TSS. Vi tolkar determinasjonskoeffesienten som eit uttrykk for kor mye betre prediksjonar av verdiane til den avhengige variabelen dei uavhengige variablane kan gi samanlikna med ein prediksjon lik gjennomsnittsverdien av Y. Tolkninga er avhengig av at føresetnadene for regresjonen er oppfyllt. R 2 er, slik som OLS-regresjon, verken robust eller resistent. R 2 aukar med aukande tal variablar. For å ta omsyn til kompleksisteten i modellen kan det reknast ut ein justert determinasjonskoeffesient R 2 a = R2 - {(K-1)*(1- R 2 )} / (n-k), der n=talet på observasjonar og K= talet på parametrar i modellen. Samanlikning av modellar ut frå storleiken på R 2 kan vere problematisk. T.d. vil regresjon gjennom origo gir forklart varians i høve til den «naive» modellen Y=0 istaden for den vanlege Y= gjennomsnittet av Y. Sameleis vil samanlikning av R 2 i modellar der ein brukar transformerte variablar og modellar med utransformerte variablar vere meiningslaus. b) Forklar kva eit konfidensintervall er for noko. I eit tilfeldig trekt utval vil vi i regresjonsanalysen finne estimat av parameterverdiar, t.d. «b». Om ein trekkjer mange utval og reknar ut samme parameteren, vil parameterverdien variere frå utval til utval. Eit konfidensintervall er eit intervall omkring ein estimert parameterverdi (t.d. «b») som er konstruert på ein slik måte av vi med ei viss tiltru (konfidens) kan seie at dette intervallet vil dekke den «sanne» parameterverdien β.

3 c) Forklar kva autokorrelasjon er for noko. Autokorrelasjon er korrelasjon mellom verdiar av samme variabel som skuldast at observasjonane kjem i ei viss rekkefølge etter kvarandre i eit datamateriale. Sorteringsrekkefølga avgjer kva slags autokorrelasjon det dreiar seg om.tydelegast er dette der vi har samme variabelen målt på ulike tidspunkt. Ofte vil ein også der ein har data for geografiske einingar, som t.d. kommunar finne at til nærmare kommunane ligg kvarandere til meir like er dei i variabelverdiar. Vi finn da geografisk autorkorrelasjon. d) Forklar kva «Avgrensa innflytelse regresjon» er for noko. Utliggarar (uvanlege Y-verdiar) skaper problem for OLS-regresjon. Det samme gjer case med stor innverknad (uvanlege x-verdiar eller kombinasjonar av x-verdiar). Robust regresjon har estimeringsmetodar som er laga for å ha betre eigenskapar enn OLS når ein har denne typen avvik frå føresetnadene. Tilnærminga til estimeringa er basert på å gi mindre vekt til dei observasjonane som er uvanlege på denne måten. Vanlegvis har ein berre teke omsyn til uvanlege y-verdiar. I «Avgrensa innflytelse regresjon» tar ein i tillegg til uvanlege y-verdiar omsyn til «leverage», potensialet for innflytelse på grunn av uvanlege x-verdiar.

4 Oppgåve 2 (tel 30% av karakteren) I figur 2.1 nedanfor er det estimert ein stimodell med variablane «Kvinne», «Alder», «Eiga utdanning», «Eiga inntekt» og «Livet på landet best». ζ 1 X1= Alder γ 11 = -0,34 γ 31 = 0,09 Y1= Eiga utd β31= 0,22 ζ 3 γ 21 = 0,17 γ 12 = 0,05 X2= Kvinne γ 22 = 0,32 β 21 = 0,36 Y2= Eiga innt Y3= Livet på landet best β32= 0,05 Figur 2.1 ζ 2 a) Skriv opp likningssystemet som definerer den fullspesifiserte versjonen av modellen i figur 2.1. Gjer greie for Wrights reglar for dekomponering av ein korrelasjon og nytt dei til å finne den indirekte effekten frå «Alder» til «Livet på landet best». La Y 3 = Livet på landet best Y 2 = Eiga innt Y 1 = Eiga utd X 1 = Alder X 2 = Kvinne Vi antar at variablane er standardiserte z-skårar og at restledda ζ1, ζ2, og ζ3 stettar krava til OLS-regresjon og at dei er ukorrelerte med kvarandre. Følgjande likningssystem definerer den fullspesifiserte versjonen av den rekursive strukturmodellen som er estimert i figur 2.1: Y 1 = γ 12 X 2 + γ 11 X 1 + ζ 1 Y 2 = β 21 Y 1 + γ 22 X 2 + γ 21 X 1 + ζ 2 Y 3 = β 32 Y 2 + β 31 Y 1 + γ 32 X 2 + γ 31 X 1 + ζ 3 Ut frå dei opplysningar som er gitt i figur 2.1 ser vi at γ 32 = 0

5 Å dekomponere ein korrelasjon vil seie å dele den opp i direkte og indirekte kausale element og i spuriøse effektar, felles effektar og eventuelt ein residual (der modellen ikkje er fullspesifisert). Wrights reglar hjelper oss til å gjere ei slik dekomponering ut frå diagrammet. Dersom vi skal dekomponere korrelasjonen ρ ij vil vi finne dei kausale effektane (direkte og inndirekte) ved å studere alle stiar som går frå variabelen j til variabelen i. Kvar sti er tilordna ein storleik, stikoeffesienten, som gir uttrykk for styrken i den direkte kausale effekten. I opplistinga av enkle eller samansette stiar mellom j og i, må vi for kvar einskild sti sikre oss at 1. Stien ikkje går gjennom samme variabel meir enn ein gong, 2. Stien ikkje går bakover langs ei pil etter at den har gått framover langs samme pila tidlegare, og 3. Stien ikkje går gjennom ei pil med to hovud meir enn ein gong. 4. Storleiken på effekten av ein samansett sti er lik produktet av stikoeffesientane for dei ulike direkte kausale effektane som inngår. Spuriøse effektar finn vi der vi kan tale om felles bakanforliggande «årsaker» for dei to variablane j og i. Produktet av to stiar, ein til i og ein til j, frå deira felles bakanforliggande «årsak» gir styrken i den spuriøse effekten frå denne bakanforliggande «årsaka». Er der fleire ulike stiar vil dei ulike spuriøse effektane adderast. Felleseffektar oppstår når det er ein substansiell korrelasjon mellom to eksogene variablar. Storleiken av den finn vi analogt med den spuriøse effekten, men no med felleskomponenten til to «bakanforliggande årsaker» som utgangapunkt. Felleseffekten vert ein samansett sti av både korrelasjonen (som uttrykk for styrken av felleskomponenten i dei to eksogene variablane) og stiane frå kvar av variablane fram mot i eller j. Dersom det ikkje er ein fullspesifisert modell, vil vi finne residualen som skilnaden mellom observert korrelasjon og sum av {direkte og indirekte kausalledd, spuriøse ledd, felleseffektar}. Dersom modellen er god skal residualen bli liten samanlikna med korrelsjonen. Indirete effekt frå «Alder» til «Livet på landet best» blir da dei tre stiane β 31 * γ 11 + β 32 * γ 21 + β 32 * β 21 * γ 11 = (-0,22)*(-0,34) + (-0,05)*(0,17) + (-0,05)*(0,36)*(-0,34)= 0,0748-0,0085 + 0,00612 = 0,07242

6 b) I tabellvedlegget til oppgåve 2 er det gitt utskrifter for estimatet av modellen saman med estimat av dei reduserte likningane. Bruk Alwin-Hauser s metode til å dekomponere korrelasjonen mellom «Eiga utd.» og «Livet på landet best». Bruk så Alwin-Hauser s metode til å dekomponere framover variansen i «Livet på landet best». Dekomponering ved hjelp av Alwin-.Hauser s metode baserer seg på systematisk bruk av reduserte likningar. I korrelasjonar som involverer «Livet på landet best» (Y 3 ) må ein da ta utgangspunkt i likninga for Y 3. Vi noterte under a) at γ 32 = 0. Likninga for Y 3 og dei reduserte likningane er da Y 3 = β 32 Y 2 + β 31 Y 1 + γ 31 X 1 + ζ 3 = 0,04922 Y 2 + ( 0,21765) Y 1 + 0,091431 X 1 + ζ 3, Y 3 = β 31 Y 1 + γ 31 X 1 + ζ 3 = -0,23641*Y 1 + 0,081951*X 1 + ζ 3, Y 3 = + γ 31 X 1 + ζ 3 = + 0,161613*X 1 + ζ 3, Vi finn oppgitt i tabellane at korrelasjonen mellom «Eiga utd.» (Y 1 ) og «Livet på landet best» (Y 3 ) er: ρ 31 = -0,264. I dekomponering av denne korrelasjonen finn vi den totale effekten av variabelen «Eiga utd.» (Y 1 ) som stikoeffesienten i den første reduserte likninga variabelen finst, dvs. der vi har berre variabelen Y 1 og eventuelle bakanforliggande variablar. Den direkte effekten er stikoeffesienten i den fullstendige likninga for Y 3 og inndirekte effektar som går gjennom mellomliggande variablar som t.d. Y 2 finn vi som differansen mellom stikoeffesientane til Y 1 i dei to likningane der den mellomliggande variabelen er den einaste skilnaden. Spuriøse ledd (pluss eventuelt felleseffektar og residual) finn vi som differansen mellom korrelasjon og total effekt. Total effekt = β 31 = -0,236 Direkte effekt = β 31 = -0,218 Indirekte effekt via Eiga inntekt (Y 2 )= β 31 - β 31 = -0,236 - (-0,218)= - 0,018 Spuriøse ledd + felleseffektar + residual = korrelasjon - total effekt = -0,264 - (-0,236) = -0,028 Korrelasjonen mellom X 1 og X 2 er på - 0,053. Dette er for lite til at det er substansielt interessant. Det kan derfor ikkje vere tale om felleseffektar i modellen. Modellen er imidlertid ikkje fullspesifisert. Det kan da finnast ein residual i tillegg til dei spuriøse ledda. Men sidan summen av spuriøse ledd og residual totalt er liten er det grunn til å tru at modellen har god tilpasning. Den totale variansen vert ofte delt i «forklart» (=R 2 ) og «forklart» varians (=1-R 2 ). Når ein talar om å dekomponere variansar er det gjerne tale om å

7 fordele den forklarte variansen på dei ulike variablane i modellen. I modellar med indirekte effektar og spuriøse ledd finst det imidlertid ikkje noka eintydig dekomponering. Når ein har eit klart hierarki kan det likevel vere interessant å sjå på tillegget i forklart varians etter kvart som ein legg til variablar lenger ute i hierarkiet. Dette er dekomponering framover. Når ein ved hjelp av Alwin-Hausers metode skal dekomponere framover variansen i «Livet på landet best», tar ein utgangspunkt i determinasjonskoeffesientane for dei reduserte likningane av Y 3 og studerer korleis denne aukar når vi legg til ein og ein variabel. Determinasjonskoeffesienten for Y 3 er R 32 (X 1 ) = 0.026, for Y 3 er R 3 2 (X 1, Y 1 ) = 0.076, og for Y 3 er R 32 (X 1, Y 1,Y 2 ) = 0.078. Variansen i Y 3 kan då delast opp i 1) varians forklart av X 1 = R 3 2 (X 1 )= 0.026 2) tillegg i varians forklart av Y 1 = R 3 2 (X 1, Y 1 ) - R 3 2 (X 1 ) = 0,076-0,026= 0.050 3) tillegg i varians forklart av Y 2 = R 3 2 (X 1, Y 1,Y 2 ) - R 3 2 (X 1, Y 1 ) = 0,078-0,076= 0.002

8 Oppgåve 3 (tel 50% av karakteren) a) I tabellvedlegget til oppgåve 3 er det estimert 5 ulike modellar av haldninga til «Vassdragsutbygging». La Y = Vassdragsutbygging X 1 = Alder X 2 = Offentleg sektor X 3 = E.inntekt X 4 = Kvinne X 5 = Kvinne*E.innt X 6 = E.utdanning X 7 = Kvinne*E.utd X 8 = E.utd*E.innt X 9 = Kvinne*E.utd*E.innt X 10 = Sentrum storby X 11 = Forstad storby X 12 = Småby X 13 = Tettstad X 14 = E.innt*Sentrum X 15 = E.innt*Forstad X 16 = E.innt*Småby X 17 = E.innt*Tettstad X 18 = Kvinne*Sentrum X 19 = Kvinne*Forstad X 20 = Kvinne*Småby X 21 = Kvinne*Tettstad Vi ser at dei 21 tekniske variablane representerer 6 substansielle variablar: Alder, Offentleg sektor, Kvinne, Eiga utdanning, Eiga inntekt og Bustadstype. Bustadstype er dummykoda med fire kategoriar der spredtbygd er referansekatoegori. Resten av variablane (12) er interaksjonsledd. Dei 5 modellane som er estimert er hierarkisk oppbygd, Modell 1 har med dei 3 første variablane (X 1 -X 3 ), modell 2 dei 5 første (X 1 -X 5 ), modell 3 dei 9 første og modellane 4 og 5 alle variablane. Den avhengige variabelen Y, «Vassdragsutbygging», gir for store verdiar uttrykk for positiv haldning til å bygge ut vassdrag ut frå at det er viktigare med rein energi enn urørd natur. Låge verdiar på variabelen gir uttrykk for ei negativ haldning til utbygging med denne grunngjevinga. Vi går ut frå at den 5 punktsskalaen som er nytta for variabelen er basert på ein teori om at den underliggande haldninga kan variere kontinuerleg og at avstandane mellom dei ulike kategoriane vert oppfatta som å vere omlag like store.

9 Drøft kva modellane fortel om samanhengen mellom sosial bakgrunn og meiningar om vassdragsutbygging. Sosial bakgrunn er i denne samanhengen rimeleg å sjå som ei vid tolking av dei konkrete variablane som inngår i modellane av «Vassdragsutbygging» slik at t.d. Alder vert sett som å referere til konteksten «ung» eller «middelaldrande» eller «gammal», eller «E.inntekt» som uttrykk for levestandard og ressurstilgang. Vi kan oppsummere dei ulike modellane i følgande tabell. Variable Estimate(B) modell 1 Estimate(B) modell 2 Estimate(B) modell 3 Estimate(B) modell 4 Estimate(B) modell 5 (Constant) 1,8511684 1,8770011 1,6062664 1,8016936 1,8008284 Alder 0,0143143 0,0141846 0,0136174 0,0134619 0,0134959 Offentleg sektor -0,173251-0,136006-0,124589-0,125985-0,124856 E.inntekt 0,0006834 0,0008239 0,0023318 0,001216 0,0012073 Kvinne 0,0651529 0,4230198 0,2712066 0,2656804 Kvinne*E.innt -0,001424-0,000381-0,000389-0,00036 E.utdanning 0,024574 0,0230207 0,0231033 Kvinne*E.utd -0,037521-0,032382-0,032228 E.utd*E.innt -0,000122-0,000125-0,000125 Kvinne*E.utd*E.innt -0,000036-0,000036-0,000036 Sentrum storby 0,5609955 0,7567268 Forstad storby -0,168179-0,167615 Småby -0,416928-0,416505 Tettstad -0,253991-0,253504 E.innt*Sentrum -0,001998-0,003784 E.innt*Forstad 0,0014801 0,001479 E.innt*Småby 0,0019769 0,0019739 E.innt*Tettstad 0,0017286 0,0017261 Kvinne*Sentrum 0,256136 0,2433146 Kvinne*Forstad -0,004678-0,005636 Kvinne*Småby 0,2320204 0,23196 Kvinne*Tettstad 0,1560409 0,1559559 Modell 1 omfattar berre Alder, Offentleg sektor og Eiga inntekt. Desse tre variablane har alle signifikant effekt på 5% nivå. I modell 2 er variabelen Kvinne lagt til saman med interaksjonen mellom Kvinne og Eiga inntekt.... Vi testar om Kvinne bidrar signifikant til modellen ved å teste om dei to variablane Kvinne og Kvinne*E.inntekt samla aukar forklart variasjon (RSquare). Nullhypotesen er at dei ikkje gjer det. Samanliknar vi to modellar, ein med K parametrer og ein med K- H parametrar vil observatoren (RSS[K-H] - RSS[K]) / H F H n-k = RSS[K] / (n-k)

10 i eit utval på n personar vere F-fordelt med H og (n-k) fridomsgrader. Vi forkastar hypotesen om at alle koeffesientane til dei H variablane er null med signifikansnivået α dersom F H er n-k større en α-fraktilen i F-fordelinga med H og (n-k) fridomsgrader. Samanliknar vi modell 1 og 2 ser vi at H = 2 K = 6 n-k= 2533-6 = 2527 RSS[K-H] = 2827,2002 RSS[K] = 2812,4324 F H n-k = 6,5925 5% fraktilen i F-fordelinga med 2 og 2527 fridomsgrader er 3,00. Vi vil dermed forkaste nullhypotesa om at Kvinne og interaksjonen Kvinne*E.inntekt ikkje bidrar til å forklare variasjonen i meiningane om Vassdragsutbygging. Den forklarte variansen aukar imidlertid berre frå 6,0% til 6,5%.... Vi ser i modell 1 at effekten av alder og inntekt er positiv, og at offentleg sekter har negativ effekt på haldninga til Vasskraftutbygging. Eldre folk og meir velståande folk og dei som arbeider i privat sektor ser rein energi som viktigare enn urørd natur. Frå modell 2 ser vi at å vere kvinne også har positiv verknad. Kvinner er generelt meir positive til «Vassdragsutbygging» enn menn. Bruken av interaksjonsleddet mellom Kvinne og E.inntekt verkar imidlertid inn på estimatet av effekten av både Eiga inntekt og Kvinne. Vi kan derfor ikkje sjå på effekten av Kvinne separat. Interaksjonen mellom Kvinne og Eiga inntekt viser at kvinner med høg inntekt i mindre grad enn menn med høg inntekt er postive til Vasskraftutbygging. Alt ved ei inntekt på 46.000 vil kvinner i følge denne modellen generelt vere meir skeptisk til utbygging enn menn {Effekten av inntekt på 46.000 for kvinner: (-0,001424*46) + 0,0651529 = -0,065504 + 0,065153 = - 0,000351 < 0}. I modell 3 vert variabelen Eiga utdanning lagt til saman med 3 interaksjonsledd. Vi ser at modellen no omfattar alle interaksjonane mellom Kvinne, Eiga inntekt og Eiga utdanning.... Samanliknar vi modell 2 og 3 ser vi at vi kan teste om utdanning saman med interaksjonane der utdanning er involvert samla gir eit signifikant bidrag til å forklare variasjonen i Vassdragsutbygging. Vi finn H = 4 K = 10 n-k = 2533-10 = 2523 RSS[K-H] = 2812,4324 RSS[K] = 2801,2283 F H n-k = 5,0216 5% fraktilen i F-fordelinga med 4 og 2523 fridomsgrader er 2,37.

11 Vi vil dermed forkaste nullhypotesa om at Eiga utdanning saman med interaksjonen den har med Kvinne og E.inntekt ikkje bidrar til å forklare variasjonen i meiningane om Vassdragsutbygging. Den forklarte variansen aukar imidlertid berre frå 6,5% til 6,9%.... Vi ser at utdanning har positiv effekt på den avhengige variabelen. Effekten av Alder og Offentlig sektor er lite påverka. Effekten av Kvinne har auka dramatisk (den er meir enn seksdobla). Kontrollen for utdanning og interaksjonar mellom Kvinne, E.utdanning og E.inntekt har klare konsekvensar for storleiken av effekten til Kvinne. Dei ulike interaksjonsledda har alle negativ effekt. Skal vi seie noko om effekten av inntekt hos kvinner for å samanlikne med effekten av inntekt hos menn, må vi sjå på den samla effekten av dei ulike ledda og vi må spesisfisere verdien av Eiga utdanning. Berre «Alder» og «Offentleg sektor» kan reknast å vere konstante. Variable Estimate(B) modell 3 (Constant) 1,6062664 Alder 0,0136174 Offentleg sektor -0,124589 E.inntekt 0,0023318 Kvinne 0,4230198 Kvinne*E.innt -0,000381 E.utdanning 0,024574 Kvinne*E.utd -0,037521 E.utd*E.innt -0,000122 Kvinne*E.utd*E.innt -0,000036 For menn blir den partielle samanhengen 0,0023318 * E.innt +0,024574 * E.utd + (-0,000122)* E.utd*E.innt For kvinner blir den partielle samanhengen 0,0023318 * E.innt + 0,4230198* Kvinne + (-0,000381)* Kvinne*E.innt + 0,024574 * E.utd+ (-0,037521)* Kvinne* E.utd + (-0,000122)* E.utd*E.innt + (-0,000036)* Kvinne* E.utd*E.innt = 0,0023318 * E.innt + 0,4230198 + (-0,000381) * E.innt + 0,024574 * E.utdanning+ (-0,037521) * E.utd + (-0,000122)* E.utd*E.innt + (-0,000036) * E.utd*E.innt = 0,4230198 + (0,0023318-0,000381) * E.innt + (0,024574-0,037521) * E.utd + (-0,000122-0,000036) * E.utd*E.innt = 0,4230198 + 0,0019508 * E.innt - 0,012947 * E.utd - 0,000158 * E.utd*E.innt For kvinner med 7 års utdanning blir effekten av inntekt 0,4230198 + 0,0019508 * E.innt - 0,012947 * 7-0,000158 * 7 * E.innt = 0,332391 + 0,0008448 * E.innt For menn med 7 års utdanning blir effekten av inntekt 0,0023318 * E.innt +0,024574 * 7 + (-0,000122)* 7 * E.innt = 0,172018 + 0.0014778 * E.innt

12 Vi ser at effekten av inntekt er positiv for begge kjønn ved 7 års utdanning. Men den er nesten dobbelt så stor for menn (75% større). Kvinner har imidlertid generelt eit høgare nivå (0,33 mot 0,17). Vi kan finne kva inntekt som gir samme marginale tillegg for menn og kvinner ved å sette 0,332391 + 0,0008448 * E.innt = 0,172018 + 0.0014778 * E.innt Dette tyder da at (0,332391-0,172018) = (0,0014778-0,0008448) * E.innt eller 0,160301 = 0,000633 * E.innt Da vil med andre ord E.innt = 0,160301/0,000633 = 253,24 gi samme tillegg i haldningsskåren for både menn og kvinner. Fram til ei inntekt på 253.000 vil kvinner med sju års utdanning vere meir positive til Vasskraftutbygging enn menn med sju års utdanning når alt anna er likt. Når inntekt blir 254.000 og over vil menn vere meir positive. Om utdanninga er 14 år får vi at verknaden av inntekta for menn blir 0,0023318 * E.innt +0,024574 * 14 + (-0,000122)* 14*E.innt = 0,024574 * 14 + (0,0023318 + (-0,000122)* 14)*E.innt = 0,344036 + 0,0006238 * E.innt og for kvinner blir den 0,4230198 + 0,0019508 * E.innt - 0,012947 * 14-0,000158 * 14 * E.innt = (0,4230198-0,012947 * 14) + (0,0019508-0,000158 * 14 )* E.innt = 0,241762-0,0002612 * E.innt Med 14 års utdanning er menn i utgangspunktet meir positive enn kvinner og dei blir meir positive til høgare inntekt dei får. Kvinner blir imidlertid mindre positive til meir inntekt dei får. Interaksjonen mellom kjønn og utdanning gjer at kvinner ein stad mellom 7 og 14 års utdanning skiftar mellom å verte meir positive ved aukande inntekter til å verte meir negative ved aukande inntekter. Utdanning ser ut til å ha motsett effekt for menn og kvinner. Effekten av utdanning er imidlertid ikkje uavhengig av inntekt. For å sjå kva effekt utdannning har for dei to kjønna må ein spesifisere inntekter og sjå på samla effekt av utdanning slik det vart gjort for effekten av inntekt ovanfor. Berre Alder og Offentleg sektor kan haldast utanom reknestykket.

13 I modell 4 er Bustadstype lagt til ved 4 dummykoda variablar. Også interaksjonar mellom Kvinne og Bustadstype og Eiga inntekt og Bustadstype er lagt til.... Samanliknar vi modell 3 og 4 ser vi at vi kan teste om Bustadtype saman med interaksjonane der Bustadtype er involvert samla gir eit signifikant bidrag til å forklare variasjonen i Vassdragsutbygging. Vi finn H = 12 K = 22 n - K = 2533-22 = 2511 RSS[K-H] = 2801,2283 RSS[K] =2775,3887 F H n-k = 1,9482 5% fraktilen i F-fordelinga med 12 og 2511 fridomsgrader er mindre enn 1,83. Vi kan dermed forkaste nullhypotesa om at Bustadstype saman med interaksjonane den har med Kvinne og E.inntekt ikkje bidrar til å forklare variasjonen i meiningane om Vassdragsutbygging. Den forklarte variansen aukar imidlertid berre frå 6,9% til 7,7%.... Samanliknar vi modell 3 og 4 ser vi at effektane av Alder, Offentleg sektor og E.utdanning er omlag uendra positive medan Kvinne og E.inntekt har fått halvert effektane sine. Reduksjonen har har samanheng med dei positive interaksjonseffektane med bustadsvariablane der desse to variablane er involvert. Referansekategorien for Bustadstype er Spredtbygd. Dei som bur spredtbygd er meir positiv til Vassdragsutbygging enn alle andre med unntak av dei som bur i sentrum av storby. Definisjonen av variabelen Bustadstype viser imidlertid at det berre er 44 av dei 2533 personane i utvalet som bur i sentrum av storby. Dette vil gjere det vanskeleg å estimere godt kva effekt denne kategorien har. Ein kan derfor vanskeleg dra slutningar om kva det har å seie for meininga om Vassdragsutbygging at ein bur i sentrum av storby. Størst skilnad ser det ut til å vere mellom dei som bur spredt og dei som bur i småby. Interaksjonsledda er positive med to unntak. At dei er positive viser at Kvinner eller personar med høg inntekt som ikkje bur spredt har meir positiv haldning til Vassdragsutbygging enn tilsvarande personar som bur spredt. Dei to unntaka som er meir negative gjeld kvinner som bur i forstad til storby og (kanskje: jfr. ovanfor) personar med høg inntekt i sentrum av storby. Vi kan summere dette opp ved å notere at høg alder, kvinne, høg utdanning, høg inntekt og spredtbygd bustad alle gir meir positiv haldning til Vassdragsutbygging, medan arbeid i offentleg sektor og bustad i tettstader,

14 småbyar eller forstad til storby gir mindre positiv haldning samanlikna med privat sektor og spredbygd bustad. Vi ser vidare at kvinner med høg utdanning og er mindre positive samanlikna med menn med tilsvarande utdanning, medan kvinner som ikkje bur spredt er meir positive enn kvinner som bur i spredtbygde strok. Effektane er imidlertid jamnt over små. For å endre meining med eitt «meiningspoeng» må vi ha ein aldersforskjell på 74 år om allt anna er likt, eller ein inntektsforskjell på ca 700.000 for ein mann med 14 års utdanning som bur i Småby og allt anna er likt. Gi ei beste gjetning på kva ein 44 år gammal mannleg sakshandsamar som er busett i ein tettstad på Austlandet og arbeider for fylkeskommunen vil meine om vassdragsutbygging når vi veit at vedkommande har 15 års utdanning og tener 220.000 i året. I utrekninga her nyttar vi dei variabelverdiane som er gitt i teksten. Alternativt kunne vi nytta dei variabelverdiane som er nytta i omkodinga av utdanning (14, eller 17 om ein går ut frå at sakshandsamaren har universitetseksamen) og inntekt (240). Drøfting og val av verdiar for bruk i utrekninga er positivt uansett kva verdiar ein vel. Gjetning på variabelverdien «Vassdragsutbygging» = 1,8016936 = 1,8016936 +0,0134619 * Alder +0,0134619 * 44-0,125985 * Offentleg sektor -0,125985 * 1 +0,2712066 * Kvinne +0,2712066 * 0 +0,0230207 * E.utdanning +0,0230207 * 15 +0,001216 * E.inntekt +0,001216 * 220-0,000389 * Kvinne*E.innt -0,000389 * 0*E.innt -0,032382 * Kvinne*E.utd -0,032382 * 0*E.utd -0,000125 * E.utd*E.innt -0,000125 * 15*220-0,000036 * Kvinne*E.utd*E.innt -0,000036 * 0*E.utd*E.innt +0,5609955 * Sentrum storby +0,5609955 * 0-0,168179 * Forstad storby -0,168179 * 0-0,416928 * Småby -0,416928 * 0-0,253991 * Tettstad -0,253991 * 1-0,001998 * E.innt*Sentrum -0,001998 * E.innt*0 +0,0014801 * E.innt*Forstad +0,0014801 * E.innt*0 +0,0019769 * E.innt*Småby +0,0019769 * E.innt*0 +0,0017286 * E.innt*Tettstad +0,0017286 * 220*1 +0,256136 * Kvinne*Sentrum +0,256136 * 0*Sentrum -0,004678 * Kvinne*Forstad -0,004678 * 0*Forstad +0,2320204 * Kvinne*Småby +0,2320204 * 0*Småby +0,1560409 * Kvinne*Tettstad +0,1560409 * 0*Tettstad = 1,8016936 +0,0134619 * 44-0,125985

15 +0,0230207 * 15 +0,001216 * 220-0,000125 * 3300-0,253991 +0,0017286 * 220 = 1,8016936 +0,5923236-0,125985 +0,3453105 +0,26752-0,4125-0,253991 +0,380292 = 2,5946637 Om vi avrundar svaret til næraste heile tal, vil personen svare «Helt umulig å svare» på spørsmålet om han er villig til å bygge ut fleire vassdrag fordi det er viktigare med rein energi enn å bevare naturen.

16 b) Gjer greie for kva føresetnader som ligg til grunn for utsegner om «årsaker» til kva folk i Norge meiner om vassdragsutbygging. Test om «Bostadstype» gir eit signifikant bidrag til forklart varians i «Vassdragsutbygging» Vi legg merke til at det er skrive «årsaker». Årsaksomgrepet er problematisk i regresjonsanalyse. Vi observerer samvariasjon. I dette høver vert den målt ved korrelasjonar. Analysen er imidlertid gjort innan ei teoretisk ramme som gjer det mogeleg å tale om kausalsamband i den meining at den observerte samvariasjonen ikkje er i strid med ein hypotese om kausalitet. Kvar gong vi kan avvise ein alternativ hypotese om at samvarisjonen skuldast andre faktorar (som t.d. tilfeldige samantreff, spuriøsitet, etc.) enn dei mogelege kausale, vil trua på at vi har eit kausasamband bli styrkt. Den teoretiske innsikten i dei kausale sambanda konkretiserer vi i ein modell. Med dei symbola som er definert ovanfor har vi her i modell 4 estimert sambandet Y i = b 0 + b 1 X i1 + b 2 X i2 + b 3 X i3 + b 4 X i4 + b 5 X i5 + b 6 X i6 + b 7 X i7 + b 8 X i8 + b 9 X i9 + b 10 X i10 + b 11 X i11 + b 12 X i12 + b 13 X i13 + b 14 X i14 + b 15 X i15 + b 16 X i16 + b 17 X i17 + b 18 X i18 + b 19 X i19 + b 20 X i20 + b 21 X i21 + e i, der residualane, e i, er uavhengige og identiske normalfordelte og indeksen for utvalsobservasjonane, i, går frå 1 til 2533. Estimatet gir ein beskrivelse av utvalet. For å kunne uttale oss om korleis sambandet mellom sosial bakgrunn og meiningar om vassdragsutbygging er i den norske befolkninga kan føresetnadene om at modellen er rett og at residualane, e i, er uavhengige og identisk normalfordelte, presiserast til: i. Modellen er korrekt, dvs.: alle relevante variablar er med ingen irrelevante er med modellen er lineær i parametrane ii. Gauss-Markov krava for «Best Linear Unbiased Estimates» (BLUE), dvs.: Faste x-verdiar. Feilleddet har forventning 0 for alle i, dvs: E(ε i )=0 for alle i. Feilleddet har konstant varians (homoskedastisitet) dvs: var(ε i )=σ 2 for alle i. Feilledda er ukorrelerte med kvarandre (ikkje autokorrelasjon) dvs: cov(ε i,ε j ) = 0 for alle i j. iii. Normalfordelingskravet, dvs.: Feilleddet er normalfordelt, dvs: εi ~ N(0, σ 2 ) for alle i.

17 Når desse føresetnadene er stetta vil OLS estimata vere dei estimata som har minst varians av alle forventningsrette estimat og vi kan uttale oss med kjent grad av sikkerhet om parameterverdiar i populasjonsmodellen: Y i = β 0 + β 1 X i1 + β 2 X i2 + β 3 X i3 + β 4 X i4 + β 5 X i5 + β 6 X i6 + β 7 X i7 + β 8 X i8 + β 9 X i9 + β 10 X i10 + β 11 X i11 + β 12 X i12 + β 13 X i13 + β 14 X i14 + β 15 X i15 + β 16 X i16 + β 17 X i17 + β 18 X i18 + β 19 X i19 + β 20 X i20 + β 21 X i21 + ε i, der feillekkane, ε i, er uavhengige og identisk normalfordelte og der indeksen for individet, i, går over heile populasjonen. Samanliknar vi modell 3 og 4 ser vi at vi kan teste om Bustadtype saman med interaksjonane der Bustadtype er involvert samla gir eit signifikant bidrag til å forklare variasjonen i Vassdragsutbygging. Samanliknar vi to modellar, ein med K parametrer og ein med K - H parametrar vil observatoren (RSS[K-H] - RSS[K]) / H F H n-k = RSS[K] / (n-k) der RSS(K) er «Residual Sum of Squares» i modellen med K parametrar og RSS(K-H) er «Residual Sum of Squares» i modellen med K-H parametrar, i eit utval på n personar vere F-fordelt med H og (n-k) fridomsgrader. Vi forkastar hypotesen om at alle koeffesientane til dei H variablane er null med signifikansnivået α dersom F H n-k er større en α-fraktilen i F-fordelinga med H og (n-k) fridomsgrader. Vi finn H = 12 K = 22 n - K = 2533-22 = 2511 RSS[K-H] = 2801,2283 RSS[K] =2775,3887 F H n-k = 1,9482 5% fraktilen i F-fordelinga med 12 og 2511 fridomsgrader er mindre enn 1,83. Vi kan dermed forkaste nullhypotesa om at Bustadstype saman med interaksjonane den har med Kvinne og E.inntekt ikkje bidrar til å forklare variasjonen i meiningane om Vassdragsutbygging. Den forklarte variansen aukar imidlertid berre frå 6,9% til 7,7%. Med 1% nivå på testen vil vi ikkje kunne forkaste nullhypotesa.

18 c) Drøft med utgangspunkt i modell 4 multikollinearitet som problem i multippel regresjon. Multikollinearitet dreiar seg om korrelasjonar mellom to eller fleire av forklaringsvariablane i ein regresjon. Multikollinearitet fører til stor utval til utval variasjon for regresjonsparametrane (variansestimata for b ane blir store). Store standardfeil er derfor hovedsymptomet på multikollinearitet. Dei store standardfeila gjer at det ofte er usikkert om ein substansielt stor koeffesient faktisk er ulik null i populasjonen. Ein inspeksjon av ei matrise av korrelasjonar mellom regresjonsparametrane vil avsløre om multikollinearitet er eit problem, men ikkje seie noko om korleis den oppstår. Hamilton (side 135) foreslår å inspisere nærmare dei variablane der korrelasjonen mellom parametrane er over 0,9. I tabellvedlegget til modell 4 finn vi ei korrelasjonsmatrise for regresjonsparametrane. Nedanfor er alle korrelasjonan større enn 0,8 vist Kvinne *E.innt -0,955 0,803-0,894-0,927 Kvinne * E.utd 0,865-0,97-0,867 Korrelasjonar Kvinne E.utdanning Kvinne* -0,854 E.innt Kvinne* E.utd E.utd* E.innt Kvinne* E.utd*E.innt E.innt* Sentrum E.innt* Forstad E.innt* Småby E.innt* Tettstad E.inntekt Sentrum storby -0,837 For-stad storby -0,853 Små-by -0,854 Tettstad -0,862 Vi ser at korrelasjonane er høge mellom parametrane til interaksjonar mellom Bostadstype og Eiga inntekt saman med parametrane til Kvinne og interaksjonar mellom Kvinne og Eiga inntekt og Eiga utdanning. Det er derfor truleg at multikollinearitet fører til liten presisjon i påstandar om effektar av desse variablane i populasjonen. Ser vi på regresjonstabellen har den ei kolonne for «Variance Inflation Factor (VIF)». Dette er den inverse av toleransen. Til høgare VIF er til lågare er toleransen. Toleransen er den delen av variasjonen i variabelen som den ikkje

19 deler med andre variablar. Den bør vere høgast mogeleg. Ein minus toleransen gir oss den variasjonen som er felles med dei andre forklaringsvariablane. Dette er determinasjonskoeffesienten i regresjonen av variabelen vi studerer på dei andre forklaringsvariablane, (R 2 k= felles variasjon med andre forklaringsvariablar). I følge Hamilton, side 135, vil ein felles varians mellom ei gruppe forklaringsvariablar på 75% (R 2 k=0,75, dvs. toleransen=0,25) omlag doble variansestimatet til parameteren, når R 2 k=0,9 (toleransen=0,1) er det tredobla og med R 2 k=0,95 meir enn femdobla. Variable Estimate(B) Std Err(B) VIF Kvinne*E.utd*E.innt -0,000036 0,000206 93,410395 Kvinne*E.utd -0,032382 0,032753 90,618591 Kvinne 0,2712066 0,397503 90,519628 Kvinne*E.innt -0,000389 0,002679 87,639316 E.utd*E.innt -0,000125 0,000113 45,279661 E.inntekt 0,001216 0,001509 32,645985 E.utdanning 0,0230207 0,02355 11,344615 Tettstad -0,253991 0,14796 11,045901 Forstad storby -0,168179 0,16332 9,7572627 Småby -0,416928 0,175069 9,5662692 E.innt*Forstad 0,0014801 0,000769 8,2963583 E.innt*Tettstad 0,0017286 0,000756 8,1694275 Sentrum storby 0,5609955 0,440982 7,6068806 E.innt*Småby 0,0019769 0,00091 6,8083179 Store problem har ein imidlertid ikkje før toleransen kjem svært lavt, t.d. under 0,20 (R 2 k>0,80). Dette svarar til ein VIF over 5. Dersom vi ordnar variablane i rekkefølge etter storleik på VIF-faktoren ser vi at i allt 14 variablar av dei 22 har toleranse under 0,2 (VIF>5). Særleg er toleransen låg for Kvinne, Eiga utdanning og Eiga inntekt og interaksjonane deira. Når VIF>90 er toleransen < 0,0023. Meir enn 99,7% av variasjonen i variabelen er delt med andre variablar. Vi har med andre ord lita nytte av t-testen for storparten av variablane i regresjonen. Vi må i staden lite på at F-testen, variabel for variabel, viser om den inkluderte variabelen saman med interaksjonsledda den gir opphav til gir ei signifikant betring av modellen. Der ein oppdagar multikollinearitet som er så høg at den kan ver problematisk er det fleire mogelege løysingar: 1. Ein kan behalde variabelen. Regresjonsparametrane er framleis forventningsrette. Vi må imidlertid hugse at vi ikkje kan generalisere til populasjonen om dei separate effektane av dei korrelerte variablane.

20 2. Ein kan droppe ein eller fleire av dei korrelerte variablane. Dette er greitt dersom korrelasjonen skuldast at dei substansielt måler samme fenomen. Alternativt kan dei kombinerast i ein indeks. Dersom variablane ikkje måler samme fenomen vil vi imidlertid gjere ein spesifikasjonsfeil ved å droppe variabelen. Effektane av dei andre variablane vil bli feilestimert, vanlegvis overestimert, sidan dei tar opp i seg noko av felleseffekten dei har med den utelatte variabelen. 3. Vi kan bruke ridge regresjon, ein metode som gir systemematisk skeive (biased) estimat, men som har større presisjon (mindre standardfeil) enn OLS når ein har problem med multikollineariteten. 4. Samle inn meir data. Fleire observasjonar vil auke presisjonen i estimata. d) Grei ut om skilnaden mellom «Leverage» og «Influence» med utgangspunkt i skilnaden mellom modell 4 og modell 5. Eit case inkludert i ein analyse har innflytelse («Influence») dersom ein ved å utelate caset endrar regresjonsresultat substansielt. Innflytelse på kvar einskild regresjonskoeffesient kan målast ved DFBETAS i. Innflytelse på heile modellen måler ein ved Cook s D i. Omgrepet «Leverage» er litt meir generelt. Det gir oss potensiale for innflytelse i ein regresjon. Eit case med stort potensiale for innflytelse kan i ein gitt regresjon vere utan innflytelse ved å ligge nær regresjonslina. Potensiale for innflytelse måler ein med hatt-observatoren, h i. Innflytelse og «leverage» er basert på kor «uvanleg» verdiane av x-variablane er. Case med uvanlege x-verdiar vil potensielt ha innflytelse på regresjonsresultata. Hatt-observatoren måler kor «uvanleg» kombinasjonen av x-verdiane for caset er. I ein av tabellane til modell 4 er det gitt eit boksplott av hatt-observatoren for alle casa. Eitt case, nr 1908, skil seg ut med h i = 0,41. I følge Hamilton, side 130, er risikoområdet for h i rekna for å vere frå 0,2 til 0,5 medan ein er råda til å unngå case med h i > 0,5. I dette høvet vil ein raskt nærme seg ein situasjon der resulta er basert på eitt case. Eit anna råd er å undersøke alle case med h i > 2K/n (i modellen her er 2K/n = 0,01658). I store utval vil det imidlertid ofte bli svært mange case som stettar dette kravet. Vi får også eit boksplott av Cook s D i. Den høgaste verdien har case 1908 med D i = 0,027. D i er sett som stor dersom den er større enn 4/n = 4/2533 = 0,00158. Det er derfor grunnlag for å tru at case 1908 har innflytelse.

21 Modell 5 er identisk med modell 4 med unntak av at case 1908 er utelatt. Samanliknar vi regresjonsresultata i dei to modellane ser vi at berre to av koeffesientane er endra i større grad. Det er koeffesientane for Sentrum Storby og interaksjonen mellom E.inntekt og Sentrum Storby. Dei aukar begge med ca 50% når case 1908 vert utelatt. Det er gitt opplysningar om bakgrunnen til case 1908. Personen er ein gift eller sambuande mann på 39 år som bur i sentrum av storby og arbeider i privat sektor og har ei inntekt på 400.000 eller over. At det er koeffesienten for «Sentrum Storby» som vert påverka og at personen med stor innflytelse bur i sentrum av storby er verd å merke seg. Vi såg under punkt a) at berre 44 personar er observert med bostadstype «Sentrum Storby». Ein litt uvanleg kombinasjon av verdiar mellom desse vil da lett kunne ha stor innflytelse på estimatet av effekten av denne kategorien. Det er samtidig verd å merke seg at residualen for denne personen er relativt liten. Den vil dermed ikkje dukke opp som problematisk i ein studie av utliggarar. Det er karakteristisk for innflytelsesrike case at dei vil ligge nær regresjonslina. Det er ein konsekvens av at dei har innflytels. Boksplottet av h i for modell 5 viser at det framleis er eitt case med h i > 0,2. Men dette er ikkje mye over (max. h i = 0,21786). Boksplottet av D i viser derimot ganske mange case med D i > 0,0016 (max D i = 0,01742). Det er kanskje rimeleg å tru at dei største av desse også er mellom dei 44 personane som bur i sentrum av storby. Sjølv om desse ikkje har nok «leverage» til å få stor innverknad på heile regresjonen, bør DFBETAS for Sentrum Storby studerast nærmare.