Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

Like dokumenter
SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

EKSAMENSOPPGÅVER Sommar 1996 FRAMLEGG TIL LØYSING Erling Berge

SOS3003 Eksamensoppgåver

NORGES TEKNISK NATURVITSKAPELEGE UNIVERSITET Institutt for sosiologi og statsvitenskap FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS31 9 DES 1996

FRAMLEGG TIL LØYSING AV EKSAMENSOPPGÅVER I SOS311 / SOS MAI 1998

EKSAMENSOPPGÅVE I SVSOS316 REGRESJONSANALYSE

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

EKSAMENSOPPGÅVER SVSOS316 HAUST 2001 FRAMLEGG TIL LØYSING

EKSAMENSOPPGÅVER SVSOS316 VÅR 2001 FRAMLEGG TIL LØYSING

SOS3003 Eksamensoppgåver

EKSAMENSOPPGÅVER Vår 1997 FRAMLEGG TIL LØYSING Erling Berge

Kausalanalyse og seleksjonsproblem

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 4 AUG 1997

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

TMA4245 Statistikk Eksamen desember 2016

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

EKSAMENSOPPGÅVER Haust 1995 FRAMLEGG TIL LØYSING Erling Berge

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

TMA4240 Statistikk Eksamen desember 2015

Eksamensoppgåve i TMA4240 Statistikk

Kapittel 10: Hypotesetesting

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

TMA4245 Statistikk Eksamen august 2014

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 06. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

UNIVERSITETET I OSLO

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

EKSAMENSOPPGÅVER SVSOS3003 Vår 2004 FRAMLEGG TIL LØYSING

Eksamensoppgåve i TMA4255 Anvendt statistikk

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

10.1 Enkel lineær regresjon Multippel regresjon

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

ST0202 Statistikk for samfunnsvitere

HØGSKOLEN I STAVANGER

SOS 31 MULTIVARIAT ANALYSE

6.2 Signifikanstester

EKSAMENSOPPGAVE STA-1001.

ST0202 Statistikk for samfunnsvitere

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Eksamensoppgåve i TMA4245 Statistikk

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk Høst 2016

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

i x i

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Løsningsforslag: STK2120-v15.

UNIVERSITETET I OSLO

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 12. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i TMA4240 Statistikk

ECON240 VÅR / 2016 BOKMÅL

Kapittel 3: Studieopplegg

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Kort overblikk over kurset sålangt

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

TMA4240 Statistikk Høst 2016

SOS 31 MULTIVARIAT ANALYSE

TMA4240 Statistikk 2014

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

FY1006/TFY Løysing øving 7 1 LØYSING ØVING 7

Inferens i regresjon

EKSAMENSOPPGAVER STAT100 Vår 2011

TMA4240 Statistikk Eksamen desember 2015

ST0202 Statistikk for samfunnsvitere

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Løsningsforslag eksamen 25. november 2003

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

STV1020 våren 2018 oppgave 31. Se nederst i dokumentet for nynorsk versjon.

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

TMA4240 Statistikk Høst 2007

Å løyse kvadratiske likningar

Framflyt. Modellverktøy for flytteprognosar

Skoleeksamen i SOS Kvantitativ metode

Seminaroppgave 10. (a) Definisjon: En estimator θ. = θ, der n er et endelig antall. observasjoner. Forventningsretthet for β: Xi X ) Z i.

UNIVERSITETET I OSLO

Om eksamen. Never, never, never give up!

Om eksamen. Never, never, never give up!

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 HØSTEN 2002

TMA4245 Statistikk Eksamen august 2014

UNIVERSITETET I OSLO

Transkript:

1 Erling Berge EKSAMENSOPPGÅVER SVSOS316 VÅR 2000 FRAMLEGG TIL LØYSING Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet «Bruksanvisning» Når ein går igang med å løyse oppgåver må ein ha i minnet at oppgåvene ofte er problematiske i høve til modellbygginga sitt krav om at modellen må vere fundert på den best tilgjengelege teorien. Mangelen på teoretisk fundament for oppgåvene kan forsvarast ut frå to perspektiv. Det avgjerande er rett og slett mangelen på tid og høvelege data for å lage eksamensoppgåver av den «realistiske» typen det er tale om her. Men tar ein for gitt at oppgåvene sjeldan kan seiast å vere teoretisk velfundert, gir jo dette studentane lettare gode poeng i arbeidet med å vurdere modellane kritisk ut frå spesifikasjonskravet. Når ein studerer framlegga til løysingar er det viktig å vere klar over at det som er presentert ikkje er nokon fasit. Dei fleste oppgåvene kan løysast på mange måtar. Dei tekniske sidene av oppgåvene er sjølvsagt eintydige. Men i dei mange vurderingane (som t.d. «Er denne residualen tilstrekkeleg nær normalfordelinga til at vi kan tru på testane?») er det nett vurderingane og argumentasjonen som er det sentrale. På eksamen er tida knapp. Svært få rekk i eksamenssituasjonen å gjere grundig arbeid på heile oppgåvesettet. I arbeidet med dette løysingsframlegget har det vore gjort meir arbeid enn det som ein ventar å finne til eksamen. Somme stader er det teke med meir detaljar i utrekningar og tilleggsstoff som kan vere relevant, men ikkje nødvendig. Men det er ikkje gjort like grundig alle stader. Det må takast atterhald om feil og lite gjennomtenkte vurderingar. Underteikna har like stor kapasitet til å gjere feil som andre. Kritisk lesning av studentar er den beste kvalitetskontroll ein kan ønskje seg. Den som finn feil eller som meiner andre vurderingar vil vere betre, er hermed oppfordra til å seie frå (t.d. på e-mail: <Erling.Berge@sv.ntnu.no> ) Erling Berge 2000

Erling Berge 2 OPPGÅVE 1 a) Kva er ein standardisert regresjonskoeffesient i ein OLS-regresjon, og korleis kan den tolkast? Dersom ein transformerer alle variablar i ein regresjon til z-skårar (dvs. slik at variablane har gjennomsnitt 0 og standardavvik 1) vil dei estimerte regresjonsparametrane vere standardiserte. Samanhengen mellom ein ordinær regresjonsparameter og ein standardisert regresjonsparameter er b Xk = b Xk * (S Xk / S Y ) der b Xk er den standardiserte parameteren for variabelen X k og b Xk er den ustandardiserte. S Xk er standardavviket til X k og S Y er standardavviket til Y. Den standardiserte regresjonskoeffesienten kan tolkast som tilvekst i talet på standardavvik i Y for kvar gong ein aukar X k med eitt standardavvik. Måleskalaen til både Y og X k er standardavvik. b) Gjer greie for kva problem som følgjer med skeive utval (selection bias). Dersom utvalet ikkje er eit reint tilfeldig utval eller dersom det i eit reint tilfeldig utval ikkje vert samla inn data for alle personane, er det fare for at utvalet kan vere skeivt på ein eller annan måte. Da er både ekstern og intern validitet i fare. Manglande ekstern validitet tyder at vi ikkje kan dra slutningar fra utvalet til universet. Dette er som regel akseptert, og i mange høve er ein godt nøgd med å dra slutningar om det «sub-universet» ein faktisk har trekt utvalet fra. Men i mange situasjonar vil det skeive utvalet føre til korrelasjonar mellom feilleddet og dei inkluderte variablane slik at ein også i høve til det «faktiske» universet vil dra feil konklusjonar. Den interne validiteten er problematisk. Ein kan tenkje seg fleire ulike situasjonar: 1. Det manglar opplysningar for ei gruppe personar på ein eller fleire uavhengige variablar, eller det manglar opplysningar for dei personane som har visse gitte verdiar på ein uavhengig variabel, t.d. X>x eller X<x (X-variabelen seiest da å vere trunkert). Dette er rekna som lite problematisk. Fråfallet gir mindre utvalsstorleik, men fører elles ikkje til skeive parameterestimat. 2. Det manglar opplysningar om kva verdiar ei gruppe personar har på den avhengige variabelen. Dette fører ikkje til problem dersom personane er

3 Erling Berge tilfeldig fordelt over variasjonsområdet til variabelen. Er dei ikkje det, vil det nærme seg situasjonen for sensurerte utval. 3. Sensurerte utval. Det manglar opplysningar om verdien på Y-variabelen for personar som har visse gitte verdiar på den avhengige variabelen, t.d. Y>y eller Y<y (Y-variabelen er trunkert). Opplysningar om kva verdiar dei observerte personane har på X-variablane manglar ikkje. Utvalet vert i delle høvet kalla sensurert. Dette gir alvorlege problem. Parametrar vil bli skeivt estimert og modellen kan bli feilspesifisert. 4. Trunkerte utval. Det manglar opplysningar om verdiane på y, og x- variablane for personar som har visse gitte verdiar på den avhengige variabelen, t.d. Y>y eller Y<y (Y-variabelen er trunkert). Sidan også opplysningane om verdiar på x-variablen manglar vert heile utvalet kalla trunkert. Dette gir alvorlege problem. Parametrar vil bli skeivt estimert og modellen kan bli feilspesifisert. 5. Selekterte utval. Det manglar opplysningar om verdien på variabelen Y for personar som har visse gitte verdiar på ein uobservert variabel Z, t.d. Z<z eller Z>z (Y-variabelen er også i dette høvet trunkert). Utvalet vert kalla selektert. Dersom Z på nokon måte er korrelert med den avhengige variabelen Y fører dette til problem. Parametrar vil bli skeivt estimert og modellen kan bli feilspesifisert.

Erling Berge 4 OPPGÅVE 2 I vedlagte tabellar er det estimert 4 modellar der haldning til bylivet er studert. a) Finn eit 95% konfidensintervall for effekten av «Kvinne» i modell 3. Finn i samme modellen predikert verdi på variabelen «Bylivet er viktigare enn natur» for ei 30 år gammal kvinne frå Oslo når vi får vite om ho at hushaldsinntekta er på over ein halv million, at ho arbeider som sjølvstendig næringsdrivande, at ho ikkje kan fordra å fiske og at ho elskar å gå ut for å handle. I modell 3 er effekten av Kvinne oppgitt til å vere -0.077725 med ein standardfeil på 0.032431. Dersom vi kan gå ut frå at feilledda er normalfordelte vil eit 95% konfidensintervall vere gitt ved b Kvinne - SE Kvinne *t 2,5% < β Kvinne < b Kvinne + SE Kvinne *t 2,5% der b er regresjonskoeffesienten, SE er standardfeilen til regresjonskoeffesienten og t er fraktilen i t-fordelinga i ein tosidig test med signifikansnivå 0,05. I følge tabell A4.1 hos Hamilton (1992:350) vil vi med meir enn 120 fridomsgrader ha at t 2,5% =1,96. Set vi inn i formelen finn vi no at -0.077725-0.032431 * 1.96 < β Kvinne < -0.077725 + 0.032431 * 1.96 dvs. -0.14129 < β Kvinne < -0.01416 Vi skal finne den predikerte verdien for ei 30 år gammal kvinne frå Oslo når vi får vite om ho at hushaldsinntekta er på over ein halv million, at ho arbeider som sjølvstendig næringsdrivande, at ho ikkje kan fordra å fiske og at ho elskar å gå ut for å handle. Vi finn svaret ved å sette inn dei opplysningane vi har fått i dei variablane som inngår i regresjonsmodellen med dei estimerte koeffesientane. At kvinna bur i Oslo må tyde at ho vil vere koda som busett i storby. Bustadvariablane i modellen må da alle ha verdien 0. Likeeins vil vi ut frå opplysninga om at hushaldsinntekta er på over ein halv million, finne at ho vil vere koda med verdien 450 på variabelen hushaldsinntekt. Ho vil vidare på variabelen «Kjelde til livsopphald» vere koda med 1 for sjølvstendig og med 0 for dei andre. Ut frå opplysninga om at ho elskar å handle kan det vere rimeleg å tru at ho vil bruke ein ekstra fridag til å handle. På variabelen «Fridag handle» vert ho derfor koda 1 og får da 0 på dei andre alternativa for fridagen. Det er også rimeleg å tru at ho ikkje vil ta i bruk fiskestonga i ferien. Set vi dette inn i regresjonslikninga finn vi at estimert svar på påstanden om at «Bylivets mange muligheter betyr mer for meg enn natur og frisk luft» er lik 2.8. Avrunda blir det 3 = «Helt umulig å svare».

5 Erling Berge 2.6572037 = 2.6572037-0.026094 *Alder -0.026094 *30 +0.0002333 *Alder**2 +0.0002333 *30*30-0.077725 *Kvinne -0.077725 *1 +0.0003611 *HHinntekt m/est +0.0003611 *450-0.189237 *Forstad storby -0.189237 *0-0.270062 *Småby -0.270062 *0-0.592644 *Tettstad -0.592644 *0-0.697539 *Spredtbygd -0.697539 *0-0.331607 *Uoppg bustad -0.331607 *0 +0.148235 *Funksjonær +0.148235 *0 +0.1929037 *Sjølvstendig +0.1929037 *1 +0.2010644 *Elev/ student +0.2010644 *0 +0.1180701 *Pensjon/ trygd +0.1180701 *0 +0.1544201 *Andre KtL +0.1544201 *0 +0.1637163 *Uoppgitt KtL +0.1637163 *0-0.289472 *Fridag i nature -0.289472 *0 +0.151039 *Fridag boklesin +0.151039 *0-0.110532 *Fridag mosjoner -0.110532 *0 +0.4657563 *Fridag handle +0.4657563 *1-0.170727 *Ferie-fiske m/s -0.170727 *0 = 2.6572037-0.026094*30 +0.0002333*30*30-0.077725*1 +0.0003611*450 +0.1929037*1 +0.4657563*1 = 2.82778

Erling Berge 6 b) Formuler modellen som er estimert i modell 3 og test om haldninga til bruk av fridag («Bruke fridag til: 1.val») bidrar signifikant til modellen. Når vi skal formulere ein modell må vi 1. definere elementa som inngår i modellen 2. definere relasjonane mellom elementa, og 3. presisere kva føresetnader som ein må gjere for å bruke modellen. I modell 3 er følgande element definert: Y X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 X 12 X 13 X 14 X 15 X 16 X 17 X 18 X 19 X 20 = Bylivet viktigare enn natur = Alder = Alder**2 = Kvinne = HHinntekt m/est (estimert missing) = Forstad storby = Småby = Tettstad = Spredtbygd = Uoppg bustad = Funksjonær = Sjølvstendig = Elev/ student = Pensjon/ trygd = Andre KtL = Uoppgitt KtL = Fridag i naturen = Fridag boklesing = Fridag mosjonere = Fridag handle = Ferie-fiske m/s (sluk/ fluestong) Dette tyder at i ein populasjon der individa er nummerert frå 1 til n kan variablane som er definert ovanfor i prinsippet gjevast verdi for kvar einskild medlem i populasjonen. Vi antar at det er eit lineært samband mellom den avhengige variabelen, Y, og dei uavhengige X-variablane. Dette tyder i vårt høve at Y i = β 0 + β 1 X 1i + β 2 X 2i + β 3 X 3i + β 4 X 4i + β 5 X 5i + β 6 X 6i + β 7 X 7i + β 8 X 8i + β 9 X 9i + β 10 X 10i + β 11 X 11i + β 12 X 12i + β 13 X 13i + β 14 X 14i + β 15 X 15i + β 16 X 16i + β 17 X 17i + β 18 X 18i + β 19 X 19i + β 20 X 20i + ε i Lar vi k=0, 1, 2,...,20, vil β k vere dei ukjente parametrane som viser kor mange måleeiningar av Y vi får i tillegg ved å auke X k med ei måleeining. ε er

7 Erling Berge eit feilledd som fangar opp dei faktorane vi ikkje har observert saman med reint tilfeldig støy i målinga av Y. Vi kan estimere dei ukjente parametrane i denne modellen dersom vi har observasjonar for eit reint tilfeldig utval frå populasjonen og vi kan gjere følgjande føresetnader: I. Modellen er korrekt, dvs.: alle relevante variablar er med ingen irrelevante er med modellen er lineær i parametrane II.Gauss-Markov krava for «Best Linear Unbiased Estimates» (BLUE) er oppfylt, dvs.: Faste x-verdiar (dvs. vi kan i prinsippet trekke nye utval med samme x-verdiar men ulik y-verdi). Feilledda har forventning 0 for alle i, dvs: E(ε i ) = 0 for alle i. Feilledda har konstant varians (homoskedastisitet) dvs: var(ε i ) = σ 2 for alle i. Feilledda er ukorrelerte med kvarandre (ikkje autokorrelasjon) dvs: cov(ε i,ε j ) = 0 for alle i j. III. Normalfordeling av feilleddet: Feilledda er normalfordelte med samme varians for alle case, dvs: ε i ~ N(0, σ 2 ) for alle i. Vi skal teste om variabelen «Bruke fridag til: 1.valg» bidrar signifikant til modellen. Denne variabelen er dummykoda. Kategoriane «være sammen med familie/ venner» og «uoppgitt» er utelatt og fungerer som referansekategori. Å nytte «uoppgitt» i referansekategorien er ikkje bra. Men sidan det berre er 34 som har uoppgitt i høve til 1715 som vil «være sammen med familie/ venner» har det nok ingen praktisk verknad i dette høvet. Dei fire andre kategoriane i variabelen er inkludert i modell 2, 3 og 4, men ikkje i modell 1. Vi kan da nytte testobservatoren F på modellane 1 og 2 for å samanlikne to «nesta» modellar. Når vi samanliknar to modellar, ein med K parametrer og ein med K - H parametrar vil observatoren (RSS[K-H] - RSS[K]) / H F H n-k = RSS[K] / (n-k)

Erling Berge 8 i eit utval på n personar vere F-fordelt med H og (n-k) fridomsgrader dersom det faktisk er rett at dei H ekstra variablane ikkje har effekt (dersom H 0 er rett). RSS(*) er residualane sin kvadratsum i dei ulike modellane. Vi forkastar nullhypotesa om at alle koeffesientane til dei H ekstra variablane er null med signifikansnivået α dersom F H n-k er større en α-fraktilen i F-fordelinga med H og (n-k) fridomsgrader. Samanliknar vi modell 1 og 2 ser vi at H = 4 K = 20 n-k= 2915-20 = 2895 RSS[K-H] = 2125.2037 RSS[K] = 2030.5042 Vi finn da at F H n-k = 33.7546, og sidan 5% fraktilen i F-fordelinga med 4 og 2895 fridomsgrader er 2.37 (Hamilton 1992, tabell A4.2) vil vi dermed forkaste nullhypotesa om at variabelen «Bruke fridag til: 1.valg» ikkje bidrar til å forklare variasjonen i meiningane om «Bylivet viktigare enn natur». Den forklarte variansen aukar da også frå 12.6% i modell 1 til 15.9% i modell 2. c) Drøft skilnadene mellom modell 3 og 4 og vurder i kva grad føresetnadene for OLS regresjon kan seiast å vere stetta. Estimerte regresjonskoeffesientar i modellane 1, 2, 3 og 4 av «Bylivet viktigare enn natur» Modell 1 Modell 2 Modell 3 Modell 4 2.5803178 2.5872954 2.6572037 0.9414803 Alder -0.026828-0.025555-0.026094-0.0140600 Alder**2 0.0002286 0.0002354 0.0002333 0.0001174 Kvinne 0.0008461-0.054196-0.077725-0.0420370 HHinntekt m/est 0.0003685 0.0003713 0.0003611 0.0001979 Forstad storby -0.178629-0.190110-0.189237-0.0916130 Småby -0.282936-0.268957-0.270062-0.1344440 Tettstad -0.612523-0.600938-0.592644-0.3207740 Spredtbygd -0.713503-0.699817-0.697539-0.3943250 Uoppg bustad -0.333676-0.351159-0.331607-0.2093210 Funksjonær 0.123812 0.1474891 0.148235 0.1011978 Sjølvstendig 0.1903603 0.2015378 0.1929037 0.0995885 Elev/ student 0.2113964 0.2106955 0.2010644 0.1062512 Pensjon/ trygd 0.1226571 0.1209326 0.1180701 0.0671914 Andre KtL 0.1582956 0.1592111 0.1544201 0.0845625 Uoppgitt KtL 0.2211692 0.1759558 0.1637163 0.0956637 Fridag i naturen -0.309503-0.289472-0.1595100 Fridag boklesing 0.1611598 0.151039 0.0747799 Fridag mosjonere -0.106513-0.110532-0.0482700 Fridag handle 0.4756531 0.4657563 0.2093404 Ferie-fiske m/s -0.170727-0.0967060

9 Erling Berge Ved å inkludere bruk av fridag som forklaringsvariabel i modell 2 skjer det ei viktig ending i modellestimatet. I modell 1 er Kvinne klart usignifikant. I modell 2 er Kvinne framleis ikkje signifikant, men storleiken på koeffesienten er auka dramatisk utan at standardfeilen er endra. I modell 3, med inklusjon av enno ein fritidsvariabel, er Kvinne vorten signifikant. Dersom prioriteringane av fritidsaktivitetar er korrelert både med kjønn og med haldninga til «Bylivet viktigare enn natur» vil vi få den observerte effekten. Denne konklusjonen kviler likevel på føresetnaden at vi kan tru på dei testane vi har gjort så langt. Modell 4 nyttar dei samme variablane som modell 3 med unntak av at den avhengige variabelen er ein logaritmisk transformasjon av Y (q=0 ; jfr Hamilton 1992: 17-23). Transformasjonar kan nyttast for å redusere effekten av utliggarar og til å endre fordelinga av residualen i retning av symmetri. Samanliknar vi fordelingane av residualane i dei to modellane ser vi at i modell 4 er fordelinga tilnærma symmetrisk (medianen = -0.0642 i modell 4 mot -0.1876 i modell 3). Sjølv om fordelinga er tilnærma symmetrisk er det likevel stor avstand til normalfordelinga i det det manglar observasjonar rundt dei mest sentrale verdiane. I modell 4 ser vi også at IQR/1.35 = 0.4754 berre er litt større enn standardfeilen på 0.428. Det tyder at halane er ørlite lettare (har nokre færre observasjonar) enn ei tilsvarande normalfordeling. I modell 3 finn vi at IQR/1.35 = 0.718 som er noko mindre enn standardfeilen = 0.832. I modell 3 er altså halane noko tyngre (har nokre fleire observasjonar) enn i ei tilsvarande normalfordeling. Det er vel rimeleg å konkludere med at modell 4 er noko nærmare normalfordelinga enn modell 3. Det er da beroligande å sjå at testane gir samme resultat både i modell 3 og 4. I modell 3 finn vi ikkje utliggarar i «hatt» observatoren. Alle h(i) er svært mye mindre enn 0.2. Største verdien har vi for case 1801, h(1801) = 0.044768. Og sidan hatt observatoren er upåverka av transformasjonen av Y vil det samme gjelde i modell 4. Ved bruk av Cook s D observator i modell 3 finn vi svært mange case der D(i)> 4/n = 4/2915 = 0.00137. Ser vi på dei 15 casa som er teke med i tabellvedlegget er det påfallande korleis dei alle utanom eitt er einige i påstanden om at «Bylivet viktigare enn natur» samtidig som dei bur spreidt eller er utan oppgitt bustad. Av dei 32 som har svaret 5 = heilt einig på «Bylivet viktigare enn natur» finn vi igjen 11 mellom dei 15 som har høgast verdi på Cook s D(i), resten (4 stk) har svart 4=delvis enig. Dersom det er slik at ein føretrekkjer å bu der ein bur og dette påverkar svaret på spørsmålet, vil dei som bur spreidt, men svarar at dei er heilt einige i påstanden om «Bylivet viktigare enn natur», stå fram som unntak.

Erling Berge 10 I modell 4 er storleiken på Cook s D redusert, men det er framleis mange som er større enn 4/n. Største verdi er 0.00854, medan største verdi i modell 3 er 0.01818. Dei 15 casa for modell 4 som er lista opp i vedlegget, er for 12 case sin del dei samme som i modell 3. Fordelingane er imidlertid både i modell 3 og særleg i modell 4 rimeleg jamne utan påfallande store gap mellom einskilde case eller grupper av case. Når vi skal vurdere om krava vi stilte til modellen er oppfylt må vi legge til sides spørsmåla om alle relevante variablar er med x-verdiane er faste (dvs. om vi i prinsippet kan trekke nye utval med samme x-verdiane). feilledda har forventning 0 for alle i Dette er spørsmål vi ikkje kan teste eller granske i denne samanhengen. Dei andre krava kan vi kommentere. I Modellspesifikasjon Sidan alle variablane i modell 3 har ein koeffesient som er signifikant ulik 0 vil vi tru at det ikkje er irrelevante variablar i modellen. I modell 3 kan det imidlertid reisast tvil om modellen er lineær i parametrane. Mangel på linearitet kan i alle fall vere ei forklaring på at residualane ikkje er normalfordelt. II Gauss-Markov krava Sidan vi studerer eit tilfeldig utval frå den norske befolkninga er det ikkje truleg vi kan finne autokorrelasjon. Vi har i alle fall ikkje nokon hypotese om korleis casa kan sorterast for ein test av autokorrelasjonen. For å vurdere kravet om homoskedastisitet ser vi på plotta av residualen mot predikert Y-verdi (predikert y verdi er ein vekta sum av x-verdiane og fungerer som generell X-verdi i studiet av heteroskedastisitet: variansen til feilleddet skal vere upåverka av kva x-verdiar vi har). Verken i modell 1, 2 eller 3 viser plotta nokon påfallande grad av variasjon i spreiinga på residualen ut over det at vi berre har 5 ulike verdiar på den avhengige variabelen. Dei viser imidlertid klart at residualen er skeivfordelt og såleis ikkje kan vere normalfordelt. Dette går tydelegare fram av frekensfordelinga for residualen i modell 3. I modell 4 er fordelinga av residualen i høve til predikert verdi nokså lik den i modell 3 med unntak av at den er noko mindre skeivfordelt. Ut frå den visuelle inspeksjonen av plotta og om vi tar for gitt at den systematikken som ligg i at vi berre har 5 ulike verdiar på den avhengige variabelen ikkje er problematisk, kan ein kanskje konkludere med at heteroskedastisitet ikkje er noko vesentleg problem.

11 Erling Berge III Normalfordelte restledd I modellane 1, 2 og 3 er restledda klart ikkje normalfordelte. Testane vi da utfører er ikkje truverdige. I modell 4 er residualfordelinga komen i nærleiken av noko akseptabelt. Om vi kan tru på testane i modell 4 er det beroligande å merke seg at dei viser det samme som testane i modell 3. Ut frå dette bør ein kunne nytte modell 3 også for analytiske formål. d) Finn predikert verdi for «Bylivet er viktigare enn natur» i modell 4 for den samme kvinna som i punkt a). Forklar korleis vi kan finne betinga effekt plott som viser korleis predikert svar på spørsmålet «Bylivet er viktigare enn natur» varierer med alder for kvinner og menn som arbeider som sjølvstendig næringsdrivande i Oslo og har ei hushaldsinntekt på over ein halv million. For ein gitt person, i, finn vi predikert verdi på Y ut frå den transformerte Y (Y ). Denne er gitt ved Y (i) = ln[y(i)] = 0.9414803-0.0140600*Alder(i) +0.0001174*Alder**2(i) - 0.0420370*Kvinne(i) +0.0001979*HHinntekt m/est(i) -0.0916130*Forstad storby(i) -0.1344440*Småby(i) -0.3207740*Tettstad(i) - 0.3943250*Spredtbygd(i) -0.2093210*Uoppg bustad(i) +0.1011978*Funksjonær(i) +0.0995885*Sjølvstendig(i) +0.1062512*Elev/ student(i) +0.0671914*Pensjon/ trygd(i) +0.0845625*Andre KtL(i) +0.0956637*Uoppgitt KtL(i) -0.1595100*Fridag i naturen(i) +0.0747799*Fridag boklesing(i) -0.0482700*Fridag mosjonere(i) +0.2093404*Fridag handle(i) -0.0967060*Ferie-fiske m/s(i) Y(i) = exp{ln[y(i)]} = exp{0.9414803-0.0140600*alder(i) +0.0001174*Alder**2(i) -0.0420370*Kvinne(i) +0.0001979*HHinntekt m/est(i) -0.0916130*Forstad storby(i) -0.1344440*Småby(i) -0.3207740*Tettstad(i) - 0.3943250*Spredtbygd(i) -0.2093210*Uoppg bustad(i) +0.1011978*Funksjonær(i) +0.0995885*Sjølvstendig(i) +0.1062512*Elev/ student(i) +0.0671914*Pensjon/ trygd(i) +0.0845625*Andre KtL(i) +0.0956637*Uoppgitt KtL(i) -0.1595100*Fridag i naturen(i) +0.0747799*Fridag boklesing(i) -0.0482700*Fridag mosjonere(i) +0.2093404*Fridag handle(i) -0.0967060*Ferie-fiske m/s(i)} Ut frå dette kan vi finne predikert verdi av «Bylivet er viktigare enn natur» for kvinna omtala i punkt a) ved å sette inn variabelverdiane som er gitt under punkt a) (dvs. Alder=30, Kvinne=1, HHinntekt=450, Storby=1, Sjølvstendig=1, Fridag handle=1, Ferie-fiske m/sluk/flue=0). Dette gir Y(i) = exp{0.9414803-0.0140600*30 +0.0001174*30*30-0.0420370*1 +0.0001979*450-0.0916130*0-0.1344440*0-0.3207740*0-0.3943250*0 -

Erling Berge 12 0.2093210*0 +0.1011978*0 +0.0995885*1 +0.1062512*0 +0.0671914*0 +0.0845625*0 +0.0956637*0-0.1595100*0 +0.0747799*0-0.0482700*0 +0.2093404*1-0.0967060*0} = exp[0.9414803-0.0140600*30 +0.0001174*30*30-0.0420370*1 +0.0001979*450 +0.0995885*1 +0.2093404*1] = exp[0.9414803-0.01406*30 +0.0001174*30*30-0.042037 +0.0001979*450 + 0.0995885 +0.2093404] = exp[0.981287] = 2.66789 Prediksjonen av kva svar ei slik kvinne vil gi blir også her 3=«Helt umulig å svare». Vi skal finne eit betinga effekt plott for kvart av kjønna over samanhengen mellom alder og predikert svar på påstanden om «Bylivet er viktigare enn natur» for sjølvstendig næringsdrivande med inntekt over ein halv million busett i storby. Eit kort og tilstrekkeleg svar på denne oppgåva er å gi formelen Y(i) = exp[k -0.01406*Alder(i) +0.0001174*Alder**2(i) -0.042037*Kvinne(i)] der i gir case nr og K er ein konstant som kan byggast opp på ulike måtar. I dette høvet skal K innehalde visse karakteristika. Vi har gitt at HHinntekt(i)=450, Storby(i)=1, Sjølvstendig(i)=1, dvs. K=0.9414803 +0.0001979*450 +0.0995885*1-0.1595100*Fridag i naturen(i) +0.0747799*Fridag boklesing(i) -0.0482700*Fridag mosjonere(i) +0.2093404*Fridag handle(i) -0.0967060*Ferie-fiske m/s(i) For å lage eit konkret betinga effektplott for slike presonar må ein også gjere føresetnader om variablane «Bruke fridag til: 1.valg» og «Ferie-fiske m/ sluk/ flue». Dersom vi tar det for gitt at dei vil velje å nytte ein fridag til å handle for seg sjølve og at dei ikkje vil bruke av ferien til å fiske med sluk eller flugestong, kan vi setje Fridag handle=1, Ferie-fiske m/sluk/flue=0 Dette gir Y(i) = exp[0.9414803-0.0140600*alder(i) +0.0001174*Alder**2(i) - 0.0420370*Kvinne(i) +0.0001979*450 +0.0995885 +0.2093404] = exp[1.33946-0.0140600*alder(i) +0.0001174*Alder**2(i) - 0.042037*Kvinne(i)]. Vi nyttar denne formelen til å rekne ut verdien av Y for kvar alder og kvart kjønn. Alder og verdien av Y kan så plottast for kvart kjønn.ved hjelp av ein formel av typen Y(i) = exp[1.33946-0.0140600*alder(i) +0.0001174*Alder**2(i) -0.042037*Kvinne(i)] vil ein ofte kunne plotte samanhengen for begge kjønna samtidig. Men ein kan også gjere det separat for menn: Y(i) = exp[1.33946-0.0140600*alder(i) +0.0001174*Alder**2(i)] og kvinner: Y(i) = exp[1.29743-0.0140600*alder(i) +0.0001174*Alder**2(i)]

13 Erling Berge OPPGÅVE 3 (tel 45% i karakteren) I vedlagte tabellar er det estimert 4 «nesta» modellar der val av «skjærgård» som feriestad er studert. Ved ein beklageleg feil er kodane for Y bytt om slik at modellen som er estimert gir oss sannsynet for svaret Y= ikkje skjærgårdsferie. Sannsynet for Y=«skjærgårdsferie finn vi da som 1 - Pr(Y= ikkje skjærgårdsferie). Vi skal nytte dei tabellane som er gitt i oppgåveteksten men ta omsyn til feilen i tolkninga av resultata. a) Formuler den modellen som er estimert som modell 4. Lag eit 95% konfidensintervall for effekten av «Kvinne». Test om alder bidrar signifikant til modellspesifikasjonen. La Y i =1 dersom person i svarar IKKJE-«skjærgård» på spørsmål om kva som er å foretrekke når ein reiser på sommarferie i Norge. Vi lar Y i =0 for alle andre svar. Sett vidare Y i = X 1i = X 2i = X 3i = X 4i = X 5i = X 6i = X 7i = X 8i = X 9i = X 10i = X 11i = X 12i = Skjærgård Livet på landet Lukkeleg i naturen Bylivet viktige Fridag i naturen Alder Alder**2 Kvinne Forstad storby Småby Tettstad Spredtbygd Uoppgitt bostad Modell 4 er da definert ved at vi antar at observasjonane våre kan modellerast ved Y i =1/(1+exp{-L i * }) + ε i, der ε i er feilleddet, og L i * er estimert forvente verdi av logiten, L i, som er modellert ved E[L i ]=β 0 +β 1 X 1i +β 2 X 2i +β 3 X 3i +β 4 X 4i +β 5 X 5i +β 6 X 6i +β 7 X 7i +β 8 X 8i +β 9 X 9i +β 10 X 10i +β 11 X 11i +β 12 X 12i

Erling Berge 14 Ein antar vidare at modellen er rett spesifisert, dvs.: den funksjonelle forma for alle betinga sannsyn for Y=1 er logistiske funksjonar av X-ane ingen relevante variablar er utelatt ingen irrelevante variablar er inkluder alle X-variablane er utan målefeil alle case er uavhengige fravær av perfekt multikollinearitet Ein bør vidare vere merksam på at høg grad av multikollinearitet, innflytelsesrike utliggarar og sterk grad av diskriminering fører til problem for estimeringa. Vi skal finne eit konfidensinterall for effekten av Kvinne. I modell 4 er effekten av Kvinne oppgitt til å vere 0.26855328 med ein standardfeil på 0.0783101. I logistisk regresjon er storleiken t= b k / SE b k tilnærma normalfordelt i store utval og i store utval er normalfordelinga og t- fordelinga ekvivalente. Da vil eit 95% konfidensintervall vere gitt ved b Kvinne - SE Kvinne *t 2,5% < β Kvinne < b Kvinne + SE Kvinne *t 2,5% der b er regresjonskoeffesienten, SE er standardfeilen til regresjonskoeffesienten og t er fraktilen i t-fordelinga i ein tosidig test med signifikansnivå 0,05. I følge tabell A4.1 hos Hamilton (1992:350) vil vi med meir enn 120 fridomsgrader ha at t 2,5% =1,96. Set vi inn i formelen finn vi no at 0.26855328-0.0783101* 1.96 < β Kvinne < 0.26855328 + 0.0783101* 1.96 0.26855328-0.153487796 < β Kvinne < 0.26855328 + 0.153487796 0.115065484 < β Kvinne < 0.422041076 I 95 av 100 granskingar av spørsmålet om kven som vel IKKJE-skjærgård som feriestad vil vi vente å finne at kvinner har ein koeffesientverdi i logiten som er mellom 0.11 og 0.43 logiteiningar høgare enn menn sin koeffesientverdi. Vi skal teste om alder bidrar signifikant til modellspesifikasjonen. Alder er inkludert med eit andregradspolynom i modellane 2, 3 og 4, men ikkje i modell 1. Vi kan teste om alder bidrar signifikant til modellspesifikasjonen ved å samanlikne modell 1 og 2 i ein Likelihoodratetest. Testen nyttar den kjikvadratfordelte testobservatoren χ 2 H = -2{log e L K-H - log e L K }

15 Erling Berge der L står for Likelihooden, K er talet på parametrar i den største modellen (her modell 2) og H= talet på fridomsgrader for testen = talet på variablar som skil mellom dei to modellane (= skilnaden i talet på estimerte parametrar: her er dette 2, ein for Alder og ein for Alder**2). Testen er basert på nullhypotesa at regresjonskoeffesientane for Alder og Alder**2 ikkje er statistisk ulik 0. Dersom denne hypotesa er rett er det urimeleg å vente at χ 2 H skal få ein verdi som er svært ulik 0. Loglikelihooden (log e L) i modell 1 er -1923.5527 og i modell 2 er den -1890,4675 slik at χ 2 H = -2([-1923.5527]-[-1890,4675])= -2*(-33.0852)=66.1704 Med 2 fridomsgrader vil eit kjikvadrat på 5.991 eller større gi eit signifikansnivå (=sjansen for å forkaste ei rett nullhypotese) på 0.05 eller lågare. Med eit kjikvadrat på 66.17 vil vi derfor forkaste nullhypotesa. b) Finn sannsynet for at ein 30 år gammal mann som bur i ein småby skal velje skjærgård til feriestad når vi får vite at vedkommande er delvis einig i at livet på landet er betre enn livet i byar. Han er også delvis einig i at han sjeldan er så lukkeleg som når han er ute i naturen. Han er vidare heilt ueinig i at bylivets mange muliheter betyr meir enn natur og frisk luft, og ein ekstra fridag vil han heller bruke på anna måte enn å vere ute i naturen. Skriv opp formelen for eit betinga effekt plott for samanhengen mellom alder og predikert sannsyn for menn som bur i småbyar. Vi startar da i praksis med å finne sannsynet for å velje IKKJE-skjærgård. Ut frå dei opplysningane vi har gitt kan vi sette følgande variabelverdiar Livet på landet =4 Lukkeleg i naturen =4 Bylivet viktige =1 Fridag i naturen =0 Alder =30 Alder**2 =30*30 Kvinne =0 Forstad storby =0 Småby =1 Tettstad =0 Spredtbygd =0 Uoppgitt bostad =0

Erling Berge 16 I modell 4 er det estimert at L i = 0.62696351-0.1366004Livet på landet(i) - 0.1942661Lukkeleg i naturen(i) +0.07736545Bylivet viktig(i) - 0.4203709Fridag i naturen(i) +0.03353504Alder(i) -0.0005495Alder**2(i) +0.26855328Kvinne(i) +0.07511511Forstad storby(i) +0.12139385Småby(i) - 0.0344411Tettstad(i) -0.4325136Spredtbygd(i) -0.4748178Uoppgitt bustad(i), der i gir case nr. Set vi dei oppgitte variabelverdiane inn i estimatet av logiten finn vi L i = 0.62696351-0.1366004*4-0.1942661*4 +0.07736545*1-0.4203709*0 +0.03353504*30-0.0005495*30*30 +0.26855328*0 +0.07511511*0+0.12139385*1-0.0344411*0-0.4325136*0-0.4748178*0 = 0.62696351-0.1366004*4-0.1942661*4 +0.07736545*1 +0.03353504*30-0.0005495*30*30 +0.12139385*1 =0.013758 Sannsynet for å svare IKKJE-skjærgård finn vi no fra relasjonen Pr{Y i = IKKJE skjærgård, gitt variabelverdiane i tabellen ovanfor} = 1/(1+exp{- L i * }) = 1/(1+exp{-0.013758}) = 0.503439 Sannsynet for å velje skjærgård vert da Pr(Y i =1) = 1 - Pr Y i =0) = 0.496561 Formelen for eit betinga effekt plott for samanhengen mellom alder og predikert sannsyn for menn som bur i småbyar Dette kan vi finne ut frå samme likninga som ovanfor: L i = 0.62696351-0.1366004Livet på landet(i) -0.1942661Lukkeleg i naturen(i) +0.07736545Bylivet viktig(i) -0.4203709Fridag i naturen(i) +0.03353504Alder(i) -0.0005495Alder**2(i) +0.26855328Kvinne(i) +0.07511511Forstad storby(i) +0.12139385Småby(i) -0.0344411Tettstad(i) - 0.4325136Spredtbygd(i) -0.4748178Uoppgitt bustad(i), der i gir case nr. Set vi inn for menn som bur i småbyar finn vi L i = 0.62696351-0.1366004Livet på landet(i) -0.1942661Lukkeleg i naturen(i) +0.07736545Bylivet viktig(i) -0.4203709Fridag i naturen(i) +0.03353504Alder(i) -0.0005495Alder**2(i) +0.26855328*0 +0.07511511*0 +0.12139385*1-0.0344411*0-0.4325136*0-0.4748178*0 = 0.62696351-0.1366004Livet på landet(i) -0.1942661Lukkeleg i naturen(i) +0.07736545Bylivet viktig(i) -0.4203709Fridag i naturen(i) +0.03353504Alder(i) -0.0005495Alder**2(i) +0.12139385*1 = 0.748357-0.1366004Livet på landet(i) -0.1942661Lukkeleg i naturen(i) +0.07736545Bylivet viktig(i) -0.4203709Fridag i naturen(i) +0.03353504Alder(i) -0.0005495Alder**2(i)

17 Erling Berge For å få til betinga effekt plott må vi også velje faste verdiar av Livet på landet Lukkeleg i naturen Bylivet viktige Fridag i naturen Vel vi no dei mest «byvennlege svara på desse spørsmåla kan vi sette inn Livet på landet =1 Lukkeleg i naturen =1 Bylivet viktige =5 Fridag i naturen =0 Da finn vi at for slike menn kan vi forvente å finne L i =0.748357-0.1366004*1-0.1942661*1 +0.07736545*5-0.4203709*0 +0.03353504Alder -0.0005495Alder**2 L i =0.748357-0.1366004-0.1942661 +0.07736545*5 +0.03353504Alder - 0.0005495Alder**2 L i = 0.804318 +0.03353504Alder -0.0005495Alder**2 Det betinga effektplottet over sannsynet som funksjon av alder for ein gitt type menn (jfr ovanfor) finn vi no fra relasjonen Pr{Y i = IKKJE-skjærgårdsferie, gitt variabelverdiane i tabellen ovanfor} = 1/(1+exp{-L i * }) = 1/(1+exp{-[0.804318 +0.03353504Alder -0.0005495Alder**2]}), der Alder varierer over variasjonsbreidda for variabelen Alder. c) Kor stor skilnad er det mellom oddsen for at kvinner vel skjærgård og oddsen for at menn gjer det? Oddsraten mellom oddsen for å svare IKKJE-skjærgårdsferie (få verdien 1 på avhengig variabel) for kvinner og oddsen for det samme svaret frå menn er eit forholdstal som seier kor mange gonger større oddsen for kvinner er samanlikna med oddsen for menn Oddsraten for kvinner i høve til menn finn vi ved å dividere oddsen for kvinner, e L(kvinner), med oddsen for menn, e L(menn), der L står for den estimerte logiten. Sidan «Kvinne» er dummykoda vil divisjonen gi svaret e b = exp{b}, der b er den estimerte logistiske regresjonskoeffesienten for «Kvinne». Vi finn dermed at oddsraten mellom kvinner og menn er (kvinne) = exp[0.26855328] = 1.30807,

Erling Berge 18 som tyder at oddsen for at kvinner IKKJE skal velje skjærgård er vel 30% høgare enn oddsen for menn. d) Drøft kort modellspesifikasjonen og vurder korleis modellen høver til data. I logistisk regresjon har feilspesifikasjon av modellen til dels meir alvorlege konsekvensar i form av feilestimerte parametrar enn i ordinær lineær regresjon. Dette gjer det nødvendig å arbeide ekstra nøye med modellspesifikasjonen. I modellspesifikasjonen kan den funksjonelle forma vanskeleg kommenterast. I modellar av val der ein ønskjer å tolke forventninga som eit sannsyn er det i praksis eit val mellom probit og logit modellane. Det er pr i dag ikkje overtydande argument for valet av den eine framfor den andre. I spørsmålet om vi i modellen har med irrelevante variablar ser vi at dei fire modellane er «nesta». Med utgangspunkt i 4 variablar som seier noko om haldningane til urbanitet og natur vert det lagt til tre nye variablar ein etter ein, først alder som ein kurvelineær samanheng, så kjønn ved den dummykoda variablen Kvinne og til slutt bustadstype gjennom dummykoding av kategoriane. I den første modellen aukar LogLikelihooden frå -2001.1 til -1923.6, i den andre modellen, når vi legg til alder, aukar den til -1890.5, i den tredje, når vi legg til Kvinne, aukar den til -1884.1 og i den fjerde med tillegg av bustad finn vi at den er -1873.4. Basert på den kjikvadratfordelte testobservatoren χ 2 H = -2{log e L K-H - log e L K } der L står for Likelihooden, K er talet på parametrar i den største modellen og H er talet på variablar som skil mellom dei to modellane (=skilnaden i talet på estimerte parametrar), kan vi konkludere med at alle utvidingane er signifikante på 5% nivå. Den minste auken i LogLikelihooden får vi når Kvinne vert lagt til. Den er på 6.4 slik at testobservatoren blir χ 2 H =12.8 med H=1 fridomsgrad. 5% fraktilen i kjikvadratfordeling med 1 fridomsgrad er på 3.84. Dermed bør vi forkaste nullhypotesen om at «Kvinne» har ein koeffesient som i praksis er lik null. Med tillegget av Alder i modell 2 finn vi at χ 2 H =66.2 med H=2 fridomsgrader, og med tillegget av bustad vert χ 2 H =21.4 med H=5 fridomsgrader. 5% fraktilen i kjikvadratfordelinga med 5 fridomsgrader er 11.07. Modellen slik den er estimert i modell 4 kan såleis ikkje seiast å ha irrelevante variablar. Spørsmålet om alle relevante variablar er med kan ein heller ikkje seie så mye om. Det er opplagt langt fram til LogLikelihooden er halvert. Dette tyder på at

19 Erling Berge det er rom for store forbetringar i modellen. Men teorien om kva som får folk til å velje den ein naturtypen framfor den andre er ikkje velutvikla og gir ikkje god veiledning for kva for variablar som manglar. Estimerte regresjonskoeffesientar i modellar av val av IKKJE-«skjærgård» som feriestad om sommaren. Modell 1 Modell 2 Modell 3 Modell 4 Constant 1.3567823 0.7875688 0.6625427 0.6269635 Livet på landet -0.2114247-0.1808847-0.1812954-0.1366004 Lukkeleg i naturen -0.2236762-0.1827123-0.1887074-0.1942661 Bylivet viktig 0.0970973 0.0946523 0.0985818 0.0773655 Fridag i naturen -0.5502989-0.4439388-0.4116499-0.4203709 Alder 0.0343003 0.0336718 0.0335350 Alder**2-0.0005655-0.0005580-0.0005495 Kvinne 0.2768870 0.2685533 Forstad storby 0.0751151 Småby 0.1213939 Tettstad -0.0344411 Spredtbygd -0.4325136 Uoppgitt bustad -0.4748178 Når det er sagt, kan vi likevel legge merke til eit par interessante trekk ved dei fire modellane. I første modellen er det haldningane til urbanitet og natur som er utgangspunkt. Dei tre andre variablane som vert lagt til, er standard indikatorar på plassering i den sosiale strukturen. Gjennom å sjå på korleis parametrar endrar seg frå ein modell til den neste kan vi seie noko om sambandet mellom dei allereie inkluderte og den introduserte variabelen. Vi bør merke oss korleis introduksjon av Alder og Kjønn (men ikkje bustad) verkar på effekten av haldningane til natur, særleg «Fridag i naturen». Korleis ein vil nytte fritida er, ikkje uventa, påverka av eigen alder og kjønn. Bustad verkar imidlertid ikkje inn på korleis ein brukar fritida. Derimot ser bustad ut til å verke saman med haldninga til urbanitet slik denne er målt gjennom «Livet på landet» og «Bylivet viktig» Skjærgårdsferie vil av mange vere assosiert med Sørlandskysten. I den grad valet av naturtype er eit praktisk/ økonomisk spørsmål vil ein vente at variablar som inntekt og avstand frå Sørlandet vil verke inn. Dette ville vere rimelege kandidatar for ei utviding av modellen. I vurderinga av kor godt modellen passar til observasjonane våre kan vi samanlikne observerte verdiar med predikerte verdiar.

Erling Berge 20 I følge vedlagte tabell er det samsvar mellom prediksjon og observasjon for 1090 case. For 1797 case, eller ca 62%, er prediksjonen det motsette av observasjonen. Dette er knapt godt nok. I plottet av estimerte sannsyn for IKKJE-skjærgård mot alder og samanlikna med fordelinga av observerte verdiar (ja = skjærgård) etter alder i tabellen under diagrammet, ser vi at særleg for dei eldste vil modellen underestimere sannsynet for å velje IKKJE-skjærgård (dvs. overestimere sannsynet for å velje skjærgård). Om det er tilsvarande overestimering for dei yngste er vanskeleg å avgjere ut frå diagrammet. Bruk av modellen på grupper av unge og gamle kan ikkje tilrådast. I ei samla vurdering synest likevel tilpasninga brukbar for somme formål, men med klare rom for forbetringar.