EKSAMENSOPPGÅVER Sommar 1996 FRAMLEGG TIL LØYSING Erling Berge



Like dokumenter
SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 8 DES 1997

NORGES TEKNISK NATURVITSKAPELEGE UNIVERSITET Institutt for sosiologi og statsvitenskap FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS31 9 DES 1996

EKSAMENSOPPGÅVER Haust 1995 FRAMLEGG TIL LØYSING Erling Berge

FRAMLEGG TIL LØYSING AV EKSAMENSOPPGÅVER I SOS311 / SOS MAI 1998

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Eksamensoppgåver

SOS3003 Eksamensoppgåver

EKSAMENSOPPGÅVER Vår 1997 FRAMLEGG TIL LØYSING Erling Berge

SOS 31 MULTIVARIAT ANALYSE

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 03. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

TMA4245 Statistikk Eksamen desember 2016

Kausalanalyse og seleksjonsproblem

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 08. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Eksamen REA3028 Matematikk S2. Nynorsk/Bokmål

PENSUM SOS Mål for kurset. SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Oversikt over Forelesingsnotat, vår 2003

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Eksamensoppgåve i TMA4240 Statistikk

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Erling Berge Institutt for sosiologi og statsvitenskap Norges Teknisk Naturvitskapelege Universitet

Ref.: Fall SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 05

Kapittel 10: Hypotesetesting

SOS 31 MULTIVARIAT ANALYSE

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

FRAMLEGG TIL LØYSING AV EKSAMENOPPGÅVER I SOS301/ SOS311 4 AUG 1997

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 06. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Kapittel 3: Studieopplegg

Matematikk 1, 4MX15-10E1 A

SOS 31 MULTIVARIAT ANALYSE

HORDALANDD. Utarbeidd av

Kort overblikk over kurset sålangt

TMA4240 Statistikk Eksamen desember 2015

EKSAMENSOPPGAVE STA-1001.

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Framflyt. Modellverktøy for flytteprognosar

STV1020 våren 2018 oppgave 31. Se nederst i dokumentet for nynorsk versjon.

Eksamen REA3028 Matematikk S2. Nynorsk/Bokmål

Kort om forutsetninger for boligbehovsprognosene

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMENSOPPGÅVER SVSOS316 HAUST 2001 FRAMLEGG TIL LØYSING

EKSAMENSOPPGÅVER SVSOS316 HAUST 2000 FRAMLEGG TIL LØYSING

Statistikk og dataanalyse

TMA4245 Statistikk Eksamen august 2014

BRUKARUNDERSØKING MOTTAK AV FLYKTNINGAR MOTTAK AV FLYKTNINGAR

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Skrivne og trykte hjelpemiddel samt kalkulator er tillate. Ta med all mellomrekning som trengst for å grunngje svaret.

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Eksamensoppgave i SØK Statistikk for økonomer

Eksamen MAT1005 Matematikk 2P-Y. Nynorsk/Bokmål

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat, vår Erling Berge Institutt for sosiologi og statsvitenskap NTNU

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

Eksamensoppgåve i TMA4255 Anvendt statistikk

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap Forelesingsnotat 02. Erling Berge Institutt for sosiologi og statsvitenskap NTNU

Blir du lurt? Unngå anbodssamarbeid ved innkjøp

Du kan skrive inn data på same måte som i figuren under :

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

«ANNONSERING I MØRE OG ROMSDAL FYLKESKOMMUNE»

Litt enkel matematikk for SOS3003

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Test av prognoseverktøy for grovfôravling og -kvalitet i 2009


Til deg som bur i fosterheim år

Pressemelding. Kor mykje tid brukar du på desse media kvar dag? (fritid)

Eksamen 2P MAT1015 Vår 2012 Løysing

Eksamen MAT1015 Matematikk 2P. Nynorsk/Bokmål

Om eksamen. Never, never, never give up!

Dersom summen vert over 400 g må ein trekkje dette frå.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

10.1 Enkel lineær regresjon Multippel regresjon

EVALUERING AV FORSØK MED ANONYME PRØVER 2013

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Om eksamen. Never, never, never give up!

Alle svar er anonyme og vil bli tatt vare på ved Norsk Folkemuseum kor vi held til. Ikkje nemn andre personar med namn når du skriv.

OPPLÆRINGSREGION NORD. Skriftlig eksamen. MAT1006 Matematikk teoretisk. Våren Privatister/Privatistar. VG1 Yrkesfag

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

SAKSFRAMLEGG. Saksbehandler: Odd Arve Rakstad Arkiv: 242 Arkivsaksnr.: 08/768-1

Samtalestatistikk 1. halvår Hjelpelinja for speleavhengige

TMA4245 Statistikk Eksamen desember 2016

INTERNETTOPPKOPLING VED DEI VIDAREGÅANDE SKOLANE - FORSLAG I OKTOBERTINGET 2010


Eksempeloppgåve / Eksempeloppgave

SAKSFRAMLEGG. Saksbehandler: Odd Arve Rakstad Arkiv: 026 Arkivsaksnr.: 12/ Kommunesamanslåing Leikanger og Sogndal. Spørsmål om utgreiing

Eksamen S1, Hausten 2013

Lærlingundersøking om eit fagskuletilbod innan agrogastronomi på Hjeltnes. AUD-notat nr

UNIVERSITETET I OSLO

Inferens i regresjon

Transkript:

1 EKSAMENSOPPGÅVER Sommar 1996 FRAMLEGG TIL LØYSING Erling Berge Norges Teknisk Naturvitskapelege Universitet «Bruksanvisning» Når ein går igang med å løyse oppgåver må ein ha i minnet at oppgåvene ofte er problematiske i høve til modellbygginga sitt krav om at modellen må vere fundert på den best tilgjengelege teorien. Mangelen på teoretisk fundament for oppgåvene kan forsvarast ut frå to perspektiv. Det avgjerande er rett og slett mangelen på tid og høvelege data for å lage eksamensoppgåver av den «realistiske» typen det er tale om her. Men tar ein for gitt at oppgåvene sjeldan kan seiast å vere teoretisk velfundert, gir jo dette studentane lettare gode poeng i arbeidet med å vurdere modellane kritisk ut frå spesifikasjonskravet. Når ein studerer framlegga til løysingar er det viktig å vere klar over at det som er presentert ikkje er nokon fasit. Dei fleste oppgåvene kan løysast på mange måtar. Dei tekniske sidene av oppgåvene er sjølvsagt eintydige. Men i dei mange vurderingane (som t.d. «Er denne residualen tilstrekkeleg nær normalfordelinga til at vi kan tru på testane?») er det nett vurderingane og argumentasjonen som er det sentrale. På eksamen er tida knapp. Svært få rekk i eksamenssituasjonen å gjere grundig arbeid på heile oppgåvesettet. I arbeidet med dette løysingsframlegget har det vore gjort meir arbeid enn det som ein ventar å finne til eksamen. Somme stader er det teke med meir detaljar i utrekningar og tilleggsstoff som kan vere relevant, men ikkje nødvendig. Men det er ikkje gjort like grundig alle stader. Det må takast atterhald om feil og lite gjennomtenkte vurderingar. Underteikna har like stor kapasitet til å gjere feil som andre. Kritisk lesning av studentar er den beste kvalitetskontroll ein kan ønskje seg. Den som finn feil eller som meiner andre vurderingar vil vere betre, er hermed oppfordra til å seie frå (t.d. på e-mail: <Erling.Berge@sv.ntnu.no> ) Erling Berge 2000

2 Oppgåve 1 (tel 20% i karakteren) a) Forklar kva som meinest med standardskårar og standardiserte regresjonskoeffesientar Dersom vi med utgangspunkt i variabelen X lagar ein ny variabel, Z, der vi trekkjer frå gjennomsnittet for variabelen, X, og dividerer med standardavviket for variabelen, Sx, kallast den nye variabelen Z for standardskåren av variabelen X. Z = (X-X)/ Sx Ein standardisert regresjonskoeffesient ( "beta vekta" ) er regresjonskoeffesienten vi får når vi gjer ein regresjon med standardskårane til variablane. Vi kan finne den standardiserte koeffesienten direkte av resultata i den ustandardiserte regresjonen ved bx = (bx * Sx ) / Sy Der bx er den standardiserte koeffesienten for variabelen X og Sy er standardavviket på den avhengige variabelen. b) Forklar kva som meinest med ein rekursiv modell. I ein rekursiv modell er det etablert eit eintydig kausalhierarki slik at endogene variablar av lågare rang vil kunne vere med i forklaringa av dei med høgare rang, men ikkje omvendt. Kausalitetsrelasjonane kan ikkje vere gjensidige. Dette gir dei rekursive likningssystema ei karakteristisk triangulær form for dei endogene variablane, med to nivå av mellomliggjande variablar blir dette: Y 1 =α 1 + γ 13 X 3 + γ 12 X 2 + γ 11 X 1 + ζ 1 Y 2 =α 2 + β 21 Y 1 + γ 23 X 3 + γ 22 X 2 + γ 21 X 1 + ζ 2, Y 3 =α 3 + β 32 Y 2 + β 31 Y 1 + γ 33 X 3 + γ 32 X 2 + γ 31 X 1 + ζ 3, I tillegg til dei vanlege føresetnadene som gjeld for regresjonsanalysen må den rekursive modellen fylle krav om at restledda er ukorrelert med kvarandre.

3 c) Forklar kva skilnaden er mellom kurvelineær og ikkje-lineær regresjon. I kurvelineær regresjon er modellen lineær i forma Y i * = β 0 + β 1 X i,1 * + β 2 X i,2 * +... + β Κ 1 X i,k-1 * + ε ι men variablane Y i *, X i,1 *,..., X i,k-1 * kan vere kva som helst slags funksjonar av observasjonane Y i, X i,1, X i,k-1 (t.d. potenstransformasjonar). I ikkje-lineær regresjon er ikkje modellen lineær i forma, og variablane kan vere kva som helst slags funksjonar av observasjonane. T.d. Y i * =α X i β + ε i d) Forklar kva betinga effekt-plott er for noko og kva nytte ein kan ha av slike plott. I eit betinga effekt plott frå ein mutivariat regresjonsanalyse plottar vi Y- verdiane mot verdiane av ein X-variabel medan vi held alle dei andre X- variablane konstant, t.d. med gjennomsnittsverdiar eller rimelege ekstremverdiar. Slike plott er særleg nyttig for å vurdere effektar i kurvelineær og ikkje lineær regresjon. Dersom vi har samme y-skala i alle slike plott for ein regresjonsmodell gir plotta eit svar på spørsmålet "Kva for variabel har størst effekt?".

4 Oppgåve 2 (tel 80% i karakteren) I eit datamateriale frå MMI, Norsk Monitor 1991, er det opplysningar om kor mange flyreiser som er utført. Vedlagde tabellar viser utdrag av ein analyse av reisefrekvensen med fly i Norge. Fem ulike modellar er estimert. a) Tre av modellane kan lesast som estimat av eit rekursivt likningssystem. Skriv opp likningssystemet som er estimert. Lag eit diagram som viser kausalsambanda i den estimerte strukturen. Modellane 2,3 og 4 er reint formelt eit rekursivt likningssystem og kan dermed tolkast som eit estimat av ein stimodell. Det same kan ein seie om modellane 1,3 og 4. Ein bør velje regresjonsmodell nr 2 for Y3. Det kan reisast innvendingar mot modell 4 i stimodellen på teoretisk grunnlag. Det er ikkje uproblematisk å nytte forsørgingsstatus som forklaring på Eiga utd. Sjølv om ein kan argumentere for at ønskje om visse yrke eller ambisjonar om yrkeskarrierar vil påverke både mengda av utdanning og forsørgingsstatus slik at ein kan seie dei har felles bakanforliggande årsaker (ambisjonar), vil ein normalt nytte eiga utdanning som forklaring på forsørgingsstatus sidan utdanning for dei fleste kjem før i tid. For drøftinga her vil vi likevel nytte modell 4 og argumentere med at det kan vere ei form for «veik» kausalitet mellom førsørgingsform og mengda av utdanning som i ein utvida analyse kanskje vil vise seg å vere spuriøs.

5 La Y 3 = Flyreiser i Norge Y 2 = Eiga innt Y 1 = Eiga utd X 1 = Kvinne X 2 = Alder X 3 = Mors utd X 4 = Funksjonær X 5 = Sjølvstendig X 6 = Elev/ student X 7 = Pensjon/ trygd X 8 = Anna Det rekursive likningssystemet som er estimert kan vi skrive Y 1 =α 1 + γ 18 X 8 +γ 17 X 7 +γ 16 X 6 +γ 15 X 5 +γ 14 X 4 +γ 13 X 3 +γ 12 X 2 +γ 11 X 1 +ζ 1 Y 2 =α 2 + β 21 Y 1 +γ 28 X 8 +γ 27 X 7 +γ 26 X 6 +γ 25 X 5 +γ 24 X 4 +γ 23 X 3 +γ 22 X 2 +γ 21 X 1 +ζ 2, Y 3 =α 3 +β 32 Y 2 +β 31 Y 1 +γ 38 X 8 +γ 37 X 7 +γ 36 X 6 +γ 35 X 5 +γ 34 X 4 +γ 33 X 3 +γ 32 X 2 +γ 31 X 1 +ζ 3, Vi går her ut frå at krava til OLS regresjon er stetta for feilledda for kvar likning og at dei tre (ζ 1 - ζ 3 ) er ukorrelerte. Ein ser frå modell 2 at γ 32 =0. Ut frå estimata av dei tre likningane ser vi at det med 5% signifikansnivå må konkluderast med at γ 37 = γ 35 = γ 16 = γ 15 = 0. Variablane X 4 - X 8 er dummykoding av variabelen Forsørgingsstatus med Arbeidar som referansekategori. At koeffesientane for ein eller fleire kategoriar ikkje kan hevdast å vere ulik null tyder at effekten av å vere i ein slik kategori heller enn i referansekategorien er null, dvs. det er samme effekt av å vere i slike kategoriar som av å vere i referansekategorien. Korleis variabelen "forsørgarstatus" skal representerast i diagrammet er ei smakssak. Sidan det teknisk er tale om ulike einskildvariablar er det OK å representere dei på samme måten. Her er det valt ei litt meir kompakt framstilling.

6 Diagram som viser kausalsambanda i den estimerte strukturen. MORS UTDANNING - X3 0.27 KVINNE -X1-0.05 ALDER -X2 0.11-0.12 ζ 2-0.07 0.08 EGEN INNTEKT (Y2) -0.32-0.05 0.27 0.12 EGEN UTDANNING (Y1) 0.23 FLYREISER I NORGE (Y3) (ref.; 0.22; 0.09; -0.32; -0.24; -0.10) X4-X8 (ref.; 0.27; 0.0; 0.0; -0.12; 0.04) FORSØRGINGSSTATUS *ARBEIDER (ref) *FUNKSJONÆR (X4) *SELVSTENDIG (X5) *ELEV/ STUDENT (X6) *PENSJON/ TRYGD (X7) (ref.; 0.08; 0.0; 0.06; 0.0; 0.05) *ANNET (X8) ζ 1 ζ 3

7 b) Finn kor stor andel den totale kausaleffekten frå Eiga utdanning på Flyreiser i Norge utgjer av korrelasjonen mellom dei. Korrelasjonen er lik 0.25 Total effekt er lik direkte effekt pluss indirekte effekt β 31 + β 32 *β 21 = 0.12 + 0.23*0.27 = 0.18 I prosent av korrelasjonen er den totale effekten 72% Finn dei spuriøse verknadene frå Kvinne, Alder og Mors utdanning i korrelasjonen mellom Eiga utdanning og Eiga inntekt. Korrelasjonen mellom EIGA INNTEKT OG EIGA UTDANNING = 0.33 Spuriøse verknader frå KVINNE = β21*β11 = (-0.32)*(-0.05) = 0.016 frå ALDER β22*β12 = 0.11*(-0.12) = -0.013 frå MORS UTDANNING β23*β13 = (-0.07)*0.27 = -0.019 Kva felleseffektar bør ein ta omsyn til i ei dekomponeringa av korrelasjonen mellom Eiga utdanning og Eiga inntekt. Ein bør ta omsyn til felleseffektar av ein viss storleik som t.d. korrelasjonar større enn 0,3 mellom eksogene variablar. Da vil vi finne felleseffekt mellom Mors utdanning og Alder, sidan korrelasjonen her er 0.43, mellom Mors utd. og Elev/ student med korrelasjonen 0.35, mellom Alder og Elev/ student med korrelasjonen 0.42, og mellom Alder og Pensjon/ trygd med 0.62. Dei interne korrelasjonane mellom dummyvariablane bør haldast utanom dette.

8 c) Skriv opp modell 2 av dei regresjonsmodellane som er estimert. La Y= Flyreiser i Norge X 1 = Kvinne X 2 = Mors utd X 3 = Funksjonær X 4 = Sjølvstendig X 5 = Elev/ student X 6 = Pensjon/ trygd X 7 = Anna X 8 = Eiga innt X 9 = Eiga utd Modellen Y i =β 0 +β 1 X 1i + β 2 X 2i + β 3 X 3i + β 4 X 4i + β 5 X 5i + β 6 X 6i + β 7 X 7i + β 8 X 8i + β 9 X 9i + ε i, vert estimert under føresetnadene om at modellen er rett og residualane, ε i, er uavhengige og identisk normalfordelte. Finn eit 95% konfidensintervall for effekten av Mors utdanning. i denne modellen. I modellen vert det estimert 10 parametrar. Da er K=10 og t-observatoren, t=( b 2 - β 2 ) /SEb 2 vil, dersom H 0 : β 2 - b 2 = 0 er rett, vere t-fordelt med n-k=2314-10 = 2304 fridomsgrader. I t-fordelinga med over 120 fridomsgrader er 5% fraktilen lik 1.96. Da er β 2 inneheldt i intervallet {b 2-1.96*SEb 2, b 2 + 1.96*SEb 2 }, dvs. β 2 {0.0798952 + 1.96*0.023523} = {0.0798952 + 0.0461051} Dette tyder at med 95% sannsyn vil intervallet {0.034, 0.126} innehalde β 2 Litt meir upresist skriv ein at 0.034 < β 2 < 0.126 Test om variabelen Forsørgingsstatus bidrar signifikant til forklaringa av talet på flyreiser i Norge i denne modellen. Vi testar om ein dummykoda variabel bidrar signifikant til modellen ved å teste om dei H inkluderte kategoriane aukar forklart variasjon (RSS) signifikant. Samanliknar vi to modellar, ein med K parametrar og ein med K-H parametrar vil observatoren (RSS[K-H] - RSS[K])/H F H n-k = RSS[K] / (n-k)

9 i eit utval på n personar vere F-fordelt med H og (n-k) fridomsgrader. Vi forkastar hypotesen om at alle koeffesientane til dei H variablane er null med signifikansnivået α dersom F H n-k er større en α-fraktilen i F-fordelinga med H og (n-k) fridomsgrader. Samanliknar ein modell 1 og 2 ser ein at skilnaden mellom dei er at modell 1 ikkje har med Forsørgingsstatus. Vi ser da at K=10 H=5 n-k= 2314-10 = 2304 Frå modell 1: RSS (K-H)=12062,918 Frå modell 2: RSS(K) = 11960,783 H 0 : Forsørgingsstatus har ingen effekt på «Flyreiser i Norge» Testen kan no formulerast: «Forkast H 0 dersom F> 1% fraktilen i F-fordelinga med 5 og 2304 fridomsgrader. I tabellen over F-fordelinga finn vi at for 5 og uendeleg mange fridomsgrader vil verdien 3,02 i testen gi 1% signifikansnivå. Testobservatoren kan no reknast ut: (12062,918-11960,783) / 5 F = 11960,783 / 2304 F=102,135 *2304/11960,783*5= 235319,04 / 59803,915 F= 3,9348433961>3,02 Vi forkastar H 0 som seier at Forsørgingsstatus ikkje har nokon effekt.

10 d) Kva er i følgje modell 2 beste prediksjon av talet på reiser for ein 44 år gammal kvinneleg arbeidar med vidaregåande skole og 160.000 i årleg inntekt når mor hennar har ein akademisk tittel (cand. filol.) Beste gjetting på talet av flyreiser = -1,4897487-0,2189448 Kvinne + 0,00668501Egen inntekt i 1000 + 0,09057649 Egen utd. år + 0,07989521 Mors utd år + 0,4571289 Funksjonær -0,1517901 Selvstendig + 0,422714 Elev/ student + 0,16242094 Pensjon/ trygd + 0,47292906 Annet Kvinne =1, Egen inntekt i 1000= (145 eller 160 eller 180; bonus for å notere at 160 ligg på intervallgrensa til to intervall i ei upresis kodebok), Egen utd. år=12, Mors utd. år=14, Funksjonær=0, Selvstendig=0, Elev/ student=0, Pensjon/ trygd=0, Annet=0 gir Beste gjetting på talet av flyreiser = -1,4897487-0,2189448 1 + 0,00668501(145/160/180) + 0,09057649 12 + 0,07989521 14 + 0,4571289 0-0,1517901 0 + 0,422714 0 + 0,16242094 0 + 0,47292906 0 =-1.49-0.22 + (0.969 < til > 1.203; for 160: 1.070) + 1.09 + 1.12 = 1.47 eller 1.57 eller 1,70

11 Forklar kva dei estimerte modellane seier om reisefrekvensen med fly i Norge. Når ein tar omsyn til utdanning, inntekt og sosial bakgrunn reiser kvinner mindre enn menn (ca 0,2 reiser per år). På marginen, det vil seie når dei andre variablane ikkje varierer, vil vi kunne seie følgjande: For kvar 1000 kroner ein aukar inntekta med vil talet på flyreiser auke med 0,007. Om inntekt aukar frå 150.000 til 300.000 vil ein vente at talet på flyreiser aukar med 1.05 om alt anna er likt. Dersom eiga utdanning aukar med 10 år vil talet på flyreiser auke med 0,9 og dersom mors utdanning aukar med 10 år vil talet på flyreiser auke med 0,8. Forsørgingsstatusane Funksjonær, Elev/ student, Pensjon/ trygd og Anna reiser oftare enn Arbeidar, medan Sjøvstendig reiser noko mindre. Størst er skilnaden mellom Arbeidar og Anna som reiser i gjennomsnitt 0,5 flyreiser meir. Når ein tar omsyn til utdanning, inntekt og kjønn er sjølvstendige dei einaste som reiser mindre enn arbeidarar (som er referansekategorien).ein bør merke seg at alder ikkje gir opphav til direkte effektar på talet av flyreiser når ein tar omsyn til forsørgingsstatus. Effektane er ikkje vesentleg annleis i modell 1. Frå modell 5 ser vi at forteikna er dei samme, men må transformere attende for å sjå om storleiken på effektane er uendra.

12 e) Gjer greie for kva føresetnader resultata av analysen kviler på. Stimodellen som er studert i 2a og 2b er rekusiv. Det er da nok å gi føresetnadene for lineær regresjon med tillegg av at feilledda må vere ukorrelerte. Føresetnaden for OLS regresjon er at ein kan gå ut frå at den lineære modellen er korrekt med uavhengige og identisk normalfordelte feil («normal i.i.d. errors») Dette tyder stikkordmessig: i. Modellen er korrekt alle relevante variablar er med ingen irrelevante er med lineær i parametrane ii. Gauss-Markov krava Faste x-verdiar Feilleddet har forventning 0 for alle i, dvs: E(ε i )=0 for alle i Feilleddet har konstant varians (homoskedastisitet) dvs: var(ε i )=σ for alle i Feilledda er ukorrelerte med kvarandre (ikkje autokorrelasjon) dvs: cov(ε i,ε j ) = 0 for alle i j iii. Normalitetskravet Feilleddet er normalfordelt, dvs: ε i ~ N(0, σ ) for alle i

13 Vurder kritisk, på grunnlag av vedlagde tabellar, i kva grad ein kan seie at føresetnadene er oppfylt. Merknadene vil her bli konsentrert om modell 2. Det som vert sagt om modell 2 vil sjølvsagt også gjelde for stimodellen der modell 2 inngår. i. Vi kan ikkje teste om alle relevante variablar er med. Det er berre teoretiske resonnement som kan seie noko om. Dersom testane er truverdige vil vi kunne oppdage om irrelevante variablar er med. Dei vil ikkje ha regresjonskoeffesientar som er signifikant ulik null. Også avvik frå linearitet kan testast. Vi kan studere denne føresetnaden ved inspeksjon av spreiingsdiagram for residual mot estimert Y-verdi. Modell 2 av Flyreiser i Norge er lineær i parametrane. Alle variablar som er med har signifikante effektar. Den låge verdien på den justerte determinasjonskoeffesienten (=.119) viser at ikkje alle forklaringsvariablar er med. Dersom nokon av dei utelatne variablane korrelerer med dei variablane som er med er dei rekna som relevante variablar og må inkluderast. Studerer vi vidare fordelinga av residualen ser vi at avviket frå normalfordeling er relativt stort. Testane av signifikans er ikkje truverdige. Noko av dette kan skuldast heteroskedastisitet. Det er lite variasjon i talet på flyreiser, men meir må skuldast utliggarar: få personar med stor innverknad på grunn av uvanlege verdiar på forklaringsvariable eller ekstreme verdiar på talet av flyreiser. Vi får oppgitt verdien av Cook s D i for dei 10 personane som har høgast verdi. Det er i Hamilton (s132) oppgitt at dersom D i > 4/n bør vi ha mistanke om stor innverknad på regresjonsresultatet. Med n=2314 vil alle D i > 0.0017 vere under mistanke. Alle dei 10 personane har verdiar over 0.0017. Analysen har altså problem med innflytelsesrike case. Vi ser i den deskriptive statistikken at flyreiser er ekstremt skeivt fordelt. Avviket frå normalfordeling er så stort og tydeleg at vi ikkje kan feste lit til dei testane vi utfører. Konklusjonen burde her bli at ein freistar med transformasjonar av den avhengige variabelen. Når ein korrelerer parameterestimata med kvarandre finn vi den at den høgaste korrelasjonen er mellom estimatet av koeffesienten for kvinne og koeffesienten for eiga inntekt. Den er på 0.41, ikkje spesielt høg. Multikolinearitet er såleis ikkje eit problem i denne modellen. ii. Vi kan ikkje her teste om x verdiane er utan tilfeldige komponentar. Det tar vi for gitt. Det kan heller ikkje testast om feilleddet faktisk har forventning 0. I

14 minste kvadraters regresjon vil residualen alltid komme ut med eit gjennomsnitt på 0. For å vurdere heteroskedastisitet ser vi på plottet av residualen mot predikerte y-verdiar. Vi ser at dei 5 ulike verdiane som talet på flyreiser kan ha, gir opphav til ein skeivfordelt residual slik vi og ser det i Kvantil-Normalplottet av residualen. Det er likevel ikkje lett å sjå av dette diagrammet om det er utliggarar og heller ikkje om det er heteroskedastisitet ut over det som vil bli bygd inn i modellen gjennom den avgrensa variasjonen. Det synest ikkje rimeleg å tru at vi skal finne autokorrelasjon i materialet. iii. Vi noterte både under pkt i og ii at kvantil-normalplottet viser oss at feilleddet ikkje er normalfordelt. Fordelinga er heller ikkje symmetrisk sidan Md=- 0,5922 (gjennomsnittet er sjølvsagt 0). Fordeling har tyngre halar enn i normalfordelinga (sidan standardavviket = 2,274 > IQR/1,35= 1.3246 / 1.35 = 0.98 ) og både positive og negative utliggarar i følgje boks-plottet. Fordelinga har dessutan tydeleg tre toppar. Både utliggarar og skeivt fordelte variablar kan føre til heteroskedastisitet og manglande normalfordeling i restleddet. Den univariate analysen viser ikkje utliggarar, men både Flyreiser i Norge, Eiga inntekt og Mors utdanning er tydeleg positivt (høgre-)skeive. Tabellen har opplysningar om dei 10 største Cook's distansane i modell 2. For å vurdere innverknad på modellen totalt ser vi på Cook s D(i). Det vert anbefalt å unngå case med D(i)> 4/n=4/2314=0.0017286. Minst 10 case har D(i) større enn dette (faktisk er det 143). Modellen totalt er sannsynlegvis påverka av uvanlege x-verdiar. I kva grad einskildparametrar kan vere påverka av innflytelsesrike case er ikkje undersøkt systematisk, men leverage plotta kan tyde på at fleire av parametrane er påverka av små grupper av case. Det alvorlegaste brotet på krava er mangelen på normalfordeling i restleddet. Både dette og heteroskedastisiteten gjer det umogeleg å feste lit til testane av modellparametrane. For å komme vidare bør det vurerast transformasjonar av variablar som vonleg kan gjere feilleddet tilnærma normalfordelt. I stimodellar er det ikkje like enkelt å tolke kva transformerte variablar viser om kausalstrukturen i problemet. Men i den grad transformerte variablar er tolkbare i seg sjølv er det uproblematisk å nytte dei.

15 f) Forklar skilnaden mellom Modell 2 og Modell 5. I Modell 5 av flyreiser i Norge er det nytta ein 0.4 potens-transformasjon av talet på flyreiser. Ser vi på fordelinga av residualen i denne modellen, er den mye nærmare normalfordelinga og vi kan her i større grad tru på testane vi utfører. Median og IQR/1,35 gir robuste estimat av sentraltendens og spredning i ei fordeling. Dersom residualane er symmetriske og tilnærma normalfordelte skal dei robuste estimata vere tilnærma lik 0 og standardavviket i fordelinga. Fordelinga av residualen i modell 5 er tilnærma symmetrisk, medianen er lik - 0,1185 nokså nær 0, og standardavviket er lik 0.688 berre litt mindre enn IQR/1.35 = 0.9752/1.35 = 0.7224. Talet på utliggarar er også redusert vesentleg. Ser vi på leverage plotta er også dei betre, med færre problematiske cluster. Testane i denne modellen er dermed lettare å feste lit til. Vi ser at alle variablane framleis har signifikante effektar og at den justerte determinasjonskoeffesienten aukar til 0.147 Transformasjonen gjer at alle effektane i modellen vil bli interaksjonseffektar. Tolkniga blir da meir komplisert. Korleis kan ein tolke resultatet av modell 5? Tolkinga av resultatet her krev at vi transformerer attende til opphavleg skala. Alle effektane vil vere interaksjonseffektar. Tolkinga skjer lettast i betinga effekt plott (jfr. 1D)