EKSAMEN I SOS400 KVANTITATIV METODE SKOLEEKSAMEN 9. september 006 (4 timer) Ikke-programmerbar kalkulator er tillatt under eksamen. Ingen andre hjelpemidler er tillatt. Sensuren faller fredag 0. oktober kl. 14.00. Sensuren blir slått opp på tavlen utenfor Aud. 7, 1. etasje i Eilert Sundts hus. Sensuren kan også hentes på Studentweb fra ca kl. 14.30 samme dag. Sensuren blir regnet som mottatt av studentene når den blir slått opp, med mindre det kan dokumenteres gyldig fravær. Vi minner om at kandidater som ønsker begrunnelse må søke til instituttet om dette senest 1 uke etter at sensur er mottatt. Frist for å klage på karakteren er tre uker etter at sensuren har falt. Oppgaven er på 5 sider inkludert denne. Kandidaten skal levere både originalen og kopien av besvarelsen. NB! Skriv så hardt at kopien blir leselig. Tusjpenn kan ikke brukes. Husk å notere deg kandidatnummeret ditt. LYKKE TIL! 1
Alle spørsmål (a-m) skal besvares. Hver deloppgave teller like mye. I en undersøkelse i et sannsynlighetsutvalg på 106 personer av den norske befolkningen over 18 år ønsket man å kartlegge den materielle velstanden i husholdningene. I denne forbindelse ble det stilt spørsmål om husholdningen disponerer følgende forbruksgoder: komfyr, mikrobølgeovn, oppvaskmaskin, kombiskap (kjøleskap og fryser), kjøleskap, fryser, vaskemaskin, tørketrommel, tv, videospiller, videokamera og pc. På bakgrunn av dette er det konstruert en indeks som angir hvor mange av forbruksgodene på listen som husholdningen disponerer. Variabelen kan følgelig variere fra 0 til maksimalt 1. a) Hva er begrepsvaliditet? Pek på mulige trusler mot begrepsvaliditeten i og med at indeksen som er beskrevet ovenfor skal måle den materielle velstanden i husholdningen. b) I tabell 1 nedenfor gjengis gjennomsnittsskårer, standardavvik og standardfeil til gjennomsnittet for hushold med henholdsvis mannlig og kvinnelig hovedperson. Husholdningens hovedperson regnes som den personen i husholdningen som har høyest inntekt. Hva viser resultatet? Sett opp nullhypotese og alternativhypotese, og test forskjellen i gjennomsnittsskåre mellom husholdninger med mannlig og kvinnelig hovedperson. Velg signifikansnivå lik 5%. (Hint: Standardfeilen til differansen mellom to gjennomsnitt kan beregnes ut fra formelen SE ( mˆ ˆ ˆ + mˆ 1 m ) = [ SE( m1 )] [ SE( )] Tabell 1. Gjennomsnittlig indeksverdi, standardavvik og standardfeil for husholdninger med henholdsvis mannlig og kvinnelig hovedperson. Gjennomsnitt Standardavvik Standardfeil N Mann 8,88 1,96 0,07 78 Kvinne 7,87,37 0,137 98 Total 8,59,13 0,067 106 c) Aritmetisk gjennomsnitt er et eksempel på en såkalt forventningsrett estimator. Forklar hva vi mener med en forventningsrett estimator. d) Gjør kort rede for hvilke typer forskningsmessige trusler som går under betegnelsen «konklusjonsvaliditet». Er det et problem for konklusjonsvaliditeten at variabelen ovenfor ikke er normalfordelt? Begrunn svaret. Nedenfor vises resultatet av tre regresjonsmodeller hvor den nevnte indeksen er avhengig variabel. Følgende uavhengige variabler er inkludert: Kvinnelig hovedperson er kodet slik at husholdninger med kvinnelig hovedperson har verdien 1, mens husholdninger med mannlig hovedperson har verdien 0
Par uten barn, par med barn, enslig med barn er dummyvariabler som angir respondentens sivile status. Enslige uten barn utgjør referansekategorien. Hovedpersonens alder i antall år. Hovedpersonens alder kvadrert er den kvadrerte av aldersvariabelen. Tabell. Lineære regresjonsanalyser med indeks over hvor mange typer varige forbruksgoder husholdningen disponerer som avhengig variabel. Modell 1 Modell Modell b SE(b) b SE(b) b SE(b) Konstant 8,893 0,081 5,871 0,167 0,758 0,57 Kvinnelig hovedperson -1,088 0,15-0,113 0,141-0,03 0,135 Par uten barn,337 0,191,176 0,184 Par med barn 3,764 0,174 3,446 0,181 Enslig med barn 1,935 0,6 1,685 0,60 Hovedpersonens alder 0,7 0,06 Hovepersonens alder - kvadrert -0,00 0,000 Justert R 0,050 0,373 0,44 N 955 955 955 e) Modell 1 viser sammenhengen mellom hovedpersonens kjønn og indeksen for forbruksgoder. Sett opp nullhypotese og alternativhypotese og test om sammenhengen er statistisk signifikant på 5- prosent nivå. Gi en substansiell fortolkning av resultatet og av koeffisientene i modellen. f) I modell er dummyvariabler som beskriver sivil status inkludert. Gi en substansiell fortolkning av dummyvariablene (par uten barn, par med barn og enslig med barn). Gi også en substansiell fortolkning av konstantleddet g) Gjør rede for endringene for kjønnsvariabelen (kvinnelig hovedperson) fra modell 1 til modell. Hva tror du disse endringene skyldes? h) I modell 3 har en tatt med variablene alder og alder kvadrert. Hva er hensikten med å inkludere begge disse variablene? Beregn predikert (forventet) verdi for aldersgruppene 40, 50, 60 og 70 år (forutsett husholdninger med mannlige enslige uten barn) og lag en skisse som viser sammenhengen mellom alder og indeksen. Gi en substansiell fortolkning av resultatet. 3
Tabell 3. F-test (ANOVA) for endringen i SSE fra modell til modell 3 i tabell. Restleddets kvadratsum (SSE) df Restleddets varians (mean square) Modell 3 36,016 118,808 43,5 0,000 Endring fra modell til 3 570,50 948,71 F P i) Tabell 3 ovenfor viser resultatet av en F-test hvor modell og 3 er sammenliknet. Sett opp nullhypotese og alternativhypotese, og konkluder ut fra testen i tabellen. Pc begynner etter hvert å bli allemannseie. Av de 106 husholdningene som deltok i undersøkelsen oppga 71 prosent at det var minst én pc i husholdningen. Sannsynligheten for å ha pc påvirkes antakelig av en rekke trekk ved selve husholdningen. Nedenfor vises resultatet av en logistisk regresjonsanalyse hvor følgende variabler er inkludert: Disponerer PC er den avhengige variabelen i analysen og er kodet som 1 hvis husholdningen har minst en pc og 0 hvis husholdningen ikke har pc Kvinnelig hovedperson er kodet slik at husholdninger med kvinnelig hovedperson har verdien 1, mens husholdninger med mannlig hovedperson har verdien 0 Årsinntekt i 100 000 kroner angir husholdningens årsinntekt etter skatt omregnet til antall 100 000 kroner. For eksempel angir verdien 1 at inntekt er 100 000 kroner; 1,5 at inntekten er 150 000 kroner;,75 er 75 000 kroner etc. Kvinner * Årsinntekt er et produktledd mellom de to foregående variablene. Tabell 4. Logistisk regresjonsanalyse med om husholdningen har pc eller ikke som avhengig variabel. Modell 1. Modell 1 b se(b) Wald df Sig. Exp(b) Kvinnelig hovedperson 0,036 0,166 0,047 1 0,89 1,037 Årsinntekt i 100 000 kr 0,661 0,06 113,338 1 0,000 1,937 Konstant -1,41 0,37 35,966 1 0,000 0,41 Hosmer-Lemeshow χ = 33,8 d.f.=8 p = 0,000 j) I modell 1 som er vist i tabell 4 er hovedpersonens kjønn og husholdets årsinntekt trukket inn som forklaringsvariabler. Fortolk parameterestimatene i modellen. k) Beregn sannsynligheten for å ha pc i husholdninger med henholdsvis mannlig og kvinnelig hovedperson når årsinntekten er 00 000 kroner. (Hint: formelen for beregning av sannsynligheter er: ~ ~ Odds( Y ) Y = ~ 1+ Odds( Y ) l) Hva er Hosmer-Lemeshow en test på? Hva forteller Hosmer-Lemeshow testen i modell 1? 4
Tabell 5. Logistisk regresjonsanalyse med om husholdningen har PC eller ikke som avhengig variabel. Modell. Logiter. Modell b Sig. Kvinnelig hovedperson -1,489 0,00 Årsinntekt i 100 000 kr 0,5 0,000 Kvinnelig hovedperson * Årsinntekt 0,50 0,001 Konstant -0,94 0,001 Hosmer-Lemeshow χ =, d.f.=8 p = 0,004 m) I modell, som er vist i tabell 5, er det trukket inn et samspillsledd. Hva sier modellen om sammenhengen mellom årsinntekt og sannsynligheten for å ha pc for husholdninger med henholdsvis mannlig og kvinnelig hovedperson? (Det er ikke nødvendig å beregne sannsynligheter.) 5