UTDRAG FRA SENSORVEILEDNINGEN FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2001 Generell informasjon Vi er for tiden inne i en overgangsordning mellom gammelt og nytt pensum i SVSOS107. Denne eksamensoppgaven skal derfor kunne løses både for de som har lagt opp Hellevik (1999) og de som har lagt opp Ringdal (2001). Kandidatene kan derfor velge mellom oppgave 1 som er basert på Ringdal, og oppgave 2 som er basert på Hellevik. Etter som pensum ikke ble registrert ved eksamensoppmeldingen kunne kandidatene fritt velge hvilken av disse oppgavene de ville løse. De som kun har lest Ringdal og likevel valgt oppgave 2 har sannsynligvis fått problemer med å besvare oppgave 2d. Beregninger av prediksjonseffekter og samspill er kun overflatisk behandlet på side 346 i Ringdal sin bok. Oppgave 1 a) Tabell 1 viser et SPSS-utskrift av en t-test for to uavhengige utvalg, og er basert på data fra en spørreundersøkelse blant et tilfeldig utvalg av den voksne norske befolkningen i 1993. Avgjør ut fra denne tabellen om vi kan hevde at kvinner og menn hadde ulik gjennomsnittsinntekt i 1993. I denne undersøkelsen ble den personlige årsinntekten målt i antall 1000 kroner. MÅL: Test av studentens evne til å trekke ut informasjon fra et utskrift fra SPSS. Dette var i utgangspunktet satt opp som en meget enkel innledningsoppgaven, men på den obligatoriske trøsterunden fikk jeg inntrykk av at mange hadde problemer med å tolke utskriftet fra denne t-testen. T-testen for to uavhengige utvalg står beskrevet på side 380-381 i Ringdal. SPSS-utskriften blir ikke vist i boka, men alle bør kunne se at den første delen (Group Statistics) viser at menn og kvinner har ulik gjennomsnittsinntekt i utvalget. Videre bør alle som har lest kapittel 18 ha fått med seg at testobservatoren for denne oppgaven er t, og at t-verdien i denne utskriften er statistisk signifikant (Sign. 2-tailed < 0,001). De som har lest godt har kanskje i tillegg fått med seg at det finnes en versjon av t-testen som bygger på at σ (standardavviket for den avhengige variabelen i populasjonen) er ulikt for de to for de to gruppene som sammenlignes. I utskriften viser "Levene's Test for Equality of Variance" at forutsetningen om lik varians i inntekt for de to kjønnene ikke er tilfredsstilt (F=51,148; p < 0,001), og at de derfor bør bruke t-verdien i rekken "Equal variances not assumed" som er på 16,135. De som har fått med seg dette bør absolutt honoreres. b) Beskriv hva regresjonsmodellen i tabell 2 viser. MÅL: Teste studentens evne til å tolke resultatene fra en enkel regresjonsmodell. De ustandardiserte koeffisientene i modellen i tabell 2 kan beskrives omtrent slik: Menn: Menn har, etter kontroll for de andre uavhengige variablene i modellen, i gjennomsnitt 52 400 kroner mer i årsinntekt enn kvinner. Denne forskjellen er statistisk signifikant både på 5%-nivå og 1%-nivå (p < 0,001). 1
Alder: Årsinntekten er, etter kontroll for de andre uavhengige variablene i modellen, gjennomsnittlig 1 926 kroner høyere for hvert årskull. Denne økningen er i forhold til alder er statistisk signifikant (p < 0,001). Arbeidstid: Den personlige årsinntekten øker i gjennomsnitt med 3 057 kroner for hver ekstra time informantene jobber i uka. Økningen er statistisk signifikant (p < 0,001). Utdanning: Variablene er delt inn i tre utdanningsgrupper etter utdanningsnivå. Den gjennomsnittlige inntektsøkningen for hvert trinn på denne utdanningsvariabelen er 37 287 kroner, og den er statistisk signifikant (p < 0,001). c) Sett opp regresjonsligninga fra tabell 2. Prediker årsinntekten til en 40 år gammel mann med universitetsutdanning og en arbeidstid på 40 timer pr uke, og prediker årsinntekten til en 60 år gammel kvinne som kun har grunnskoleutdanning og jobber 10 timer pr uke. MÅL: Teste studentenes evne til å sette opp en regresjonsligning, og bruke denne til å predikere verdier på den avhengige variabelen. Regresjonsligningen kan settes opp på mange måter, og vi bør godkjenne alle de eksemplene jeg har satt opp her: Ŷ i = β 0 + β 1 X 1i + β 2 X 2i + β 3 X 3i + β 4 X 4i Ŷ i = β 0 + β 1 MENN + β 2 ALDER + β 3 ARBTID + β 4 UTD INNTEKT = -99,220 + 52,440*MENN + 1,926*ALDER + 3,057*ARBTID + 37,287*UTD Predikert årsinntekten til en 40 år gammel mann med universitetsutdanning og en arbeidstid på 40 timer pr uke: Ŷ = -99,220 + 52,440*MENN + 1,926*ALDER + 3,057*ARBTID + 37,287*UTD Ŷ = -99,220 + 52,440*1 + 1,926*40 + 3,057*40 + 37,287*3 = 264,401 Det vil si at regresjonsmodellen predikerer en årsinntekt på 264 401 korner for en person med disse kjennetegnene. Predikert årsinntekten til en 60 år gammel kvinne som kun har grunnskoleutdanning og jobber 10 timer pr uke Ŷ = -99,220 + 52,440*MENN + 1,926*ALDER + 3,057*ARBTID + 37,287*UTD Ŷ = -99,220 + 52,440*0 + 1,926*60 + 3,057*10 + 37,287*1 = 84,197 Det vil si at regresjonsmodellen predikerer en årsinntekt på 84 197 korner for en person med disse kjennetegnene. d) I regresjonsmodellen i tabell 3 har vi gjort en del endringer i forhold til regresjonsmodellen i tabell 2. Forklar hvilke endringer som er gjort, og hva du tror vi ville oppnå med disse endringene. 2
Forskjellene mellom tabell 2 og tabell 3 er: Utdanningsvariabelen er dummy-kodet. Effekten av utdanning blir målt gjennom to dummyvariabler der den ene måler inntektsforskjellen mellom de med videregående skole i forhold til de med grunnskole og den andre måler forskjellen mellom de med utdanning på universitet- eller høgskolenivå og de som kun har grunnskoleutdanning. Modellen estimerer en kurvelineær sammenheng mellom alder og inntekt. Alderseffekten i den mest avanserte modellen måles både gjennom variablene alder og alder kvadrert. Når vi legger inn et slik andregradsledd (alder*alder) kan modellen fange opp en kurvelineær sammenheng mellom alder og inntekt. Modellen viser her at inntekten øker sterkest med alderen i første del av livssyklusen, men at denne inntektsøkningen avta eller gå ned etter en viss alder. Formen på denne kurven kan ikke leses direkte ut av koeffisientene, men for eksempel fremstilles grafisk hvis vi predikerer årsinntekten for personer med ulik alder. Nedenfor har jeg satt opp en figur med predikerte årsinntekter for hvert alderstrinn for kvinner med grunnskoleutdanning og 10 timers arbeidstid. Predikert inntekt etter alder for kvinner med grunnskole og 10 timers arbeidstid pr uke 120 100 Inntekt 80 60 40 20 0 20 30 40 50 60 70 Alder Når vi estimerer alderseffekten ved bruk av både første- og andregradsledd vil nødvendigvis de to aldersvariablene korrelere sterkt. Den sterke korrelasjonen mellom de to uavhengige variablene gjør at de standardiserte koeffisientene blåses opp slik at den ene blir større enn 1,00 og den andre blir så lav som 0,941. Dette er egentlig et brudd med forutsetningen om multikolinaritet i regresjonsanalyse (at det ikke er sterk lineær sammenheng mellom X- variablene), men i denne modellen brytes denne forutsetningen bevisst for å få fram den kurvelineære sammenhengen mellom alder og arbeidstid. På kurset har vi jobbet svært lite med forutsetningene for regresjonsanalyse, og kandidatene bør i belønnes hvis de oppdager de unormale verdiene på disse standardiserte koeffisientene. Modellen har et samspilledd mellom kjønn og arbeidstid. Samspillet viser at menn har større inntektsøkning for hver ekstra arbeidstime enn kvinner. For å beskrive effekten av samspillet mellom kjønn og arbeidstid må dette fortolkes i sammenheng med de to variabelen som inngår i produktleddet. Hos kvinnene øker gjennomsnittsinntekten med 2 153 (Arbeidstid = 2,153) kroner for hver økte arbeidstime, men 3
den for menn øker med 2 814 (Arbeidstid = 2,153 + Samspill = 661) kroner for hver økte arbeidstime. Oppgave 2 Tabell 4 på neste side gjengir data fra en spørreundersøkelse fra 1993 som var basert på et tilfeldig utvalg av den voksne norske befolkningen. a) Beskriv variablene i tabell 4. MÅL: Test av studentens ferdigheter i å identifisere variabler, og å diskutere hvor mye informasjon de mener det er forsvarlig å trekke ut av verdifordelingen i disse variablene. Uavhengige variabler: Kjønn Utdanning Avhengige variabler: Personlig inntekt Målenivå: Kjønn: Alle bør kunne se at denne variabelen må plasseres på nominalnivå Utdanning: Her vil sannsynligvis noen hevde at utdanning kan plasseres på forholdstallsnivå, men etter som utdanningsvariabelen er gruppert og at gruppene har ulike intervaller bør vi bare gi riktig for de som plasserer variabelen på ordinalnivå. Inntekt: Her vil sannsynligvis mange hevde at inntekt kan plasseres på forholdstallsnivå, men etter som inntektsvariabelen er gruppert og at gruppene har ulike intervaller bør vi bare gi riktig for de som plasserer variabelen på ordinalnivå. b) Forklar kort hva tabell 4 viser. MÅL: Teste studentens ferdigheter i å lese innholdet i en tabell. Her ønsker vi beskrivelser av mønsteret inne i tabellen, og ikke tekniske beskrivelser av hvordan tabellen er satt opp. Alle bør se at inntekten øker med økt utdanning, og at menn har høyere inntekt enn kvinner. c) Beregn korrelasjonen mellom utdanningsnivå og personlig inntekt for menn og for kvinner. Bruk det korrelasjonsmålet du mener passer best, og forklar hva korrelasjonskoeffisientene viser. MÅL: Teste studentenes forståelse av korrelasjonsmål, og hvordan valget av korrelasjonsmål avhenger av variablenes målenivå. Her skal de regne ut en korrelasjonskoeffisient mellom utdanning og inntekt for menn, og en korrelasjonskoeffisient mellom utdanning og inntekt for kvinner. Her bør de som har lest Hellevik velge korrelasjonsmålet gamma, slik at de får utnyttet informasjonen om rangering i variablene utdanning og inntekt. De som har lest Ringdal bør få noe ekstra hvis i stedet argumenterer for å bruke korrelasjonsmålet Kendalls tau-b. I tabell 4 blir kun de relative prosentfordelingene presentert, og studentene må selv beregne de absolutte fordelingene. 4
Utgangspunkt for å beregne korrelasjonene mellom alder og yrkesaktivitet for menn: Grunnskole Videregående Høgskole Ingen inntekt 23 13 5 Inntekt under 150 000 56 123 16 Inntekt 150 000 eller mer 88 304 158 Etter som Gamma er et korrelasjonsmål som utnytter informasjonen om rangering, bør det gies et pluss for de studentene som tar hensyn til retningen på rangeringene når de regner forholdet mellom par ordnet likt og par ordnet ulikt. Beregningen av par ordnet likt kan enten starte med kombinasjonen "Ingen inntekt" og "Grunnskole" (n = 23), eller med kombinasjonen "Inntekt 150 000 eller mer" og "Høgskole" (n = 158). Nedenfor viser jeg kun den første løsningen. Par ordnet likt: P = 23 (123+16+304+158) + 13 (16+158) + 56 (304+158) + 123 (158) P = 120 601 + 13 174 + 56 462 + 123 158 P = 13823 + 2262 + 25872 + 19434 = 61391 Par ordnet ulike (start nederst til venstre): Q = 88 (123+16+13+5) + 304 (16+5) + 56 (13+5) + 123 (5) Q = 88 157 + 304 21 + 56 18 + 123 5 Q = 13816 + 6384 + 1008 + 615 = 21823 Gamma for menn blir da: 61391 21823 Gamma m = = 0,475 0,48 61391+ 21823 Utgangspunkt for å beregne korrelasjonene mellom alder og yrkesaktivitet for kvinner: Grunnskole Videregående Høgskole Ingen inntekt 38 34 8 Inntekt under 150 000 133 204 39 Inntekt 150 000 eller mer 40 139 114 Par ordnet likt: P = 38 (204+39+139+114) + 34 (39+114) + 133 (139+114) + 204 (114) P = 38 496 + 34 153 + 133 253 + 204 114 P = 18848 + 5202 + 33649 + 23256 = 80955 Par ordnet ulike (start nederst til venstre): P = 40 (204+39+34+8) + 139 (39+8) + 133 (34+8) + 204 (8) P = 40 285 + 139 47 + 133 42 + 204 8 P = 11400 + 6533 + 5586 + 1632 = 25151 Gamma for kvinner blir da: 80955 25151 Gamma k = = 0,526 0,53 80955 + 25151 5
Løsning med Kendalls tau-b: Disse korrelasjonskoeffisientene er kun beregnet med et statistikkprogram, og jeg viser ikke fremgangsmåten her. Kendalls tau-b for menn = 0,2498 Kendalls tau-b for kvinner = 0,3305 Tolkning: Det er en sterkere positiv gamma mellom utdanning og inntekt for kvinner enn for menn. I tolkningen bør det komme fram at gamma ikke bare måler om det er forskjeller mellom de to kjønnenes inntekt, men at gamme også viser om det foreligger noen bestemte mønster bak denne forskjellen. d) Beregn hvilke effekter kjønn og utdanning har på om folk har hatt inntekt eller ikke i løpet av 1993, og forklar hva disse effektene viser. Regn ut samspillet mellom kjønn og utdanning i forhold til inntekt, og forklar hva dette samspillet viser. MÅL: Teste studentens kjennskap til beregning og tolkning av prediksjonseffekter. For å kunne løse denne oppgaven er det en fordel om studentene slår sammen de to inntektskategoriene for å identifisere andelen som hadde inntekt. Videre vil sannsynligvis de fleste velge å måle utdanningseffekten ved å sammenligne de to ytterverdiene i de tredelte variabelen. Vil vi da få en tabell som ser omtrent slik ut: Menn Kvinner Høgskole Grunnskole Høgskole Grunnskole Ingen inntekt 3 14 5 18 Inntekt 97 87 95 82 Sum 100 100 100 100 (n=) (167) (180) (211) (161) Effekt av kjønn: E k = ½[(97-95)+(87-82)] = ½(2+5) = ½(7) = 3,5 Effekten av kjønn viser at det er en større andel av mennene enn av kvinnene som har inntekt, og at forskjellen etter at vi har kontrollert for utdanningsforskjellen er på 3,5 prosentpoeng. Effekt av utdanning: E u = ½[(97-87)+(95-82)] = ½(10+13) = ½(23) = 11,5 Effekten av utdanning viser at det er en større andel av med universitet- og høgskoleutdanning som har inntekt enn de som har grunnskoleutdanning, og at forskjellen etter at vi har kontrollert for kjønnsforskjellen er på 11,5 prosentpoeng. Samspill mellom utdanning og kjønn: S ku = ½[(97-95)-(87-82)] = ½(2-5) = ½(-3) = -1,5 Det negative samspillet viser en svak tendens til at effekten av utdanning i forhold til inntekt er høyere blant kvinner enn blant menn. e) Kan vi med grunnlag i denne undersøkelsen avvise hypotesen om at menn og kvinner har likt inntektsnivå i populasjonen? 6
MÅL: Teste studentens forståelse av hypotesetesting ved hjelp av kjikvadrattesten og statistisk generalisering. Denne oppgaven må løses med kjikvadrattest. Først må det settes opp en ny tabell som viser de absolutte fordelingene (f) for de to kjønnene ved å summere antallet enheter i hver utdanningskategori i tabellen som ble brukt for å løse oppgave 1c, og deretter beregne de forventede fordelingene ved statistisk uavhengighet (f u ) med utgangspunkt i den første tabellen. De to tabellene skal da se omtrent slik ut: f f u Menn Kvinner Totalt Menn Kvinner Totalt Ingen inntekt 41 80 121 62,0 59,0 121,0 Inntekt < 150 000 195 376 571 292,4 278,6 571,0 Inntekt 150 000 550 293 843 431,7 411,3 843,0 Totalt 786 749 1535 786,1 748,9 1535,0 Dermed blir kjikvadratet: 2 2 2 2 2 2 2 (41 62,0) (80 59,0) (195 292,4) (376 278,6) (550 431,7) (293 411,3) χ = + + + + + = 147,4888 62,0 59,0 292,4 278,6 431,7 411,3 Kritisk verdi på 5%-nivå og 2 frihetsgrader er 5,99. Kjikvadratet er derfor mye større enn kritisk verdi, og nullhypotesen om likt inntektsnivå for kvinner og menn må forkastes. Oppgave 3 Tenk deg at du skal gjennomføre en kvalitativ studie av et kriminelt belastet ungdomsmiljø, hvor du vil sette søkelyset på hvordan ungdom rekrutteres til kriminelle miljøer. Du er i utgangspunktet åpen for å bruke både intervju og observasjon som metode. MÅL: Teste studentenes kunnskaper om kvalitative metoder. De studentene som skal få god uttelling for denne oppgaven må kunne relatere de ulike spørsmålene til den oppgitte problemstillingen. a) Hvilke svake og sterke sider ser du ved de ulike kvalitative metodene som kan brukes til denne studien? Her må vi forlange at studentene diskuterer metodevalg i forhold til problemstillingen b) Hvordan vil du gå fram for å plukke ut informanter til studien, og hvordan kan du komme i kontakt med det ungdomsmiljøet du ønsker å studere? Her bør vi forvente at de beste studentene klarer å få fram karakteristiske trekke ved utvelging av informanter til kvalitative studier, og at de vet hvordan disse utvalgene skiller seg fra de sannsynlighetsutvalgene vi bruker i kvantitative design. Thagaard trekker fram mange eksempler på hvordan problemene med innpass i lukkede miljøer kan løses i praksis, og temaet er også behandlet på forelesningene. 7
c) Hvilke etiske vurderinger blir viktige for denne typen studier? Her må vi forlange at de beste studentene klarer å knytte de estiske vurderingene opp til problemstillingen, og at det ikke blir en generell oppramsing av pensum. d) Hvordan vil du analysere det materialet du samler inn i denne studien? Thagaard skiller mellom analyser av beretninger/historier, personsentrerte analyser og temasentrerte analyser. 8