Eksamensoppgave i samfunnsfaglig forskningsmetode 16. mai 03 Oppgave 1 1 Tabell 1 gjengir data fra en spørreundersøkelse blant personer mellom 17 og 66 år i et sannsynlighetsutvalg fra SSB sitt sentrale personregister. Tabell 1. Hvor mange timer informantene jobbet pr uke, fordelt etter kjønn og aldersgruppe. Prosenter. Kjønn: Alder: Arbeidstid pr. uke: Sum (n=) 37 18 28 17 (500) 8 5 46 41 (700) 25 5 42 28 (400) 38 37 31 32 32 24 38 26 7 10 5 (500) (700) (400) 2 a) Beskriv variablene i tabell 1, og forklar kort hva tabellen viser. b) Beregn korrelasjonene mellom alder og arbeidstid for både menn og kvinner. Forklar hva disse korrelasjonskoeffisientene viser. Bruk det korrelasjonsmålet du mener passer best. c) Vis hvordan vi med grunnlag i informasjon fra tabell 1 kan teste en hypotese om at menn og kvinner har like lang arbeidstid. 3 1
a) Beskriv variablene i tabell 1, og forklar kort hva tabellen viser. Avhenging variabel: Arbeidstid pr uke Ordinalnivå Uavhengige variabler Kjønn Nominalnivå Alder Ordinalnivå 4. og forklar kort hva tabellen viser. Tabellen viser at menn bruker mer tid til inntektsgivende arbeid enn kvinner. Den midterste aldersgruppen jobber mest. 5 1 b) Beregn korrelasjonene mellom alder og arbeidstid for både menn og kvinner. Forklar hva disse korrelasjonskoeffisientene viser. Bruk det korrelasjonsmålet du mener passer best. Her skal alle kunne se at vi må regne ut en korrelasjonskoeffisient mellom alder og arbeidstid for menn, og en korrelasjonskoeffisient mellom alder og arbeidstid for kvinner. Hvilket mål skal vi velge? Her vil vi legge stor vekt på argumentasjonen bak valget. gamma tau-c Cramers V (Hvis vi legger vekt på at sammenhengen ikke er lineær) 6 2
Utgangspunkt for å beregne korrelasjonene L= (+++++) + 7 Utgangspunkt for å beregne korrelasjonene L= (+++++) + (++) + 8 Utgangspunkt for å beregne korrelasjonene L= (+++++) + (++) + (+++) + 9 3
Utgangspunkt for å beregne korrelasjonene L= (+++++) + (++) + (+++) + (+) + 10 Utgangspunkt for å beregne korrelasjonene L= (+++++) + (++) + (+++) + (+) + (+) + 11 Utgangspunkt for å beregne korrelasjonene L= (+++++) + (++) + (+++) + (+) + (+) + () 12 4
Utgangspunkt for å beregne korrelasjonene L= (+++++) + (++) + (+++) + (+) + (+) + () L= 944 + 300 + 889 + 280 + 399 + L= 174640 + 00 + 80010 + 9800 + 55860 + 36064 = 373174 13 Par ordnet ulikt: Og så videre U= (+++++) + (++) + (+++) + (+) + (+) + () U= 701 + 288 + 211 + 1 + 1 + U= 595 + 826 + 29540 + 38640 + 40 + 00 = 227961 Gamma blir da: γ 373174 227961 = = 0,241 0, 242 373174 + 227961 14 Hva blir tau-c for menn? Etter som antallet linjer og kolonner er ulikt velger vi tau-c τ c 2k ( L U ) = 2 n ( k 1) 2 3(373174 227961) 6(142213) 871278 = = = = 0,170 (3 1) 20000(2) 50 τ cmenn ( ) 2 15 5
Utgangspunkt for å beregne korrelasjonene mellom alder og arbeidstid for kvinner: 1 155 1 224 266 70 148 128 104 L= 1 (224+128+266+104+70+) + (128+104+) + 155 (266+104+70+) + 224 (104+) + 1 (70+) + 266 () L= 1 812 + 252 + 155 460 + 224 124 + 1 + 266 L= 154280 + 280 + 71300 + 27776 + 10800 + 53 = 3047 16 1 155 1 224 266 70 148 128 104 Par ordnet ulikt: U= (266+104+224+128++148) + 70 (104+128+148) + 1 (224+128++148) + 266 (128+148) + 155 (+148) + 224 (148) U= 1010 + 70 380 + 1 640 + 266 276 + 155 288 + 224 148 U= 0 + 26600 + 76800 + 73416 + 44640 + 33152 = 289958 Gamma blir da: γ 3047 289958 = = 0,02488 0,025 3047 + 289958 17 Hva blir tau-c for kvinner? Her velger vi også tau-c τ c 2k ( L U ) = 2 n ( k 1) 2 3(3047 289958) 6(14798) 88788 = = = = 0,017 (3 1) 20000(2) 50 τ c ( kvinner ) 2 18 6
Hvordan tolker vi korrelasjonsmålene? Det er mye sterkere positiv korrelasjon (gamma eller tau-c) mellom alder og arbeidstid for menn (0,242 og 0,170) enn for kvinner (0,025 og 0,017). I tolkningen bør det også komme fram at disse korrelasjonene (gamma eller tau-c) ikke måler om det er forskjeller mellom aldersgruppenes arbeidstid, men at gamma og tau-c viser styrken på det lineære mønsteret for sammenhengen mellom alder og arbeidstid. 19 1c) Vis hvordan vi med grunnlag i informasjon fra tabell 1 kan teste en hypotese om at menn og kvinner har like lang arbeidstid. Hvilken test skal vi bruke? Kjikvadrattesten Statistiske hypoteser? H 0 : og kvinner har like lang arbeidstid H 1 : og kvinner har ulik arbeidstid Signifikansnivå? 5%(α = 0,05) Antallet frihetsgrader? (Hvordan ser den tabellen vi skal teste ut?) Tabell for å teste hypotesen 341 478 145 507 652 630 4 11 484 125 609 30 21 7
Hva er kritisk verdi for kjikvadratet (χ 2 )? Antall frihetsgrader: (2-1)(4-1) = 3 Antall Sannsynlighet frihetsgr. 0,99 0, 0,50 0, 0,10 0,05 0,02 0,01 0,001 1 0,0002 0,02 0,46 1,64 2,71 3,84 5,41 6,64 10,83 df 2 0,02 0,21 1,39 3,22 4,61 5,99 7,82 9,21 13,82 3 0,12 0,58 2,37 4,64 6,25 7,82 9,84 11,34 16,27 4 0,30 1,06 3,36 5,99 7,78 9,49 11,67 13,28 18,47 Kritisk verdi for kjikvadratet med 5%-nivå og 3 frihetsgrader er 7,82 22 Ny tabell med observerte frekvenser (O) og forventede frekvenser ved statistisk uavhengighet (E) 341 145 630 484 478 507 4 125 652 11 609 30 326 0 304,5 E: 326 0 304,5 652 11 609 30 2 2 2 2 2 (341 ) (478 ) (145 326) (507 326) χ = + + + + 326 326 2 2 2 2 (630 0) (4 + 0) (484 304,5) (125 + 304,5) + + + = 453,032 0 0 304,5 304,5 23 Hva viser kjikvadrattesten? Signifikannivået er 5% (sannsynlighet = 0,05) Antallet frihetsgrader er 3 (df=(2-1)(4-1)=1 3=3) Kritisk verdi blir da (se tabell s. 487 i Ringdal) 7,82 Vårt kjikvadrat på 453,032 er større enn den kritiske verdien på 7,82 Avvikene mellom den observerte fordelingen (O) og fordelingen uten statistisk avhengighet (E) er derfor så store at det er mindre enn 5 prosent sannsynlig at det ikke er en statistisk sammenheng i populasjonen Vi forkaster derfor H 0 om ingen sammenheng, og beholder H 1 om at det er statistisk sammenheng mellom kjønn og arbeidstid i populasjonen. 24 8
Hva hvis hypotesen var slik? H 0 : Det er ingen forskjell mellom kvinner og menn når vi ser på andelen som er yrkesaktive. 25 341 478 145 507 630 4 484 125 652 11 609 30 E: 326 326 0 0 304,5 304,5 652 11 609 30 Ikke yrkesaktive Yrkesaktive 341 478 1259 2 2381 30 E: 11,5 11,5 2381 30 26 E: Ikke yrkesaktive 341 478 Yrkesaktive 1259 2 2381 11,5 11,5 2381 30 30 Hjelpetabell for utregning av χ 2 Rute E: O-E (O-E) 2 (O-E) 2 /E 1 2 3 4 Kjikvadrat 341 478 1259 2 11,5 11,5-68,5 68,5 68,5-68,5 4692,25 4692,25 4692,25 4692,25 11,46 11,46 3,94 3,94 30,80 27 9
Hva viser denne kjikvadrattesten? Signifikannivået er 5% (sannsynlighet = 0,05) Antallet frihetsgrader er 1 (df=(2-1)(2-1)=1 1=1) Kritisk verdi blir da (se tabell s. 487 i Ringdal) 3,84 Vårt kjikvadrat på 30,80 er større enn den kritiske verdien på 3,84 Avvikene mellom den observerte fordelingen (O) og fordelingen uten statistisk avhengighet (E) er derfor så store at det er mindre enn 5 prosent sannsynlig at det ikke er en statistisk sammenheng i populasjonen Vi forkaster derfor H 0 om ingen sammenheng, og beholder H 1 om at det er statistisk sammenheng mellom kjønn og yrkesaktivitet i populasjonen. 28 10