3. Multidimensjonale tabeller. SOS1120 Kvantitativ metode. Årsaksmodeller. Forelesningsnotater 8. forelesning høsten 2005

SOS1120 Kvantitativ metode 3. Multidimensjonale tabeller Forelesningsnotater 8. forelesning høsten 2005 Per Arne Tufte Hva skjer når vi inkluderer flere uavhengige variabler i en tabellanalyse? Årsaksmodeller Tre variabelmodeller der Y er avhengig variabel Direkte effekt: Spuriøs effekt: Vekselvirkning: Indirekte effekt: Samspill (interaksjon): Enhet og mangfold s. 344 1

Eksempler på multidimensjonal analyse ved hjelp av korrelasjonsmål,347,639 2946,378,717 2946,347,639 2946 2

Lønn * * Crosstabulation Høy Lav Høy Lav Høy Lav Lønn Lav 26 39 56 78 Høy 74 61 44 22 Total 100 100 100 100 (757) (36) (899) (1254) Siden den forutgående variabelen er sterkt korrelert med begge de etterfølgende variablene, er det stor sannsynlighet for at noe av sammenhengen mellom yrkesstatus og inntekt er spuriøs. Mål på sammenhengen mellom lønn og yrkesstatus kontrollert for : Lav Høy,235,472 2153,061,288 793 EU stemmegivning etter kjønn og region, prosenttall Oslo området Resten av landet Redusert effekt av den mellomliggende variabelen (yrkesstatus): skyldes at en del av den bivariate sammenhengen mellom yrkesstatus og inntekt er spuriøs EU standpunkt Menn Kvinner Totalt Menn Kvinner Totalt Nei 32 40 36 51 64 58 Ja 68 60 64 49 36 42 Sum 100 100 100 100 100 100 (n) (379) (390) (769) (846) (812) (1658) Oslo Resten Menn Kvinner Cramers V 0,080 0,130 V 0,170 0,230 Samspill mellom og yrkesstatus: Innebærer at effekten av yrkesstatus er noe svakere for dem som har høy Cramers V i venstre del av tabellen gjelder sammenhengen mellom kjønn og stemmegivning innen de to regionene. I høgre del av tabellen beskriver Cramers V sammenhengen mellom region og EU standpunkt for hvert kjønn. Enhet og mangfold s. 346 3

Lønnsinntekter etter kjønn og alder. Studenter SOS1120 høsten 2005. Har du lønnsinntekter Total Aldersgrupper todelt 18 23 år 24 år eller mer Ja Nei Nominal by Nominal Nominal by Nominal Symmetric Measures a. Not assuming the null hypothesis. Mann Mann 81 78 84 74 19 22 16 26 100 100 100 100 21 87 31 42 Phi Phi Aldersgrupper todelt 18 23 år 24 år eller mer Kjønn Kvinne b. Using the asymptotic standard error assuming the null hypothesis. Kjønn Kvinne Approx. Sig.,027,779,027,779 108,120,304,120,304 73 Kohortanalyse ved hjelp av krysstabeller (Fra Ellingsæter, Noack, Rønsen 1997) 4

4. Hypoteseprøving i krysstabeller En introduksjon Teoretisk populasjon Populasjonsliste Bruttoutvalg Statistisk generalisering: I hvilken grad kan vi si at resultater fra utvalget også gjelder for populasjonen? Utgangspunkt: Når vi observerer at det er sammenheng mellom to variabler i en krysstabell, ønsker vi å teste om det også er sammenheng mellom disse variablene i populasjonen som utvalgsdataene er hentet fra. Nettoutvalg 5

Hvordan bor du dette semesteret Total Eksempel: observerte frekvenser (O) Hvordan bor du dette semesteret * Aldersgrupper Crosstabulation Hjemme hos foreldre/steforeldre I leid bolig I bolig som husholdningen eier selv Cramers V: 0,237 : 0,394 Aldersgrupper 26 år eller 18 21 år 22 25 år mer Total 5 10 3 18 9,3% 13,0% 6,1% 10,0% 43 54 24 121 79,6% 70,1% 49,0% 67,2% 6 13 22 41 11,1% 16,9% 44,9% 22,8% 54 77 49 180 100,0% 100,0% 100,0% 100,0% Skyldes sammenhengen tilfeldige utvalgsfeil, eller kan den generaliseres til å gjelde SOS1120 studenter generelt? H 0 : Hypoteser Det er ingen forskjell mellom SOS1120 studenter i ulike aldersgrupper med hensyn til hvordan de bor. H 1 : Det er forskjell mellom SOS1120 studenter i ulike aldersgrupper med hensyn til hvordan de bor. Kjikvadratet kan brukes til å teste hypotesene Måler avviket mellom den observerte krysstabellen og den tilsvarende krysstabellen uten sammenheng mellom variablene = Avviket mellom observerte frekvenser og forventede frekvenser når nullhypotesen er sann Hvordan bor du dette semesteret Total Forventede frekvenser når H 0 er sann (E) Hvordan bor du dette semesteret * Aldersgrupper Crosstabulation Hjemme hos foreldre/steforeldre I leid bolig I bolig som husholdningen eier selv Aldersgrupper 26 år eller 18 21 år 22 25 år mer Total 5,4 7,7 4,9 18,0 10,0% 10,0% 10,0% 10,0% 36,3 51,8 32,9 121,0 67,2% 67,2% 67,2% 67,2% 12,3 17,5 11,2 41,0 22,8% 22,8% 22,8% 22,8% 54,0 77,0 49,0 180,0 100,0% 100,0% 100,0% 100,0% Ingen forskjell (i tråd med nullhypotesen). 6

Utregning av 2 O E (O E) (O E) 2 (O E) 2 / E 5 5,4 0,4 0,2 0,03 43 36,3 6,7 44,9 1,24 6 12,3 6,3 39,7 3,23 10 7,7 2,3 5,3 0,69 54 51,8 2,2 5,0 0,10 13 17,5 4,5 20,6 1,17 3 4,9 1,9 3,6 0,74 24 32,9 8,9 79,9 2,43 22 11,2 10,8 117,5 10,53 2 = 20,14 Når er avviket fra nullhypotesen (målt ved 2 ) så stor at vi kan forkaste H 0 med liten fare for å gjøre feil? Beslutningsregel Alt annet likt: Jo større kjikvadrat, jo mindre sannsynlig er det at vi forkaster en riktig nullhypotese Vi fastsetter en kritisk kjikvadratverdi som tilsvarer en bestemt risiko for å forkaste en riktig nullhypotese (= signifikansnivå, for eksempel 5%) Hvis observert kjikvadrat er høyere enn kritisk verdi, forkastes H 0. 7