Forelesning 8 Tabellanalyse Tabellanalyse er en godt egnet presentasjonsform hvis: variablene har et fåtall naturlige kategorier For eksempel kjønn, Eu-syn variablene er delt inn i kategorier For eksempel alder inndelt i Yngre og Eldre Tabellanalysen kan være: univariat (en variabel) bivariat (to variabler) multivariat (tre eller flere variabler) 1 Univariate tabeller cq2 WHAT DID YOU VOTE? Valid Missing Cumulative Frequency Percent Valid Percent Percent 1 VOTED YES 1315 39,2 46,4 46,4 2 VOTED NO 1517 45,2 53,6 100,0 2832 84,4 100,0 3 VOTED BLANK 3,1 8 DONT KNOW/REFUSES 15,4 TO ANSWER System 507 15,1 525 15,6 3357 100,0 Hvordan bør vi sette opp denne tabellen i en rapport? Tabell 1. Stemmegivning ved folkeavstemningen om EU i 1994. Stemmegivning: Prosent Ja 46 Nei 54 Sum 100 (N=) (2832) 2 Bivariat tabellanalyse Formålet med bivariat analyse: Avgjøre hvorvidt enhetenes verdi på en variabel har en tendens til å gå sammen med en bestemt verdi på en annen variabel Det vil si å avgjøre om det er statistisk avhengighet eller statistisk uavhengighet mellom de to variablene 3 1
Statistisk uavhengighet og statistisk avhengighet Statistisk uavhengighet mellom variablene To variabler er statistisk uavhengige når de relative betingede fordelingene er like. Dette innebærer at de relative betingede fordelingene er lik marginalfordelingen. Statistisk avhengighet mellom variablene Når de relative betingede fordelingene er forskjellige har vi statistisk avhengighet mellom variabelen. Jo sterkere statistisk avhengighet, jo lettere kan vi forutsi enhetenes verdi på en variabel ut fra hvilken verdi de har på den andre variabelen. Vi kan undersøke om det er statistisk avhengighet ved å: sammenligne ulike prosentfordelinger (de relativt betingede fordelingene) måle styrken på den statistiske avhengigheten ved hjelp av statistiske mål 4 Hvordan bør vi prosentuere denne tabellen? cq2 WHAT DID YOU VOTE? * sex sex Crosstabulation cq2 WHAT DID YOU VOTE? 1 VOTED YES 2 VOTED NO Den bivariate fordelingen sex sex 1 MALE 2 FEMALE 796 519 1315 750 767 1517 1546 1286 2832 Horisontal marginal Vertikal marginal 5 Tre måter å prosentuere på Prosentuering med basis i det totale antall enheter Prosentuering med basis i de vertikale marginalene (Horisontal prosentuering) Prosentuering med basis i de horisontale marginalene (Vertikal prosentuering) 6 2
Prosentuering med basis i det totale antallet enheter cq2 WHAT DID YOU VOTE? * sex sex Crosstabulation cq2 WHAT DID YOU VOTE? 1 VOTED YES 2 VOTED NO % of % of % of sex sex 1 MALE 2 FEMALE 796 519 1315 28,1% 18,3% 46,4% 750 767 1517 26,5% 27,1% 53,6% 1546 1286 2832 54,6% 45,4% 100,0% 28,1 prosent av utvalget består av menn som stemte ja til EU 7 Prosentuering med basis i den vertikale marginalen cq2 WHAT DID YOU VOTE? * sex sex Crosstabulation cq2 WHAT DID YOU VOTE? 1 VOTED YES % within cq2 WHAT DID YOU VOTE? 2 VOTED NO % within cq2 WHAT DID YOU VOTE? % within cq2 WHAT DID YOU VOTE? sex sex MALE 2 FEMALE 1 796 519 1315 60,5% 39,5% 100,0% 750 767 1517 49,4% 50,6% 100,0% 1546 1286 2832 54,6% 45,4% 100,0% Det er 11,1 prosentpoeng flere ja-stemmer enn nei-stemmer blant menn (Vil det si at ja-stemming øker sannsynligheten for å bli en mann?) 8 Prosentuering med basis i den horisontale marginalen cq2 WHAT DID YOU VOTE? * sex sex Crosstabulation cq2 WHAT DID YOU VOTE? 1 VOTED YES % within sex sex 2 VOTED NO % within sex sex % within sex sex sex sex 1 MALE 2 FEMALE 796 519 1315 51,5% 40,4% 46,4% 750 767 1517 48,5% 59,6% 53,6% 1546 1286 2832 100,0% 100,0% 100,0% Det er 11,1 prosentpoeng flere kvinner som stemte nei enn menn! Aha! Her har vi et funn!!!!! Hva avgjør så prosentueringsretningen? Kausaliteten! 9 3
Ulike måter å forklare sammenhengen mellom to variabler Kausal sammenheng Forklarer den statistiske sammenhengen mellom variablene ved at en uavhengig variabel påvirker verdien på en avhengig variabel. Eksempel: Sammenhengen mellom foreldre og barns utdanningsnivå. Ikke kausal sammenheng Måling av statistisk sammenheng uten at den ene variabelen betraktes som årsak til den andre. Eksempel: Sammenhengen mellom ektefelles utdanningsnivå. 10 Uavhengige og avhengige variabler Når vi ønsker å studere hvordan fordelingen på en variabel er betinget av hvilken verdi enhetene har på en annen variabel, kaller vi den første for avhengig variabel og den andre for uavhengig variabel. Kjønn Stemmegivning ved EU-valget Uavhengig variabel Avhengig variabel 11 Hvordan bestemmer vi hvilken variabel som er uavhengig? Årsaken (X) må komme før effekten (Y) Modellens årsakshierarki må spesifiseres ut fra teori eller sunn fornuft Det må være statistisk sammenheng (samvariasjon) mellom X og Y Styrken for den statistiske sammenhengen mellom X og Y i utvalget kan beregnes med ulike statistiske mål Sammenhengen mellom X og Y må ikke være spuriøs Vi må kontrollere for andre mulig årsaksvariabler 12 4
To enkle regler ved prosentuering Vi prosentuerer alltid med basis i den eller de uavhengige variablene. Vi kommenterer alltid tabellen på tvers av prosentueringsretningene. 13 Hva er uavhengig og avhengig variabel i denne tabellen, og hvordan tolker vi tabellen? Tabell 2. Stemmegivning ved folkeavstemningen om EU i 1994 etter kjønn. Prosenter. Menn Kvinner Ja 52 40 Nei 49 60 Sum 101 100 (n=) (1546) (1286) 14 Hva er statistisk avhengighet i et utvalg? Er det statistisk avhengighet mellom kjønn og EU-syn i dette utvalget på 1000 enheter? Kjønn: Menn Kvinner Ja 250 250 Nei 250 250 Kjønn: Menn Kvinner t Ja 50 50 50 Nei 50 50 50 Sum 100 100 100 (n=) (500) (500) (1000) Nei det er ingen statistisk avhengighet fordi de relativt betingede fordelingene (fordelingen for menn og kvinner) er lik marginalfordelingen (totalfordelingen)! 15 5
Er det statistisk avhengighet mellom kjønn og EU-syn i dette utvalget? Kjønn: Menn Kvinner Ja 200 200 Nei 300 300 Kjønn: Menn Kvinner t Ja 40 40 40 Nei 60 60 60 Sum 100 100 100 (n=) (500) (500) (1000) Nei det er fortsatt ingen statistisk avhengighet fordi de relativt betingede fordelingene (fordelingen for menn og kvinner) er lik marginalfordelingen (totalfordelingen)! 16 Er det statistisk avhengighet her? Kjønn: Menn Kvinner Ja 240 160 Nei 360 240 Kjønn: Menn Kvinner t Ja 40 40 40 Nei 60 60 60 Sum 100 100 100 (n=) (600) (400) (1000) Nei det er fortsatt ingen statistisk avhengighet! 17 Er det statistisk avhengighet mellom kjønn og EU-syn i dette utvalget? Kjønn: Menn Kvinner Ja 300 200 Nei 200 300 Kjønn: Menn Kvinner t Ja 60 40 50 Nei 40 60 50 Sum 100 100 100 (n=) (500) (500) (1000) Ja her er de prosentuerte betingede fordelingene ulike, og de er ikke lik marginalfordelingen! Det vil si: I dette utvalget på 1000 enheter er det statistisk avhengighet mellom kjønn og EU-syn 18 6
kategorier Hvor stor må den statistiske avhengigheten i utvalget være for at vi også kan hevde at den gjelder i den populasjonen som utvalget er trukket fra? 19 Valg av metode for statistisk generalisering er avhengig av hva slags variabler vi har Avhengig variabel Uavhengig variabel kontinuerlig kategorivariabel Kjikvadrattest Logistisk regresjonsanalyse kontinuerlig variabel Lineær regresjonsanalyse med dummyer Lineær regresjonsanalyse 20 Kjikvadrattesten Den mest benyttede metoden for å utføre statistiske generaliseringer fra bivariate tabeller. Brukes til å teste nullhypotesen om at det ikke er sammenheng mellom to variabler i populasjonen ved hjelp av data fra et sannsynlighetsutvalg. 21 7
Y EU-syn Hvis menn og kvinner stemmer likt er det mest sannsynlig at vi får denne fordelingen i utvalget Y EU-syn * X Kjønn Crosstabulation 1 Ja 2 Nei X Kjønn 1 Menn 2 Kvinner 500 500 1000 500 500 1000 1000 1000 2000 Kjikvadratet viser at det er ingen forskjell mellom de frekvensene i vårt utvalg og frekvensene slik vi må forvente at de vil være hvis det ikke er noen forskjell i populasjonen som utvalget er trukket fra. Asymp. Sig. Exact Sig. Exact Sig. Value df (2-sided) (2-sided) (1-sided) Pearson Chi-Square.000 b 1 1.000 Continuity Correction a.000 1 1.000.000 1 1.000 1.000.518.000 1 1.000 2000 500.00. 22 Kan vi avkrefte lik stemmegivning i populasjonen hvis vi får dette utvalgsresultatet? Y EU-syn Y EU-syn * X Kjønn Crosstabulation 1 Ja 2 Nei X Kjønn 1 Menn 2 Kvinner 510 490 1000 490 510 1000 1000 1000 2000 Det er 37,1% sannsynlighet for at kvinner og menn i populasjonen stemmer likt i populasjonen Asymp. Sig. Exact Sig. Exact Sig. Value df (2-sided) (2-sided) (1-sided) Pearson Chi-Square.800 b 1.371 Continuity Correction a.722 1.395.800 1.371.395.198.800 1.371 2000 500.00. 23 Kan vi avkrefte hypotesen om at kvinner og menn stemmer likt ut fra dette utvalgsresultatet? Y EU-syn Y EU-syn * X Kjønn Crosstabulation X Kjønn 1 Menn 2 Kvinner 1 Ja 520 480 1000 2 Nei 480 520 1000 1000 1000 2000 Det er fortsatt 7,4% sannsynlighet for at menn og kvinner i populasjonen kan stemme likt Asymp. Sig. Exact Sig. Exact Sig. Value df (2-sided) (2-sided) (1-sided) Pearson Chi-Square 3.200 b 1.074 Continuity Correction a 3.042 1.081 3.201 1.074.074.041 3.198 1.074 2000 500.00. 24 8
Her kan vi avkrefte hypotesen om lik stemmegivning Y EU-syn Y EU-syn * X Kjønn Crosstabulation X Kjønn 1 Menn 2 Kvinner 1 Ja 525 475 1000 2 Nei 475 525 1000 1000 1000 2000 Det er 2,5% sannsynlighet for at kvinner og menn i populasjonen stemmer likt Asymp. Sig. Exact Sig. Exact Sig. Value df (2-sided) (2-sided) (1-sided) Pearson Chi-Square 5.000 b 1.025 Continuity Correction a 4.802 1.028 5.002 1.025.025.014 4.998 1.025 2000 500.00. 25 Her ser vi en krysstabell fra en reell utvalgsundersøkelse STEMME Stemmegivning Pearson Chi-Square STEMME Stemmegivning * KJONN Kjønn Crosstabulation 1 Sosialistisk 2 Borgerlig 3 Vet ikke KJONN Kjønn 1 Menn 2 Kvinner 456 382 838 485 460 945 96 138 234 1037 980 2017 Asymp. Sig. Value df (2-sided) 13.134 a 2.001 13.173 2.001 10.986 1.001 2017 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 113.69. χ 2 = 13,134 Signifikanssannsynligheten for χ 2 = 13,134 ved 2 frihetsgraderer er på 0,1% 26 Hva skjer hvis vi kutter ut de som ikke stemte? STEMME Stemmegivning Pearson Chi-Square Continuity Correction a STEMME Stemmegivning * KJONN Kjønn Crosstabulation Value 1 Sosialistisk 2 Borgerlig df Asymp. Sig. (2-sided) 1.704 b 1.192 1.582 1.208 1.705 1.192 1.703 1.192 1783 KJONN Kjønn 1 Menn 2 Kvinner 456 382 838 485 460 945 941 842 1783 Exact Sig. (2-sided) Exact Sig. (1-sided).200.104 395.74. χ 2 blir vesentlig lavere Er det fortsatt signifikante forskjeller? 27 9