verdier Forelesning 10 Kjikvadrattesten To typer av statistisk generalisering: Statistisk hypotesetesting Statistiske hypoteser (H 0 og H 1 ) om populasjonen Finner forkastningsområdet for H 0 ut fra en kjent sannsynlighetsfordeling, signifikansnivå og kritisk verdi. Konklusjon: Beholder eller forkaster H 0 Estimering (feilmargin, konfindensintervall) Hvor stort må intervallet rundt vårt estimat være for at det med 95% sikkerhet omfatter den riktige verdien i populasjonen? Valg av type statistisk generalisering i bivariat analyse er avhengig av hvilke variabler vi har Avhengig variabel kategorivariabel kontinuerlig variabel Uavhengig variabel 3 eller flere Kjikvadrattest Kjikvadrattest t-test Regresjonsanalyse Variansanalyse Kjikvadrattesten Den mest benyttede metoden for å utføre statistiske generaliseringer fra bivariate tabeller. Brukes til å teste nullhypotesen om at det ikke er sammenheng mellom to variabler i populasjonen ved hjelp av data fra et sannsynlighetsutvalg.
Hvis menn og kvinner stemmer likt er det mest sannsynlig at vi får denne fordelingen i utvalget Y EU-syn Y EU-syn * X Kjønn Crosstabulation 1 Ja Nei Pearson Chi-Square Continuity Correction a X Kjønn 1 Menn Kvinner 500 500 1000 500 500 1000 1000 1000 000 Value df Asymp. Sig. (-sided).000 b 1 1.000.000 1 1.000.000 1 1.000.000 1 1.000 000 Exact Sig. (-sided) Exact Sig. (1-sided) 1.000.518 a. Computed only for a x table 500.00. Kjikvadratet viser at det er ingen forskjell mellom de observerte frekvensene (O) og frekvensene ved statistisk uavhengighet (E) Kan vi avkrefte lik stemmegivning i populasjonen hvis vi får dette utvalgsresultatet? Y EU-syn Y EU-syn * X Kjønn Crosstabulation 1 Ja Nei X Kjønn 1 Menn Kvinner 510 490 1000 490 510 1000 1000 1000 000 Det er 37,1% sannsynlighet for at kvinner og menn i populasjonen stemmer likt Asymp. Sig. Exact Sig. Exact Sig. Value df (-sided) (-sided) (1-sided) Pearson Chi-Square.800 b 1.371 Continuity Correction a.7 1.395.800 1.371.395.198.800 1.371 000 a. Computed only for a x table 500.00. Kan vi avkrefte hypotesen om at kvinner og menn stemmer likt ut fra dette utvalgsresultatet? Y EU-syn Y EU-syn * X Kjønn Crosstabulation X Kjønn 1 Menn Kvinner 1 Ja 50 480 1000 Nei 480 50 1000 1000 1000 000 Det er fortsatt 7,4% sannsynlighet for at menn og kvinner i populasjonen kan stemme likt Asymp. Sig. Exact Sig. Exact Sig. Value df (-sided) (-sided) (1-sided) Pearson Chi-Square 3.00 b 1.074 Continuity Correction a 3.04 1.081 3.01 1.074.074.041 3.198 1.074 000 a. Computed only for a x table 500.00.
Her kan vi avkrefte hypotesen om lik stemmegivning Y EU-syn * X Kjønn Crosstabulation X Kjønn 1 Menn Kvinner Y EU-syn 1 Ja 55 475 1000 Nei 475 55 1000 1000 1000 000 Det er,5% sannsynlighet for at kvinner og menn i populasjonen stemmer likt Asymp. Sig. Exact Sig. Exact Sig. Value df (-sided) (-sided) (1-sided) Pearson Chi-Square 5.000 b 1.05 Continuity Correction a 4.80 1.08 5.00 1.05.05.014 4.998 1.05 000 a. Computed only for a x table 500.00. Kjikvadrattest for bivariate tabeller (klassisk variant) M enn K vinner S o sialistisk 4 4 3 9 Borgerlig 47 47 S tem te ik k e 9 1 4 Sum 100 100 (n=) (1037) (980) Statistiske hypoteser H 0 : Det er ingen sammenheng mellom kjønn og stemmegivning i populasjoner. H 1 : Det er sammenheng mellom kjønn og stemmegivning. Testobservator: Kjikvadrat som er kjikvadratfordelt Signifikansnivå: 5 prosent Når kan vi forkaste H 0? Hvis det er en sterk sammenheng mellom variablene i utvalget, vil vi forkaste nullhypotesen (H 0 ) For å finne ut hvor sterk denne sammenhengen må være for at vi skal forkaste H 0 må vi benytte en testobservator der vi kjenner sannsynlighetsfordelingen. I bivariate tabeller bruker vi kjikvadrat (χ ) Kjikvadratet: ( O = E χ E ) H 0 forkastes
Hva er den kritiske verdien for kjikvadratet (χ )? Den kritiske verdien for kjikvadratet er avhengig av: 1: Valg av signifikansnivå (sannsynlighet). : Størrelsen på tabellen målt i antallet frihetsgrader (df). Antallet frihetsgrader: df = (ant. verdier på variabel en - 1) (ant. verdier på variabel to - 1) Antall Sannsynlighet frihetsgr. 0,99 0,90 0,50 0,0 0,10 0,05 0,0 0,01 0,001 1 0,000 0,0 0,46 1,64,71 3,84 5,41 6,64 10,83 df 0,0 0,1 1,39 3, 4,61 5,99 7,8 9,1 13,8 3 0,1 0,58,37 4,64 6,5 7,8 9,84 11,34 16,7 4 0,30 1,06 3,36 5,99 7,78 9,49 11,67 13,8 18,47 Kritisk verdi ved 5% signifikansnivå og frihetsgrader blir 5,99 Først nå er det nødvendig å se på data fra utvalget Hvis vi regne om den første tabellen fra prosenter til antall enheter, får vi den observerte fordelingen (O). O: Menn Kvinner Sum Sosialistisk 456 38 838 Borgerlig 485 460 945 Stemte ikke 96 138 34 Sum 1037 980 017 For å finne ut om det er statistisk avhengighet mellom variablene kjønn og stemmegivning må vi sammenligne denne faktiske fordelingen med en fordeling der vi ikke har statistisk avhengighet Frekvenser hvis det ikke er statistisk avhengighet De frekvensene som gir statistisk uavhengighet finner vi ved at vi for hver rute i tabellen multipliserer linjesummen med kolonnesummen, og dividerer dette produktet på det totale antallet enheter. Eksempel: 838 1037 869006 E = = 017 017 = 430,84 431 E: Menn Kvinner Sum % alle Sosialistisk 431 407 838 4 Borgerlig 486 459 945 47 Stemte ikke 10 114 34 1 Sum 1037 980 017 101 Nå blir også alle de relative betingede fordelingene like!
Beregning av kjikvadratet (χ ) χ = ( O E E ) (456 431) (38 407) (485 486) (460 459) (96 10) (138 114) χ = 431 407 486 459 10 114 (5) ( 5) ( 1) (1) ( 4) (4) χ = 431 407 486 459 10 114 65 65 1 1 576 576 χ = = 1,84 431 407 486 459 10 114 Skal vi forkaste eller beholde H 0 med χ =1,84? Signifikannivået er 5% (sannsynlighet = 0,05) Antallet frihetsgrader er (df=(3-1)(-1)= 1=) Kritisk verdi blir da (se tabell s. 487 i Ringdal) 5,99 Vårt kjikvadrat på 1,84 er større enn den kritiske verdien på 5,99 Avvikene mellom den observerte fordelingen (O) og fordelingen uten statistisk avhengighet (E) er derfor så store at det er mindre enn 5 prosent sannsynlig at det ikke er en statistisk sammenheng i populasjonen Vi forkaster derfor H 0 om ingen sammenheng, og beholder H 1 om at det er statistisk sammenheng. Det vil si: Det er sammenheng mellom kjønn og stemmegivning i populasjonen! Vi kan gjøre dette mye enklere med SPSS (moderne variant) STEMME Stemmegivning Pearson Chi-Square STEMME Stemmegivning * KJONN Kjønn Crosstabulation 1 Sosialistisk Borgerlig 3 Vet ikke KJONN Kjønn 1 Menn Kvinner 456 38 838 485 460 945 96 138 34 1037 980 017 Asymp. Sig. Value df (-sided) 13.134 a.001 13.173.001 10.986 1.001 017 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 113.69. χ = 13,134 Signifikanssannsynligheten for χ = 13,134 ved frihetsgraderer er på 0,1%
To versjoner av kjikvadrattesten Klassisk variant: Valg av test Formulering av hypoteser: H 0 : Det er ingen sammenheng mellom X og Y i populasjonen H 1 : Det er sammenheng mellom X og Y i populasjonen. Velg signifikansnivå (α=0,05), finn antallet frihetsgrader, og bruk kjikvadrattabellen for å finne den kritiske verdien (k) Finn utvalgsverdien av χ Konkluder χ < k H0 beholdes χ k H0 forkastes Moderne variant: Valg av test Formulering av hypoteser: H0: Det er ingen sammenheng mellom X og Y i populasjonen H1: Det er sammenheng mellom X og Y i populasjonen. Velg signifikansnivå (α=0,05) Bruk SPSS for å beregne utvalgsverdien av χ og dennes p-verdi Konkluder p > α H0 beholdes p α H0 forkastes Hva skjer hvis vi kutter ut de som ikke stemte? STEMME Stemmegivning Pearson Chi-Square Continuity Correction a STEMME Stemmegivning * KJONN Kjønn Crosstabulation Value 1 Sosialistisk Borgerlig df Asymp. Sig. (-sided) 1.704 b 1.19 1.58 1.08 1.705 1.19 1.703 1.19 1783 KJONN Kjønn 1 Menn Kvinner 456 38 838 485 460 945 941 84 1783 Exact Sig. (-sided) Exact Sig. (1-sided).00.104 a. Computed only for a x table 395.74. χ blir vesentlig lavere Er det fortsatt signifikante forskjeller? Kjikvadrattest av forholdet mellom fagvalg og kjønn Utvalget for denne undersøkelsen består av 1 menn og 178 kvinner.
Hypoteser og kritisk verdi 1. Statistiske hypoteser: H 0 : Det er ingen sammenheng mellom kjønn og fagvalg H 1 : Det er sammenheng mellom kjønn og fagvalg. Testobservator: Kjikvadrat som er kjikvadratfordelt med df= 3. Signifikansnivå: 5% (p = 0,05) og df = gir: 4. Kritisk verdi på 5,99 (se tabell i Ringdal side 487) 5. Vi forkaster H 0 hvis vi i utvalget observerer et kjikvadrat på 5,99 eller mer! Beregning av kjikvadrat (37 9,3) (41 46,0) (44 46,8) (35 4,7) (7 67,0) (71 68,) χ = 9,3 46,0 46,8 4,7 67,0 86, (7,7) ( 5) (,8) ( 7,7) (5) (,8) χ = 9,3 46,0 46,8 4,7 67,0 68, 59,9 5 7,84 59,9 5 7,84 χ = = 4,61 Hva blir konklusjonen? 9,3 46,0 46,8 4,7 67,0 68, Blir konklusjonen den samme hvis vi slår sammen samfunnsfag og humanistiske fag? O: E: Nå blir antallet frihetsgrader lik 1, mens signifikansnivået fortsatt er på 5 prosent. Vi forkaster H 0 hvis vi observerer et kjikvadrat på 3,84 eller mer (37 9,3) (71 68,) χ =... 9,3 86, = 4,51 Konklusjon????
Sannsynlighetsfordeling for kjikvadrat (χ ) Sannsynlighet Antall frihetsgrader 0,99 0,90 0,50 0,0 0,10 0,05 0,0 0,01 0,001 1 0,000 0,0 0,46 1,64,71 3,84 5,41 6,64 10,83 0,0 0,1 1,39 3, 4,61 5,99 7,8 9,1 13,8 3 0,1 0,58,37 4,64 6,5 7,8 9,84 11,34 16,7 4 0,30 1,06 3,36 5,99 7,78 9,49 11,67 13,8 18,47 5 0,55 1,61 4,35 7,9 9,4 11,07 13,39 15,09 0,5 6 0,87,0 5,35 8,56 10,65 1,59 15,03 16,81,46 7 1,4,83 6,35 9,80 1,0 14,07 16,5 18,48 4,3 8 1,65 3,49 7,34 11,03 13,36 15,51 18,17 0,09 6,13