Forelesning 9 Statistiske mål for bivariat tabellanalyse Vi har ulike koeffisienter som viser styrken på den statistiske avhengigheten mellom de to variablene. Valg av koeffisient må vurderes ut fra variablenes målenivå. Skal vi ta hensyn til rangering av verdiene eller avstanden mellom verdiene? Hvis de to variablene har ulike målenivå, er det den med lavest målenivå som avgjør valget. Mål på statistisk sammenheng og korrelasjon mellom to variabler Hellevik Ringdal Målenivå: Symmetriske mål Asymmetriske mål Nominalnivå Phi Cramers V (Lamda) Ordinalnivå Gamma Kendalls tau-b Somers d Kendalls tau-c Intervall- og forholdstallsnivå Pearsons r Pearsons r (kap. 19) (Eta) (kap. 18) Phi (φ) Kan vi beregne phi ut fra denne tabellen? Tabell. Elevenes valg av studieretning i videregående skole i forhold til kjønn. Prosenter Jenter Gutter Studieretning: Naturfag 35,3 51,0 Språk 7,5 6,0 Samfunnsfag 37,3 43,0 Sum 100,1 100,0 (n) (561) (500) 1
Ny tabell med antallet enheter Tabell. Elevenes valg av studieretning i videregående skole i forhold til kjønn. Antall Jenter Gutter Totalt Studieretning: Naturfag 198 55 453 Språk 154 30 184 Samfunnsfag 09 15 44 Totalt 561 500 Formel for phi: Beregning av phi (φ) Phi Formel for kjikvadrat (χ ): Kjikvadrat n ( O E) Kjikvadrat E der O er de absolutte frekvensene i den observerte fordelingen, og E er de frekvensene vi har når det er statistisk uavhengighet (Hvis H 0 er sann). Vi har O-ene i tabellen, og finner E-ene med denne formelen: n ( kollonne ) n ( rekke ) E n ( hele tabellen ) Utregning av frekvenser ved statistisk uavhengighet (E) ut fra de totale frekvensene i de vertikale og de horisontale marginalene: Jenter Gutter Totalt Studieretning: O: E: O: E: Naturfag Språk 198 154 40 97 55 30 13 87 453 184 Samfunnsfag 09 4 15 00 44 Totalt 561 561 500 500 E JNat 561 453 54133 39,5 40 561 184 1034 97,89 97 og så videre til vi har beregnet alle E-ene i tabellen E JSp
Alternativ metode for beregning av forventede frekvenser (E) Jenter Gutter Totalt Studieretning: % E: % E: % N Naturfag 4,70 40 4,70 13 4,70 453 Språk 17,34 97 17,34 87 17,34 184 Samfunnsfag 39,96 4 39,96 00 39,96 44 Total 100,00 561 100,00 500 100,00 1: Prosentuer marginalfordelingen for den avhengige variabelen : Sett inn relative betingede prosentueringer som er lik marginalfordelingen 3: Regn ut antallet enheter bak de relative betingede prosentueringene Beregning av kjikvadrat (χ ) Tabell. O bserverte frekvenser (O ) og frekvenser ved statistisk uavhengighet (E). E levenes kjønn Jenter G utter T otalt Studieretning: O : / E: O : / E : Naturfag 198 / 40 55 / 13 453 Språk 154 / 97 30 / 87 184 Samfunnsfag 09 / 4 15 / 00 44 Totalt 561 / 561 500 / 500 Hjelpetabell for utregning av χ Rute 1 3 4 5 6 O: 198 55 154 30 09 15 E: 40 13 97 87 4 00 O-E -4 4 57-57 -15 15 (O-E) 1764 1764 349 349 5 5 (O-E) /E 7,4 8,3 33,5 37,3 1,0 1,1 χ88,6 Beregning av phi (φ) Kjikvadrat: χ 88,6 Antall enheter: n Phi blir da: φ χ n 88,6 0,084 0,9 3
Hvorfor anbefaler Ringdal Cramers V i stedet for Phi? Phi er ikke standardisert Phi varierer mellom 0 og 1 bare i de tilfellene der den ene av variablene bare har to verdier. Hvis antallet verdier i variabelen med færrest kategorier overstiger to blir maksimalverdien for phi kvadratrota av k-1 (der k er antall kategorier i variabelen med færrest verdier) Cramers V er standardisert Cramers V blir 0 ved ingen statistisk avhengighet og kommer nærmere 1 jo sterkere den statistiske avhengigheten er. Beregning av Cramers V Kjikvadrat: χ 88,6 Antall enheter: n Cramers V blir da: V χ 88,6 n( k 1) ( 1) 88,6 0,084 0,9 Det vi si at det ikke er noen forskjell mellom phi og Cramers V hvis den ene av variabelen har to verdier! Korrelasjonsmålet gamma (γ) Tabell. Forventet levealder i 104 land i forhold til kaloriforbruk per innbygger. Antall land. Kaloriforbruk per innbygger per dag (100 kcal) Forventet levealder 18-3 4-8 9-30 31-35 70-74 år 3 5 18 0 60-69 år 3 8 8 10 50-59 år 5 13 0 3 7-49 år 8 0 0 0 Formelen for Gamma: L U γ L+ U Der: L er antall par av enheter som er ordnet likt (lav-lav/høy-høy), og U er antall par av enheter som er ordnet ulikt (lav-høy/høy-lav) Når vi skal finne antallet par ordnet likt (L) bør vi alltid starte med den kombinasjonen som har den laveste verdien på begge de rangerte variablene. Det vil i dette tilfellet si de som har lavest forventet levealder (7-49 år) og samtidig lavest kaloriforbruk per innbygger (18-3). 4
Tabell. Forventet levealder i 104 land i forhold til kaloriforbruk per innbygger. Antall land. Kaloriforbruk per innbygger per dag (100 kcal) Forventet levealder 18-3 4-8 9-30 31-35 70-74 år 3 5 18 0 60-69 år 3 8 8 10 50-59 år 5 13 0 3 7-49 år 8 0 0 0 Par ordnet likt: L 8 85 + 0 59 + 0 33 + 5 69 + 13 56 + 0 30 + 3 43 + 8 38 + 8 0 L 680 + 0 + 0 + 345 + 78 + 0 + 19 + 304 + 106 346 Par ordnet ulikt: U 0 63 + 0 37 + 0 11 + 3 45 + 0 19 + 13 6 + 10 6 + 8 8 + 8 3 U 0 + 0 + 0 + 135 + 0 + 78 + 60 + 64 + 4 561 Gamma blir da: γ 346 561 1785 0,61 346+ 561 907 Fordeler og ulemper med gamma (γ) Fordeler med gamma: Gamma viser både styrken og retningen i den statistiske avhengigheten Positivt fortegn betyr at de som har høyt verdi på den ene variabelen også har en tendens til å ha høy verdi på den andre variabelen, mens de som har lav verdi på den ene også har lav verdi på den andre. Negativ gamma betyr at de som har høy verdi på den ene variabelen har en tendens til å ha lav verdi på den andre variabelen. Ulempen med gamma: Gamma tar ikke hensyn til de parene som har sammenfallende ranger (S) Det vil si at gamma ikke tar med de parene som har lik verdi på den ene variabelen og ulik verdi på den andre variabelen Hvilke alternative mål bør vi bruke i stedet for gamma? Hvis tabellen har like mange linjer og kolonner velger vi Kendalls tau-b L U τ b L + U + S )( L + U + S ) ( y x Hvis antallet linjer og kolonner er ulikt velger vi Kendalls tau-c k ( L U ) τ c n ( k 1) Hvis korrelasjonen skal beregnes asymmetrisk (korrelasjonen varierer etter hvilken variabel som er avhengig) velger vi Somers d L U d L + U + S y Alle disse koeffisientene gir lavere korrelasjon enn gamma. 5
Tabell. Forventet levealder i 104 land i forhold til kaloriforbruk per innbygger. Antall land. Kaloriforbruk per innbygger per dag (100 kcal) Forventet levealder 18-3 4-8 9-30 31-35 70-74 år 3 5 18 0 60-69 år 3 8 8 10 50-59 år 5 13 0 3 7-49 år 8 0 0 0 Denne tabellen har like mange linjer og kolonner, og vi velger derfor Kendalls tau-b L U τ b ( L + U + S y )( L + U + S x ) Sammenfallende x-ranger: S x 8 11+0 6+0 6+0 33+5 6+13 13+0 6+3 30+3 3+8 5+8 18+10 0 S x 88 + 0 + 0 + 0 + 30 + 169 + 0 + 90 + 9 + 40 + 144 + 00 770 Sammenfallende y-ranger: S y 8 0+5 16+3 6+3 43+0 0+13 3+8 18+5 38+0 0+0 3+8 10+18 0 S y 0 + 80 + 78 + 19 + 0 + 39 + 144 + 190 + 0 + 0 + 80 + 360 1100 Tau-b blir da: L U 346 561 τ b 0,465 ( L + U + S )( L + U + S ) (346 + 561 + 1100 )(346 + 561 + 770 ) y x Tips: Bruk heller SPSS Symmetric Measures Nominal by Nominal Ordinal by Ordinal Phi Cramer's V Kendall's tau-b Kendall's tau-c Gamma Asymp. Value Std. Error a Approx. T b Approx. Sig..000.814.470.000.465.075 5.905.000.440.075 5.905.000.614.088 5.905.000 N of Valid Cases 104 a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. Directional Measures Asymp. Value Std. Error a Approx. T b Approx. Sig. Ordinal by Ordinal Somers' d Symmetric.465.075 5.905.000 LEVEALD Forventet.445.074 5.905.000 levealder Dependent KALORI Kaloriforbruk per.485.076 5.905.000 innbygger Dependent a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. 6