Kategoriske data, del I: Kategoriske data - del (Rosner, 10.3-10.7) 1 januar 009 Stian Lydersen To behandlinger og to utfall. (generelt: variable, verdier). x tabell. Uavhengige observasjoner Sammenheng mellom behandling og utfall? (er de to variablene assosiert?) Sml to binomiske andeler (10..1), Pearson s χ (10.. 10..4) eller Fisher s eksakte test (10.3) 1 Kategoriske data, del II: x tabell, parede data. McNemar s test (10.4) RxC tabell, uavh. obs. Pearson s χ (10.6) xk tabell, k ordnede kategorier, test for trend (10.6.) Litt om utvalgsstørrelse og styrkeberegninger (10.6) Litt om Goodness of fit (10.7) 3 x tabell, parede data (Mc Nemar s test) Avsnitt 10.4 4 Treatment Table 10.13. x table based on 14 patients A B Outcome Survive for Die within 5 years 5 years 56 95 61 515 106 61 1041 01 14 Feil utgangspunkt: Ikke uavhengige observasjoner! 5 Enhet: Matchet par Behandling A alder klinisk tilstand Behandling B Avhengige observasjoner (hvorfor?) 6 1
Typer par Table 10.14. Matched pairs as sampling unit, 61 matched pairs. Trt A patient survive 5 years die within 5 years Trt B patient survive 5 die within years 5 years 510 16 56 5 90 95 515 106 61 7 Concordant pair (overensstemmende par): Behandling A og B gir samme resultat Discordant pair (uoverensstemmende par): Behandling A og B gir forskjellig resultat. Antall n D Type A uoverensstemmende par: Beh. A gir hendelsen og beh. B gir ikke hendelsen. Antall n A 8 Table 10.14. Matched pairs as sampling unit, 61 matched pairs. Trt A patient survive 5 years die within 5 years Trt B patient survive 5 die within years 5 years 510 16 56 5 90 95 515 106 61 Hypotesetesting: McNemar s test p = Pr(Et uoverensstemmende par er typea) Daern A bin(n D, p) (gitt n D ) H 0 : p=1/ versus H 1 : p 1/ Under H 0 er E(n A )=n D / Forkast H 0 hvis n A avviker mye fra n D / Type A Type B 9 10 Beregning av p-verdi McNemar s test Tilnærmet: Eqn 10.1 Eksakt: Eqn 10.13 SPSS: Legg inn data: En linje per case eller Data -> Weight cases Analyze -> Descriptive statistics -> Crosstabs. Velg Statistics: McNemar Eks 10.4 Brystkreft. n D =1, n A =5 Under H 0 er N A ~ bin(1, 0.5) p-verdi = Pr( N A 10.5 5 10.5 ) Tilnærmet (Eqn 10.1): χ = 4.76, p-verdi = 0.091 (OK tilnærming hvis n D 0) Eksakt (Eqn 10.13) p-verdi=0.066 11 1
Estimert sannsylighet for å overleve 5 år: A: 56 0.847 61 =, B: 515 0.89 61 = Differanse: 0.847 0.89 = 0.018 95% konfidensintervall: Se f.eks Agresti, A: An Introduction to Categorical data Analysis, nd edition, Wiley 007. Page 44-47.) Utvalgsstørrelse og teststyrke Avsnitt 10.5 0.018 ± 1.96 (5 + 16) (5 16) / 61/ 61 = 0.018± 0.014 Dvs 0.004 til 0.03 13 14 10.5 Utvalgsstørrelse og teststyrke Uavhengige observasjoner i x tabell (Pearson s χ eller Fisher s eksakt) Utvalgsstørrelse n 1, n ved gitt p 1, p, α, 1-β, k(=n /n 1 ): Eqn 10.14 Teststyrke 1-β ved gitt p 1, p, α, n 1, n : Eqn 10.15 Ikke-perfekt compliance: Eqn 10.1 Matchede par (McNemar s test): Utvalgsstørrelse Eqn 10.16 Teststyrke: Eqn 10.17 Ikke-ordnet rxc tabell. Avsnitt 10.6 15 16 Tabell 10.18 case/ control case control Brystkreft og alder ved første fødsel age group <0 0-4 5-9 30-34 >=35 30 106 1011 463 0 30 18,4% 1,4% 5,9% 9,8% 35,1% 3,9% 14 443 893 109 406 1045 81,6% 78,6% 74,1% 70,% 64,9% 76,1% 174 5638 3904 1555 66 13465 100,0% 100% 100% 100% 100% 100,0% Hvis rader og kolonner er uavhengige så er forventet antall i celle nr i,j E ij radsum kolonnesum = totalsum 17 18 3
Pearson s kjikvadratobservator er definert som χ = ( O E ) r c ij i= 1 j= 1 Eij ij ( O E ) ( O E ) ( Orc E ) = + +... + E E E 11 11 1 1 11 1 rc rc Under H 0 (rader og kolonner uavhengige) så er denne tilnærmet kjikvadratfordelt med (r-1)(c-1) frihetsgrader dersom minst 80% av cellene har E ij>5 og alle cellene har E ij>1. Eksempel 10.35 sum O 30 106 1011 463 0 14 443 893 109 406 13465 E 416,6 1348 933,6 371,9 149,7 135 490 970 1183 476,3 13465 O-E -96,6-14 77,4 91,1 70,3 96,6 14,3-77,4-91,1-70,3 0 (O-E)^/E,40 15,0 6,4,3 33,01 7,04 4,7,0 7,01 10,38 130,33 19 0 Cochran-Armitage testen: Kjikvadrat-test for trend i binomiske andeler Ordnet xk tabell: Test for trend. Avsnitt 10.6 Sett en score S for hver gruppe: Numerisk egenskap ved gruppen, eller Gruppenr StørrelsenX 1 = A /B kan beregnes etter likning 10.4. (Mye arbeid!) Under H 0 er X 1 ~ kjikvadratfordelt med 1 fr.gr. 1 Cochran-Armitage test: X 1 = nr, hvor r er Pearsons korrelasjonskoeffisient mellom score og gruppe, og n er totalt antall Ekvivalent med score-test for score i logistisk regresjon Mer generell test: Linear-by-linear test for association i dobbelt ordnet rxc tabell X 1 = (n-1)r, hvor r er Pearsons korrelasjonskoeffisient mellom score og gruppenr, og n er totalt antall Dette er Linear-by-Linear Association i SPSS. Analyze -> Descriptive statistics -> Crosstabs Tilnærmet lik test for trend i binomiske andeler. 3 4 4
Eks 10.37 Eks 10.37 - SPSS Persons Agegroup Casecont 30 1 0 14 1 1 106 0 443 1 1011 3 0 893 3 1 463 4 0 109 4 1 0 5 0 406 5 1 case/control case control case/control * age group Crosstabulation Expected % Expected % Expected % age group <0 0-4 5-9 30-34 >=35 30 106 1011 463 0 30 416,6 1348,3 933,6 371,9 149,7 30,0 18,4% 1,4% 5,9% 9,8% 35,1% 3,9% 14 443 893 109 406 1045 135,4 489,7 970 1183 476,3 1045 81,6% 78,6% 74,1% 70,% 64,9% 76,1% 174 5638 3904 1555 66 13465 174,0 5638,0 3904 1555 66,0 13465 100% 100% 100% 100% 100% 100,0% Hvis data ligger slik i SPSS Data Editor: Data -> Weight Cases -> Weight cases by: Persons 5 6 Eks 10.37 - SPSS Chi-Square Tests SPSS: Logistic regression Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Asymp. Sig. Value df (-sided) 130,338 a 4,000 17,385 4,000 19,00 1,000 13465 a. 0 cells (,0%) have expected count less than 5. The minimum expected count is 149,70. Step 0 Variables Overall Statistics Variables not in the Equation agegroup Score df Sig. 19,01 1,000 19,01 1,000 Identisk med Cochran- Armitage test for trend 7 8 Data fra tabell 10.1: Passer data med normalfordelingen? 5000 Chi square goodness-of-fit test 4000 3000 Avsnitt 10.7 Frequency 000 1000 0 observed expected normal <50 60-70 80-90 100-110 50-60 70-80 90-100 >110 9 MMHG 30 5
4000 Eksempel 10.41 000 1000 800 600 400 00 gruppe 1 3 4 5 6 7 8 sum O 57 330 13 4584 4604 119 659 51 14736 E 78 547 17 483 4479 431 684 107 14736 O-E -1-17 5 301 15-31 -5 144 0 (O-E)^/E 5,65 86,09 0,01 1,15 3,49 40,04 0,91 193,79 351,14 Frequency 100 80 60 observed expected normal <50 60-70 80-90 100-110 50-60 70-80 90-100 >110 MMHG 31 3 6