KLMED8005 Medisinsk statistikk Del II, våren 008 -og - St303 Medisinsk statistikk, våren 008 6 januar 008: Praktisk om kursene Analyse av x tabeller (Avsnitt 0. 0.3) Stian Lydersen Praktisk om kursene Hjemmesider under http://folk.ntnu.no/slyderse/medstat/medstatii_v08.html http://folk.ntnu.no/slyderse/medstat/st303/info_v08.html Forelesninger onsdager 30-45 / 55 Sted: se hjemmesiden Kursleder: Stian Lydersen Kurssekretær: Gerd Bromseth, tlf (735)5090, gerd.bromseth@ntnu.no Obligatoriske øvinger KLMED8005 Medisinsk statistikk del II Innhold: KLMED8006 Anvendt medisinsk statistikk Analyse av kategoriske data x tabeller Generelle tabeller (rxc) Enkel lineær regresjon Multippel lineær regresjon Korrelasjon Variansanalyse (ANOVA) Kovariansanalyse (ANCOVA) Epidemiologiske metoder Logistisk regresjon Overlevelsesanalyse Kaplan-Meier plot Log rank test Cox-regresjon St303 Medisinsk statistikk Generaliserte lineære modeller (GLM) Repeterte målinger I Repeterte målinger II Analyse med manglende data Diagnostiske tester Metaanalyse. Bayesiansk statistikk. Inngår i St303 medisinsk statistikk 3 4 Øvingene 3 øvinger, hver med 8 deloppgaver. Obligatoriske øvinger: KLMED8005: Alle øvingene St303: Øving deloppgave -5. Øving 3 deloppgave 3-8. Evt egne oppgaver fra eget stoff. Øvingene (forts.) Grupper med inntil 8 personer. Hver gruppe får en veileder. Hver gruppe har en kontaktperson i gruppa. Gruppen arbeider gjennom hele øvingen før veiledning. veiledning i timer ca hver 3 uke ( pr øving). Obligatorisk oppmøte! Veileder Svarer på spørsmål, avklarer problemer. Noterer oppmøte Hver gruppe leverer øving til veileder, signert av alle. Veileder retter, godkjenner, returnerer til gruppekontakt. Hver deltaker sørger for å skaffe seg en kopi av godkjent øvingssett. 5 6
Evaluering KLMED8006 Øvingene danner grunnlag for godkjent kurs Fremlegg av oppgaver (5 min) Forevise komplett godkjent øvingssett Noen få enkeltoppgaver trekkes ut og presenteres. Kandidaten blir stilt spørsmål knyttet til oppgaven. Bestått / ikke bestått. Evaluering St303 Øvingene obligatorisk. (Ikke midtsemesterprøve) Skriftlig eksamen. 7 8 Analyse av x tabeller (Avsnitt 0. 0.3) Tre metoder beskrevet i Rosner: To-utvalgstest for binomiske andeler. Normalfordelings-tilnærming. Avsnitt 0... Pearsons kjikvadrattest. Avsnitt 0..-0..4. Fisher s eksakte test. Avsnitt 0.3. Ikke nevnt i Rosner: To metoder som generelt er bedre, og brukes i økende grad status kasus (brystkeft) kontroll (ikke brystkreft) Tabell 0. alder v første fødsel > 30 år < 30 år 683 537 30 498 8747 045 8 84 3465 Eksakt betinget mid p Eksakt ubetinget 9 0 Tabell 0. Tabell 0.9 bruker p-pille ja nei hjerteinfarkt innen 3 år ja nei 3 4987 5000 7 9993 0000 0 4980 5000 dødsårsak ikke CVD CVD diett mye salt lite salt 3 5 5 30 35 7 53 60
Eksempel 0.4 Beskytter lav alder ved første fødsel mot brystkreft? To-utvalgstest for binomiske andeler Avsnitt 0.. D kvinnen har (hatt) brystkreft E alder ved første fødsel var 30 år eller mer? PD ( E) PD ( E) Data fra en kasus kontroll studie: Av 30 kvinner med brystkreft hadde 683 (.%) alder første fødsel 30 Av 045 kvinner uten brystkreft hadde 498 (4.6%) alder første fødsel 30 3 4 5 Altså: Vi ønsker å sammenlikne PD ( E) og PD ( E ) Men i en kasus kontroll studie observeres PE ( D) og PE ( D. ) Imidlertid gjelder at PD ( E) PD ( E) PE ( D) PE ( D) 6 Bevis-skisse (for spesielt interesserte): For det første (lett å vise) PD ( E) PD ( E) PD ( E) PD ( E) PD ( E) PD ( E) Siste kalles Odds Ratio (OR) Dessuten gjelder alltid (uansett verdi på OR), vist av Cornfield (956): PD ( E) PD ( E) PE ( D) PE ( D) OR PD ( E ) PD ( E ) PE ( D ) PE ( D ) Sykdoms odds ratio Eksponerings odds ratio 7 Bevis-skisse (fortsettelse) PD ( E) PD ( E) PD ( E) PD ( E) PD ( E) PD ( E) PE ( D) PE ( D) PE ( D) PE ( D) PE ( D) PE ( D) q.e.d. 8 To grupper av størrelse n og n. Observerer X bin(n, p ) og X bin(n, p ) H 0 : p p (eller p -p 0) mot H : p p. Estimatorer for p og p : pˆ X og p n n ˆ X Forkaster H 0 hvis pˆ ˆ p avviker mye fra 0. 3
pˆ pˆ Under H 0 er z Var( pˆ pˆ ) tilnærmet standard normalfordelt. pga uavh. + Var( pˆ pˆ ) Var( pˆ ) ( ) Var( pˆ ) Under H p 0 ( p) p( p) + + p( p) n n n n Dermed fås Likning 0.3 s 357 har en (omdiskutert) kontinuitetkorreksjon i telleren: pˆ pˆ + n n z + pˆ( pˆ) n n z pˆ pˆ + pˆ( pˆ) n n X+ X hvor pˆ n + n 9 0 Eksempel 0.5, brystkreft og alder ved første barn 0. 0.46 z 8.87 + 0.6( 0.6) 30 045 Forkast H 0 på nivå α0.05 hvis z >z -α/.960 Pearsons kjikvadrattest. Avsnitt 0..-0..4. p-verdi (-Φ(8.8)) < 0.00 status kasus (brystkeft) kontroll (ikke brystkreft) Tabell 0. alder v første fødsel > 30 år < 30 år 683 537 30 498 8747 045 8 84 3465 Her er de observerte andelene ˆ 30 ˆ 8 Pr( D) og Pr( E) 3465 3465 Hvis uavhengighet så er Er rader og kolonner uavhengige? (Merk symmetri mellom rader og kolonner!) ˆ ˆ ˆ 30 8 Pr( D E) Pr( D) Pr( E) 3465 3465 Altså: Er D og E uavhengige: D Kvinnen har (hatt) brystkreft E Alder ved første fødsel 30 år og forventet antall med D E lik 30 8 30 8 E N ˆPr( D E) 3465 5.6 3465 3465 3465 3 D og E er uavhengige hvis og bare hvis Pr(D E)Pr(D)Pr(E) 4 og det observerte antall er O 683 4
SPSS, Expected count: Person s kjikvadratobservator er definert som status kasus kontroll status * alder v første fødsel Crosstabulation Expected Expected Expected alder v første fødsel > 30 år < 30 år 683 537 30 5,6 698,4 30,0 498 8747 045 659,4 8585,6 045,0 8 84 3465 8,0 84,0 3465,0 χ ( O E ) ij ij i j Eij E E E E ( O E ) ( O E ) ( O E ) ( O E ) + + + Under H 0 (rader og kolonner uavhengige) så er denne tilnærmet kjikvadratfordelt med frihetsgrad dersom alle E ij >5. 5 6 Eks 0.3 s 366 Likning 0.5 er gitt med Yates kontinuitetskorreksjon: χ cc ( O E 0.5) i j ij ij ij E ( 683 5.6.5) ( 537 698.4.5) χ + 5.6 698.4 ( 498 659.4.5) ( 8747 8585.6.5) + + 659.4 8585.6 60.9 60.9 60.9 60.9 + + + 5.6 698.4 659.4 8585.6 χ 49.66+ 9.599 + 5.608 + 3.07 77.89 under 0 H 7 8 Tabell 0.7 Generell kontingenstabell a b a+b c d c+d a+c b+d na+b+c+d Pearson s kjikvadrat: nad ( bc) χ ( a+ b)( c+ d)( a+ c)( b+ d) Med Yates kontinuitetskorreksjon: χ cc n n ad bc ( a+ b)( c+ d)( a+ c)( b+ d) 9 30 5
z-test og Pearson s kjikvadrattest for x tabeller Det kan vises at z fra test for sammenlikning av to binomiske proporsjoner er identisk lik χ i Person s kjikvadrattest. Så de to testene er ekvivalente (gir alltid nøyaktig samme p-verdi). De kontinuitetskorrigerte versjonene er også ekvivalente. Fisher s eksakte test Avsnitt 0.3. 3 3 Example, two binomials: Treatment of children with cardiac arrest. (Perondi et al, NEJM, 004) Epinephrine survival at 4 hours treatment yes no High dose 33 34 Standard dose 7 7 34 total 8 60 68 p i P(Survival at 4 hours Treatment no i) dødsårsak ikke CVD CVD Tabell 0.9 diett mye salt lite salt 3 5 5 30 35 7 53 60 p i P(Diett m/ mye salt Dødsårsak nr i) H 0 : p p versus H : p p H 0 : p p versus H : p p 33 34 døds årsak Tabell 0.9 - dødsårsak * diett Crosstabulation ikke CVD CVD Expected Expected Expected diett mye lite salt salt 3 5,9, 5,0 5 30 35 4, 30,9 35,0 7 53 60 7,0 53,0 60,0 Minst en celle har forventet antall (expected count) < 5. Pearson s kjikvadrattest bør ikke brukes. Fisher s tea-drinker (Fisher, 935) Guess poured first Poured first Milk Tea Milk 3 4 Tea 3 4 total 4 4 8 All marginal sums are fixed! 35 36 6
Fisher s eksakte test. For mathematical convenience, we shall assume that the margins (row sums and column sums) of this table are fixed Egentlig ser vi på betingede sannsynligheter (som gir en betinget p-verdi) gitt marginalsummene. Dette gir en test som garantert holder signifikansnivået, men kan være konservativ (dvs har lavere teststyrke enn nødvendig) Fisher s eksakte test (forts) Dersom dødsårsak og diett ikke er assosiert, er det helt tilfeldig hvem som hadde hatt saltholdig diett. Tankeeksperiment: Trekk M blant de N objektene (uten tilbakelegging), og la X være antall av de M som var i gruppe (her: ikke CVD). 37 38 mye salt lite salt Ikke CVD X N CVD N Eksempel: M M N N! N! M! M! Pr( X a) N! a!( N a)!( M a)!( M N + a)! mye salt lite salt Ikke CVD 3 5 CVD 5 30 35 for alle heltall a som gir ikke-negative tall i alle cellene, dvs a max(0, N M ),...,min( M, N ) 7 53 60 39 Kalles hypergeometrisk fordeling. Rosner likn 0.8: Står a 0,...,min( M, N) fordi Rosner først ordner rader og kolonner slik at N?N og M?M. 40 5!35!7!53! Pr( X a) 0.5 60!!3!5!30! Tabell 0. 0,300 Pr(Xa) 0,00 0,00 0,000 0 3 4 5 6 7 a p-verdi Pr(Dette utfall eller noe mer ekstremt) 4 4 Men hva er mer ekstremt? 7
0,300 0,300 Pr(Xa) 0,00 Pr(Xa) 0,00 0,00 0,00 43 0,000 0 3 4 5 6 7 a H 0 : p p versus H : p <p p venstresidig P(X ) 0.375 44 0,000 0 3 4 5 6 7 a H 0 : p p versus H : p >p p høyresidig P(X ) 0.878 -sidig p-verdi, som beskrevet i Rosner eqn 0. s 406: Tosidig p-verdi beregnet bl.a. i SAS, SPSS, MINITAB, Stata: -sidig p-verdi min(p venstresidig, p høyresidig, 0.5) min(0.375, 0.878, 0.5) 0.749 0,300 Dette er TST (Twice the smallest tail) prinsippet. Pr(Xa) 0,00 Merk at SPSS og Stata kun oppgir den ene ensidige p-verdien p ensidig min(p venstresidig, p høyresidig ) 0,00 0,000 0 3 4 5 6 7 a 45 46 p verdi Pr( X i) Pr( X ) + Pr( X 4) 0.688 { i:pr( i) Pr(} To alternativer for beregning av -sidig p-verdi i Fisher s eksakte test: -sidig p-verdi p ensidig p verdi Pr( X i) { i:pr( i) Pr( a)} Altman (99), page 56: I feel that the second approach is more reasonable, but many statisticians recommend doubling the p-value obtained for one tail. The second approach will always give a value of P less than or equal to that obtained by the first method. Hvilken bør brukes? 47 48 8
Agresti (00), page 93: Each approach has advantages and disadvantages To conduct a test of size 0.05 when one truly believes that the effect has a particular direction, it is safest to conduct the one-sided test at the 0.05 level to guard against criticism Kommentar: det siste tilsvarer p ensidig < 0.05. International Conference on Harmonization ICH E9 (998): The approach of setting type I errors for onesided tests at half the conventional type I error used in two-sided tests is preferable in regulatory settings. This promotes consistency with the twosided confidence intervals that are generally appropriate for estimating the possible effect size of the difference between two treatments. 49 50 Repetisjon om kontinuitetskorreksjon Om Yates kontinuitetskorreksjon 5 5 53 54 Altså: Eksakt 0.35 Normaltinærming uten korreksjon: 0.59 Normaltinærming med korreksjon: 0.309 9
Yates korreksjon fremkommer ved å legge til eller trekke fra 0.5 fra hver celle slik at marginalsummene holdes konstant. Trekk fra (legg til) 0.5 fra a hvis ad-bc>0 (<0) a -0.5 b + 0.5 a+b c + 0.5 d - 0.5 c+d a+c b+d na+b+c+d Da fås χ cc n[( a 0.5)( d 0.5) ( b+ 0.5)( c+ 0.5)] ( a+ b)( c+ d)( a+ c)( b+ d) n[ ad bc 0.5( a + b + c + d)] n[ ad bc 0.5 n] ( a+ b)( c+ d)( a+ c)( b+ d) ( a+ b)( c+ d)( a+ c)( b+ d) n n ad bc ( a+ b)( c+ d)( a+ c)( b+ d) 55 56 57 Skal vi bruke Yates korreksjon? (som er identisk med kontinuitetskorreksjonen i likning 0.3) Selvin, S.: Biostatistics. How it works Pearson, 004. page 7-73: The use of this correction factor is equivocal and debate exists in the statistical literature on the appropriate balance between accuracy and power. 58 Haviland, M. G. (990). Yates s correction for continuity and the analysis of x contingency tables. Statistics in Medicine, 9, 363-367. Summary: Despite recommendations to the contrary, medical researchers still routinely use the Yates-corrected chi-square statistic in analyses of x contingency tables. Research has shown that these corrected statistics are overly conservative and that the conventional Pearson chi-square generally provides accurate control over type I error probabilities. This paper makes a straightforward argument against the use of Yates s correction for continuity and Fisher s exact probability test. Haviland (990) konkluderer: Admittedly, a single best strategy for dealing with this problem across all experimental situations has not emerged. It is clear, however, that if a chi square test of association (independence or homogeneity) is considered appropriate, the conventional statistic is preferable to the one modified by Yates s method. Agresti, A. Categorical Data Analysis. nd Ed, Wiley, 00, page 03 Since software now makes Fisher s exact test feasible even with large samples, this correction is no longer needed. Hirji, K. F. Exact Analysis of Discrete Data. Chapman & Hall / CRC, 006, page 49 An applied statistician today, in our view, may regard such corrections as historic curiosities, though Upton (99) has a different opinion. 59 60 0
Tre metoder for analyse av x tabeller. To-utvalgstest for binomiske andeler: Konfidensintervall for p -p kan også beregnes (Avsnitt 3.3) Pearson s kjikvadrattest. Generaliserbar til rxc tabeller (Avsnitt 0.6) Fisher s eksakte test. Garanterer at reelt signifikansnivå nominelt signifikansnivå α Men har noe lavere styrke enn asymptotisk metode uten kontinuitetskorreksjon Hvilken metode bør brukes for testing i x tabeller? Store tabeller: (Cochran, 954: Alle forventede antall >5) Pearson s asymptotiske kjikvadrattest. (Identisk med z- test for binomiske andeler.) Unngå Yates kontinuitetskorreksjon. Ellers: Fisher s eksakte test. Men: Eksakt betinget mid p test og eksakt ubetinget er bedre i små utvalg. http://folk.ntnu.no/slyderse/nsf%0conference%0007 6 6 Exact conditional mid p better than Asymptotic (e.g. Pearson χ ) Exact unconditional Do not always preserve test size Unconditional tests in x tables Usually more powerful than conditional tests (Mehta and Hilton, TAS, 993, Mehrotra et al, Biometrics, 003). Free software:www.stat.ncsu.edu/exact/ 63 better than Exact conditional (e.g. Fisher exact) Always preserve test size 64