Rosner, Chapter 3: Rosner, kap 3: Design and Analysis Techniques for Epidemiologic studies Medisinsk statistikk del II 5 mars 009 Stian Lydersen. Common study designs in epidemiology. Measures of effect for categorical data 3. Assessment of disease-exposure relationship, controlling for confounding variables: Mantel-Haenzel methodology Logistic regression (Neste forelesning 4. Meta-analysis (KLMED 8006: Anvendt medisinsk statistikk 5. Alternative study designs 6. Other techniques clustered binary data measurement error 7. Missing data (KLMED 8006: Anvendt medisinsk statistikk 3 4 Epidemiology Epidemiology The study of how often diseases occur in different groups of people, and why. (Coggon, D, Rose, G, Barker, DJP: Epidemiology for the uninitiated, 4th ed, BMJ Publications, 997 A study of health and disease in populations, including aetiology, natural course and treatments. Clinical trials are considered by many to be one of the methods of epidemiology (Simon Day: Dictionary for Clinical Trials, nd ed, Wiley, 007 Scientific account of the causes of any disease 5 6 Tabell 3. bruker p-pille ja nei Tabell 0. hjerteinfarkt innen 3 år ja nei 3 4987 5000 7 9993 0000 0 4980 5000 Disease Yes No Yes a b a+bn No c d c+dn a+cm b+dm
7 8 Forskjellige studiedesign Observasjonelle studier: Prospektiv studie (kohort studie Retrospektiv studie (kasus-kontroll studie Tverrsnittstudie Eksperimentelle (intervensjons studier Randomiserte kontrollerte forsøk Viktig å ta hensyn til bias / konfundering i observasjonelle studier! Def. 3.9 Konfundering (confounding A confounding variable is a variable that is associated with both the disease and the exposure variable. Such a variable must usually be controlled for before looking at the diseaseexposure relationship. F.eks ved logistisk regresjon 9 0 Def. 3. Prospektiv studie (kohort studie A prospective study is a study in which a group of disease-free individuals are identified in one point in time and are followed over a period of time The development of disease is then related to variables measured at baseline, generally referred to as the exposure variables. The study population is often referred to as a cohort. Def. 3. Retrospektiv studie (kasus kontroll studie A retrospective study is a study in which two groups of individuals are initially identified: ( a group that has the disease under study (the cases and ( a group that does not have the disease under study (the controls. relate their prior health habits to their current disease status. Def 3.3 Tverrsnitts-studie A cross-sectional study is a study in which a study population is ascertained at one point in time. All the individuals are asked about their current disease status and their current or past exposure status. sometimes called a prevalence study, because the prevalence of disease is compared between exposed and unexposed individuals. This contrasts to a prospective study, where one is interested in the incidence rather than the prevalence of disease. Past Present Future Retrospective study Cohort Disease Casecontrol Disease& Crosssectional Prevalence study Disease Prospective study Time
3 4 Det finnes unntak Tabell 0. Retrospektive kohortstudier Prospektive kasus-kontroll studier (sjeldne bruker p-pille ja nei hjerteinfarkt innen 3 år ja nei 3 4987 5000 7 9993 0000 0 4980 5000 5 6 status kasus (brystkeft kontroll (ikke brystkreft Tabell 0. alder v første fødsel > 30 år < 30 år 683 537 30 498 8747 045 8 84 3465 Def. 3.4 p sannsynlighet for at en eksponert person blir syk p sannsynlighet for at en ueksponert person blir syk Risikodifferense: p p Risikoratio (relativ risiko: p / p Mer generelt: p, p sanns. for den aktuelle hendelsen i gruppe og 7 Repetisjon fra kapitel 0 8 Repetisjon fra kapitel 0 Tre metoder for analyse av x tabeller. To-utvalgstest for binomiske andeler: Konfidensintervall for p -p kan også beregnes (Avsnitt 3.3 Pearson s kjikvadrattest. Generaliserbar til rxc tabeller (Avsnitt 0.6 Fisher s eksakte test. Garanterer at reelt signifikansnivå nominelt signifikansnivå α Men har noe lavere styrke enn asymptotisk metode uten kontinuitetskorreksjon To grupper av størrelse n og n. Observerer X bin(n, p og X bin(n, p H 0: p p (eller p -p 0 mot H : p p. Estimatorer for p og p : p X og p n n X Forkaster H 0 hvis p p avviker mye fra 0. 3
9 Repetisjon fra kapitel 0 p p Under H 0 er z tilnærmet standard normalfordelt. Var( p p pga uavh. + Var( p p Var( p ( Var( p Under H p 0 ( p p( p + + p( p n n n n Dermed fås z p p + p( p n n X+ X hvor p n + n 0 Generelt: p p ( p p z er tilnærmet standard normalfordelt. Var( p p p ( p p ( p pga uavh. + + n n Var( p p Var( p ( Var( p Dermed fås p p ( p p p p ( p p z p ( p + p ( p p ( p + p ( p n n n n Så Tilnærmet -α konfidensintervall for p p (Wald intervallet Pr( z z z α/ α/ α p p ( p p Pr( z p ( p + p ( p n α/ z α/ α n Løser den mhp p pog får et tilnærmet -α konfidensintervall for p p p p z p ( p + p ( p α / n n Tilnærmingen er OK hvis np ( p 5 og np ( p 5 Eqn 3. s 635 (58 i 5th ed inneholder også en omdiskutert kontinuitetskorreksjon ±[/(n +/(n ] som er ekvivalent med Yates kontunitetskorreksjon i Pearsons χ observator for x tabeller. 3 4 Eks 3.5 (tabell 0. p 3/ 5000 0.006, p 7 /0000 0.0007 95% konfidensintervall for risikodifferensen: 0.006( 0.006 0.0007( 0.0007 0.006 0.0007.96 + 5000 0000 0.009.96(0.00077 (0.0004, 0.0034 Bedre konfidensintervall for p -p (I: Det finnes bedre asymptotiske (tilnærmede metoder enn ovennevnte. Newcombe s metode, kan lett programmeres eller beregnes f.eks med softwaren til Altman & al Statistics with confidence.ed (000. 0.000588 til 0.00378 i eksempel 3.5. Merk at Rosner fikk (0.000, 0.0033 med den omdiskuterte kontinuitetskorreksjonen 4
5 6 Bedre konfidensintervall for p -p (II: Det finnes eksakte metoder som garanterer at dekningssannsynligheten holder. Krever spesialsoftware. StatXact gir 0.000608 til 0.00379 i eksempel 3.5 (6 timers beregningstid på PCen! Agresti & Caffo (000 konfidensintervall for p -p : Beregn estimert risikodifferanse som før: X X p p n n Legg til i hver celle i x tabellen før du beregner vanlig asymptotisk konfidensintervall: X + X + p, p n + n + Bedre tilnærmet konfidensintervall: p p z / p α ( p + p ( p n n 7 8 Agresti & Caffo (000 intervallet: Lett å beregne Gode egenskaper (dekningsgrad Anbefalt i flere innføringsbøker i statistikk I eksempel 3.5 blir det 0.000496 til 0.00350 En sammenlikning Metode 95% konfidensintervall Anbefalt nedre øvre Wald 0.00040 0.00340 nei Wald med cc 0.0005 0.0035 NEI Newcombe 0.00059 0.00378 ja Agresti-Caffo 0.00050 0.00380 ja Eksakt 0.00060 0.00378 ja Asymp. eksakt 0.0006 0.00379 ja 9 30 Estimat for risikoratio (eqn 3.: RR p / p -α konfidensintervall for ln(rr: Eks 3.7 (Tabell 0. p 3/ 5000 0.006, p 7 /0000 0.0007 ln( b d, ln( b d RR z RR + z α / α / an cn an cn -α konfidensintervall for RR: e + + + RR z b /( d /( RR z b /( d /( ln( ln( α / α /, Tilnærmingen er OK hvis Rosner: np ( p 5 og np ( p 5 Price & Bonett, Statistics in medicine, 008: p og p mellom 0. og 0.9 samt n 5og n 5 e RR 0.006 / 0.0007 3.7 0.006 4987 9993 c ln.96 + 0.0007 3 5000 7 0000.3.96 0.4685.3 0.98 0.394 c.3 + 0.98.30 95% konfidensintervall for 0.394.30 RR : ( e, e (.48,9.30 5
3 3 The Koopman (score interval always works well. Stata: Install Koopman first. koopmani 3 5000 7 0000 Event Proportion Yes No Yes -----------------+------------------------+---------------------- Group 3 4987 5000 0.006 Group 7 9993 0000 0.0007 -----------------+------------------------+---------------------- 0 4980 5000 0.003 Point estimate [95% Conf. Interval] ----------------- ------------------------+---------------------- Odds Ratio 3.7486.5765 9.03888 ----------------------------------------------------------------- NB! The printout erroneously writes Odds Ratio instead of RR Hva er odds? Kjent begrep hos veddemålsagenter ( bookmakere Odds er sannsynligheten for utfallet dividert på sannsynligheten for det motsatte. Odds p/(-p Eksempel: Sannsynlighet 0.5 tilsvarer odds 0.5/0.750.33 (:3 Odds kan anta alle verdier mellom 0 og. 33 34 Hva er Odds Ratio OR? La p, p være sannsynligheten i gruppe og. p /( p p ( p OR p /( p p ( p En tolkning av OR hvis p << og p << : p /( p p OR RR p p p /( Estimat: p ( p OR p ( p som alternativt kan skrives [ a/( a+ b] [ d/( c+ d] ad OR [ c/( c+ d] [ b/( a+ b] bc OR er alltid mer ekstrem enn RR. (Lengre fra 35 36 Tabell 0. Vi ønsker å sammenlikne Pr( D E og Pr( D E status kasus (brystkeft kontroll (ikke brystkreft alder v første fødsel > 30 år < 30 år 683 537 30 498 8747 045 8 84 3465 vha estimat, konfidensintervall eller hypotesetest for risikodifferanse Pr( D E Pr( D E eller relativ risiko Pr( D E Pr( D E eller Pr( D E Pr( D E odds ratio Pr( D E Pr( D E 6
37 38 Men i en kasus kontroll studie observeres Pr( E D og Pr( E D. Viktig resultat (Cornfield, 956 Sykdoms OR Eksponerings OR Pr( D E Pr( D E Pr( Pr( E D E D Pr( D E Pr( D E Pr( E D Pr( E D Følgende 3 hypoteser er ekvivalente: Pr( D E Pr( D E 0 Pr( D E Pr( D E Pr( D E Pr( D E Pr( D E Pr( D E Av interesse Observeres 39 40 Estimat for odds ratio (eqn 3.: OR ad / bc Mulig i en kasus-kontroll studie: Woolf -α konfidensintervall for ln(or: risiko diff. estimat, konf.int Hypotesetest (om ingen assosiasjon OK ln( OR z α/ + + +, ln( OR + z α/ + + + a b c d a b c d -α konfidensintervall for OR: relativ OK ved lav OK risiko prevalens OR OK OK e ln( OR z + + + ln( OR + z + + + α / α / a b c d a b c d, e Tilnærmingen er OK hvis np ( p 5 og np ( p 5 Adjusted Woolf: Legg til ½ i alle 4 celler før beregning av konf.int. 4 4 status kasus (brystkeft kontroll (ikke brystkreft Tabell 0. alder v første fødsel > 30 år < 30 år 683 537 30 498 8747 045 8 84 3465 Eksempel 3. 683 8747 OR.57 537 498 ln(.57 ±.96 + + + 0.45 ± 0.0 683 537 498 8747 dvs (.4,.74 95% konf.int. for OR: 0.35 0.553 ( e, e (.4,.74 Kan vi si noe om RR? 7