Formelsamling i medisinsk statistikk

Formelsamling i medisinsk statistikk Versjon av 6. mai 208 Dette er en formelsamling til O. O. Aalen (red.): Statistiske metoder i medisin og helsefag, Gyldendal, 208. Gjennomsnitt x = n (x + x 2 + x 3 + + x n ) Median Alle observasjoner ordnes i stigende rekkefølge. Ved ulike antall observasjoner, er medianen definert som den midterste av dem.ved like antall, er medianen definert som gjennomsnittet av de to midterste. Standardavvik s = n (x i x) 2 n i= Grupperte data Intervallmidtpunkter m, m 2,..., m k. Hyppigheter f, f 2,..., f k. Totalt antall observasjoner: n. Gjennomsnitt og standardavvik er gitt ved: x = n (m f + m 2 f 2 + + m k f k ) = n s = k n { (m j x) 2 f j } j= k m j f j Median og fraktiler for grupperte data finnes ved lineær interpolasjon. Insidens og prevalens Prevalens angir andelen i befolkningen som har en viss sykdom. Insidensraten beregnes som antall nye tilfeller av sykdommen over et tidsintervall, dividert med totalt antall personår under risiko. j=

Regneregler for sannsynlighet Hvis begivenhetene A og B er disjunkte has For alle begivenheter A og B has Definisjon av betinget sannsynlighet P (A B) = P (A) + P (B) P (A B) = P (A) + P (B) P (A B) P (A B) P (A B) = P (B) Begivenhetene A og B er uavhengige hvis P (A B) = P (A) P (B) En tilsvarende produktregel er gyldig om vi har flere uavhengige begivenheter. Regelen om total sannsynlighet Bayes lov P (A) = P (A B) P (B) + P (A B) P (B) P (B A) = Diagnostiske tester P (B)P (A B) P (B)P (A B) + P (B)P (A B) Sensitivitet: Sannsynlighet for positiv test gitt at det foreligger sykdom. Spesifisitet: Sannsynlighet for negativ test gitt at det ikke foreligger sykdom. Positiv prediktiv verdi: Sannsynlighet for at det foreligger sykdom gitt postiv test. Negativ prediktiv verdi: Sannsynlighet for at det ikke foreligger sykdom gitt negativ test. Kombinatorikk Trekning av s kuler fra en boks med n kuler. Antall ordnede utvalg med tilbakelegging n s Antall ordnede utvalg uten tilbakelegging n(n )(n 2) (n s + ) Antall ikke-ordnede utvalg uten tilbakelegging ( ) n n(n )(n 2) (n s + ) = s s! 2

Forventning og varians for teoretisk fordeling E(X) = alle x i x i P (X = x i ) Var(X) = alle x i (x i E(X)) 2 P (X = x i ) Regneregler for forventning og varians Var(aX + b) = a 2 Var(X), E(aX + b) = ae(x) + b, SD(aX + b) = a SD(X) E(X + X 2 + + X n ) = E(X ) + E(X 2 ) + + E(X n ) Hvis X, X 2,..., X n er parvis stokastisk uavhengige has: Var(X + X 2 + + X n ) = Var(X ) + Var(X 2 ) + + Var(X n ) Binomisk fordeling Sannsynligheten for at en begivenhet A inntreffer x ganger i løpet av n binomiske forsøk, er ( ) n P (X = x) = p x ( p) n x, x = 0,,..., n x Forventning og varians i binomisk fordeling er gitt ved: Poissonfordeling E(X) = np, Var(X) = np( p) Sannsynligheten for x forekomster, når forventning er lik λ, er gitt ved: P (X = x) = λx e λ x! Forventning og varians er gitt ved: for x = 0,, 2,.... E(X) = λ og Var(X) = λ Poissonfordelingen anvendes også ved Poissonprosesser. Normalfordeling En stokastisk variabel X sies å være normal (µ, σ) hvis den følger en normalfordeling med forventning (sentrum) µ og standardavvik (spredning) σ. Den standardiserte variable Y = (X µ)/σ er normal (0,). Sannsynlighetstettheten til normalfordelingen er gitt ved følgende formel: f(x) = (x µ)2 exp( 2πσ 2σ 2 ) der exp(a) er det samme som eksponensialfunksjonen e a. 3

Formler for gjennomsnitt La X være gjennomsnittet av de uavhengige varablene X, X 2,..., X n. gjelder: Da E(X) = µ, Var(X) = σ2 n, SD(X) = σ n, s X = s n Hvis variablene også er normalfordelte, vil et konfidensintervall være gitt ved X ± c s X der c bestemmes ut fra Studentfordelingen med n frihetsgrader. En teststørrelse er gitt ved t = X a s X = X a n s og denne er Studentfordelt med n frihetsgrader når H 0 : µ = a gjelder. Sammenlikning av pardata Man tar differansen innenfor hvert par og bruker konfidensintervallet og teststørrelsen over med a = 0. Forutsetningen er at differansene er uavhengige og normalfordelte. Sammenlikning av to gjennomsnitt Vi forutsetter uavhengige og normalfordelte observasjoner. Forøvrig antas gjennomsnittene å komme fra to uavhengige utvalg. Følgende teststørrelse er Studentfordelt med n + n 2 2 frihetsgrader når H 0 gjelder der s f er definert ved s f = Et konfidensintervall er gitt ved t = X X 2 s f n + n 2 (n )s 2 + (n 2 )s 2 2 n + n 2 2 X X 2 ± c s f n + n 2 der c er bestemt av Studentfordelingen med n + n 2 2 frihetsgrader. 4

Poissonfordeling som tilnærming til binomisk fordeling Binomisk fordeling kan tilnærmes med en Poissonfordeling hvis: () p 0.05 og (2) n 50 Normalfordeling som tilnærming til binomisk fordeling Når n i en binomisk fordeling er så stor at np 5 og n( p) 5, vil den binomiske fordelingen likne mye på en normalfordeling med parametre µ = np, σ = np( p) Normalfordeling som tilnærming til Poissonfordeling Når λ i en Poissonfordeling er minst lik 5, vil Poissonfordelingen likne mye på en normalfordeling med parametre µ = λ, σ = λ Estimering av sannsynlighet (andel) Hvis det er observert X forekomster ved n binomiske forsøk, er estimatet for sannsynligheten p gitt ved p, mens estimert standardfeil er gitt ved s p p p ( p = X/n, s p = ) n Fordelingen til p er tilnærmet normalfordelt under de samme forutsetninger p( p) som for binomisk fordeling, med µ = p og σ = n. Et 95% konfidensintervall for p er gitt ved p ± 2s p Testing av nullhypotese om en sannsynlighet Z = X np 0 np0 ( p 0 ) Teststørrelse for sammenlikning av to sannsynligheter (andeler) p p 2 Y = ( n + n 2 )p( p) 5

Konfidensintervall for differanse mellom to andeler p p p 2 ±.96 ( p ) + p 2 ( p 2 ) n n 2 Teststørrelse for sammenlikning av to Poissonvariabler Y = X X 2 X + X 2 Konfidensintervall for relativ risiko Relativ risiko: Hjelpestørrelse: RR = a/(a + c) b/(b + d) s RR = 95% konfidensintervall for RR: a + b a + c b + d (RR e.96 s RR, RR e.96 s RR ) Konfidensintervall for odds-ratio Odds-ratio: Hjelpestørrelse: OR = a/c b/d = a d b c s OR = 95% konfidensintervall for OR: Kji-kvadrattest a + b + c + d (OR e.96 s OR, OR e.96 s OR ) Kji-kvadrattesten for en 2 2-tabell kan beregnes ut fra følgende formel: χ 2 = N(ad bc) 2 (a + b)(a + c)(b + d)(c + d) 6

Formelen er basert på oppsettet i tabellen øverst s. 32 i læreboken, der N er summen av tallene i tabellen. Formelen er ikke gitt i boken, men gir samme svar som beregningen av størrelsen S på s. 39. En formel som også er gyldig for større tabeller, med k kolonner og r rader, er den følgende: χ 2 = (O E) 2 E Her er O og E det observerte og forventede antall forekomster i de enkelte celler og summen skal tas over alle cellene i tabellen. Antall frihetsgrader i kji-kvadratfordelingen er (k ) (r ). For en 2 2-tabell gir dette én frihetsgrad. Regresjonsanalyse Helningskoeffisienten, b, og skjæringspunktet med y-aksen, a, for minste-kvadraterslinjen er gitt ved ˆb = sxy /s 2 x, â = y ˆb x der s x og s y er standardavvikene til henholdsvis x- og y-verdiene, mens s xy er definert ved s xy = n (x i x)(y i y) n Minste kvadratsum er gitt ved rest = i= n (y i â ˆb x i ) 2 = (n )(s 2 y ˆb s xy ) i= Standardavvik som måler variasjonen i punktene rundt den beste linjen: rest s reg = n 2 Konfidensintervall for ˆb bestemmes ut fra formelen: ˆb ± c s reg (n ) s 2 x der c bestemmes ut fra en studentfordeling med n 2 frihetsgrader. Korrelasjon Korrelasjonskoeffisienten er definert på følgende måte: r = s xy s x s y 7

Utvalgsstørrelse Parallellgruppestudie målevariabler: ( σ ) 2 n = 2 k Overkrysningsstudie målevariabler: ( σd ) 2 n = k Utvalgsstørrelse binomisk responsvariabel: k bestemmes av tabellen: n = p ( p ) + p 2 ( p 2 ) (p 2 p ) 2 k Teststyrke 0.80 0.90 0.95 Siginifikans- 0.0 6.2 8.6 0.8 nivå 0.05 7.9 0.5 3.0 (tosidig) 0.0.7 4.9 7.8 Utvalgsstørrelse basert på presisjon i estimater Binomisk respons: Kontinuerlig respons: ( ) 2.96 n = p( p) d (.96 σ n = d ) 2 8