Formelsamling i medisinsk statistikk

Like dokumenter
Formelsamling i medisinsk statistikk

Formelsamling i medisinsk statistikk

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

DEL 1 GRUNNLEGGENDE STATISTIKK

ÅMA110 Sannsynlighetsregning med statistikk, våren

Bernoulli forsøksrekke og binomisk fordeling

FORMELSAMLING TIL STK1100 OG STK1110

Kap. 6, Kontinuerlege Sannsynsfordelingar

Kap. 6, Kontinuerlege Sannsynsfordelingar

Oppfriskning av blokk 1 i TMA4240

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

TMA4240 Statistikk Høst 2008

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Kap. 6, Kontinuerlege Sannsynsfordelingar

Fasit for tilleggsoppgaver

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

FORMELSAMLING TIL STK1100 OG STK1110

Kapittel 3: Studieopplegg

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

TMA4240 Statistikk Eksamen desember 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Statistikk og dataanalyse

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

1.1.1 Rekke med konstante ledd. En rekke med konstante ledd er gitt som. a n (1) n=m

UNIVERSITETET I OSLO

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

Kapittel 2: Hendelser

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

ST0202 Statistikk for samfunnsvitere

Tyngdepunkt. Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at. Kapittel 4

Seksjon 1.3 Tetthetskurver og normalfordelingen

Kapittel 6: Kontinuerlige sannsynlighetsfordelinger

for x 0 F X (x) = 0 ellers Figur 1: Parallellsystem med to komponenter Figur 2: Seriesystem med n komponenter

Emnenavn: Deleksamen i Statistikk. Eksamenstid: Faglærer: Tore August Kro. Oppgaven er kontrollert:

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

TMA4240 Statistikk H2010

Norske hoppdommere og Janne Ahonen

Medisinsk statistikk Del I høsten 2009:

UNIVERSITETET I OSLO

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ST0202 Statistikk for samfunnsvitere

STK juni 2016

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

Forventning og varians.

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Kontinuerlige sannsynlighetsfordelinger.

UNIVERSITETET I OSLO Matematisk Institutt

UNIVERSITETET I OSLO

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Binomisk sannsynlighetsfunksjon

Forelesing 27 Oppsummering. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Løsningsforslag: STK2120-v15.

HØGSKOLEN I STAVANGER

Kort overblikk over kurset sålangt

Prøveeksamen i MAT0100V våren 2017

TMA4240 Statistikk Høst 2015

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

Forventning og varians.

Hogskoleni Østfold EKSAMEN. Eksamenstid: kl til k

TMA4240 Statistikk Høst 2015

UNIVERSITETET I OSLO

Togforsinkelsen (Eksamen Des2003.1a) I denne oppgaven kan du bruke uten å vise det at

Eksamensoppgave i TMA4240 Statistikk

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 4

STK Oppsummering

Forelesning 5: Kontinuerlige fordelinger, normalfordelingen. Jo Thori Lind

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

STK1100 våren 2019 Mere om konfidensintevaller

FORMELSAMLING STATISTIKK, HiG

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

EKSAMEN. TILLATTE HJELPEMIDLER: Kalkulator. Hornæs: Formelsamling statistikk HiG. John Haugan: Formler og tabeller.

TMA4240 Statistikk Eksamen desember 2015

FORMELSAMLING STATISTIKK, HiG

Løsning eksamen desember 2016

LØSNING: Eksamen 22. mai 2018

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Gammafordelingen og χ 2 -fordelingen

A. i) Sett opp en frekvenstabell over de fire mulige kombinasjonene av kjønn og røykestatus. Dvs. fyll inn. Ikke - røyker Sum Jente Gutt Sum 25

ECON Statistikk 1 Forelesning 4: Stokastiske variable, fordelinger. Jo Thori Lind

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 3

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Et lite notat om og rundt normalfordelingen.

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

FORMELSAMLING STATISTIKK, HiG Versjon per 10. januar 2002, ved Hornæs

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Foreleses onsdag 8. september 2010

Høgskoleni østfold EKSAMEN

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Formelsamling V MAT110 Statistikk 1. Per Kristian Rekdal

Emnenavn: Eksamenstid: Faglærer: Hans Kristian Bekkevard

MAT4010 PROSJEKTOPPGAVE: Statistikk i S2. Olai Sveine Johannessen, Vegar Klem Hafnor & Torstein Mellem

Transkript:

Formelsamling i medisinsk statistikk Versjon av 6. mai 208 Dette er en formelsamling til O. O. Aalen (red.): Statistiske metoder i medisin og helsefag, Gyldendal, 208. Gjennomsnitt x = n (x + x 2 + x 3 + + x n ) Median Alle observasjoner ordnes i stigende rekkefølge. Ved ulike antall observasjoner, er medianen definert som den midterste av dem.ved like antall, er medianen definert som gjennomsnittet av de to midterste. Standardavvik s = n (x i x) 2 n i= Grupperte data Intervallmidtpunkter m, m 2,..., m k. Hyppigheter f, f 2,..., f k. Totalt antall observasjoner: n. Gjennomsnitt og standardavvik er gitt ved: x = n (m f + m 2 f 2 + + m k f k ) = n s = k n { (m j x) 2 f j } j= k m j f j Median og fraktiler for grupperte data finnes ved lineær interpolasjon. Insidens og prevalens Prevalens angir andelen i befolkningen som har en viss sykdom. Insidensraten beregnes som antall nye tilfeller av sykdommen over et tidsintervall, dividert med totalt antall personår under risiko. j=

Regneregler for sannsynlighet Hvis begivenhetene A og B er disjunkte has For alle begivenheter A og B has Definisjon av betinget sannsynlighet P (A B) = P (A) + P (B) P (A B) = P (A) + P (B) P (A B) P (A B) P (A B) = P (B) Begivenhetene A og B er uavhengige hvis P (A B) = P (A) P (B) En tilsvarende produktregel er gyldig om vi har flere uavhengige begivenheter. Regelen om total sannsynlighet Bayes lov P (A) = P (A B) P (B) + P (A B) P (B) P (B A) = Diagnostiske tester P (B)P (A B) P (B)P (A B) + P (B)P (A B) Sensitivitet: Sannsynlighet for positiv test gitt at det foreligger sykdom. Spesifisitet: Sannsynlighet for negativ test gitt at det ikke foreligger sykdom. Positiv prediktiv verdi: Sannsynlighet for at det foreligger sykdom gitt postiv test. Negativ prediktiv verdi: Sannsynlighet for at det ikke foreligger sykdom gitt negativ test. Kombinatorikk Trekning av s kuler fra en boks med n kuler. Antall ordnede utvalg med tilbakelegging n s Antall ordnede utvalg uten tilbakelegging n(n )(n 2) (n s + ) Antall ikke-ordnede utvalg uten tilbakelegging ( ) n n(n )(n 2) (n s + ) = s s! 2

Forventning og varians for teoretisk fordeling E(X) = alle x i x i P (X = x i ) Var(X) = alle x i (x i E(X)) 2 P (X = x i ) Regneregler for forventning og varians Var(aX + b) = a 2 Var(X), E(aX + b) = ae(x) + b, SD(aX + b) = a SD(X) E(X + X 2 + + X n ) = E(X ) + E(X 2 ) + + E(X n ) Hvis X, X 2,..., X n er parvis stokastisk uavhengige has: Var(X + X 2 + + X n ) = Var(X ) + Var(X 2 ) + + Var(X n ) Binomisk fordeling Sannsynligheten for at en begivenhet A inntreffer x ganger i løpet av n binomiske forsøk, er ( ) n P (X = x) = p x ( p) n x, x = 0,,..., n x Forventning og varians i binomisk fordeling er gitt ved: Poissonfordeling E(X) = np, Var(X) = np( p) Sannsynligheten for x forekomster, når forventning er lik λ, er gitt ved: P (X = x) = λx e λ x! Forventning og varians er gitt ved: for x = 0,, 2,.... E(X) = λ og Var(X) = λ Poissonfordelingen anvendes også ved Poissonprosesser. Normalfordeling En stokastisk variabel X sies å være normal (µ, σ) hvis den følger en normalfordeling med forventning (sentrum) µ og standardavvik (spredning) σ. Den standardiserte variable Y = (X µ)/σ er normal (0,). Sannsynlighetstettheten til normalfordelingen er gitt ved følgende formel: f(x) = (x µ)2 exp( 2πσ 2σ 2 ) der exp(a) er det samme som eksponensialfunksjonen e a. 3

Formler for gjennomsnitt La X være gjennomsnittet av de uavhengige varablene X, X 2,..., X n. gjelder: Da E(X) = µ, Var(X) = σ2 n, SD(X) = σ n, s X = s n Hvis variablene også er normalfordelte, vil et konfidensintervall være gitt ved X ± c s X der c bestemmes ut fra Studentfordelingen med n frihetsgrader. En teststørrelse er gitt ved t = X a s X = X a n s og denne er Studentfordelt med n frihetsgrader når H 0 : µ = a gjelder. Sammenlikning av pardata Man tar differansen innenfor hvert par og bruker konfidensintervallet og teststørrelsen over med a = 0. Forutsetningen er at differansene er uavhengige og normalfordelte. Sammenlikning av to gjennomsnitt Vi forutsetter uavhengige og normalfordelte observasjoner. Forøvrig antas gjennomsnittene å komme fra to uavhengige utvalg. Følgende teststørrelse er Studentfordelt med n + n 2 2 frihetsgrader når H 0 gjelder der s f er definert ved s f = Et konfidensintervall er gitt ved t = X X 2 s f n + n 2 (n )s 2 + (n 2 )s 2 2 n + n 2 2 X X 2 ± c s f n + n 2 der c er bestemt av Studentfordelingen med n + n 2 2 frihetsgrader. 4

Poissonfordeling som tilnærming til binomisk fordeling Binomisk fordeling kan tilnærmes med en Poissonfordeling hvis: () p 0.05 og (2) n 50 Normalfordeling som tilnærming til binomisk fordeling Når n i en binomisk fordeling er så stor at np 5 og n( p) 5, vil den binomiske fordelingen likne mye på en normalfordeling med parametre µ = np, σ = np( p) Normalfordeling som tilnærming til Poissonfordeling Når λ i en Poissonfordeling er minst lik 5, vil Poissonfordelingen likne mye på en normalfordeling med parametre µ = λ, σ = λ Estimering av sannsynlighet (andel) Hvis det er observert X forekomster ved n binomiske forsøk, er estimatet for sannsynligheten p gitt ved p, mens estimert standardfeil er gitt ved s p p p ( p = X/n, s p = ) n Fordelingen til p er tilnærmet normalfordelt under de samme forutsetninger p( p) som for binomisk fordeling, med µ = p og σ = n. Et 95% konfidensintervall for p er gitt ved p ± 2s p Testing av nullhypotese om en sannsynlighet Z = X np 0 np0 ( p 0 ) Teststørrelse for sammenlikning av to sannsynligheter (andeler) p p 2 Y = ( n + n 2 )p( p) 5

Konfidensintervall for differanse mellom to andeler p p p 2 ±.96 ( p ) + p 2 ( p 2 ) n n 2 Teststørrelse for sammenlikning av to Poissonvariabler Y = X X 2 X + X 2 Konfidensintervall for relativ risiko Relativ risiko: Hjelpestørrelse: RR = a/(a + c) b/(b + d) s RR = 95% konfidensintervall for RR: a + b a + c b + d (RR e.96 s RR, RR e.96 s RR ) Konfidensintervall for odds-ratio Odds-ratio: Hjelpestørrelse: OR = a/c b/d = a d b c s OR = 95% konfidensintervall for OR: Kji-kvadrattest a + b + c + d (OR e.96 s OR, OR e.96 s OR ) Kji-kvadrattesten for en 2 2-tabell kan beregnes ut fra følgende formel: χ 2 = N(ad bc) 2 (a + b)(a + c)(b + d)(c + d) 6

Formelen er basert på oppsettet i tabellen øverst s. 32 i læreboken, der N er summen av tallene i tabellen. Formelen er ikke gitt i boken, men gir samme svar som beregningen av størrelsen S på s. 39. En formel som også er gyldig for større tabeller, med k kolonner og r rader, er den følgende: χ 2 = (O E) 2 E Her er O og E det observerte og forventede antall forekomster i de enkelte celler og summen skal tas over alle cellene i tabellen. Antall frihetsgrader i kji-kvadratfordelingen er (k ) (r ). For en 2 2-tabell gir dette én frihetsgrad. Regresjonsanalyse Helningskoeffisienten, b, og skjæringspunktet med y-aksen, a, for minste-kvadraterslinjen er gitt ved ˆb = sxy /s 2 x, â = y ˆb x der s x og s y er standardavvikene til henholdsvis x- og y-verdiene, mens s xy er definert ved s xy = n (x i x)(y i y) n Minste kvadratsum er gitt ved rest = i= n (y i â ˆb x i ) 2 = (n )(s 2 y ˆb s xy ) i= Standardavvik som måler variasjonen i punktene rundt den beste linjen: rest s reg = n 2 Konfidensintervall for ˆb bestemmes ut fra formelen: ˆb ± c s reg (n ) s 2 x der c bestemmes ut fra en studentfordeling med n 2 frihetsgrader. Korrelasjon Korrelasjonskoeffisienten er definert på følgende måte: r = s xy s x s y 7

Utvalgsstørrelse Parallellgruppestudie målevariabler: ( σ ) 2 n = 2 k Overkrysningsstudie målevariabler: ( σd ) 2 n = k Utvalgsstørrelse binomisk responsvariabel: k bestemmes av tabellen: n = p ( p ) + p 2 ( p 2 ) (p 2 p ) 2 k Teststyrke 0.80 0.90 0.95 Siginifikans- 0.0 6.2 8.6 0.8 nivå 0.05 7.9 0.5 3.0 (tosidig) 0.0.7 4.9 7.8 Utvalgsstørrelse basert på presisjon i estimater Binomisk respons: Kontinuerlig respons: ( ) 2.96 n = p( p) d (.96 σ n = d ) 2 8