Betingede sannsynligheter Fra spøkefull Monty Hall til alvorsfull kreftdiagnostikk Solve Sæbø IKBM, UMB
Innhold The Monty Hall game Vinner du bilen eller geita? Den statistiske begrunnelsen for riktig strategi i spillet Betingede sannsynligheter og Bayes regelen. Sykdomsdiagnostikk P(brystkreft mammografi). Ny blodbasert test lanseres et viktig supplement til mammografi? Statistiske utfordringer i utviklingen av en blodbasert test for brystkreft.
The Monty Hall game UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP
The Monty Hall game Illustrasjon: http://www.math.ucsd.edu/~crypto/monty/monty.html Hvilken strategi lønner seg i det lange løp? - Bytte dør? - Har ingen betydning?
Datasimulering i R UNIVERSITETET FOR MILJØ- OG BIOVITENSKAP
Litt sannsynlighetsteori La A og B betegne hendelser som inntrer med (totale/ubetingende) sannsynligheter P(A) og P(B). La A c og B c betegne de komplementære hendelsene (dvs, ikke-a, ikke-b). Vi kan illustrere dette med et Venn-diagram : B c B A A c
Den betingede sannsynligheten for A gitt B, P(A B), kan uttrykkes ved Bayes regel : P(A B) = P(A,B)/P(B) der P(A,B) er sannsynligheten for både A og B (snittet). Dette gir at for snittet gjelder: P(A,B) = P(A B)*P(B) = P(B A)*P(A) Videre er den totale (ubetingede) sanns for A gitt ved P(A) = P(A,B) + P(A,B c ) = P(A B)P(B)+P(A B c )P(B c ) B c B A A c
Den statistiske begrunnelsen for riktig strategi La subskript 1 betegne først valgte dør og subskript 2 betegne tilbudt dør. La være sannsynligheten for at det er en bil bak først valgte dør. Rimelig nok er Dersom det virkelig er en bil bak den valgte døra vil og Dersom det er en geit bak den valgte døra vil og siden programverten allerede har åpnet den andre døra med en geit bak.
Så den totale sannsynligheten P(Bil 2 ) for at det er en bil bak den tilbudte døra er: Det vil med andre ord lønne seg i lengden å bytte til den tilbudte døra siden det er 2/3 sjanse for at bilen befinner seg der (og dermed 1/3 sjanse for bil-gevinst om man velger ikke å bytte)
Mammografi og brystkreft Anta to hendelser, S og M, definert ved S (Syk) = En gitt person har brystkreft. M (Mammografi) = En mammografitest viser positivt resultat, dvs syk. Begge hendelser vil inntreffe med viss sannsynligheter P(S) og P(M) dersom en vilkårlig person plukkes ut til en test. En god test bør gi positivt utslag med høy sannsynlighet dersom en pasient er syk, dvs P(M S) ~ 1 (høy sensitivitet) Samtidig bør den med høy sannsynlighet vise negativt resultat dersom personen er frisk, dvs P(M c S c ) ~ 1 (høy spesifisitet)
Men for en pasient er det kanskje mer interessant å vite hva sannsynligheten er for at man er syk dersom testen slår ut! Mao hva er P(S M)? Bayes regel sier oss at Og dersom vi bruker uttrykket for total sannsynlighet for M:
Et raskt søk på nettet gir følgende opplysninger om mammografi: Sensitivitet : 0.7-0.9 = P(M S) Spesifisitet : 0.94-0.97 = P(M c S c ) Prevalens : ca 0.01 = P(S) (i screening-populasjonen) Dette gir Mao, sannynligheten for at en kvinne med positiv mammografitest i et screeningprogram faktisk har brystkreft er omlag 0.15. (Praktisk oppgave i matematikk?)
Fra populasjon til utvalg... Fra utvalg til populasjon... Tallene i mammografi-eksemplet er basert på estimerte (anslåtte) sannsynligheter. De er estimert utfra store kliniske studier der man prøver ut testen på et utvalg av personer med kjent helsetilstand. Fra utvalg til populasjon I Monty Hall eksemplet kjenner man de populasjonsmessige sannsynlighetene for å velge dør med bil og geit og kan utfra det anslå sannsynligheten for ulike utfall Fra populasjon til utvalg Sistnevnte del av statistikken belyses mest i videregående skole, men er grunnlaget for......den del av statistikken som er mest i bruk i praktisk forskning hvor sannheten (populasjonssannsynlighetene) er ukjent.
Aktuell forskning! Ny test under utvikling Oppslag i Dagbladet 25.09.2008
Et supplement til mammografi Anta at en ny test i første omgang er ment som et supplement til mammografi for kvinner med suspekt mammogram (positiv test). Mao for denne populasjonen er prevalensen P(S)=0.15 Anta følgende for ny test (D) Sensitivitet : P(D S) = 0.87 Spesifisitet : P(D C S C ) = 0.76 Dette gir for en kvinne med suspekt mammogram:
Kvinner 40-59 år To-stegs diagnostikk: Mammografi M M c P(M C )=0.95 P(M) = 0.05 P(S M) = 0.15 Ny test D c P(D C M )=0.33 D P(D M )=0.67 P(S D,M)=0.39