Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

2 Loven om total sannsynlighet La A og Ā være komplementære hendelser, mens B er en annen hendelse. Da er: P(B) P(B oga)+p(b ogā) P(B A)P(A)+P(B Ā)P(Ā) ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 3 Bayes formel P(A ogb) P(A B) P(B) P(A)P(B A) P(A)P(B A)+P(Ā)P(B Ā) ved generell multiplikasjonsregel i teller og loven om total sannsynlighet i nevner. 4 Testing for sykdom En person testes for en bestemt sykdom. S personen har sykdommen T testen er positiv For medisinske tester kjenner man: P(T S): sannsynligheten for at testen slår ut positivt, gitt at personen er syk (sensitiviteten til testen). Ønskes høyest mulig. P( T S): sannsynligheten for at testen slår ut negativt, gitt at personen er frisk (spesifisitet). Ønskes høyest mulig Interessant for pasienten: P(S T ): sannsynligheten for at du er syk, gitt at du har fått en positiv test. P( S T ): sannsynligheten for at du er frisk, gitt at du har fått en negativ test.

5 Eksempel: HIV-test Hva er sannsynligheten for at en person med positiv HIV-test virkelig er HIV-smittet? Anta Sensitivitet av testen: P(T S) 0.98 Spesifisitet av testen: P( T S) 0.995 P(S T ) finnes ved P(S ogt) P(T S)P(S) P(S T ) P(T ) P(T S)P(S)+P(T S)P( S) P(T S)P(S) P(T S)P(S)+(1 P( T S))(1 P(S)) Svaret er avhengig av forekomsten av HIV i populasjonen, P(S): P(S) P(S T) 1 10000 0.02 2 5000 0.04 5 2000 0.09 10 1000 0.16 20 500 0.28 50 500 0.50 100 100 0.66 P(S) 0.0005 5 10000 (Dagbladet febr 2003, 1900 smittet av HIV i Norge (av 4 000 000), dvs ca 0.5 promille.) Dette gir et problem ved masseunderskelser. De fleste av personene med positiv prøve kan faktisk være friske. 7 Eksempel: Dopingtesting En viss type doping forekommer i 1% av populasjonen. Testen kan påvise dette i 95% av tilfellene hvor personen er dopet, men påviser det også feilaktig i 2% av tilfelllene hvor personen ikke er dopet. Hva er sannsynlighenten for at personen er dopet om testen er positiv? La Dpersonen er dopet Atesten er positiv P(D)0.01 P(D )0.99 D D P(A D)0.95 P(A D)0.05 P(A D )0.02 P(A D )0.98 Gren Utfall P A 1 (D,A) 0.0095 A A A 2 3 4 (D,A ) 0.0005 (D,A) 0.0198 (D,A ) 0.9702 P(D oga) P(D A) P(A) P(D)P(A D) P(D)P(A D)+P(D )P(A D ) p 1 0.0095 p 1 + p 3 0.0095 + 0.0198 0.32

Oppgave: Det er oppgitt at P(A) 0.60 P(B Ā) 0.15 P(B A) 0.05 a) Er A og B uavhengige? b) Hva er P(B)? c) Hva er P(A B)? (Vink: Bruk setningen om total sannsynlighet og Bayes formel) Oppgave: En 60 år gammel storrøyker oppsøker lege med kronisk hoste og kortpustethet. Legen er bekymret og definerer følgende hendelser: A: Pasientens symptom er kronisk hoste og kortpustethet. B: Pasienten har lungekreft Erfaringer viser at vi kan anta følgende sannsynligheter for 60 årige storrøykere: P(A B)0.9, P(A B)0.01, P(B)0.05 Hva er sannsynligheten for at pasienten har lungekreft gitt symptomene, dvs P(B A)? A) 0.91 B) 0.77 C) 0.50 D) 0.83 E) 0.99 (Vink: Bruk Bayes formel) 11 Oppsummering kapittel 1-4 12 Hva er statistikk? Vitenskapen å samle inn, beskrive og tolke data

13 Viktige definisjoner (1.2) Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren 15 Frekvensfordeling Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. Data:1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 x f 0 1 1 3 2 8 3 5 4 3 16 Mål for lokalisering av data Gjennomsnitt summen av data x x antall data n Eksempel: Data er frekvensfordelingen over x 0 1 + 1 3 + 2 8 + 3 5 + 4 3 46 20 20 2.3 x er tyngdepunktet i datamengden:

18 Mål på spredning Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 5, 10 x 2 Medianen er mer robust mot ekstreme observasjoner enn gjennomsnittet. Varians: Standardavvik s (x s 2 x) 2 n 1 (x x) s 2 2 n 1 19 Mål på beliggenhet Kvartiler: Deler datasettet inn i fire like store deler: 1. Kvartil Q 1 : Verdien som er slik at maks 25% av dataene er mindre og maks 75% er større. 2. Kvartil Q 2 : maks 50% av dataene er mindre og maks 50% er større. Det samme som medianen x 3. Kvartil Q 3 : maks 75% av dataene er mindre og maks 25% er større. Prosentiler: Deler datasettet inn i hundre like deler. 5-tallssammendrag:L, Q 1, x,q 3,H 1

21 Tolkning av standardavvik 22 Bivariate data Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. Ser på to variable samtidig. Disse fremstilles i et ordnet par (x,y). x kalles ofte uavhengig variable, mens y kalles avhengig (av x) variabel. Grafisk framstilling:spredningsplott 23 Lineær regresjon Modell for lineær regresjon: ŷ b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y blir minst mulig. Da er (x x)(y ȳ) b 1 (x x) 2 b 0 i uttrykket ŷ b 0 + b 1 x finnes fra y b1 x b 0 n med ekvivalent formel b 1 SS(xy) SS(x).

26 Plot av sit-ups mot push-ups og ŷ b 0 + b 1 x mot x med b 0 14.9 og b 1 0.66 funnet fra uttrykkene over. Prediksjon Eksempel: Gitt at en student tar 40 sit-ups, hva er forventet antall push-ups? ŷ b 0 + b 1 x 14.9 + 0.66 40 41.3 Husk: Prediksjonen er bare gyldig for elementer i populasjonen som utvalget stammer fra. Prediksjonen er usikker utenfor typiske x verdier. Sammenhenger mellom variable endres i tid. 27 Sannsynlighetsregning Tre måter å beregne sannsynlighet på. Empirisk Teoretisk Subjektivt Hendelse A Teoretisk sannsynlighet for A: Empirisk sannsynlighet for A: P(A) P (A) n(a) n der n er antall forsøk og n(a) er antall ganger A inntreffer på de n forsøkene. Store talls lov: P (A) nærmer seg P(A) når n blir stor Utfallsrom S Mengden av alle mulige utfall av et eksperiment Hendelse Enhver delmengde av S Uniformt utfallsrom Et utfallrom der alle utfall har samme sjanse for å inntreffe For uniformt utfallsrom: P(A) n(a) n(s) der n(a)antall utfall i A n(s)antall utfall i S

Vi har alltid at 1. 0 P(A) 1 2. P(S)1 Komplementet til en hendelse A: Hendelsen at A ikke inntreffer skrives Ā og P(Ā) 1 P(A) Disjunkte hendelser: Hendelser som ikke kan inntreffe samtidig i samme forsøk. Sannsynligheten for sammensatte hendelser: P(A eller B) Sannsynlighten for at hendelse A eller B, eller begge, inntreffer i forsøket P(A og B) Sannsynligheten for at hendelsene A og B inntreffer samtidig i forsøket P(A B) Sannsynligheten for hendelse A, gitt at hendelse B har inntruffet. Uavhengige hendelser: Hendelser som er slik at kunnskap om at den ene hendelsen har inntruffet ikke påvirker sannsynligheten for den andre hendelsen. Loven om total sannsynlighet: Generell addisjonsregel: P(A eller B) P(A)+P(B) P(A ogb) -spesielt: Hvis A og B er disjunkte så er P(A og B)0, og Generell multiplikasjonsregel: P(A eller B) P(A)+P(B) P(A ogb)p(a)p(b A) P(B)P(A B) -spesielt: Hvis A og B er uavhengige så er P(A)P(A B) og P(B)P(B A), og P(A ogb)p(a)p(b) Bayes formel: P(B) P(B oga)+p(b ogā) P(B A)P(A)+P(B Ā)P(Ā) P(A ogb) P(A B) P(B) P(A)P(B A) P(A)P(B A)+P(Ā)P(B Ā)