Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere



Like dokumenter
ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

ST0202 Statistikk for samfunnsvitere [4]

Trekking uten tilbakelegging. Disjunkte hendelser (4.5) Forts. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Oversikt. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

ST0202 Statistikk for samfunnsvitere Introduksjon til ST0202 høsten 2012 Kapittel 1: Statistikk

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Sannsynligheten for en hendelse (4.2) Empirisk sannsynlighet. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere [1]

Beregning av kvartilen Q 1 (example 2.12) Mer repetisjon. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Kapittel 2: Sannsynlighet

Fra første forelesning:

Kapittel 2: Sannsynlighet [ ]

Utfallsrom og hendelser. Disjunkte hendelser. Kapittel 2: Sannsynlighet. Eirik Mo Institutt for matematiske fag, NTNU

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

Sannsynlighetsregning og Statistikk.

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

UNIVERSITETET I OSLO

Statistikk og dataanalyse

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Kapittel 4: Sannsynlighet - Studiet av tilfeldighet

Formelsamling i medisinsk statistikk

Betingede sannsynligheter Fra spøkefull Monty Hall til alvorsfull kreftdiagnostikk

Kapittel 4.3: Tilfeldige/stokastiske variable

Kapittel 3: Studieopplegg

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

ST0103 Brukerkurs i statistikk Høst 2014

Statistikk. Forkurs 2017

Sannsynlighet: Studiet av tilfeldighet

Denne uken: Kapittel 4.3 og 4.4

ECON Statistikk 1 Forelesning 2: Innledning

Statistikk. Forkurs 2018

Forelesning 4, kapittel 3. : 3.4: Betinget sannsynlighet.

Formelsamling V-2014 MAT110. Statistikk 1. Per Kristian Rekdal

STK Oppsummering

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Kapittel 4.4: Forventning og varians til stokastiske variable

Et lite notat om og rundt normalfordelingen.

UNIVERSITETET I OSLO Matematisk Institutt

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

ÅMA110 Sannsynlighetsregning med statistikk, våren

Kapittel 1: Data og fordelinger

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Slide 1. Slide 2 Statistisk inferens. Slide 3. Introduction to the Practice of Statistics Fifth Edition

Betinget sannsynlighet, total sannsynlighet og Bayes setning Kapittel 4.5

ST0202 Statistikk for samfunnsvitere

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

ST0202 Statistikk for samfunnsvitere

Sannsynlighetsregning og Statistikk

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Forelesning 3, kapittel 3. : 3.2: Sannsynlighetsregning. Kolmogoroffs aksiomer og bruk av disse.

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Introduction to the Practice of Statistics

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Deskriptiv statistikk., Introduksjon til dataanalyse

Deskriptiv statistikk., Introduksjon til dataanalyse

Beskrivende statistikk.

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Forkurs i kvantitative metoder ILP 2019

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

1 10-2: Korrelasjon : Regresjon

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Kap. 8: Utvalsfordelingar og databeskrivelse

Statistikk for språk- og musikkvitere 1

ØVINGER 2017 Løsninger til oppgaver. Øving 1

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Sannsynlighet (Kap 3)

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Løsningskisse for oppgaver til undervisningsfri uke 8 ( februar 2012)

Forelening 1, kapittel 4 Stokastiske variable

UNIVERSITETET I OSLO

Transkript:

2 Loven om total sannsynlighet La A og Ā være komplementære hendelser, mens B er en annen hendelse. Da er: P(B) P(B oga)+p(b ogā) P(B A)P(A)+P(B Ā)P(Ā) ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 3 Bayes formel P(A ogb) P(A B) P(B) P(A)P(B A) P(A)P(B A)+P(Ā)P(B Ā) ved generell multiplikasjonsregel i teller og loven om total sannsynlighet i nevner. 4 Testing for sykdom En person testes for en bestemt sykdom. S personen har sykdommen T testen er positiv For medisinske tester kjenner man: P(T S): sannsynligheten for at testen slår ut positivt, gitt at personen er syk (sensitiviteten til testen). Ønskes høyest mulig. P( T S): sannsynligheten for at testen slår ut negativt, gitt at personen er frisk (spesifisitet). Ønskes høyest mulig Interessant for pasienten: P(S T ): sannsynligheten for at du er syk, gitt at du har fått en positiv test. P( S T ): sannsynligheten for at du er frisk, gitt at du har fått en negativ test.

5 Eksempel: HIV-test Hva er sannsynligheten for at en person med positiv HIV-test virkelig er HIV-smittet? Anta Sensitivitet av testen: P(T S) 0.98 Spesifisitet av testen: P( T S) 0.995 P(S T ) finnes ved P(S ogt) P(T S)P(S) P(S T ) P(T ) P(T S)P(S)+P(T S)P( S) P(T S)P(S) P(T S)P(S)+(1 P( T S))(1 P(S)) Svaret er avhengig av forekomsten av HIV i populasjonen, P(S): P(S) P(S T) 1 10000 0.02 2 5000 0.04 5 2000 0.09 10 1000 0.16 20 500 0.28 50 500 0.50 100 100 0.66 P(S) 0.0005 5 10000 (Dagbladet febr 2003, 1900 smittet av HIV i Norge (av 4 000 000), dvs ca 0.5 promille.) Dette gir et problem ved masseunderskelser. De fleste av personene med positiv prøve kan faktisk være friske. 7 Eksempel: Dopingtesting En viss type doping forekommer i 1% av populasjonen. Testen kan påvise dette i 95% av tilfellene hvor personen er dopet, men påviser det også feilaktig i 2% av tilfelllene hvor personen ikke er dopet. Hva er sannsynlighenten for at personen er dopet om testen er positiv? La Dpersonen er dopet Atesten er positiv P(D)0.01 P(D )0.99 D D P(A D)0.95 P(A D)0.05 P(A D )0.02 P(A D )0.98 Gren Utfall P A 1 (D,A) 0.0095 A A A 2 3 4 (D,A ) 0.0005 (D,A) 0.0198 (D,A ) 0.9702 P(D oga) P(D A) P(A) P(D)P(A D) P(D)P(A D)+P(D )P(A D ) p 1 0.0095 p 1 + p 3 0.0095 + 0.0198 0.32

Oppgave: Det er oppgitt at P(A) 0.60 P(B Ā) 0.15 P(B A) 0.05 a) Er A og B uavhengige? b) Hva er P(B)? c) Hva er P(A B)? (Vink: Bruk setningen om total sannsynlighet og Bayes formel) Oppgave: En 60 år gammel storrøyker oppsøker lege med kronisk hoste og kortpustethet. Legen er bekymret og definerer følgende hendelser: A: Pasientens symptom er kronisk hoste og kortpustethet. B: Pasienten har lungekreft Erfaringer viser at vi kan anta følgende sannsynligheter for 60 årige storrøykere: P(A B)0.9, P(A B)0.01, P(B)0.05 Hva er sannsynligheten for at pasienten har lungekreft gitt symptomene, dvs P(B A)? A) 0.91 B) 0.77 C) 0.50 D) 0.83 E) 0.99 (Vink: Bruk Bayes formel) 11 Oppsummering kapittel 1-4 12 Hva er statistikk? Vitenskapen å samle inn, beskrive og tolke data

13 Viktige definisjoner (1.2) Populasjon Den mengden av individer/objekter som vi ønsker å analysere. Utvalg En delmengde av populasjonen (eng.: sample ) Parameter En tallverdi som oppsummerer populasjonen Observator En tallverdi som oppsummerer utvalget (eng.: statistic ) Ulike typer variabler: kvalitativ (ikke-numerisk) nominell (kategorisk), f.eks. {mann,kvinne} ordinal (kategorisk med rangering), f.eks. {svak, middels, sterk} kvantitativ (numerisk) diskrete, f.eks. {0,1,2,3,..} kontinuerlig, f.eks. et tall i intervallet (0,100), ofte med desimaler (97.3) Utvalget skal fortelle noe om populasjonen Observatoren skal fortelle noe om parameteren 15 Frekvensfordeling Frekvensfordeling: En tabell som viser hvor mange ganger hver dataverdi opptrer. Data:1,3,3,2,0,2,2,4,4,4,2,3,1,2,2,3,3,2,2 x f 0 1 1 3 2 8 3 5 4 3 16 Mål for lokalisering av data Gjennomsnitt summen av data x x antall data n Eksempel: Data er frekvensfordelingen over x 0 1 + 1 3 + 2 8 + 3 5 + 4 3 46 20 20 2.3 x er tyngdepunktet i datamengden:

18 Mål på spredning Median x er den midterste verdien når data er rangert etter størrelse. Eksempel: Data 1, 1, 2, 5, 10 x 2 Medianen er mer robust mot ekstreme observasjoner enn gjennomsnittet. Varians: Standardavvik s (x s 2 x) 2 n 1 (x x) s 2 2 n 1 19 Mål på beliggenhet Kvartiler: Deler datasettet inn i fire like store deler: 1. Kvartil Q 1 : Verdien som er slik at maks 25% av dataene er mindre og maks 75% er større. 2. Kvartil Q 2 : maks 50% av dataene er mindre og maks 50% er større. Det samme som medianen x 3. Kvartil Q 3 : maks 75% av dataene er mindre og maks 25% er større. Prosentiler: Deler datasettet inn i hundre like deler. 5-tallssammendrag:L, Q 1, x,q 3,H 1

21 Tolkning av standardavvik 22 Bivariate data Empirisk regel: innenfor ett standardavvik fra gjennomsnittet vil ca 68% av dataene være. innenfor to standardavvik fra gjennomsnittet vil ca 95% av dataene være. innenfor tre standardavvik fra gjennomsnittet vil ca 99.7% av dataene være. Ser på to variable samtidig. Disse fremstilles i et ordnet par (x,y). x kalles ofte uavhengig variable, mens y kalles avhengig (av x) variabel. Grafisk framstilling:spredningsplott 23 Lineær regresjon Modell for lineær regresjon: ŷ b 0 + b 1 x Ide: Velg b 0 og b 1 slik at kvadratisk avvik mellom ŷ og y blir minst mulig. Da er (x x)(y ȳ) b 1 (x x) 2 b 0 i uttrykket ŷ b 0 + b 1 x finnes fra y b1 x b 0 n med ekvivalent formel b 1 SS(xy) SS(x).

26 Plot av sit-ups mot push-ups og ŷ b 0 + b 1 x mot x med b 0 14.9 og b 1 0.66 funnet fra uttrykkene over. Prediksjon Eksempel: Gitt at en student tar 40 sit-ups, hva er forventet antall push-ups? ŷ b 0 + b 1 x 14.9 + 0.66 40 41.3 Husk: Prediksjonen er bare gyldig for elementer i populasjonen som utvalget stammer fra. Prediksjonen er usikker utenfor typiske x verdier. Sammenhenger mellom variable endres i tid. 27 Sannsynlighetsregning Tre måter å beregne sannsynlighet på. Empirisk Teoretisk Subjektivt Hendelse A Teoretisk sannsynlighet for A: Empirisk sannsynlighet for A: P(A) P (A) n(a) n der n er antall forsøk og n(a) er antall ganger A inntreffer på de n forsøkene. Store talls lov: P (A) nærmer seg P(A) når n blir stor Utfallsrom S Mengden av alle mulige utfall av et eksperiment Hendelse Enhver delmengde av S Uniformt utfallsrom Et utfallrom der alle utfall har samme sjanse for å inntreffe For uniformt utfallsrom: P(A) n(a) n(s) der n(a)antall utfall i A n(s)antall utfall i S

Vi har alltid at 1. 0 P(A) 1 2. P(S)1 Komplementet til en hendelse A: Hendelsen at A ikke inntreffer skrives Ā og P(Ā) 1 P(A) Disjunkte hendelser: Hendelser som ikke kan inntreffe samtidig i samme forsøk. Sannsynligheten for sammensatte hendelser: P(A eller B) Sannsynlighten for at hendelse A eller B, eller begge, inntreffer i forsøket P(A og B) Sannsynligheten for at hendelsene A og B inntreffer samtidig i forsøket P(A B) Sannsynligheten for hendelse A, gitt at hendelse B har inntruffet. Uavhengige hendelser: Hendelser som er slik at kunnskap om at den ene hendelsen har inntruffet ikke påvirker sannsynligheten for den andre hendelsen. Loven om total sannsynlighet: Generell addisjonsregel: P(A eller B) P(A)+P(B) P(A ogb) -spesielt: Hvis A og B er disjunkte så er P(A og B)0, og Generell multiplikasjonsregel: P(A eller B) P(A)+P(B) P(A ogb)p(a)p(b A) P(B)P(A B) -spesielt: Hvis A og B er uavhengige så er P(A)P(A B) og P(B)P(B A), og P(A ogb)p(a)p(b) Bayes formel: P(B) P(B oga)+p(b ogā) P(B A)P(A)+P(B Ā)P(Ā) P(A ogb) P(A B) P(B) P(A)P(B A) P(A)P(B A)+P(Ā)P(B Ā)