David S. Moore George P. McCabe Introduction to the Practice of Statistics Fifth Edition Chapter 4: Probability: The Study of Randomness Copyright 2005 by W. H. Freeman and Company
Statistisk inferens Hvor ofte vil denne metoden gi korrekt svar hvis jeg bruker den mange ganger Tilfeldighet Kan ikke predikeres på forhånd Regulært mønster Basis for sannsynlighet Eksempel: Kaste mynt, to utfall Sannsynlighet 0.5 for å få krone
Tilfeldighet og Sannsynlighet Beskriver hva som skjer hvis eksperiment gjentas mange ganger Mindre regularitet enn mange tror Tilfeldighet Utfall er usikkerhet, men regulært mønster for et stort antall repetisjoner Sannsynlighet Andel ganger et utfall skjer i en lang serie av repetisjoner
Myntkast Buffon: Kastet mynt 4040 ganger 2048 ganger krone Andel p =0.5069 Pearson: 24.000 kast, p =0.5005 Kerrich: 10.000 kast, p =0.5067
Tilfeldigheter Noen ting er tilfeldige i vår verden Utfall av myntkast Utstråling av partikler fra radioaktiv stråle Resultat av tilfeldig utfall eller randomisert eksperiment Sannsynlighet: Beskriver tilfeldig oppførsel Empirisk definisjon Kan aldri observere en sannsynlighet Repetisjoner av uavhengige forsøk
Sannsynlighetsteori Startet for å studere utfall av spill Utviklet videre i forbindelse med analyse av astronomiske data (målefeil) Brukes idag i mange sammenhenger Levetidstabeller Trafikkflut Genetiske data Spredning av sykdommer Analyse av finansielle data
Sannsynlighetsmodeller (4.2) Matematisk språk for å beskrive tilfeldig utfall Beskrive hva vi vet Mulige utfall (Mynt/Kron) Sannsynlighet for utfall (0.5 for kron) Utfallsrom: Sett av alle mulige utfall, S Hendelse: Et mulig utfall eller et sett av utfall Vil gi hver mulig hendelse en sannsynlighet
Utfallsrom Myntkast: S={Mynt,Kron} Hendelse: Mynt eller kron Terningkast: S={1,2,3,4,5,6} Hendelse: {1,2,3}, {3,4} Spørreundersøkelse, ja/nei, utvalgsstørrelse n S={0,1,2,...,n} Hendelse: {0,1,...,10} Levetid etter behandling S={alle positive tall}
Egenskaper sannsynligheter Tall mellom 0 og 1 P(Terning=1)=1/6 0 P(A) 1 Alle mulige utfall må tilsammen ha sannsynlighet 1 P(Terning er 1,2,3,4,5 eller 6) = 1 P(S) = 1
Egenskaper sannsynligheter To hendelser som ikke har noen felles utfall har sannsynlighet lik summen av de individuelle utfall P(Terning =1)=1/6, P(Terning=2)=1/6 P(Terning =1 eller 2)= 1/6 + 1/6 = 1/3 A og B disjunkte: P(A eller B) = P(A) + P(B) Sannsynligheten for at en hendelse ikke inntreffer er 1 minus sannsynligheten for at den inntreffer Ac = kompliment av A, P(Ac) = 1-P(A) P(Terning 1) = 1-1/6 = 5/6=P(Terning = 2,3,4,5 eller 6)
Endelige antall utfall Gi en sannsynlighet til hvert utfall Sannsynlighet for hendelse: Summere sannsynligheter for alle utfall involvert
Benfor's lov Første tall i tall som sendes inn (skatt, lønn, utgifter etc) Første tall 1 Sannsynlig 0.301 het 2 3 4 5 6 7 8 9 0.176 0.125 0.097 0.079 0.067 0.058 0.051 0.046 Fusk: Sammenlikne med tabell
Like sannsynlige utfall I mange tilfelle rimlig å anta alle utfall like sannsynlige Myntkast: 0.5 for mynt kron Terningkast: 1/6 for 1,2,3,4,5,6 Generelt, k utfall, alle like sannsynligheter 1/k P(A) = (antall utfall i A) / k = (antall utfall i A)/ (Antall utfall i S)
Uavhengighet og multiplikasjonsregelen Myntkast A = {Først kast er kron} B = {Andre kast er kron} A og B er ikke disjunkte Rimelig at A og B er uavhengige Kunnskap om A endrer ikke sannsynligheten for B Hva er P(A og B)? Multiplikasjonsregel: Uavhengighet: P(A og B)=P(A) * P(B)
Myntkast Myntkast A = {Først kast er kron} B = {Andre kast er kron} Antar A og B er uavhengige P(A og B) = P(A) * P(B) = 0.5*0.5=0.25
Utdeling kort 52 kort, 26 røde P(første kort rødt) = 26/52 = 0.5 P(andre kort rødt hvis første rødt)=25/51 < 0.5 P(andre kort rødt hvis første sort) = 26/51 > 0.5 Ikke uavhengighet
Mendel's lov Arv opererer tilfeldig Frø har farge grønn eller gul Hver plante bærer to gener for frøfarge Arver et gen fra hver foreldreplante, sannsynl.0.5 Gen: G eller Y, GG=Grønn, GY,YG,YY=Gul Anta far = GY og mor = GY M={G fra far}, F={G fra mor} P(M og F)=P(M)P(F)=0.5*0.5=0.25 Kan vise P(Grønn)=0.25 etter mange generasjoner
Multiplikasjon: Kun ved uavhengighet Plutselig barnedødlighet: 1 av 8500 dør uforklarlig, sanns 0,000118 To barn død i samme familie Foreldre siktet for drap Uavhengighet: P(To barn dør)=0.000118*0.000118=1/72 250 000 Flere kvinner siktet i England Royal Statistical Society: Uavhengighet ikke rimelig Britisk regjering tok opp 258 saker på nytt
Flere regler A og B uavhengige medfører Ac og Bc uavhengige A, B og C uavhengige medfører P(A, B og C)=P(A)P(B)P(C) P(Krone 3 ganger på rad)=0.5*0.5*0.5=0.125 Formell definisjon uavhengighet vanskelig Vil vanligvis anta uavhengighet
Hiv tester Ved testing av HIV, mange kommer ikke tilbake for å sjekke resultat Rask, men mindre pålitelig HIV test: få minutter P(Falsk positiv) = 0.004 P(Riktig negativ) = 0.996 P(Minst en av 200 gir falsk positiv) = 1 P(Ingen av 200 gir falsk positiv) = 1 P(200 negative) = 1-0.996200=1-0.4486=0.5514
Stokastiske variable Utfallsrom kan ta ulike former 4 myntkast: S={MMMM,MMMK,MMKM, MMKK,MKMM,MKMK,...} Statistikk: Mest interessert i numeriske utfall X = antall kron i 4 myntkast, S={0,1,2,3,4} X er en stokastisk (tilfeldig) variabel Stokastisk variabel: Numerisk utfall av et tilfeldig fenomen
Myntkast X=antall kron (H) i 4 myntkast Antar P(H)=P(T)=0.5, ballansert mynt Uavhengige kast P(X=0)=P(TTTT)=0.5*0.5*0.5*0.5=0.0625 P(X=0)=(Antall «gunstige» kombinasjoner)/ (Antall mulige kombinasjoner)=1/16=0.0625 P(X=2)=6/16=0.375 X 0 1 2 P(X) 0.0625 0.250 0.375 3 4 0.250 0.0625
Myntkast P(X 2)=P(X=2)+P(X=3)=P(X=4) =0.375+0.25+0.0625=0.6875 P(X 1)=1-P(X=0) =1-0.0625=0.9375
Kontinuerlige stokastiske variable Datamaskiner genererer tilfeldige tall mellom 0 og 1 S={x;0 x 1} Sprer data uniformt over S P(0.3 x 0.7)=? Kan ikke lengre allokere sannsynligheter til hver verdi Tetthetskurver og areal
Kontinuerlige tilfeldige variable En variabel X som tar verdier i et intervall av tall. Sannsynlighetsfordelingen til X beskrives av en tetthetskurve Sannsynligheten for en hendelse er arealet under tetthetskurven og over de verdier av X som beskriver hendelsen
Sannsynlighet 0 for ethvert utfall Angir sannsynligheter til intervaller istedet for individuelle utfall P(X=0.8)=0 X=0.8 er et sett av lengde 0, areal=0 Et utfall vil i praksis aldri være helt lik 0.8 Tre desimaler: 0.799 eller 0.801 9 desimaler: 0.799999999 eller 0.800000001 Gir P(X<0.8)=P(X 0.8)
Normalfordeling X er N(μ,σ) Z=(X-μ)/σ er N(0,1) Eksempel: p=andel studenter som jukser på eksamen p =andel observert jukset i et tilfeldig utvalg p tilfeldig variabel Kan vise: tilnærmet N(0.12,0.016) hvis p=0.12 P(p <0.10 eller p >0.14)= 1-P(0.10<p <0.14)=1-P(-1.25<Z<1.25)=0.7888