ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag 2 Binomisk sannsynlighetsfunksjon La det være n forsøk, sannsynlighet p for suksess og sannsynlighet q for fiasko. Den tilfeldige variable x er antall suksess i de n forsøk. Da er P(x) =c(p x )(q n x ) for x = 0, 1, 2,...,n der c er antallet grener med x suksesser. c kalles binomisk koeffisient og kan regnes ut ved ( ) n n! c = = x x!(n x)! der n! leses n-fakultet og er gitt ved n! =1 2 n. Tips: p 0 er alltid lik 1; også 0! =1. Situasjonen er som i quiz-eksempelet: n = 4, p = 1/3 ( suksess betyr å gjette riktig alternativ), q = 2/3. Oppgave: Finn P(x), x=0,1,2,3,4 fra den generelle formelen for binomisk sannsynlighetsfordeling Finn også P(x 3) Løsning: dvs. P(0) = P(1) = P(2) = P(3) = P(4) = P(x) = ( 4 x )( 1 3 ) x ( ) 2 4 x 3 ( )( ) 4 1 0 ( ) 2 4 ( ) 2 4 = = 0.198 0 3 3 3 ( )( ) 4 1 1 ( ) 2 3 ( ) 1 1 ( ) 2 3 = 4 = 0.395 1 3 3 3 3 ( )( ) 4 1 2 ( ) 2 2 ( ) 1 2 ( ) 2 2 = 6 = 0.296 2 3 3 3 3 ( )( ) 4 1 3 ( ) 2 1 ( ) 1 3 ( ) 2 1 = 4 = 0.099 3 3 3 3 3 ( )( ) 4 1 4 ( ) 2 0 ( ) 1 4 = = 0.012 4 3 3 3 dvs. P(x 3) =1 P(x = 4) =1 0.012 = 0.988
5 Forventning og standardavvik for binomisk fordeling (5.6) Forventning for binomisk fordeling med n forsøk, suksesssannsynlighet p og fiaskosannsynlighet q: μ = np Standardavvik for binomisk fordeling: σ = npq Oppgave: Finn forventning og varians for en binomisk tilfeldig variabel med n=30 og p=0.6. μ = 30 0.6 = 18.0, σ = 30 0.6 0.4 = 7.2 = 2.68 7 Eksempel 5.9: Dårlige egg 8 Løsning på dårlige egg Bestyreren på Steve s Food Market garanterer at alle hans kartonger med 12 egg inneholder høyst ett dårlig egg. Hvis en kartong inneholder mer enn ett dårlig egg, vil han erstatte hele dusinet og la kunden beholde de gode eggene! Hvis sannsynligheten for et dårlig egg er 0.05, hva er sannsynligheten for at bestyreren må erstatte en gitt kartong? La x være antall dårlige egg i en tilfeldig eske. Hvilke forutsetninger må vi gjøre for at vi skal kunne anta at x har en binomisk fordeling med n = 12 forsøk og sannsynlighet for suksess lik 0.05? Sannsynligheten for at en kartong inneholder x dårlige egg er da ( ) 12 P(x) = (0.05) x (0.95) 12 x for x = 0, 1, 2,...,12 x
Bestyreren vil erstatte en eske hvis x er enten 2,3,4,5,6,7,8,9,10,11,12. 10 Tabell 2 i Appendix B For å finne sannsynligheten for dette er det lettere å først finne sannsynligheten for å ikke erstatter kartongen, dvs. for at x = 0 eller 1. Her er ( ) 12 P(0) = (0.05) 0 (0.95) 12 =(0.95) 12 = 0.540 P(1) = 0 ( 12 1 ) (0.05) 1 (0.95) 11 = 12 (0.05) 1 (0.95) 11 = 0.341 Sannsynligheten for å få en kartong med høyst ett dårlig egg er da P(0)+ P(1) = 0.540 + 0.0341 = 0.881, så sannsynligheten for at bestyreren må erstatte en eske er 1 0.881 = 0.119. Leser av at med n = 12, p = 0.05 er P(0) =0.540, P(1) =0.341 11 Intelligenstester (6.1) 12 Sannsynlighetstetthet og histogram
13 Sannsynlighetstetthet og histogram 14 Sannsynlighetstetthet Sannsynlighetsfordelingen til en kontinuerlig tilfeldig variabel x er gitt ved en såkalt sannsynlighetstetthet f (x) ( probability distribution function ). Sannsynligheten for å få et resultat i intervallet fra a til b finnes fra P(a < x < b) = b a f (x)dx som er lik arealet av det skraverte området på figuren under. 15 Normalfordelingen (6.2) Sannsynlighetstettheten til en normalfordelt tilfeldig variabel x har formel: f (x) = 1 e 1 2 ( x μ σ )2 2πσ 16 Standardnormalfordelingen (6.3) Dette er normalfordelingen med μ = 0,σ = 1. En standardnormalfordelt tilfeldig variabel betegnes ofte med z. Sannsynlighetstettheten er gitt ved formelen f (z) = 1 e 1 2 z2 2π Som for diskrete tilfeldige variable kan vi definere forventning og standardavvik også for kontinuerlige variable. For x med sannsynlighetstetthet f (x) ovenfor er: forventningen gitt ved μ (lik 100 i IQ-eksemplet) standardavviket gitt ved σ (lik 16 i IQ-eksemplet)
17 Egenskaper for standardnormalfordelingen 1. Det totale areal under kurven er 1. 2. Sannsynlighetstettheten har en topp, er symmetrisk om 0, og strekker seg uendelig langt ut i hver retning uten å berøre den horisontale aksen. 3. Forventningen i fordelingen er 0 og standardavviket er 1. 4. Arealet på hver side av 0 er lik 0.5. 5. Nesten hele arealet ligger mellom z = 3 ogz = 3. 18 z-score (standard score) Standardnormalfordelingen er fordelingen til såkalte z-score, som kan dannes fra en normalfordelt tilfeldig variabel x med forventning μ og standardavvik σ ved å beregne: z = x μ σ z-score kan også beregnes for et sett av data med gjennomsnitt x og utvalgsstandardavvik s ved å standardisere alle observasjonene med z = x x s 19 Beregning av sannsynligheter for standardnormalfordelingen Sannsynligheten for at z har en verdi i et intervall fra a til b er gitt som arealet under standardnormalfordelingskurven fra a til b. Formelt kan vi skrive dette arealet som P(a < z < b). Tabell 3 i Appendix B viser arealet under kurven mellom a = 0og ulike verdier av b, dvs. P(0 < z < b) Tabellen kan brukes til å finne arealer for alle valg av a, b.
Eksempel: Finn arealet under standard normalfordelingen fra z=0 til z=1.52. z 0.00 0.01 0.02. 1.5 0.4357. P(0 < z < 1.52) =0.4357 Eksempel: Finn P(z>1.52) P(z > 1.52) = 1 P(z < 1.52) = 1 (P(z < 0)+P(0 < z < 1.52)) = 1 0.5 0.4357 = 0.0643
Eksempel: Finn P(z<-1.52) Oppgave: Finn P(z>2.03) P(z < 1.52) = P(z > 1.52) = 1 P(z < 1.52) = 1 (P(z < 0)+P(0 < z < 1.52)) = 1 0.5 0.4357 = 0.0643 Oppgave: Finn P(z<-1.65) Eksempel: Finn P(-1.5<z<2.1) P( 1.5 < z < 2.1) = P( 1.5 < z < 0)+P(0 < z < 2.1) = P(0 < z < 1.5)+P(0 < z < 2.1) = 0.4332 + 0.4821 = 0.9153 Eksempel: Finn P(0.7<z<2.1) P(0.7 < z < 2.1) = P(0 < z < 2.1) P(0 < z < 0.7) = 0.4821 0.2580 = 0.2241 Oppgave: Finn P(0.75<z<2.25)