ST0202 Statistikk for samfunnsvitere Bo Lindqvist Institutt for matematiske fag
Situasjonen er som i quiz-eksempelet: n = 4, p = 1/3 ( suksess betyr å gjette riktig alternativ), q = 2/3. Oppgave: Finn P(x), x=0,1,2,3,4 fra den generelle formelen for binomisk sannsynlighetsfordeling Finn også P(x 3)
Løsning: dvs. P(0) = P(1) = P(2) = P(3) = P(4) = P(x) = ( 4 x ) ( 1 3 ) x ( ) 2 4 x 3 ( )( ) 4 1 0 ( ) 2 4 ( ) 2 4 = = 0.198 0 3 3 3 ( )( ) 4 1 1 ( ) 2 3 ( ) 1 1 ( ) 2 3 = 4 = 0.395 1 3 3 3 3 ( )( ) 4 1 2 ( ) 2 2 ( ) 1 2 ( ) 2 2 = 6 = 0.296 2 3 3 3 3 ( )( ) 4 1 3 ( ) 2 1 ( ) 1 3 ( ) 2 1 = 4 = 0.099 3 3 3 3 3 ( )( ) 4 1 4 ( ) 2 0 ( ) 1 4 = = 0.012 4 3 3 3 dvs. P(x 3) = 1 P(x = 4) = 1 0.012 = 0.988
4 Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B La x være antall dårlige egg i en tilfeldig eske. x har en binomisk fordeling med n = 12 forsøk og sannsynlighet for suksess lik 0.05. Sannsynligheten for at en kartong inneholder x dårlige egg er da gitt i Tabell 2 i Appendix B Leser ut av tabell: Sannsynligheten for å få en kartong med høyst ett dårlig egg er P(0) + P(1) = 0.540 + 0.341 = 0.881
5 Tabell 2 i Appendix B Leser av at med n = 12, p = 0.05 er P(0) = 0.540, P(1) = 0.341
6 Kap. 6: Normalfordelingen Eksempel: Intelligenstester (6.1)
7 Sannsynlighetstetthet og histogram
8 Sannsynlighetstetthet og histogram
9 Sannsynlighetstetthet Sannsynlighetsfordelingen til en kontinuerlig tilfeldig variabel x er gitt ved en såkalt sannsynlighetstetthet f(x) ( probability distribution function ). Sannsynligheten for å få et resultat i intervallet fra a til b finnes fra P(a < x < b) = b a f(x)dx som er lik arealet av det skraverte området på figuren under.
10 Normalfordelingen (6.2) Sannsynlighetstettheten til en normalfordelt tilfeldig variabel x har formel: f(x) = 1 e 1 2 ( x µ σ )2 2πσ Som for diskrete tilfeldige variable kan vi definere forventning og standardavvik også for kontinuerlige variable. For x med sannsynlighetstetthet f(x) ovenfor er: forventningen gitt ved µ (lik 100 i IQ-eksemplet) standardavviket gitt ved σ (lik 16 i IQ-eksemplet)
11 Standardnormalfordelingen (6.3) Dette er normalfordelingen med µ = 0, σ = 1. En standardnormalfordelt tilfeldig variabel betegnes ofte med z. Sannsynlighetstettheten er gitt ved formelen f(z) = 1 2π e 1 2 z2
12 Egenskaper for standardnormalfordelingen 1. Det totale areal under kurven er 1. 2. Sannsynlighetstettheten har en topp, er symmetrisk om 0, og strekker seg uendelig langt ut i hver retning uten å berøre den horisontale aksen. 3. Forventningen i fordelingen er 0 og standardavviket er 1. 4. Arealet på hver side av 0 er lik 0.5. 5. Nesten hele arealet ligger mellom z = 3 og z = 3.
13 z-score (standard score) Standardnormalfordelingen er fordelingen til såkalte z-score, som kan dannes fra en normalfordelt tilfeldig variabel x med forventning µ og standardavvik σ ved å beregne: z = x µ σ z-score kan også beregnes for et sett av data med gjennomsnitt x og utvalgsstandardavvik s ved å standardisere alle observasjonene med z = x x s
14 Beregning av sannsynligheter for standardnormalfordelingen Sannsynligheten for at z har en verdi i et intervall fra a til b er gitt som arealet under standardnormalfordelingskurven fra a til b. Formelt kan vi skrive dette arealet som P(a < z < b).
Tabell 3 i Appendix B viser arealet under kurven mellom a = 0 og ulike verdier av b, dvs. P(0 < z < b) Tabellen kan brukes til å finne arealer for alle valg av a, b.
Eksempel: Finn arealet under standard normalfordelingen fra z=0 til z=1.52. z 0.00 0.01 0.02. 1.5 0.4357. P(0 < z < 1.52) = 0.4357
Eksempel: Finn P(z>1.52) P(z > 1.52) = 1 P(z < 1.52) = 1 (P(z < 0) + P(0 < z < 1.52)) = 1 0.5 0.4357 = 0.0643
Oppgave: Finn P(z>2.03)
Eksempel: Finn P(z<-1.52) P(z < 1.52) = P(z > 1.52) = 1 P(z < 1.52) = 1 (P(z < 0) + P(0 < z < 1.52)) = 1 0.5 0.4357 = 0.0643 Oppgave: Finn P(z<-1.65)
Eksempel: Finn P(-1.5<z<2.1) P( 1.5 < z < 2.1) = P( 1.5 < z < 0) + P(0 < z < 2.1) = P(0 < z < 1.5) + P(0 < z < 2.1) = 0.4332 + 0.4821 = 0.9153
Eksempel: Finn P(0.7<z<2.1) P(0.7 < z < 2.1) = P(0 < z < 2.1) P(0 < z < 0.7) = 0.4821 0.2580 = 0.2241 Oppgave: Finn P(0.75<z<2.25)
24 Hvordan finne prosentiler for standard normalfordelingen? Eksempel: Finn 75% prosentilen, dvs. z-verdien p 75 slik at P(z < p 75 ) = 0.75 P(z < 0) + P(0 < z < p 75 ) = 0.75 P(0 < z < p 75 ) = 0.75 0.5 = 0.25
Fra Tabell 3 finner en areal-verdi nærmest til 0.25. Dette er 0.2486 med tilhørende z-verdi 0.67. Oppgave: Finn 95% prosentilen p 95 i standard normalfordelingen.
26 z-verdier som begrenser et areal Hvilke z-verdier begrenser det midterste 95% arealet i en standard normalfordeling? Løsning: Arealet på 95% deles i to like deler på hver side av 0, dvs. areal 0.4750 på hver side (se figur). Vi ser nå i Tabell 3 for å finne tabellverdien nærmest 0.4750. Dette er eksakt 1.96, og det følger altså at 95% av standard normalfordelingen ligger mellom 1.96 og 1.96, dvs. P( 1.96 < z < 1.96) = 0.95
Oppgave: Hvilke z-verdier begrenser det midterste 68% arealet i en standard normalfordeling?
28 Anvendelser av normalfordelingen (6.4) Generell regel: For x normalfordelt med forventning µ og standardavvik σ gjelder ( a µ P(a < x < b) = P < z < b µ ) σ σ der z er standard normalfordelt. Det essensielle er her at verdiene a og b for x regnes om til standard score. Husker fra tidligere at vi definerer z-score for en normalfordelt tilfeldig variabel x med forventning µ og standardavvik σ ved z = x µ σ
Eksempel: IQ-verdier er normalfordelte med forventning µ = 100 og standardavvik σ = 16. Trekk en tilfeldig person. Hva er sannsynligheten for at IQ-verdien er mellom 100 og 115? ( 100 100 P(100 < x < 115) = P < z < 16 = P(0 < z < 0.94) = 0.3264 ) 115 100 16 Vi har her regnet om verdiene 100 og 115 til z-score, og så funnet sannsynligheten for at z er mellom disse verdiene. Her blir z-score for 100: og z-score for 115: 100 100 16 = 0 115 100 16 = 0.94
Oppgave: Hva er sannsynligheten for at en tilfeldig valgt person har IQ over 140 (µ = 100.00, σ = 16.00)?
31 Hvordan finne prosentiler for en normalfordeling med µ og σ? Eksempel: Finn 75% prosentilen (x-verdien) når x er normalfordelt med forventning 100 og standardavvik 16, dvs. finn x-verdien slik at P(x < x verdi ) = 0.75 Vi har tidligere funnet for standard normalfordelingen at 75% percentilen i standard normalfordelingen er 0.67, dvs. P(z < z verdi ) = 0.75 gir z verdi = 0.67.
Nå bruker vi den vanlige sammenhengen x verdi µ σ = z verdi σ x verdi µ = z verdi σ x verdi = µ + z verdi σ x verdi = 100 + 0.67 16 = 110.72 Oppgave: Finn 33% IQ percentilen (forventning 100 og standardavvik 16)
33 Notasjon (6.5) z(α) kalles kritisk verdi og er z-verdien slik at areal α ligger til høyre, dvs P(z > z(α)) = α
Eksempler: z(0.25) = 0.67 z(0.10) = 1.28 z(0.05) = 1.65 z(0.005) = 2.58 Oppgave: Hva er z(0.5)?
37 Normaltilnærming til binomisk fordeling (6.6) La x være binomisk fordelt med n forsøk og sannsynligheter for suksess og fiasko henholdsvis p og q. Da er forventning µ = np og standardavvik σ = npq. Hvis np 5 og nq 5 kan vi regne ut sannsynligheter i binomisk fordeling ved å bruke standard normalkurven og regne som om x er normalfordelt.
0.5 0.0 0.5 1.0 1.5 2.0 2.5 0 1 2 3 4 0 1 2 3 4 0 2 4 6 8 10 0 2 4 6 8 10 12 14 0 10 20 30 40 n= 2, p= 0.1 n= 10, p= 0.1 n= 50, p= 0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.2 0.4 0.6 0.8 0.0 0.1 0.2 0.3 0.4 0.00 0.05 0.10 0.15 n= 2, p= 0.5 n= 10, p= 0.5 n= 50, p= 0.5 0.00 0.05 0.10 0.15 0.20 0.25 0.00 0.02 0.04 0.06 0.08 0.10
Eksempel: La x være binomisk fordelt med n = 10, p = 0.5. Hva er P(x = 6)? Siden np = 5 og nq = 5 er vi på grensen til bruk av normaltilnærming Videre er µ = 10 0.5 = 5, σ = 10 0.5 0.5 = 2.5 = 1.58 P(x = 6) = P(5.5 < x < 6.5) ( 5.5 5 = P 1.58 < z < 6.5 5 ) 1.58 = P(0.32 < z < 0.95) = P(0 < z < 0.95) P(0 < z < 0.32) = 0.3289 0.1255 = 0.2034 (Ved binomisk fordeling direkte: 0.205) n= 10, p= 0.5 0.00 0.05 0.10 0.15 0.20 0.25 0 2 4 6 8 10
Eksempel: La x være binomisk fordelt med n = 25, p = 0.5. Hva er P(x 14)? Både np = 12.5 > 5 og nq = 12.5 > 5 så vi kan bruke normaltilnærmingen. P(x 14) = P(x < 14.5) = 14.5 12.5 P(z < ) 6.25 = P(z < 0.8) = 0.5 + P(0 < z < 0.8) = 0.5 + 0.2881 = 0.788 (Ved binomisk fordeling direkte: 0.7878) 0.00 0.05 0.10 0.15 0 5 10 15 20 25
Oppgave: For en type hudkreft overlever 90% av pasientene. Hva er sannsynligheten for at 200 eller flere overlever av en gruppe på 230?
Løsning: P(x 200) = P(x > 199.5) ( ) 199.5 230 0.9 = P z > 230 0.9 0.1 = P(z > 1.65) = P(z < 1.65) = 0.5 + P(0 < z < 1.65) = 0.5 + 0.45 = 0.95