Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Like dokumenter
Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

Utvalgsfordelinger (Kapittel 5)

Utvalgsfordelinger (Kapittel 5)

Kap. 5.2: Utvalgsfordelinger for antall og andeler

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

Introduksjon til inferens

Inferens i fordelinger

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

1 Section 6-2: Standard normalfordelingen. 2 Section 6-3: Anvendelser av normalfordelingen. 3 Section 6-4: Observator fordeling

ST0202 Statistikk for samfunnsvitere

Seksjon 1.3 Tetthetskurver og normalfordelingen

Kort overblikk over kurset sålangt

Binomisk sannsynlighetsfunksjon

Løsning på Dårlige egg med bruk av Tabell 2 i Appendix B

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Statistikk og dataanalyse

Statistikk 1 kapittel 5

Statistikk 1 kapittel 5

Kapittel 3: Studieopplegg

Kap. 8: Utvalsfordelingar og databeskrivelse

Fasit for tilleggsoppgaver

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Kapittel 4.3: Tilfeldige/stokastiske variable

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Seksjon 1.3 Tetthetskurver og normalfordelingen

Høgskolen i Telemark. Institutt for økonomi og informatikk FORMELSAMLING Statistikk I. Til bruk ved eksamen. Per Chr. Hagen

Statistikk 1 kapittel 5

Kapittel 4.4: Forventning og varians til stokastiske variable

UNIVERSITETET I OSLO Matematisk Institutt

Statistikk 1 kapittel 5

TMA4240 Statistikk H2017 [15]

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.20).

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Forslag til endringar

OPPGAVEHEFTE I STK1000 TIL KAPITTEL 5 OG 6. a b

STK Oppsummering

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Binomial-fordelingen

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Diskrete sannsynlighetsfordelinger som histogram. Varians. Histogram og kumulativ sannsynlighet. Forventning (gjennomsnitt) (X=antall mynt i tre kast)

Inferens i regresjon

ST0202 Statistikk for samfunnsvitere

Tilfeldige variable (5.2)

Estimatorar. Torstein Fjeldstad Institutt for matematiske fag, NTNU

Kapittel 9 og 10: Hypotesetesting

UNIVERSITETET I OSLO

STK1100 våren Normalfordelingen. Normalfordelingen er den viktigste av alle sannsynlighetsfordelinger

Slide 1. Slide 2 Statistisk inferens. Slide 3. Introduction to the Practice of Statistics Fifth Edition

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

DEL 1 GRUNNLEGGENDE STATISTIKK

Eksempel på data: Karakterer i «Stat class» Introduksjon

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Introduction to the Practice of Statistics

Løsningsforslag Eksamen i Statistikk SIF5060 Aug 2002

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

TMA4240/TMA4245 Statistikk Oppsummering diskrete sannsynlighetsfordelinger

Econ 2130 Forelesning uke 10 (HG) Geometrisk og normal fordeling

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4245 Statistikk Eksamen desember 2016

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

TMA4240 Statistikk Høst 2016

STK1100 våren 2019 Mere om konfidensintevaller

ST0202 Statistikk for samfunnsvitere Kapittel 6: Normalfordelingen

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

TMA4240 Statistikk Høst 2009

Forelesning 3. april, 2017

Kapittel 2: Hendelser

TMA4240 Statistikk H2010

i x i

1 Section 4-1: Introduksjon til sannsynlighet. 2 Section 4-2: Enkel sannsynlighetsregning. 3 Section 5-1: Introduksjon til sannsynlighetsfordelinger

ÅMA 110 SANNSYNLIGHETSREGNING MED STATISTIKK Løsningsforslag til regneøving nr. 12 (s. 34)

UNIVERSITETET I OSLO

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

Statistisk inferens: 9.14: Sannsynlighetsmaksimeringsestimatoren 8.5: Fordeling til gjennomsnittet 9.4: Konfidensintervall for µ (σ kjent)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Repeterbarhetskrav vs antall Trails

Bernoulli forsøksrekke og binomisk fordeling

ECON2130 Kommentarer til oblig

ST0202 Statistikk for samfunnsvitere

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

onsdag_19_09_2018_poisson_eksponential_normalfordelng_vikartime_bygg_v2.notebook

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Oppsummering

UNIVERSITETET I OSLO

(Det tas forbehold om feil i løsningsforslaget.) Oppgave 1

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

ST0202 Statistikk for samfunnsvitere

Bootstrapping og simulering Tilleggslitteratur for STK1100

TMA4240 Statistikk Høst 2018

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Transkript:

Utvalgsfordelinger Vi har sett at utvalgsfordelinger til en observator er fordelingen av verdiene observatoren tar ved mange gjenttatte utvalg av samme størrelse fra samme populasjon. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer. Så i dette kapittlet samler vi trådene, og bruker det vi kan om sannsynlighetsregning til å studere utvalgsfordelingen til de vanligste observatorene.

Å trekke tilfeldige utvalg fra endelige populasjonen som eksisterer kan utføres i praksis. Men det er ikke alltid populasjonen faktisk eksisterer. For eksempel finnes populasjonen av alle STK1000-h 14 studenter, men populasjonen av alle STK1000 studenter, fortidige nåværende og framtidige finnes ikke. Hvis jeg for eksempel var interessert i å finne ut hvor mange timer STK1000 studenter vanligvis arbeider med ukeoppgavene og spør dere, er det naturlig å se svarene som svar fra tilfeldige representanter for denne hypotetiske populasjonen. Fordelingen av svarene vil da følge en sannsynlighetsfordeling.

Fordeling til en observator: En observator fra et tilfeldig utvalg eller randomoisert eksperiment er en tilfeldig variabel. Sannsynlighetsfordelingen til observatoren er utvalgsfordelingen. Men utvalgene må trekkes fra en populasjon, og nå antar vi at også enhetene i populasjonen har en tilfeldig fordeling. Populasjonsfordeling: Populasjonsfordelingen til en variabel er fordelingen av verdien til alle enhetene i populasjonen. Den er er også sannsynlighetsfordelingen til variabelen når man trekker en enhet tilfeldig fra populasjonen.

Fordeling til gjennomsnitt i et utvalg For kvantitative data brukes observatorer som (empirisk) gjennomsnitt, persentiler og (empirisk) standardavvik. Alle disse er observatorer og har en utvalgsfordeling. Vi skal i første omgang konsentrere oss om gjennomsnittet av et sett observasjoner. Gjennonsnitt den vanligste observatoren.

Eksempel: Samtalelengder På side 19 i læreboka er 80 tider for samtalelengder ved et «callcenter» gjengitt. Samtalelengdene er et utvalg fra et større datamateriale med 30 000 enheter. Et histogram for denne fordelingen er svært skjev. Fra tallene på side 19 har vi altså et gjennomsnitt i et utvalg på 80. Dette kan gjentas og man kan lage et histogram av verdiene til de gjentatte gjennomsnittene. Da ser man noe interessant: Spredningen til histogrammet til gjennomsnittene er mye mindre enn i histogrammet basert på de 30 000 samtalelengdene.

Et normalfordelingsplott illustrerer at histogrammet over gjennomsnittene et tilnærmet normal.

Eksemplet anskueliggjør to viktige punkter: Gjennomsnitt mindre variable enn enkeltobservasjoner. Gjennomsnitt nærmere normalfordelt enn enkeltobservasjoner.

Forventning og standardavvik til x. Utgangspunkt: Trekker et enkelt tilfeldig utvalg (SRS) av størrelse n fra en populasjon. Måler en variabel X for hver enhet i utvalget og får dataene som er verdiene til X, X 2,..., X n. Hver X i er en måling på en enhet som er trukket tilfeldig. Vi kan derfor betrakte dem som verdier antatt av tilfeldige variable X 1, X 2,..., X n.

De tilfeldige variablene, X i har derfor samme fordeling som enhetene i populasjonen. Når populasjonen er stor i forhold til utvalget, kan vi oppfatte X 1, X 2,..., X n som uavhengige, identisk fordelte tilfeldige variable. Dette er sannsynlighetsmodellen for måling av enhetene i et enkelt tilfeldig utvalg, ETU, (SRS i boka). Gjennomsnittet av et ETU av størrelse n er x = (X 1 + X 2 +...+ X n )/n

Finner forventning og standardavvik til x ved å bruke reglene vi kjenner: For forventningen: μ x = ( μ X1 +... + μ Xn ) /n = (μ + μ +...+ μ)/n=μ så forventningen til gjennomsnittet x er forventingen i populasjonsfordelingen. Gjennomsnittet x er derfor en forvetningesrett estimator for μ, som er forventningen i populasjonsfordelingen. Husk at μ er en parameter.

For standardavviket er variansen til en sum summen av variansene, siden observasjonene X 1, X 2,..., X n er uavhengige. σ x 2 = ( 1 n )2 ( σ X1 2 +σ X2 2 +...+ σ Xn 2 ) = ( 1 n )2 (σ 2 + σ 2 +... + σ 2 ) = σ2 n slik at standardavviket til gjennomsnittet er σ x = σ/ n.

Så oppsummert: La x være gjennomsnittet i et ETU, enkelt tilfeldig utvalg (SRS i læreboka) på størrelse n fra en populasjon med forventning μ og standardavvik σ. Da har gjennomsnittet forventning μ x = μ standardavvik σ x = σ/ n. At gjennomsnitte er forventningsrett betyr at det ikke systematisk vil være for høyt eller lavt i forhold til μ. Men presisjonen i anslaget vil variere med spredningen i utvalgsfordelingen

Eksempel: Samtalelengder. Histogrammet til venste har et standardavvik på σ= 184.81 sekunder. Lengden på en tilfeldig samtale kan derfor variere mye i forhold til forventningen. Men et utvalg på 20 har standardavvik σ x = 184.81/ 20 = 41.32 sekunder og et utvalg på 80 har standardavvik σ x = 184.81/ 80 = 20.66 sekunder

Hittil har vi bare sett på forventning og standardavvik til x. For å bestemme selve fordelingen, må man vite noe om fordelingen til de enkelte målingene, altså fordelingen i populasjonen. Viktig tilfelle: Populasjonsfordelingen normal. Da gjelder: Hvis populasjonsfordelingen er N(μ,σ) er fordelingen til gjennomsnittet av n uavhengige observasjoner, x, N(μ,σ/ n). Dette er en konsekvens av følgende: Enhver lineær kombinasjon av uavhengige normalfordelte variable er selv normalfordelt. Sum er en lineær kombinasjon.

Selv om det er viktig er resultatet på forrige slide et spesialtilfelle. Mange populasjonsfordelinger er ikke normale. Hva skjer med gjennomsnittet for et ETU og populasjonsfordelingen ikke er normalfordelt? Til tross for at gjennomsnittet for et ETU ikke er eksakt normalfordelt, kan utvalgsfordelingen tilnærmes med en normalfordeling. Og tilnærmelsen blir bedre jo større utvalget er. Dette, som kalles sentralgrense teoremet, gjelder alle populasjonsfordelinger såsant standardavviket σ er endelig.

Sentralgrense-teoremet: Trekk et ETU på størrelse n fra en populasjon med forventning μ og standardavvik σ. Når n er stor, vil utvalgsfordelingen til x være tilnærmet normal. Eksempel: Samtalelengder Standardavvik i populasjonen σ= 184.81. Med n=80 er σ x = 20.66. Fra 68-95-99.7 regelen vet vi at for 95% av ( de hypotetiske ) utvalgene vil x ligge i intervallet (μ-2 σ x, μ+ 2σ x )=(μ-41.32, μ+41.32) sekunder. Hvis n økes til 16 80=1280 blir σ x = 184.81/ 1280 = 5.1666 sekunder, og intervallet blir (μ-10.33, μ+10.33)

Ettersom n vokser, blir fordelingen til x bedre og bedre tilnærmet med en normalfordeling. Hvor god tilnærmelsen er avhenger av fordelingen til X 1,..., X n. Flere observasjoner trengs hvis denne fordelingen avviker mye fra normalfordelingen. Eksempel La populasjonsfordelingen være gitt ved tetthetskurven exp(-x), x 0. Da er μ=1 og også σ=1. Men fordelingen er svært skjev. Figurene nedenfor viser hvordan tetthetskurvene til x ser ut for utvalgsstørrelsene n=1, 2, 10, 25.

Husk at forventning er μ x =1 og σ x = 1/ n så forventningene i fordelingene er de samme, men fordelingene blir mer konsntrert rundt μ=1 når n vokser. Det ser vi av figurene, men i tillegg ser vi at allerede for n=10 begynner tetthetskurven å se normal ut, og det blir ennå tydeligere for n=25.

Eksempel Anta at for tiden mellom tekstmeldinger for en ungdom har μ=25 og standardavvik σ =25. Hva er sannsynligheten for at gjennomsnittet av 50 slike tidsrom er mer enn 21 minutter? Fra sentralgrensetoremet vet vi at fordelingen til gjennomsnittet x er tilnærmet N(25, 3.54) siden standardavviket er 25/ 50. Da er tilnærmet P(x > 21.0) = P((x -25)/3.54> (21.0-25)/3.54) =P(Z > -1.13) = 0.8708. Dette svarer til arealet under den heltrukne linja i figuren på neste slides.

I figuren svarer den striplede linja til tetthetskurven til x når populasjonsfordelingen er eksponensielt fordelt. Tetthetskurven kan beregnes eksakt, dvs. man kan finne en formel for den, og det er den kurven som er gjengitt. Den eksakte verdien av P(x > 21.0) er 0.8750, så tilnærmelsen 0.8264 avviker bare med 0.0042. Legg også merke til at P(x > 21.0) = 0. 0.8708. er det samme som P(X 1 +...+ X 50 > 50 21.0) så vi får også en tilnærmelse fordelingen til totalsummen.

Hovedpunktene ved utvalgsfordelingen til x : Trekk mange utvalg av størrelse n fra en populasjon med forventning μ og standardavvik σ. Finn gjennomsnittet x for hvert utvalg. Saml alle x ene og fremstill fordelingen.

Det kan være verdt å merke seg at parametrene μ og σ inngår både i fordelingen til utvalget og populasjonsfordelingen. Vi har sett tidligere: Enhver lineær kombinasjon av uavhengige normalfordelte variable er selv normalfordelt.

Eksempel Reisetider Anta at reisetiden for en besemt student til universitet, X, er N(20,4) og reisetiden fra universitet, Y, er N(18,8). Anta også at X og Y er uavhengige. Forskjellen i reisetider er X-Y, og X<Y eller X-Y<0 svarer til at reisetiden til universitet er minst. Hva er sannsynligheten? μ X Y = μ X - μ Y = 20-18=2 σ X Y 2 = σ X 2 + σ Y 2 = 4 2 + 8 2 = 80, σ X Y = 80 = 8.94 så X-Y er N(2,8.94) og P(X<Y)= P( X Y 2 8.94 < 0 2 8.94 ) = P(Z< -0.22) = 0.4129.

Det finnes mer generelle versjoner av sentralgrense teoremet. Variablene trenger ikke være uavhengige så lenge avhengigneten ikke er for stor. De trenger heller ikke ha samme fordeling så lenge ikke en enkelt variabel dominerer. Vi vil snart se at resultatet også gjelder om variablene er diskret fordelt. Gjennomsnitt av diskret variable er også diskret fordelt. Men sentralgrenseteoremet er en tilnærmelse og tilnærmelsen gjelder også for gjennomsnitt av diskret fordelte variable.

Fordeling til andeler og tellevariable Her vil fokus være på variable som antar kategoriske verdier, dvs. diskrete observatorer. Eksempel Spørreundersøkelser Anta man spør et enkelt tilfeldig utvalg på 1000 stemmeberettigede personer om holdning til EØS. Da er antallet positivt innstilte en tilfeldig variabel X. I tilfeller som dette der det bare er to verdier i populasjonen, for/mot, kan andelen i utvalget p =X/n brukes som en oppsummering av resultatet av spørreundersøkelsen.

Når populasjonen består av enheter som beskrives av to mulige verdier er fordelingen til summen med et av kjennetegnene i det tilfeldige utvalget en diskret tilfeldig variabel. For å beskrive en slik trengs en ny type sannsynlighetsfordelinger. X er summen av variable som bare kan anta to kjennetegn. En vanlig sannsynlighetsmodell for å beskrive slike variable er følgende:

Binomial oppsett Det typiske eksemplet er myntkast. Det er fire karakteristiske kjennetegn: 1. Det er et fast antall, n, observasjoner. 2. Observasjonene er uavhengige. 3. Observasjonenen faller i to kategorier. populært kalt ``suksess'' og ``fiasko''. 4.Sannsynligheten for suksess, p, er den samme for alle observasjonene. X: antallet «suksesser» blant de n forsøkene. Ofte kalles oppsettet også en forsøksrekke.

Binomial fordeling: Fordelingen til den tilfeldige variabelen, X, i situasjonen beskrevet ovenfor, kalles binomial fordelingen med parametre n og p. Parameteren n er antallet observasjoner (forsøk), og p er sannsynligheten for suksess for hver observasjon ( hvert forsøk). De mulige verdiene for X er alle hele tall mellom 0 og n. Kort uttrykt sier man at X er Bin(n,p) fordelt.

Eksempler a) myntkast, n=10, p=0.5, X er Bin(10,0.5). b) utdeling av kort, ``suksess'': rødt. Ikke uavhengighet hvis ikke tilbakelegging. c) genetikk, ``suksess'': blodtype 0, n= 5 barn, p=0.25, X er Bin(5,0.25). d) pålitelighetsanalyse, n= 350 fly, «suksess»: feilfrie i bestemt periode p=0.999, X er Bin(350,0.999).

To typer trekking fra en endelig populasjon. Det som brukes ved stikkprøver og spørreundersøkelser er uten tilbakelegging. Da blir ikke observasjonene uavhengige. Med tilbakelegging gir at antallet er binomialfordelt. Når populasjonen er stor, og utvalget ikke utgjør en for stor andel, er forskjellen ikke stor. Eksempel: Revisjon, N=10000 poster, utvalg n=150 poster Andel feilposteringer p=800/10000. Fordi populasjonen er stor vil X være tilnærmet Bin(150,0.08) fordelt.

Trekking uten tilbakelegging det aktuelle her. Hvis populasjonen er mye større enn utvalget, vil antallet i et enkelt tilfeldig utvalg, ETU, (SRS) være tilnærmet Bin(n,p), der p er sannsynligheten for ``suksess''. Tommelfingerregel: Hvis utvalget mindre enn 5% av populasjonen, kan vi anta at fordelingen til X er tilnærmet Bin(n,p).

P(X=k) er tabulert i tabell C i boka for n=1,..,10,12,15,20 og p=0.01,...,0.1,0,10,0.15,..,45,50. Alternativt: Statistikkpakker Minitab: ``Calc-Probability Distributions-Binomial' Input: ``number of trials'': n, ''Probability of success'': p, x Output: ``Probability'': P(X=x), ''Cumulative probability'':p(x x), ''Inverse cumulative probability'': ``bruker tabellen baklengs''

Eksempel n=150, p=0.08, P(X=10) = 0.10699 P(X 10) = 0.338427

Eksempel : n=15, p=0.08 P(X 1)=P(X=0)+P(X=1) Fra tabell C, eller MINITAB P(X=0)= 0.2863, P(X=1)=0.3734 slik at P(X 1)=0.6596.

X: antall suksesser i n forsøk eller blant n observasjoner Definer S i = 1 hvis suksess, S i = 0 hvis fiasko Da er X = S 1 + S 2 +... + S n Kan nå bruke reglene for å finne μ X og σ X. μ S = 0 P(S=0) + 1 P(S=1)= 0 (1-p) + 1 p= p σ S 2 = (0 μ S ) 2 P(S=0) + (1 μ S ) 2 P(S=1)= =p 2 (1-p) +(1 p) 2 p= (p+1-p) p (1-p)= p (1-p).

μ X = μ S1 + μ S1 +...+ μ Sn = nμ S = np og siden S 1, S 2,...,S n er uavhengige σ X 2 =σ S1 2 + σ S2 2 +... +σ Sn 2 = n p (1-p). Derfor gjelder at hvis X er Bin(n,p) fordelt, er forventningen μ X =np og standardavviket σ X = n p (1 p).

Sannsynligheten for suksess i populasjonen er p, som er parameteren vi ønsker å estimere. Andelen suksesser i et utvalg på n er p = Antall suksesser i utvalg størrelse på uyvalg = X n Å bruke at identiteter som P(p 0.58)= P(X 2500 0.58= 1450) =P(X=1450)+...+P(X=2500) der X er Bin(2500,0.60) er ikke spesielt tiltalende, så for store n brukes programmer for å begrene sannsynlighetene.

Men vi så at andeler kan oppfattes som gjennomstitt av suksesser i utvalget, og derfor vil det også eksistere en normaltilnærmelse i dette tilfellet. Til å bestemme tilnærmelsen trenger vi forventning og standardavvik. Eksempel: Sannsynlighets-histogram for B(2500,0.6).

La p =X/n være andelen suksesser i ETU, enkelt tilfeldig utvalg, fra en stor populasjon. Da gjelder μ p = p Hvis X er binomial fordelt, er σ p = p(1-p)/n exact Hvis populasjonen stor, er σ p = p(1-p)/n tilnærmet. At populasjonen 20 ganger så stor som utvalget er tilstrekkelig i denne situasjonen.

I dette tilfellet blir normaltilnærmelsen: La X være antall suksesser i et utvalg fra en stor populasjon der sannsynligheten for suksess er p. La p =X/n være andelen suksesser. Da gjelder: X er tilnærmet N(np, np(1 p) ) p er tilnærmet N(p, p(1 p)/n ). Tommelfingerregel. Hvis np 10 og n(1-p) 10 er tilnærmelsen tilfresstillende.

Eksempel: Anta X er Bin( 2500,0.6) Da er P(p 0.58)= P(X 2500 0.58= 1450)= 0.9802 exact (Minitab). μ p = p σ p = p(1 p)/n=0.0098 Så, tilnærmelsen blir p 0.6 P(p 0.58)= P( 0.0098 0.58 0.6 0.0098 ) = P(Z -2.04) = 0.9793. Forskjellen er 0.0009.

Eksempel: Revisjon, N=10000 poster, utvalg n=150 poster Andel feilposteringer p=800/10000. Fordi populasjonen er stor vil X være tilnærmet Bin(150,0.08) fordelt. μ X =np= 150 0.08 = 12 σ X = np(1 p) = 150 0.08 0.92 = 3.3226. P(X 10) = P( X 12 3.3226 10 12 3.3226 )= P(Z -0.60)= 0.2743. Men eksakt P(X 10) = 0.3384 ( Minitab) Tilnærmelsen ikke spesielt god, np=150 0.08=12

Eksempel Da vi intoduserte kontinuerlige tilfeldige variable, ble det påstått, side 259. «Det kan vises at hvis parameteren p=0.26 i en populasjon og man trekker et utvalg på n=500, er utvalgsfordelingen til p, andelen i utvalget, tilnærmet N(0.26, 0.0196)» Nå kan vi fylle ut detaljene: μ p = p = 0.26 σ p = p(1 p)/n = 0.26 0.74/500 =0.01961632