Oppgaver fra 8.3, 8.4, 8.5 8.41, 8.51, 8.52, 8.231, 8.232, 8.250, 8.252 8.41 Populasjon: Tilfeldig variabel X : Trekke en tilfeldig flaske og måle volumet Ukjent sannsynlighetsfordeling, men forventning X 50 [cl] og standardavvik X 1.2 [cl]. Utvalg/stikkprøve: Trekker n 24 flasker og måle gjennomsnitlig volum: X Sum alle volum n n X i i 1 n Sentralgrenseteoremet sier at X er tilnærmet normalfordelt når n 30, men i og med at slike tilfeldige avvik ofte er normalfordelte antar vi at n 24 er nok til å få en rimelig god normalfordelingstilnærming. Da gir Sentralgrenseteoremet videre: X X 50 og X X n Og vi kan regne ut: 1.2 24 0.245 a) P 49.0 X 51.0 normalcdf(49,51,50,0.245) 0.99996 (Ikke uventet, nesten alle ligger innenfor 4 standardavvik: 50 4 0.245 ) b) P 49.9 X 50.1 normalcdf(49.9,50.1,50,0.245) 0.0.317 8.51 Klassisk eksempel på kvalitetskontroll, vi må ta en stikkprøve, da en eventuell test av hele produksjonen gjør at vi ikke har noe igjen å selge, da slike tester ofte er destruktive. Populasjon: Binomiske enkeltforsøk med p 0.1. Stikkprøve: Trekke n 100 og telle antall defekte lyspærer, altså en binomisk fordeling. (Her trenger vi ikke bruke formlene fra Sentralgrenseteoremet, da de allerede er inkludert i formlene vi bruker i binomisk fordeling! Binomisk fordeling er i seg selv et eksempel på Sentralgrenseteoremet!) P X x b x 100 x 0.1 x 1 0.1 100 x a) P X 10 b 10 binompdf(100,0.1,10) 0.132 Ulven 29.03.11 1 av 6 8.3_8.5.tex
P X 10 10 x 0 b x binomcdf(100,0.1,10) 0.583 b) Når np 5 og n 1 p 5 er normalfordelingen en god tilnærming av binomisk fordeling. Sjekk: np 100 0.1 10, n 1 p 100 0.9 90 så kriteriet er oppfyllt. Forventning: np 10 Standardavvik: np 1 p 100 0.1 0.9 3.0 P X 10 normalcdf(9.5,10.5,10,3) 0.132 (Stemmer bra...) P X 10 normalcdf(0,10.5,10,3) 0.566 (Ikke fullt så bra, og dette er grunnen til at mange vil ha strengere kriterier: np 10 og n 1 p 10) 8.52 Klassisk eksempel på gallup. Populasjonen er et binomisk enkelteksperiment, der vi trekker ut en tilfeldig person og sjekker om han er for eller imot EU. Stikkprøven, eller gallupundersøkelsen, trekker ut n 500 (,vanlig er 1600 eller 2000,) og teller antallet. Igjen er sentralgrenseteoremet allerede innebygget i de binomiske formlene, så vi kan regne: X : Antallet EU-tilhengere i utvalget på n 500 a) Binomisk: P X x b x 500 x 0.42 x 1 0.42 500 x 220 P 200 X 220 x 200 b x binomcdf(500,0.42,220)-binomcdf(500,0.42,199) 0.659 Merk dere at vi må bruke binomcdf to ganger, da denne kommandoen ikke har noen "fra" og "til" parametere, bare fra 0 og opp til parameterverdien. (I motsetning til normalcdf, der vi kan angi både "fra" parameter og "til" parameter.) b) Med normaltilnærming: Forventning: np 500 0.42 210 Standardavvik: np 1 p 500 0.42 0.58 11. 0 P 200 X 220 normalcdf(199.5,220.5,210,11) 0.660 8.231 Populasjon: X : Samlet antall øyne på to terninger Sannsynlighetsmodellen: X : 2 3 4 5 6 7 8 9 10 11 12 P X x 1 2 3 4 5 6 5 4 3 2 1 Ulven 29.03.11 2 av 6 8.3_8.5.tex
fremkommer ved å telle opp i tabellen: 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 a) Her må vi regne ut forventning og varians selv: X 2 1 3 2... 12 1 7 (Kunne sett direkte på grunn av symmetrien i tabellen!) Var X 2 7 2 1 3 7 2 2 1... 12 7 2 X Var X 5.8322 2.42 (Kan også legge i listene L1 og L2 og bruke 1-Var Stats L1, L2 på lommeregner!) b) S : Summen av øyne på 20 terninger: S 20 i 1 X i Ifølge sentralgrenseteoremet har da S: S X n 7 20 140 140) (Rimelig: 20 terninger med forventet verdi 7 vil gi S X n 2.42 20 10. 8 (Vær oppmerksom på at dette gjelder uansett hva slags fordeling X og S har!) c) Må anta at S er tilnærmet normalfordelt, selvom kriteriet her sier n 30. P X 140 normalcdf(0,139.5,140,10.8) 0.482 d) P 130 X 150 normalcdf(130.5,149.5,140,10.8) 0.621 e) P X 160 normalcdf(160.5,200,140,10.8) 0.0288 (Brukte 200 som øvre grense, da 200 er utenfor 5 standardavvik: 140 5 10.8 200.) Virker som fasiten er litt unøyaktig til tider... 8.232 X : Tid til toget en tilfeldig dag, normalfordelt med X 12 og X 1.5. a) P 11 X 13 normalcdf(11,13,12,1.5) 0.495 (Obs: ikke 11.5 og 12.5 her, da X er en kontinuerlig fordelt variabel, ikke heltallig som i oppgavene foran!) Ulven 29.03.11 3 av 6 8.3_8.5.tex
b),c) Samlet tid for et utvalg med n 20 tilfeldig valgte dager: S X n har i henhold til sentralgrenseteomet: S X n 12 20 240 [min] og S X n 1.5 20 6. 71 [min] og er tilnærmet normalfordelt da n er rimelig stor. (Kommentar: Jeg er vant til at n 30 er kravet, men læreboken er i oppgavene stort sett fornøyd med n 20...) Da kan vi regne ut: (S er også kontinerlig fordelt, så ingen 0.5-korreksjoner her.) P X 4[t] P X 240 normalcdf(0,240,240,6.71) 0. 5 (Ikke uventet da normalfordelingen er symmetrisk om midtpunktet x 240...) d) P 230 S 250 normalcdf(230,250,240,6.71) 0.864 e) P S 245 normalcdf(245,300,240,6.71) 0.228 (Bruker 300 som øvre grense da 300 er utenfor 5 standardavvik: 240 5 6.71. Hvis du er i tvil eller har dårlig tid, så bare klin til og velg et høyt tall, feks. 1000 :-) ) 8.250 X : Antall besvarelser av n 160 som er vurdert likt. Hver besvarelse er et binomisk enkeltforsøk med p 0.8, så X er binomisk fordelt: P X x b x 160 x 0.8 x 0.2 160 x a) Binomisk fordeling er normalfordelt når np 5 og n 1 p 5 som er oppfyllt her. (Dette er også et spesialtilfelle av de generelle reglene for Sentralgrenseteoremet.) Forresten, boken bruker kriteriet Var X 5 som kombinerer de to kriteriene jeg har brukt. (Problemet med dette kriteriet er at det ikke virker hvis p er svært nær 0 eller 1, men det betyr ikke noe for dere.) b) X np 160 0.8 128, X np 1 p 160 0.8 0.2 5. 06 Er det rart at elevene av og til klager på karakterene... :-) c) 140 P 120 X 140 x 120 b x binomcdf(160,0.8,140)-binomcdf(160,0.8,119) 0.946 d) Med normaltilnærming: P 120 X 140 normalcdf(119.5,140.5,128,5.06) 0.947 8.252 Klassisk gallup eksempel igjen! Ulven 29.03.11 4 av 6 8.3_8.5.tex
Binomisk enkeltforsøk for AP: p 0.33 a) X : Antall som stemmer AP av n 1200, binomisk fordelt: P X x b x 1200 x 0.33 x 1 0.33 1200 x Forventning: np 1200 0.33 396 Standardavvik: np 1 p 1200 0.33 0.67 16.3 32%: 0.32 1200 384 34%: 0.34 1200 408 Binomisk: P 384 X 408 binomcdf(1200,0.33,408)-binomcdf(1200,0.33,383) gir ERR:DOMAIN! Her har vi endelig grunnen til at vi er så interessert i å tilnærme med normalfordelingen, lommeregnere og dataprogrammer har ofte problemer med å regne ut binomiske sannsynligheter når tallene blir store (n 1200)! Så vi prøver med normalfordeling isteden: P 384 X 408 normalcdf(383.5,408.5,396,16.3) 0.557 b) og c) klarer dere på egen hånd, helt tilsvarende a), bare at dere må bruke andre tall for SV og Høyre. En ekstra kommentar om politikere som får lov til å kaste bort tiden til seerne på TV med kommentarer om egen fortreffelighet når de har gått frem 1% på gallup: Vi vet om normalfordelinger at ca 67 % av forsøkene ender innenfor et standardavvik. I en slik gallup vil altså ca. 67% av resultatene havne innenfor: 396 16.3 Det vil si mellom 380 og 412 380 Tilsvarende prosenter er: 0.317 og 412 0.343 1200 1200 Så det er derfor profesjonelle meningsmålinger oppgir feilmarginen her til ca. en prosent for partier med såpass stor oppslutning. Alt innenfor dette (og mere til) kan skyldes tilfeldig avvik fra utvalg til utvalg, og det er derfor det rene skjære tøv å tro at dette har noe som helst å gjøre med partiets gode politiske arbeid siden siste gallup... Alle som undervisere i matematikk og statistikk er litt oppgitt over slike ting, statistikk er kanskje den nyttigste anvendelsen av matematikken, men statistikk er også den mest misbrukte anvendelsen av matematikken... Vi kan snu på det, for å være 95% sikre på at det virkelig har skjedd en endring i oppslutingen, må vi kreve et avvik på 3 standardavvik fra forrige måling på 33%, altså over 37% eller under 29%! Endringer under dette er ren Ulven 29.03.11 5 av 6 8.3_8.5.tex
spekulasjon, selvom endringen er mer enn en prosent. Den siste betraktningen er det vi kommer inn på i de to siste kapitlene om hypotesetesting! Ulven 29.03.11 6 av 6 8.3_8.5.tex