Illustrasjon av regel 5.19 om sentralgrenseteoremet og litt om heltallskorreksjon (som i eksempel 5.18).

Econ 2130 HG mars 2012 Supplement tl forelesnngen 19. mars Illustrasjon av regel 5.19 om sentralgrenseteoremet og ltt om heltallskorreksjon (som eksempel 5.18). Regel 5.19 ser at summer, Y = X1+ X2 + + Xn, av uavhengge og dentsk fordelte (ud) tlnærmet, er tlnærmet normalfordelt, ~ ( ( ), Var( )) varable, X1, X2,, Xn er for lten (tommelfngerregel n 20 ). Dette gjelder uansett hvlken fordelng Y N EY Y, når n kke enkeltvarablene ( X ) har! Om fordelngen tl X er det nok å vte hva forventnngen ( µ = EX ( )) er og hva standardavvket ( σ = SD( X) = Var( X) ) er. I så fall kjenner v også forventnngen og standardavvket for Y: Regel 4.12 og 4.17 gr nemlg at ( ) EY = E X + X + + X = µ + µ + + µ = nµ ( ) 1 2 n 2 2 2 2 ( ) Var( Y) = Var X + X + + Xn = σ + σ + + σ = nσ = σ n 1 2 tlnærmet Dermed har v at Y ~ N( n, n) µσ når n 20 kumulatve sannsynlgheter for Y tlnærmet: 1. Tlnærmelsen brukes tl å beregne (1) Y nµ y nµ y nµ y nµ PY ( y) = P P Z = G σ n σ n σ n σ n der Z ~ N (0, 1) med kumulatv fordelngsfunksjon, Gz ( ) = PZ ( z), som er tabulert tabell D3. boka. Dette teoremet er særdeles nyttg prakss sden den eksakte fordelngen tl Y ofte er meget komplsert og vanskelg å beregne. 1 Av dette følger drekte den tlsvarende regelen 5.18 om gjennomsntt, nemlg at tlnærmet ( ) ( µ σ ) X ~ N E( X), Var( X) = N, n når n 20. Dette skyldes regel 1 notatet om normalfordelng (på kurssden på web) som ser at at hvs Y er (tlnærmet) normalfordelt, må også en konstant ganger Y være det, hvorav X = ( 1 n) Y ~ tlnærmet normalfordelt med E( X) = ( 1 n) EY ( ) og ( ) 2 Var X (1 n) Var( Y) =.

2 Som llustrasjon vl v se på et par tlfeller der denne tlnærmelsen vrker dårlg og et par tlfeller der den vrker bra. La oss se nærmere på eksempelet v dskuterte på forelesnngen om de statstske egenskapene tl sum antall øyne ved flere kast med en rettferdg ternng. På forelesnngen dskuterte v gjennomsnttlg antall øyne, mens v her skal se på sum antall øyne. La X være antall øyne v får kast nr. med ternngen, og Y = X1+ X2 + + Xn antall øyne for n kast. Alle er sum X -ene har samme fordelng beskrevet tabell 1 og er uavhengge. Tabell 1 Fordelng for X x 1 2 3 4 5 6 PX ( = x) 1/6 1/6 1/6 1/6 1/6 1/6 Sjekk selv at forventnng, varans og standardavvk er gtt ved 2 = E( X ) = 3.5, = Var ( X ) = 2.9167, og ( ) µ σ σ = Var = 1.7078 X 1. Tlfellet n = 1 kast La oss først se på tlfellet med bare ett kast ( n = 1), slk at Y = X1. Dette er et tlfelle der normaltlnærmelsen antakelg kke fungerer bra. La oss lkevel prøve å tlnærme fordelngen for Y (som er gtt tabell 1) med en normalfordelng. Det er mange normalfordelnger å velge blant, men, som antydet regel 5.19, den normalfordelngen som vanlgvs anses som gr den beste tlnærmelsen, er den som har samme forventnng og standardavvk som Y, som dette tlfellet blr ( ) ( ) EY ( ) = E X = 3.5, SD( Y) = SD X = 1.7078 1 1 Den beste tlnærmngen er derfor normalfordelngen N (3.5,1.7078). I fgur 1 har jeg plottet både den eksakte fordelngen for Y fra tabell 1 sammen med den beste normale tlnærmngstettheten. Det er vanskelg å få tl et slkt dobbeltplott Excel, så jeg brukte stedet STATA som bl.a. brukes Statstkk 2. 2 2 Plottet er ltt msvsende og med at normaltettheten egentlg fortsetter på begge sder av ntervallet mellom 1 og 6.

3 Fgur 1 Eksakt fordelng for Y = sum øyne ved 1 kast med ternng og tlnærmet normalfordelng N(EY, SD(Y)) = N(3.5, 1.7078) Densty 0.05.1.15.2 0 2 4 6 y De eksakte sannsynlghetene fra tabell 1 framkommer som flatennholdet av søylene hstogrammet. Merk at flatennholdet av en søyle også er lk høyden på søylen sden lengden av grunnlnjen søylen er lk 1. Anta v er nteressert å se hvor god tlnærmelse normalfordelngen gr for PY ( 2) = 1 6 + 1/ 6 = 1/ 3 = 0.333... I hstogrammet er denne (eksakte) sannsynlgheten lk flatennholdet av de to første søylene tl sammen. I normalfordelngen framkommer den tlsvarende sannsynlgheten som flatennholdet under tetthetsfunksjonen opp tl 2. V ser mdlertd av fguren at denne beregnngen mster halvparten av sste søyle som er over ntervallet 1.5 tl 2.5. En bedre tlnærmelse vlle være å ta flatennholdet under normaltettheten opp tl 2.5 stedet. Det er dette som kalles heltallskorreksjon (Løvås sde 188), som er aktuelt når man forsøker å tlnærme en dskret fordelng for en stokastsk varabel som bare kan ta hele tall som mulge verder. Merk at begvenhetene ( Y 2) og ( Y 2.5) er logsk ekvvalente 3 og derfor lke sannsynlge, PY ( 2) = PY ( 2.5), sden Y kun kan ta hele tall som verder. 3 Hvs den ene begvenheten nntreffer så må den andre nntreffe og omvendt.

4 Med heltallskorreksjon blr derfor tlnærmelsen (1) generelt seende ut som (2) Y nµ y+ 0.5 nµ y+ 0.5 nµ y+ 0.5 nµ PY ( y) = PY ( y+ 0.5) = P P Z = G σ n σ n σ n σ n der y er et helt tall og Z ~ N (0, 1). Bruker v (2), får v 2.5 1 (3.5) Tabell D3. PY ( 2) = PY ( 2.5) G = G( 0.59) = 0.2776 (1.7078) 1 som er betydelg forskjellg fra den eksakte verden 0.333 ( men kke så altfor galt). Ved bruk av (1) uten heltallskorreksjon får v (sjekk selv) tlnærmelsen G( 0.88) = 0.1894 som er betydelg verre. 2. Tlfellet n = 2 kast Her er Y = X1+ X2, og, sden X1, X 2 er uavhengge og dentsk fordelte (ud), har de samme forventnng og varans, og v får av regel 4.12 og 4.17 Løvås EY ( ) = 2 E( X) = 2(3.5) = 7, Var( Y) = 2 Var( X) = 5.8333 og 1 1 SD( Y) = Var( Y) = 2.4152 Hvs v vl tlnærme fordelngen tl Y med en normalfordelng, bør v altså bruke N(7, 2.4152) -fordelngen. V trenger også den eksakte fordelngen tl Y for å kunne sammenlgne. Dette er kke så 2 vanskelg dette tlfellet. Det er 6 = 36 mulge kombnasjoner av verder for paret ( X1, X2) som alle er lke sannsynlge (1 36 ). De mulge verdene for Y = X1+ X2 er 2, 3, 4,,11, og 12. Tabell 2 vser hvlke kombnasjoner som gr en gtt verd av Y. For eksempel ser v at begvenheten ( Y = 8) nntreffer for 5 forskjellge kombnasjoner, slk at PY= ( 8) = 5 36.

5 Tabell 2 Verder av Y for forskjellge kombnasjoner av X1 og X 2. X 1 X 2 1 2 3 4 5 6 1 2 3 4 5 6 7 2 3 4 5 6 7 8 3 4 5 6 7 8 9 4 5 6 7 8 9 10 5 6 7 8 9 10 11 6 7 8 9 10 11 12 Den eksakte fordelngen for den dskrete varabelen Y blr derfor som gtt tabell 3. Tabell 3 Eksakt fordelng for sum øyne, Y, ved to kast. y 2 3 4 5 6 7 8 9 10 11 12 PY ( = y) 1 36 2 36 3 36 4 36 5 36 6 36 5 36 4 36 3 36 2 36 1 36 I fgur 2 har jeg plottet denne sammen med den beste normal-tlnærmelsen Fgur 2 Eksakt fordelng for Y = sum øyne ved 2 kast med ternng og tlnærmet normalfordelng N(EY, SD(Y))=N(7, 2.4152) Densty 0.05.1.15.2 2 4 6 8 10 12 y

6 Regneeksempel: Eksakt blr etter tabell 3 1+ 2+ 3 1 PY ( 4) = = = 0.1666... 36 6 Med normaltlnærmelsen, Med heltallskorreksjon som (2) tlnærmet Y ~ N (7, 2.4152), får v: Y 7 4.5 7 4.5 7 PY ( 4) = PY ( 4.5) = P P Z = G( 1.04) = 0.1492, 2.4152 2.4152 2.4152 altså en fel på ca 0.016, som kke er så verst. Uten heltallskorreksjon (1) får v 4 7 PY ( 4) P Z = G( 1.24) = 0.1075, 2.4152 altså en fel på ca 0.060. 3. Tlfellet n = 5 kast Her er Y = X1+ X2 + X3+ X4 + X5, og, sden X1, X2,, X5 er uavhengge og dentsk fordelte (ud), har de samme forventnng og varans, og v får av regel 4.12 og 4.17 Løvås EY ( ) = 5 E( X) = 5(3.5) = 17.5, Var( Y) = 5 Var( X) = 14.5833 og 1 1 SD( Y) = Var( Y) = 3.8188 Hvs v vl tlnærme fordelngen tl Y med en normalfordelng, bør v altså bruke N(17.5, 3.8188) -fordelngen. V trenger også den eksakte fordelngen tl Y for å kunne sammenlgne. Dette er ltt verre nå. 5 Det er 6 = 7776 mulge kombnasjoner av verder for ( X1, X2,, X5) som alle er lke sannsynlge (1 7776 ). De mulge verdene for Y = X1+ X2 + + X5 er 5,6,7,,29,30. Å gå gjennom alle dsse for å fnne ut hvor mange som gr en gtt verd av Y er kjedelg å gjøre manuelt, så jeg laget et lte program GAUSS (et kraftg og elegant

7 programmerngsspråk som flere på nsttuttet benytter) som løste oppgaven for meg 4. Resultatet er gtt tabell 4. Tabell 4 Antall kombnasjoner av X, X,, X som gr gtte verder av summen Y. 1 2 5 y 5 6 7 8 9 10 11 12 13 14 15 16 17 Antall kombn. med Y = y Antall kombn. med Y y 1 5 15 35 70 126 205 305 420 540 651 735 780 1 6 21 56 126 252 457 762 1182 1722 2373 3108 3888 y 18 19 20 21 22 23 24 25 26 27 28 29 30 Antall kombn. 780 735 651 540 420 305 205 126 70 35 15 5 1 med Y = y Antall kombn. 4668 5403 6054 6594 7014 7319 7524 7650 7720 7755 7770 7775 7776 med Y y 5 Sannsynlgheter for Y får v ved å dele tallene tabell 4 med 6 = 7776. La oss for eksempel se på sannsynlgheten for at PY ( 15). I følge tabellen er det 2373 kombnasjoner av X -ene som har sum 15. Sden alle kombnasjoner er lke sannsynlge, blr den eksakte sannsynlgheten 2373 PY ( 15) = = 0.30517... 7776 I fgur 3 har jeg plottet både den eksakte fordelngen for Y og den normalfordelngstettheten som passer best henhold tl regel 5.19. 4 Det er mulg at dette kan gjøres Excel, men jeg tror kke det er lett. I stedenfor å kaste bort tden på å prøve å fnne på noe lurt Excel, brukte jeg heller GAUSS med en gang der programmerngen kke var vanskelg.

8 Fgur 3 Eksakt fordelng for Y = sum øyne for 5 kast med ternng og tlnærmet normalfordelng N(EY, SD(Y))=N(17.5, 3.8188) Densty 0.02.04.06.08.1 5 10 15 20 25 30 y V ser at normaltlnærmelsen begynner å bl bedre. Med normaltlnærmelsen, Med heltallskorreksjon som (2): tlnærmet Y ~ N (17.5, 3.8188), får v: Y 17.5 15.5 17.5 15.5 17.5 PY ( 15) = PY ( 15.5) = P P Z = G( 0.52) = 0.3015, 3.8188 3.8188 3.8188 altså en fel på ca 0.004 som er ganske bra. Uten heltallskorreksjon (1) får v: 15 17.5 PY ( 15) P Z = G( 0.65) = 0.2578, 3.8188 altså en fel på ca 0.047 som kke er så bra.

9 4. Tlfellet n = 10 kast Her er Y = X1 + X2 + + X10, og, sden X1, X2,, X10 er uavhengge og dentsk fordelte (ud), har de samme forventnng og varans, og v får av regel 4.12 og 4.17 Løvås EY ( ) = 10 E( X) = 10(3.5) = 35, Var( Y) = 10 Var( X) = 29.1667 og 1 1 SD( Y) = Var( Y) = 5.4006 Hvs v vl tlnærme fordelngen tl Y med en normalfordelng, bør v altså bruke N(35, 5.4006) -fordelngen. V trenger også den eksakte fordelngen tl Y for å kunne sammenlgne. Dette mye verre nå. 10 Det er 6 = 60 466 176 mulge kombnasjoner av verder for ( X1, X2,, X10) som alle er 10 lke sannsynlge ( 16 ). De mulge verdene for Y = X1 + X2 + + X10 er 10,11,12,,59,60. Som regneeksempel skal v se på PY ( 30). Jeg lot GAUSS-programmet gå gjennom dsse 60.5 mllonene kombnasjoner (det tok laptop-en mn ca 30 sekunder (!)) og laget en tabell som tabell 4 (kke rapportert her). Ifølge den tabellen var det 12 393 645 kombnasjoner som hadde sum 30. Den eksakte sannsynlgheten blr derfor 12 393 645 PY ( 30) = = 0.20497... 10 6 I fgur 4 har jeg plottet både den eksakte fordelngen for Y og den normalfordelngstettheten som passer best henhold tl regel 5.19.

10 Fgur 4 Densty 0.02.04.06.08 Eksakt fordelng for Y = sum øyne for 10 kast med ternng og tlnærmet normalfordelng N(EY, SD(Y)) = N(35, 5.4007) 10 20 30 40 50 60 y V ser at normaltlnærmelsen har bltt enda bedre. Med normaltlnærmelsen, Med heltallskorreksjon som (2): tlnærmet Y ~ N (35, 5.4007), får v: 35 30.5 35 30.5 35 Tabell D3 Y PY ( 30) = PY ( 30.5) = P P Z = G( 0.83) = 0.2033, 5.4007 5.4007 5.4007 altså en fel på ca 0.0016, som er ganske bra og bedre enn for n = 5. Uten heltallskorreksjon (1) får v: 30 35 PY ( 30) P Z = G( 0.93) = 0.1762, 5.4007 altså en fel på ca 0.028, som vser at heltallskorreksjon fortsatt lønner seg.

11 4. Tlfellet n = 20 kast Her er Y = X1 + X2 + + X20, og, sden X1, X2,, X20 er uavhengge og dentsk fordelte (ud), har de samme forventnng og varans, og v får av regel 4.12 og 4.17 Løvås EY ( ) = 20 E( X) = 20(3.5) = 70, Var( Y) = 20 Var( X) = 58.3333 og 1 1 SD( Y) = Var( Y) = 7.6376 Hvs v vl tlnærme fordelngen tl Y med en normalfordelng, bør v altså bruke N(70, 7.6376) -fordelngen. Å fnne den eksakte fordelngen for Y for sammenlgnng blr svært mye vanskelgere nå. Det er ( ) 2 20 10 2 6 = 6 = (60 466 176) mulge kombnasjoner av verder for ( X1, X2,, X20) som 20 alle er lke sannsynlge ( 16 ). De mulge verdene for Y = X1 + X2 + + X20 er 20, 21, 22,,119,120. Som regneeksempel skal v se på PY ( 60). Her kommer nok det fne GAUSS-programmet mtt tl kort. Hvs v regner med ca et halvt mnutt på å gå gjennom 60.5 mlloner 20 kombnasjoner med mn laptop, vl det ta ca 60.5 mlloner halvmnutter å gå gjennom 6 kombnasjoner, dvs ca 504 000 tmer som svarer tl ca 58 år. Nå er det skkert mulg å utvkle smarte formler og algortmer for å redusere beregnngstden tl et praktsk nvå for akkurat denne stuasjonen, men jeg gjorde kke noe forsøk på det. Grunnen tl det er ganske enkelt at denne oppgaven er komplett overflødg når formålet er å beregne sannsynlgheter for Y. V har nemlg sentralgrenseteoremet som formulert regel 5.19, og beregnngene ovenfor som vser at v kan regne (med kun neglsjerbar tap av realsme) at Y ~ N (70, 7.6376) fordelt Med denne normaltlnærmelsen får v: Med heltallskorreksjon som (2) 70 60.5 70 60.5 70 Tabell D3 Y PY ( 60) = PY ( 60.5) = P P Z = G( 1.24) = 0.1075 7.6376 7.6376 7.6376 V kan regne at felen lgger godt under felen (0.002) som v hadde når n = 10. Uten heltallskorreksjon (1) får v 60 70 PY ( 60) P Z = G( 1.31) = 0.0951 7.6376

12 V ser at forskjellen på beregnngen med og uten heltallskorreksjon er redusert tl ca 0.012, slk at poenget med heltallskorreksjon har nesten bltt borte. Når n blr enda større, vl forbedrngen som oppnås med heltallskorreksjon forsvnne etter hvert. Dette poenget er relevant ved forståelse av regel 5.20 som ser at v kan bruke tlsvarende normalfordelngstlnærmelser for bnomske, hypergeometrske og possonfordelte stokastske varable. Det er først og fremst grenseområdet for n der normaltlnærmelsen begynner å bl 2 effektv, at heltallskorreksjon har noe for seg. For større n (eller varans, σ, regel 5.20) er den overflødg. Sluttmerknad. I dette eksemplet vste normaltlnærmelsen seg å g akseptable resultater selv for så lten n som 5. Dette skyldes først og fremst symmetren og formen på utgangsfordelngen tabell 1. For andre fordelnger, for eksempel skjeve og flertoppete fordelnger, vl n måtte være større før normaltlnærmelsen skal være tlfredstllende. En mengde av smulernger og beregnnger lgger bak tommelfngerregelen, n 20 Løvås. Denne tommelfngerregelen burde g akseptable sannsynlghetsberegnnger basert på normalfordelngen de fleste stuasjoner man kan havne, og, kke mnst, stuasjoner der man vet lte eller ngentng om fordelngen tl enkeltvarablene, X.