STK1100 Oblig 2 Øyvind Kolbu Gruppe 3 oyvink@math.uio.no 16. februar 2007
Oppgave A Vis at E(X n ) = µ: X n = 1 n n X i = 1 n (X 1 + X 2 +... + X n ) i=1 ( n ) E(X n ) = 1 n E X i = 1 n E (X 1 + X 2 +... + X n ) i=1 Vet at E(X 1 ) = E(X 2 ) =... = E(X n ), så da følger E(X n ) = 1 n ne(x i) = µ. Vis at Var(X n ) = σ 2 /n: X n = 1 n nx n = n X i i=1 n X i i=1 n Var(nX n ) = 1 2 Var(X i ) i=1 n 2 Var(X n ) = nσ 2 Var(X n ) = σ 2 /n. Vis også at E(Z n ) = 0 og Var(Z n ) = 1: E(Z n ) = n µ µ σ = n 0 = 0 σ Stokker om Z n og tilpasser den til regelen om at Var(a + bx) = b 2 Var(X). nµ n Z n = + }{{ σ }}{{} σ Var(Z n ) = a ( n σ b X n ) 2 Var(X n ) = n σ 2 σ2 n = 1. 1
Oppgave B Uniform 1 [ x 2 ] 1 µ = E(X i ) = x dx = = 1 0 2 0 2 ( ) σ 2 = Var(X i ) = E Xi 2 (E(X i )) 2 = σ = 1 x 2 dx 1 0 4 = 1 3 1 4 = 1 12 1 Var(X i ) = 12 = 1 12 Eksponential Ser at λ = 1, da blir resten lett Bernoulli Oppgave C µ = 1 j=0 σ 2 = E = σ = µ = 1 λ = 1 σ 2 = 1 λ 2 = 1 σ = 1 = 1 1 x j 2 = 0 1 2 + 1 1 2 = 1 2 ( ) Xi 2 (E(X i )) 2 ( 0 2 1 2 + 12 1 2 1 4 = 1 2 ) 1 4 = 1 4 Standardiserst gjennomsnitt er bare en formel for å beskrive hva som skjer når man observerer noe mange ganger. Så ettersom vi gjentar samme forsøk 10000 ganger, vil vår empiriske data begynne å bli lik standardisert gjennomsnitt. Oppgave D Histogrammet i figur 1 ligner en normalfordeling, men litt avvik ettersom 10000 bereginger ikke er nok. Eksperimenterte med høyere antall og da ble figuren glattere og mindre avvik, dvs at dette er i samsvar med oppgave C. 2
Oppgave E Figur 1: 10000 forsøk med uniform fordeling, n = 3. For å regne ut sannsynligheten for at Z f.eks. skal ligge mellom og -2.5: 1 P(z > 2.5) = 1 0.9938 = 0.0062. For intervalene se tabell 1. Interval Tabell MATLAB n = 3 n = 10 n = 30 [, 2.5) 0.0062 0.0050 0.0047 0.0067 [ 2.5, 2.0) 0.0166 0.0173 0.0172 0.0157 [ 2.0, 1.5) 0.0440 0.0445 0.0477 0.0466 [ 1.5, 1.0) 0.0919 0.0931 0.0939 0.0894 [ 1.0, 0.5) 0.1498 0.1562 0.1485 0.1497 [ 0.5, 0.0) 0.1915 0.1905 0.1872 0.1884 [0.0, 0.5) 0.1915 0.1878 0.1877 0.1859 [0.5, 1.0) 0.1498 0.1433 0.1509 0.1503 [1.0, 1.5) 0.0919 0.0974 0.0937 0.0985 [1.5, 2.0) 0.0440 0.0426 0.0437 0.0448 [2.0, 2.5) 0.0166 0.0174 0.0190 0.0181 [2.5, ) 0.0062 0.0049 0.0049 0.0059 Tabell 1: Normalfordelingen sammenlignet med relative frekvensen til Z n gitt uniforme µ og σ. Oppgave F Ser av tabell 1 at sannsynlighetene som er funnet ved hjelp av 10000 forsøk i MATLAB, ikke er så langt unna forventet sannsynlighet utifra tabellene. Det betyr at formelen vi bruker gir en god pekepinn på hvordan resultatet et forsøk faktiskt ville ha, uten at vi hadde trengt å gjøre det. Som tidligere ville man også her fått en bedre tilnærming mot den forventede, sannsynligheten hvis man hadde for eksempel testet 100000 ganger. Oppgave G Figur 2: 10000 forsøk med uniform fordeling, n = 10. 3
Ser at figurene 2 og 3 blir en stadig bedre tilnærming mot normalfordelingen. Dette er naturlig da vi regner ut snittet av henholdsvis 10 og 30 verdier for hver eneste verdi som blir plottet, så eventulle store avvik vil da bli fanget opp. Dette er i samsvar med det vi ser i tabell 1, der vi ser at når n øker så blir den relativefrekvensen over intervalet stadig likere tabell verdiene. Figur 3: 10000 forsøk med uniform fordeling, n = 30. Oppgave H Ser tydlig av utviklingen til figurene 4, 5 og 6, at den bratte venstre siden og den lange høyre siden, typiske kjennetegnet for en eksponesialkurven, blir tvunget over på standardisert gjennomsnitt form, dvs likere og likere normalfordelingen. Søylen ytterst til høyre skiller seg ut, da den eksponensielle fordelingen fortsetter til og derfor vil den siste søyle summere over et veldig stort interval og derfor bli stor. I tabell 2 ser man helt klart den utjevningsprossessen som foregår når n øker. Interval Tabell MATLAB n = 3 n = 10 n = 30 [, 2.5) 0.0062 0.0000 0.0002 0.0007 [ 2.5, 2.0) 0.0166 0.0000 0.0046 0.0112 [ 2.0, 1.5) 0.0440 0.0084 0.0369 0.0438 [ 1.5, 1.0) 0.0919 0.1283 0.1093 0.0996 [ 1.0, 0.5) 0.1498 0.2176 0.1807 0.1668 [ 0.5, 0.0) 0.1915 0.2185 0.2018 0.2017 [0.0, 0.5) 0.1915 0.1653 0.1810 0.1812 [0.5, 1.0) 0.1498 0.1116 0.1293 0.1316 [1.0, 1.5) 0.0919 0.0665 0.0777 0.0824 [1.5, 2.0) 0.0440 0.0387 0.0435 0.0484 [2.0, 2.5) 0.0166 0.0219 0.0205 0.0186 [2.5, ) 0.0062 0.0232 0.0145 0.0140 Tabell 2: Normalfordelingen sammenlignet med relative frekvensen til Z n gitt eksponensiell µ og σ. Oppgave I Bernoullifordelingen er forskjellig fra de andre da den er diskret mens de to andre er kontinuerlige, det gjør at den oppfører seg helt annerledes og siden 4
Figur 4: 10000 forsøk med eksponensiell fordeling, n = 3. Figur 5: 10000 forsøk med eksponensiell fordeling, n = 10. den er diskret og kan da forekomme steder hvor den ikke har verdier hvor summen over intervalene blir 0. Grunnen til hullene er at en Bernoullifordeling bare bestemmer om X skal være 0 eller 1, så når for eksempel n = 3 vil meanx, bli enten 0, 1/3, 2/3 eller 1. Siden halvparten er større en µ og halvparten mindre, vil den ene halvparten bli positiv og den andre negativ når vi regner ut Z, noe vi ser av symetrien på grafene. Oppgave J Vi ser tydelig at alle fordelingene nærmer seg normalfordelingen, men den uniforme fordelingen er klart best til å tilnærme når n er lav. Den eksponensielle fordelingen gir veldig god tilnærming når n blir høyere, mens jeg måtte eksprimentere med n verdier opp til 50 for at Bernoulli skulle bli uten huller. For å bedre tilnærmingen kunne vi brukt et høyere antall observasjoner, for eksempel 100000. Figur 6: 10000 forsøk med eksponensiell fordeling, n = 30. 5
Interval Tabell MATLAB n = 3 n = 10 n = 30 [, 2.5) 0.0062 0.0000 0.0010 0.0007 [ 2.5, 2.0) 0.0166 0.0000 0.0000 0.0112 [ 2.0, 1.5) 0.0440 0.1237 0.0422 0.0438 [ 1.5, 1.0) 0.0919 0.0000 0.1130 0.0996 [ 1.0, 0.5) 0.1498 0.3796 0.2019 0.1668 [ 0.5, 0.0) 0.1915 0.0000 0.0000 0.2017 [0.0, 0.5) 0.1915 0.0000 0.2483 0.1812 [0.5, 1.0) 0.1498 0.3771 0.2063 0.1316 [1.0, 1.5) 0.0919 0.0000 0.1218 0.0824 [1.5, 2.0) 0.0440 0.1196 0.0459 0.0484 [2.0, 2.5) 0.0166 0.0000 0.0000 0.0186 [2.5, ) 0.0062 0.0000 0.0106 0.0140 Tabell 3: Normalfordelingen sammenlignet med relative frekvensen til Z n gitt Bernoulli µ og σ. Figur 7: 10000 forsøk med Bernoulli fordeling, n = 3. Figur 8: 10000 forsøk med Bernoulli fordeling, n = 10. Figur 9: 10000 forsøk med Bernoulli fordeling, n = 30. 6
MATLAB kode Uniformfordeling %Oppgave c) set(0, defaulttextinterpreter, none ) % Felles mu og sigma mu = 0.5; sigma = 1/sqrt(12); n = 3; X = unifrnd(0,1,n,10000); Z = sqrt(n)*((meanx- mu)/sigma); figure(1); laprint(1, uniform-3nlap, options, factory, width,11) % oppgave f) int = [-Inf, -2.5, -2, -1.5, -1, -0.5, 0, 0.5, 1, 1.5, 2, 2.5, Inf]; relfrekv3 = ant(1:12)/10000; % oppgave g) % Tester med n som 10 n = 10; X = unifrnd(0,1,n,10000); Z = sqrt(n)*((meanx- mu)/sigma); figure(2); relfrekv10 = ant(1:12)/10000; laprint(1, uniform-10nlap, options, factory, width,11) % Og til slutt, med n=30 n = 30; X = unifrnd(0,1,n,10000); Z = sqrt(n)*((meanx- mu)/sigma); figure(3); 7
relfrekv30 = ant(1:12)/10000; laprint(1, uniform-30nlap, options, factory, width,11) Eksponensiellfordeling % Samme som den uniforme, bare bytte mu og sigma, samt unifrnd til exprnd set(0, defaulttextinterpreter, none ) % Felles mu og sigma mu = 1; sigma = 1; % oppgave d) n = 300; X = exprnd(1,n,10000); figure(1); laprint(1, ekspon-3nlap, options, factory, width,11) % oppgave f) int = [-Inf, -2.5, -2, -1.5, -1, -0.5, 0, 0.5, 1, 1.5, 2, 2.5, Inf]; relfrekv3 = ant(1:12)/10000; % oppgave g) % Tester med n som 10 n = 10; X = exprnd(1,n,10000); figure(2); relfrekv10 = ant(1:12)/10000; laprint(1, ekspon-10nlap, options, factory, width,11) % Og til slutt, med n=30 n = 30; X = exprnd(1,n,10000); figure(3); 8
relfrekv30 = ant(1:12)/10000; laprint(1, ekspon-30nlap, options, factory, width,11) Bernoullifordeling % Samme som den uniforme, bare bytte mu og sigma, samt unifrnd til binornd set(0, defaulttextinterpreter, none ) % Felles mu og sigma mu = 0.5; sigma = 0.5; % oppgave d) n = 3; X = binornd(1,0.5,n,10000); figure(1); laprint(1, bernoulli-3nlap, options, factory, width,11) % oppgave f) int = [-Inf, -2.5, -2, -1.5, -1, -0.5, 0, 0.5, 1, 1.5, 2, 2.5, Inf]; relfrekv3 = ant(1:12)/10000; % oppgave g) % Tester med n som 10 n = 10; X = binornd(1,0.5,n,10000); figure(2); relfrekv10 = ant(1:12)/10000; laprint(1, bernoulli-10nlap, options, factory, width,11) % Og til slutt, med n=30 n = 30; X = binornd(1,0.5,n,10000); 9
figure(3); relfrekv30 = ant(1:12)/10000; laprint(1, bernoulli-30nlap, options, factory, width,11) 10