TMA4245 Statistikk Høst 2016

TMA5 Statistikk Høst 6 Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Anbefalt øving Løsningsskisse Oppgave a) Den tilfeldige variabelen X er kontinuerlig fordelt med sannsynlighetstetthet nx n dersom < x f X (x). ellers Den kumulative fordelingsfunksjonen F er lik det bestemte integralet av sannsynlighetstettheten f fra til x. Siden f(x) for x setter vi som nedre grense for integralet, F (x) x f(t)dt x nt n dt [t n ] x xn. Fordelingsfunksjonen F (x) gir sannsynligheten for at X x, og kan brukes til å finne sannsynligheten for at / < X 3/, P ( < X 3 ) ( P X 3 ) ( P X ) F Setter vi inn n får vi og med n får vi P P ( ) 3 F ( < X 3 ) ; n 3, ( < X 3 ) ; n ( ) 3 ( ) ( ) 9 6 6. For å bestemme medianen til X setter vi P (X a) F (a) /, slik at F (a) a n. ( ) 3 n ( ) n. Medianen er altså a / dersom n / dersom n. anb3-lsf-b 5. september 6 Side

Forventningsverdien til X er lik integralet av xf(x) fra til, E(X) xf(x)dx nx n dx xnx n dx n n + / dersom n /3 dersom n. TMA5 Statistikk Høst 6 For n er medianen og forventningsverdien identiske, mens for n er medianen størst ( /.7 > /3). b) Histogrammet f X (x) kan plottes på følgende måte: data3load ( data3. txt ) ; histogram ( data3, Normalization, pdf ) Vi bruker her innstillingene Normalization og pdf for å få et normalisert histogram slik at vi kan sammenligne historgrammet med sannsynlighetstettheten f X (x). Sannsynlighetstettheten f X (x) kan for eksempel plottes slik: n; xl i n s p a c e (,, 3 ) ; fn x. ˆ ( n ); p l o t ( x, f ) Resultatet er vist i Figur. Vi ser at sannsynlighetstettheten stemmer godt overens med histogrammet, selv om vi har få observasjoner som har verdi lavere enn.5. Den empiriske kumulative fordelingsfunksjonen og fordelingsfunksjonen kan plottes på følgende måte: e c d f ( data3 ) Fx. ˆ n p l o t ( x, F) Resultatet er vist i Figur. Den empiriske fordelingen ˆF (x) har samme fasong som den teoretiske fordelingen F (x), men den empiriske fordelingen tar noe lavere verdier. Andel av observasjonene som er mellom og 3 er: mean( data3 >(/) & data3 <(3/)) ans.67 Kommandoen data3>(/) returner en vektor av lengde 3 med verdi for alle observasjoner i data3 som er større enn og ellers. Tilsvarende gir data3<(3/) for alle observasjoner mindre enn 3. Merk at & er og operatoren i Matlab, dvs. den sammenligner de to vektorene og returner en ny vektor av lengde 3 der hvert element har verdi anb3-lsf-b 5. september 6 Side

TMA5 Statistikk Høst 6 dersom både data3>(/) og data3<(3/) har verdi. Den søkte sannsynligheten finnes ved å ta gjennomsnittet. Medianen til observasjonene er: median ( data3 ) ans.775 Forventningsverdien til observasjonene er: mean( data3 ) ans.7 Sammenligner vi dette med de teoretiske resultatene i a) ser vi at estimatene våre er i nærheten av de teoretiske verdiene. Figur : Histogram over de 3 observasjonene og sannsynlighetstettheten f X (x). Figur : Empirisk kumulativ fordelingsfunksjon ˆF (x) og fordelingsfunksjonen F (x) basert på 3 observasjoner c) Vi studerer nå det store datasettet og gjentar deloppgave b). Vi plotter historgrammet, sannsynlighetstettheten, den empiriske og den teoretiske kumulative fordelingsfunksjonen som tidligere: anb3-lsf-b 5. september 6 Side 3

TMA5 Statistikk Høst 6 data3load ( data3. txt ) ; %Histogram og s a n n s y n l i g h e t s t e t t h e t : histogram ( data3, Normalization, pdf ) n; xl i n s p a c e (,, 3 ) ; fn x. ˆ ( n ) p l o t ( x, f ) %Kumulativ f o r d e l i n g : e c d f ( data3 ) Fx. ˆ n p l o t ( x, F) De resulterende plottene er gitt i Figur 3 og. Vi ser at de teoretiske fordelingene stemmer godt overens med observasjonene. Merk at siden vi har flere observasjoner vil Matlab øke antallet søyler/bins. Andel av observasjonene som er mellom og 3 mean( data3 >(/) & data3 <(3/)) ans.97 Medianen til observasjonene er: median ( data3 ) ans.75 Forventningsverdien til observasjonene er: mean( data3 ) ans.67 er nå: Vi ser at vi i dette tilfellet oppnår estimater nærmere den teoretiske verdien enn i oppgave b). Estimatene er altså nærmere de teoretiske, utregnede verdiene fra oppgave a). Dersom man har et sett med observasjoner som er trukket fra en bestemt fordelingsfunksjon f X (x), kan man forvente at medianen og gjennomsnittet til observasjonene vil komme nærmere og nærmere de teoretiske verdiene når størrelsen på datasettet øker. I grensen, dvs. med uendelig mange observasjoner kan en forvente å få eksakt den teoretisk verdien. Oppgave Togforsinkelsen Eksamen desember 3, oppgave av 3 Oppgitt: x r e ax dx r! a r+ for a >, r heltall. anb3-lsf-b 5. september 6 Side

TMA5 Statistikk Høst 6 Figur 3: Histogram over de 3 observasjonene og sannsynlighetstettheten f X (x). Figur : Empirisk kumulativ fordelingsfunksjon ˆF (x) og fordelingsfunksjonen F (x) basert på 3 observasjoner. a) For at g(x) skal være en sannsynlighetstetthet, må vi ha sannsynlighet er. (Bruker formelen med r og a.) k/ gir k. g(x)dx kxe x dx k k. For forventet forsinkelse brukes formelen igjen, med r og a : g(x)dx, dvs at total E(X) xg(x)dx x xe x dx x e x dx 3. For å vise at det er.9 i sannsynlighet for mer enn to minutters forsinkelse, bruker vi delvis integrasjon. anb3-lsf-b 5. september 6 Side 5

TMA5 Statistikk Høst 6 Prob(X > ) xe x dx [ ] xe x + x e + e x dx e + e 5e.9. e x dx b) V er binomisk fordelt med n og p.9 under forutsetning av at Hendelsene mer enn minutter forsinket for to forskjellige dager er uavhengige. Sannsynligheten for mer enn minutter forsinket er lik.9 hver dag. Antall forsøk (dager) er bestemt på forhånd, det er to utfall og vi teller antall suksesser. (Togselskapet ville neppe kalle en dag med mer enn to minutters forsinkelse for en suksess.) Prob(V ) Prob(V ) Prob(V ) Prob(V ).9.9.9.6. Ser vi på et år med n virkedager, er V binomisk(,.9). Da kan vi bruke tilnærmingen til normalfordelingen, dvs 3 + /.9 Prob(V > 3) Prob(V 3) Φ(.9 (.9) Φ(.5).59. c) Setter x i den betingede fordelingen. Da har oppholdstiden Y fordeling f(y ) e y for y >. Med andre ord er Y X eksponensialfordelt med parameter (og forventningsverdi). Simultantetthet finner vi ved å multiplisere; f(x, y) f(y x)g(x) x xy e xe x x e x(+ y ) for x >, y >. Marginaltettheten for Y finnes ved å integrere ut x: h(y) f(x, y)dx x e x(+ y ) dx ( + y 3, for y >. )3 ( + y) 3 Her brukte vi enda en gang formelen som var oppgitt, denne gangen med a + y/ og r. anb3-lsf-b 5. september 6 Side 6

Oppgave 3 TMA5 Statistikk Høst 6 Vi ønsker å finne sannsynligheten for at summen av X og Y er mindre enn 6 minutter, altså P (X + Y 6). Vi vet at X og Y er uavhengige, slik at f(x, y) g(x)h(y). Dermed er simultanfordelingen gitt ved f(x, y) 3 3 for < x < 3, < y < 5, ellers Vi observerer at hendelsen X + Y 6 vil oppstå hvis X tar verdier < x < 6 y, for enhver Y, slik at < y < 5. Dermed kan vi integrere simultantettheten over dette området for å regne ut sannsynligheten, P (X + Y 6) 5 6 y 5 6 y 5 5 [ 3.833 [ 3 3 3 f(x, y)dxdy 3 3 dxdy 3 x ] 6 y dy (6 y)dy 3 (6y y )] 5 anb3-lsf-b 5. september 6 Side 7