Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Institutt for matematiske fag Eksamensoppgave i Løsningsskisse TMA440 Statistikk Faglig kontakt under eksamen: Håkon Tjelmeland a, Sara Martino b Tlf: a 48 18 96, b 99 40 33 30 Eksamensdato: 30. november 017 Eksamenstid fra til): 09.00-13.00 Hjelpemiddelkode/Tillatte hjelpemidler: C Tabeller og formler i statistikk, Akademika, Bestemt, enkel kalkulator, Gult stemplet A5-ark med egne håndskrevne notater. Annen informasjon: Alle svar skal begrunnes og besvarelsen skal inneholde naturlig mellomregning. Målform/språk: bokmål Antall sider: 11 Antall sider vedlegg: 0 Kontrollert av: Informasjon om trykking av eksamensoppgave Originalen er: 1-sidig -sidig sort/hvit farger skal ha flervalgskjema Dato Sign Merk! Studenter finner sensur i Studentweb. Har du spørsmål om din sensur må du kontakte instituttet ditt. Eksamenskontoret vil ikke kunne svare på slike spørsmål.

TMA440 Statstikk, 30. november 017 Side 1 av 11 Oppgave 1 Det beskrevne stokastiske forsøket har m 6 6 36 mulige resultater, som kan organiseres i matrisa 1, 1) 1, ) 1, 3) 1, 4) 1, 5) 1, 6), 1), ), 3), 4), 5), 6) 3, 1) 3, ) 3, 3) 3, 4) 3, 5) 3, 6) 4, 1) 4, ) 4, 3) 4, 4) 4, 5) 4, 6) 5, 1) 5, ) 5, 3) 5, 4) 5, 5) 5, 6) 6, 1) 6, ) 6, 3) 6, 4) 6, 5) 6, 6) der det første tallet angir antall øyne på første terning og den andre tallet angir antall øyne på den andre terningen. Av de mulige utfallene blir summen av antall øyne større enn eller lik 6 for de g 6 utfallene angitt i rødt i tabellen over. Det er rimelig å anta en uniform sannsynlighetsmodell, og dermed får vi at P A) g m 6 36 13 18 0.7. Tolkningen av dette tallet er at dersom vi hadde gjentatt kast med to terninger uendelig mange ganger ville andelen av kastene som gav minst 6 øyne være 13 18 0.7. Hvis vi lar Y 1 være antall øyne på første terning og Y være antall øyne på andre terning har vi at X Y 1 + Y slik at E[X] E[Y 1 ] + E[Y ]. Dessuten har Y 1 og Y samme sannsynlighetsfordeling slik at E[Y 1 ] E[Y ]. For en terning har vi dessuten at alle utfallene y 1,,..., 6 har samme sannsynlighet, slik at 1 6 E[Y 1 ] E[Y ] 6 y1 y 1 6 1 1 1 + + 3 + 4 + 5 + 6) 6 6. Vi får dermed at E[X] 1 6 + 1 6 1 3 7. Tolkningen av dette tallet er at dersom vi hadde gjentatt kast med to terninger uendelig mange ganger ville vi i gjennomsnitt fått 7 øyne på hvert kast.

Side av 11 TMA440 Statstikk, 30. november 017 Oppgave Oppfølgingsavdelingen a) La V A betegne antall besøk en pasient fra avdeling A har til oppfølgingsavdelingen. Det er da angitt at Vi får dermed at V A pv A ; µ A 1.4) 1.4v A v A! e 1.4 for v A 0, 1,,... og P V A 0) 1.40 0! e 1.4 e 1.4 0.466, P V A > V A 1) P V A > V A 1) P V A 1) 1 P V A ) 1 P V A 0) P V A > ) P V A 1) 1 P V A 0) P V A 1) P V A ) 1 P V A 0) 1.41 1 0.466 e 1.4 1.4 e 1.4 1!! 1 0.466 0.1. La A betegne hendelsen at en tilfeldig valgt pasient på oppfølgingsavdelingen kommer fra avdeling A og la B betegne at pasienten kommer fra avdeling B. Vi har da opplyst at P A) 0.66 og P B) 1 P A) 0.34. La V betegne antall besøk til oppfølgingsavdelingen for en tilfeldig valgt pasient. Ved å bruke setningen om total sannsynlighet får vi dermed at P V 0) P V 0 A)P A) + P V 0 B)P B) P V A 0)P A) + P V B 0)P B) 0.466 0.66 + 0.810 e 0.81 0.34 0.3140. 0! b) La X A og X B være antall pasienter operert ved henholdsvis avdeling A og B som har ingen besøk hos oppfølgingsavdelingen. Siden hver pasient operert ved avdeling A har sannsynlighet p A P V A 0) 0.466 for å ha ingen besøk til oppfølgingsavdelingen, uavhengig av hverandre, blir X A binomisk fordelt, X A bx A ; n A 1630, p A 0.466).

TMA440 Statstikk, 30. november 017 Side 3 av 11 Tilsvarende blir sannsynligheten for at en pasient operert ved avdeling B har ingen besøk ved oppfølgingsavdelingen p B 0.810 0! e 0.81 0.4449 og X B bx B ; n B 8398, p B 0.4449). Ved å benytte at X X A + X B og kjent formel for forventingsverdien i en binomisk fordeling får vi dermed at E[X] E[X A + X B ] E[X A ] + E[X B ] n A p A + n B p B 1630 0.466 + 8398 0.4449 7756.343. Ved å benytte at X A og X B er uavhengige og kjent formel for variansen i en binomisk fordeling får vi Var[X] Var[X A + X B ] Var[X A ] + Var[X B ] n A p A 1 p A ) + n B p B 1 p B ) 1630 0.466 1 0.466) + 8398 0.4449 1 0.4449) 510.77, slik at SD[X] Var[X] 510.77 71.4334. Vi vet at en sum av uavhengige poissonfordelte variabler er poissonfordelt. Siden antall besøk til oppfølgingsavdelingen for hver pasient er poissonfordelt og antall besøk for ulike pasienter er uavhengige blir dermed totalt antall besøk til oppfølgingsavdelingen poissonfordelt. La Y Ai for i 1,,..., n A være antall besøk for pasient nummer i fra avdeling A og la Y Bi for i 1,,..., n B være antall besøk for pasient nummber i fra avdeling B. Da har vi E[Y Ai ] µ A 1.4 og E[Y Bi ] µ B 0.81, og dermed [ na ] n B n A n B E[Y ] E Y Ai + Y Bi E[Y Ai ] + E[Y Bi ] n A n B 1.4 + 0.81 1.4n A + 0.81n B 1.4 1630 + 0.81 8398 965.18. Siden vi vet at Y er poissonfordelt vet vi at Var[Y ] E[Y ] slik at vi får SD[Y ] Var[Y ] 965.18 17.1197.

Side 4 av 11 TMA440 Statstikk, 30. november 017 Oppgave 3 Levetid til en ny type mekaniske komponenter a) Innsatt z 1 får vi For y > 0 får vi F y) y fy) y [ e y y θ e fy)dy θ ] y 0 θ for y > 0. y 0 e y θ y y θ e θ dy e 0 ) 1 e y θ. Dermed har vi at F y) 1 e y θ for y > 0, 0 ellers. Fra dette finner vi så at P Y > 500) 1 P 500) 1 F 500) 1 1 e 500 Medianen m er gitt fra ligninge m) 0.5, som gir at 1 e m θ 0.5 e m θ 0.5 1000 ) m θ ln0.5) m θ ln0.5) m θ ln0.5) m 1000 ln0.5) 83.5546. b) Rimelighetsfunksjonen blir [ n n yi zi Lθ) fy 1, y,..., y n ; θ) fy i ; θ) θ e 500 1000 0.7788. ] e y i z i θ Log-rimelighetsfunskjonen blir dermed lθ) [ ln Lθ) ln + lny i ) + lnz i ) ln θ y i z ] i θ n ln + lny i ) + lnz i ) n ln θ 1 n y θ i zi.

TMA440 Statstikk, 30. november 017 Side 5 av 11 Deriverer lθ) med hensyn på θ, n l θ) n θ + y θ 3 i zi θ [ n 1 θ n y i z i Finner verdien som maksimerer lθ) ved å sette l θ) 0, som gir SME blir dermed n 1 n y θ i zi θ 1 n θ 1 n θ 1 n y i z i y i z i ). Y i z i ). Innsatt tall fra tabell 1 får man at estimatet blir 1 θ 6736616 80.77. 10 c) Den en-entydige transformasjonen mellom y i og u i er u i y i zi θ u i y θ i. Siden vi kun er interessert i y i > 0 og u i > 0 er transformasjonen en-entydig. Den deriverte av y i ved hensyn på u i blir dy i du i 1 Da u i > 0 blir den deriverte alltid positiv. For y i, u i > 0 gir transformasjonsformelen da dy i f Ui u i ) f Yi y i ) du i ) θ u i z θ u i zi z i z i e i 1 θ θ θ θ u i z zi i 1 e u i. θ u i z i θ z i z i ].

Side 6 av 11 TMA440 Statstikk, 30. november 017 Sannsynlighetstehheten til en χ ν-fordeling er for x > 0 fx) 1 ν Γ )x ν 1 e x for x > 0. ν Innsatt ν blir denne fx) 1 1 Γ1) x1 1 e x 1 x e, som vi ser er identisk med sannsynlighetstettheten til U i. Vi har dermed at U i χ. Ved å sette inn uttrykket vi har for θ får vi n θ n 1 n Y n i z i ) θ θ Y i z i θ U i. Siden Y i ene er antatt uavhengige blir også U i ene uavhengig, og vi vet at en sum av uavhengige χ ν i -fordelte variabler er χ ν-fordelt med ν n ν i. Siden U i χ får vi dermed at n U i er χ -fordelt med n n frihetsgrader, dvs n θ θ χ n. d) Siden har vi at P n θ θ x 1 α,n n θ θ χ n x α,n ) 1 α. For å omskrive dette uttrykket løser vi hver av de to ulikhetene med hensyn på θ, starter med den første ulikheten, x 1 α,n n θ θ n θ θ θ θ x n, 1 α,n x 1 α,n siden θ > 0 og θ > 0. For den andre ulikheten får vi tilsvarende n θ θ x α,n n θ θ θ x α,n n θ. x α,n

TMA440 Statstikk, 30. november 017 Side 7 av 11 Ved å sette de to ulikhetene sammen igjen med θ i midten får vi dermed P θ n θ θ,n x α n x 1 α,n 1 α. Et 1 α) 100%-konfidensintervall for θ blir dermed θ n, θ x n. α,n x 1 α,n Med α 0.05 får vi fra tabell over kvantiler i χ -fordelinger at x 1 α,n x 0.0975,0 9.591 og x α,n x 0.05,0 34.170. Innsatt tall fra tabell 1 får vi at θ 1 1 y i z i 6736616 80.7689, n 10 slik at konfidensintervallet blir 0 0 80.7689 34.170, 80.7689 [67.9331, 1185.34]. 9.591 Oppgave 4 Infeksjon etter operasjon a) Sentralgrenseteoremet sier at dersom X 1, X,..., X n er uavhengige og identiske fordelte med en forventingsverdi E[X i ] µ og en varians Var[X i ] σ vil sannsynlighetsfordelingen til X µ σ konvergere mot en standard-normalfordeling når n. Når n er stor betyr dette at n Z X µ σ n nz; 0, 1). Dessuten har vi at X µ + Z σ n,

Side 8 av 11 TMA440 Statstikk, 30. november 017 dvs X er en lineær funksjon av Z. Dermed er også X 1 n n X i tilnærmet normalfordelt. Hvis vi så ser på situasjonen beskrevet i oppgaven, og fokuserer først på pasientene som er operert før omorganiseringen, kan vi definere X F i { 1 hvis pasient nr i i perioden før omorganiseringen får infeksjon, 0 ellers. Vi har da at µ E[X F i ] p F og σ Var[X F i ] E[XF i] E[X F i ] p F p F. Fra det generelle resultatet over har vi da at p F X F 1 nf n X F i er tilnærmet normalfordelt. At også p E er tilnærmet normalfordelt begrunnes helt tilsvarende som for p F. Siden forskjellige pasienter får infeksjon uavhengig av hverandre blir X E og X F uavhengige, som i sin tur gir at p F og p E blir uavhengige. Dermed er p E p F tilnærmet) normalfordelt fordi den er en lineær funksjon av uavhengige og tilnærmet) normalfordelte variabler. Ved å benytte regneregler for forventingsverdi og at X F bx F ;, p F ) og X E bx E ;, p E ) får vi at E ] p E p F ] [ ] [ ] XF XE E [ p E ] E [ p F ] E E 1 E[X E ] 1 E[X F ] 1 p E 1 p F p E p F. Ved å bruke regneregler for varians og at X F og X E er uavhengige får vi [ XE Var [ p E p F ] Var X ] F Var 1 Var[X n E ] + 1 Var[X E n F ] E 1 n E p E 1 p E ) + 1 n F [ ] XE p E1 p E ) + p F 1 p F ). [ ] + 1) XF Var p F 1 p F ) b) Vi ønsker å kunne konkludere med at omorganiseringen har vært vellykket, dvs vi ønsker å kunne konkludere med at andelen som får infeksjon er mindre

TMA440 Statstikk, 30. november 017 Side 9 av 11 etter omorganiseringen. Vi må da som H 1 velge at p E < p F p E p F < 0. Skal følgelig teste H 0 : p E p F 0 mot H 1 : p E p F < 0. Ved å ta utgangspunkt i resultatene i a) og standardisere p E p F får vi at p E p F ) p E p F ) pe 1 p E ) + p F 1 p F ) nz; 0, 1). Når H 0 er riktig får vi dermed også at p E p F pe 1 p E ) + p F 1 p F ) nz; 0, 1). 1) Denne størrelsen kan vi ikke benytte som testobservator siden p E og p F som inngår nevneren er ukjente. Når H 0 er riktig er p E p F og vi lar p være denne felles verdien. Når H 0 er riktig vil X E + X F bx; +, p) slik at vi kan estimere p ved p X E + X F +. Siden + er stor blir p p p E p F, slik at ved å erstatte p E og p F med p i 1) får vi en størrelse vi kan benytte som testobservator, Z p E p F p1 p) ) nz; 0, 1) 1 + 1 når H 0 er riktig. For å finne p-verdien må vi først finne observert verdi for testobservatoren. Innsatt observerte tall får vi p E x E ne 135, p 1919 F x F 186, 01 p x E + x F + 186 + 135 01 + 1919 31 3940, og observert verdi for testobservatoren blir dermed z obs p E p F p1 p) ) 1 + 1 31 3940 135 186 1919 01 1 31 3940 ) 1 1919 + 1 01 ).49 Man vil naturlig forkaste H 0 dersom Z er liten nok, så p-verdien blir p P Z z obs H 0 ) P Z.49 H 0 ) 0.0064.

Side 10 av 11 TMA440 Statstikk, 30. november 017 Sannsynligheten for å observere det vi har observert eller noe mer ekstremt dersom H 0 er riktig er altså så lav som 0.0064. Det er følgelig rimelig å forkaste H 0, dvs konkludere med at omorganiseringen har vært vellykket. c) La Y være antall av pasientene som blir operert neste år som får infeksjon. Vi har da at Y er uavhengig av X E og at Y by; m, p E ). Ved å argumentere tilsvarende som i a) får vi at Y m X E er tilnærmet normalfordelt med E [Y m ] X E mp E m p E 0 ne og Var [Y m ] X E ne ) m mp E 1 p E ) + ne p E 1 p E ) ne m 1 + m ) p E 1 p E ). ne Ved å standardisere får vi dermed Y m X E m ) nz; 0, 1). 1 + m pe 1 p E ) Erstatter så p E i dette uttrykket med p E X E er stor, til å konkludere at og bruker at p E p E siden Dermed har vi at P z α Y m X E m ) ) nz; 0, 1). 1 + m XE 1 X E Y m X E m ) 1 + m XE ) z α 1 X E 1 α. Løser hver av ulikhetene i dette uttrykket med hensyn på Y. Den første ulikheten gir Y m X E z α m 1 + m ) XE 1 X ) E,

TMA440 Statstikk, 30. november 017 Side 11 av 11 og den andre gir Y m X E + z α m 1 + m ) XE 1 X E Ved å sette de to ulikhetene sammen igjen med Y i midten har man dermed at m P X E z α m 1 + m ) XE 1 X ) E Y m X E + z α m 1 + m ) XE 1 X ) ) E 1 α. Et 1 α) 100%-prediksjonsintervall for Y er dermed [ m X E z α m 1 + m ) XE 1 X E ). ), m X E + z α m 1 + m ) XE Innsatt α 0.1, og dermed z α z 0.05 1.645, og observerte verdier blir prediksjonsintervallet 000 135 1.645 000 1919 000 135 + 1.645 000 1919 [113.81, 167.58]. 1 + 000 ) 135 1 135 ), 1919 1919 1919 1 + 000 1919 ) 135 1 135 ) 1919 1919 1 X E ) ]