TMA4240 Statistikk Høst 2015

Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Øving nummer 8, blokk II Løsningsskisse Oppgave 1 Da komponentene danner et parallellsystem, vil systemet fungere dersom minst en av komponentene fungerer. Vi lar dermed levetiden til systemet betegnes ved V max(x 1, X 2 ), og fordelingen til V finnes ved å benytte at komponenten med lengst levetid er mindre eller lik v hvis og bare hvis begge komponentene er mindre eller lik v: F V (v) P(V v) P(max(X 1, X 2 ) v) P(X 1 v X 2 v) Vi har videre Uavh. P(X 1 v) P(X 2 v) (F X (v)) 2 (1 e λv ) 2 1 2e λv + e 2λv. Forventningen til V er gitt ved Ved delvis integrasjon får vi dermed E(V ) f V (v) d dv F V (v) 2 λ e λv 2 λ e 2 λv. E(V ) vf V (v) dv 0 vf V (v) dv. (2 λ v e λv 2 λ v e 2 λv ) dv 3 2λ. Oppgave 2 Da vi har et seriesystem, vil systemet fungere frem til første komponent svikter. Vi lar dermed levetiden til systemet betegnes ved U min(x 1, X 2,..., X n ). F U (u) P(U u) P(min(X 1, X 2,..., X n ) u) 1 P(min(X 1, X 2,..., X n ) > u) ov8-lsf-b 9. oktober 2015 Side 1

1 P(X 1 > u X 2 > u X n > u) Uavh. 1 n P(X i > u) i1 1 (1 F X (u)) n 1 (1 (1 e (λ x)α )) n 1 (e (λ x)α ) n 1 e (n1/α λ x) α. Dette er en Weibull-fordeling med skalaparameter n 1/α λ og formparameter α. Oppgave 3 Scriptet run confds.m simulerer n data x 1,..., x n fra en normalfordeling med forventningsverdi µ 1 og varians σ 2 2 2 ved å trekke n ganger fra en standard normalfordeling y i N(0, 1) og utføre lineærtransformasjonen x i µ + σ y i, i 1,..., n Fra uttrykket kan vi greit regne på at da vil x i N(µ, σ 2 ). (I Matlab trekker man fra en standard normalfordeling med funksjonen randn ). Kjører vi scriptet får vi et histogram av n 10000 simulerte data x 1,..., x n, som f.eks. kan se slik ut Figur 1: Histogram av n 10000 simulerte data fra N(1, 2 2 ) Histogrammet til høyre er standardisert, altså transformert slik at areal under histogramsøylene blir 1. I plottet er det i grønt også tegnet inn kurven for normalfordelingen med forventning 1 og standardavvik 2. Vi ser at de simulerte dataene overlapper normalfordelingen de kommer fra veldig bra. Dette siden vi simulerer såpass mange datapunkter. Det resulterende gjennomsnittet ˆµ 1 n n i1 x i 1.0047 er veldig nærme den sanne forventningsverdien som også ligger innenfor det estimerte konfidensintervalet [0.96591.0434]. ov8-lsf-b 9. oktober 2015 Side 2

Trekker vi stedet n 100000 data (setter altså parameteren n i scriptet til 100000) kan histogrammet f.eks. se ut som i Fig.2 med estimert forventningsverdi ˆµ 0.9983 og estimert 95% konfidensinterval [0.9859, 1.0107]. Igjen er estimatet tilnærmet likt sann forventnigsverdi, som ligger innenfor konfidensintervalet, og overlappen mellom dataene og normalkurven er enda bedre. Figur 2: Histogram av n 100000 simulerte data fra N(1, 2 2 ) Trekker vi n 1000 data (setter altså parameteren n i scriptet til 1000) kan histogrammet f.eks. se ut som i Fig.3. med estimert forventningsverdi ˆµ 0.9594 og estimert 95% konfidensinterval [0.83741.0815]. Estimatet er fortsatt bra, men ikke like nærme som i tilfellene med høyere n. Vi ser også at estimert konfidensinterval er litt bredere, og at overlappen mellom dataene og normalkurven er dårligere (dette er også fordi vi har så liten oppløsning på histogrammet). Figur 3: Histogram av n 1000 simulerte data fra N(1, 2 2 ) Det estimerte konfidensintervalet er beregnet som [ ˆµ 1.96 ˆσ n, ˆµ + 1.96 ] ˆσ n ov8-lsf-b 9. oktober 2015 Side 3

Når datamengden vokser og estimatet på standardaviket ikke varierer mye ser vi at faktoren ˆσ n går mot 0, altså blir konfidensintervalet smalere jo større datamengden er. Vi merker oss også at vi her har brukt kvantilen z 0.025 1.96 fra en normalfordeling selv om vi her bruker estimert varians. Med ukjent varians burde vi egentlig brukt kvantiler fra t-fordeling, men siden datamangden er så stor (n 1000) vil t-fordeling med n 1 frihetsgrader være tilnærmet lik standard normalfordeling. Oppgave 4 a) Sannsynligheten for at et batteri virker etter 130 timer er ( T µ p P (T > 130) 1 P ( 130) 1 P σ 1 P (Z 1.28) 1 0.8997 0.1003 ) 130 117.2 10 Vi har n 8 slike batterier og de er uavhengig av hverandre. Hvis X er antall batterier som virker etter 130 timer, har vi at X består av n uavhengige forsøk, hver med sannsylighet p for suksess, X er derfor binomisk fordelt. Radioen virker dersom minst 4 batterier: b) P (Radioen virker) P (X 4) 1 P (X 3) 3 1 p(x; n 8, p 0.1) 1 0.995 0.005 M X (t) E[e tx ] n x0 x0 n e tx p(x; n, p) x0 n ( ) n e tx p x (1 p) n x x x0 ( ) n (pe t ) x (1 p) n x (pe t + 1 p) n x E[X] dm X(t) dt n(pe t + 1 p) n 1 (pe t ) t0 t0 n(p + 1 p) n 1 p np Oppgave 5 a) La V være målt vekt, slik at V N(µ, σ 2 ) N(10, 0.2 2 ). Vi får ( ) V µ 10.2 10 P (V > 10.2) P > P (Z > 1) σ 0.2 1 P (Z 1) 1 0.8413 0.1587 Avvik fra µ med mer enn 0.2 gram vil tilsvare V > 10.2 eller V < 9.8 og for å løse oppgaven kan en direkte regne ut sannsynligheten for disse hendelsene og legge de sammen. ov8-lsf-b 9. oktober 2015 Side 4

Enda raskere kan vi se at P (V < 9.8) P (V > 10.2) pga symmetri i normalfordelingen, slik at løsningen er gitt ved 2P (V > 10.2). Alternativt kan vi løse oppgaven mer generelt. Vi har at V > 10.2 er det samme som V > µ + 0.2, mens V < 9.8 er det samme som V < µ 0.2. Ved omskriving ser vi at vi har hendelsene V µ > 0.2 og V µ < 0.2, som kan skrives som ett uttrykk V µ > 0.2. Dette er standard notasjon i statistikk for avvik fra en parameter. Vi har da, P ( V µ > 0.2) P (V µ > 0.2) + P (V µ < 0.2) ( V µ P > 0.2 ) ( V µ + P < 0.2 ) σ 0.2 σ 0.2 P (Z > 1) + P (Z 1) 1 P (Z 1) + P (Z 1) 2 P (Z 1) 2 0.1587 0.3174 La V 1 n n i1 V i, slik at V N(µ, σ 2 /n). Vi får P ( V µ > 0.2) P ( V µ > 0.2) + P ( V µ < 0.2) ( V µ P σ/ n > 0.2 ) ( V µ 0.2/ + P 2 σ/ n < 0.2 ) 0.2/ 2 P (Z > 2) + P (Z 2) 1 P (Z 2) + P (Z 2) 2 P (Z 1.41) 2 0.0793 0.1586 b) Vi har X 1 N(µ A, σ 2 ) og X 2 N(µ B, σ 2 ) som er uavhengig av hverandre. Vi får ved fremgangsmåte 1: E[ˆµ A ] E[X 1 ] µ A Var[ˆµ A ] Var[X 1 ] σ 2 E[ˆµ B ] E[X 2 ] µ B Var[ˆµ B ] Var[X 2 ] σ 2 Vi har Y 1 N(µ A + µ B, σ 2 ) og Y 2 N(µ A µ B, σ 2 ) som er uavhengig av hverandre. Vi får ved fremgangsmåte 2: E[ µ A ] E[(Y 1 + Y 2 )/2] (E[Y 1] + E[Y 2 ]) (µ A + µ B + µ A µ B ) µ A Var[ µ A ] Var[(Y 1 + Y 2 )/2] 1 4 (Var[Y 1] + Var[Y 2 ]) 1 4 (σ2 + σ 2 ) σ 2 /2 E[ µ B ] E[(Y 1 Y 2 )/2] (E[Y 1] E[Y 2 ]) (µ A + µ B µ A + µ B ) µ B Var[ µ B ] Var[(Y 1 Y 2 )/2] 1 4 (Var[Y 1] + Var[Y 2 ]) 1 4 (σ2 + σ 2 ) σ 2 /2 Begge fremgangsmåtene gir forventningsrette estimatorer, så vi velger den med minst varians, dvs. fremgangsmåte 2: µ A og µ B. ov8-lsf-b 9. oktober 2015 Side 5

c) Vi har µ A u 1 (Y 1, Y 2 ) (Y 1 + Y 2 )/2 og µ B u 2 (Y 1, Y 2 ) (Y 1 Y 2 )/2, som gir oss at Y 1 w 1 ( µ A, µ B ) µ A + µ B og Y 2 w 2 ( µ A, µ B ) µ A µ B. Fra transformasjonsformelen for to variabler har vi da at hvor g µa, µ B ( µ A, µ B ) f Y1,Y 2 (w 1 ( µ A, µ B ), w 2 ( µ A, µ B )) J J δw 1/δ µ A δw 2 /δ µ A δw 1 /δ µ B δw 2 /δ µ B 1 1 1 1 2. Siden Y 1 og Y 2 er uavhengige, har vi f Y1,Y 2 (y 1, y 1 ) f Y1 (y 1 )f Y2 (y 2 ) og vi får følgende: g µa, µ B ( µ A, µ B ) f Y1,Y 2 (w 1 ( µ A, µ B ), w 2 ( µ A, µ B )) J f Y1 (w 1 ( µ A, µ B ))f Y2 (w 2 ( µ A, µ B )) 2 1 1 1 σ exp 1 1 ( 2σ 2 ( µ A + µ B (µ A + µ B )) 2 σ exp 1 2σ 2 ( µ A µ B (µ A µ B )) 2 2 ) 2 exp 1 [ ( µa 2σ 2 + µ B ) 2 2( µ A + µ B ) 1 2 σ (µ A + µ B ) + (µ A + µ B ) 2 + ( µ A µ B ) 2 2( µ A µ B ) (µ A µ B ) + (µ A µ B ) 2] ( ) 2 exp [ µ σ 2σ 2 A + 2 µ A µ B + µ 2 B 2 µ A µ A 2 µ A µ B 2 µ B µ A 2 µ B µ B + µ 2 A + 2µ A µ B + µ 2 B + µ 2 A 2 µ A µ B + µ 2 B 2 µ A µ A + 2 µ A µ B + 2 µ B µ A 2 µ B µ B + µ 2 A 2µ A µ B + µ 2 ] B ( ) 2 exp 1 [ 2 µ 2 σ 2σ 2 A + 2 µ 2 B 4 µ A µ A 4 µ B µ B ] +2 µ 2 A + 2 µ 2 B ( σ 1 2 σ exp σ exp ) 2 exp 2 2 g µa ( µ A )g µb ( µ B ) [ ( µa 2σ 2 µ A ) 2 + ( µ B µ B ) 2] 2σ 2 ( µ A µ A ) 2 2 2σ 2 ( µ B µ B ) 2 og dermed er µ A og µ B uavhengige ( µ A N(µ A, σ 2 /2) og µ B N(µ B, σ 2 /2)). ov8-lsf-b 9. oktober 2015 Side 6