Norges teknisk naturvitenskapelige universitet Institutt for matematiske fag Side av 7 Oppgave Sykkelruter a) P (Y > 6) P (Y > 6) P ( Y 7 > 6 7 ) Φ( ) 0.587 0.843 b) Hypoteser: H 0 : µ µ 2 H : µ < µ 2 P (X < 7 X < 8) P ( X 6 P ( X 6 P (X < 7 X < 8) P (X < 8) < 7 6 ) < 8 6 ) P (X < 7)) P (X < 8) Φ() Φ(2) 0.843 0.9772 0.86 P (min(x, Y ) < 6) P (min(x, Y ) > 6) P (X > 6 Y > 6) P (X > 6) P (Y > 6) 0.5 0.846 Som tilsvarer H 0 : µ µ 2 0 H : µ µ 2 < 0 Ser på X Ȳ, da det er en estimator for µ µ 2. Har at X N(µ, σ 2 /7) og Ȳ N(µ 2, σ 2 /8). Får da; X Ȳ N(µ µ 2, σ 2 (/7 + /8)) (lineær kombinasjon av uavhengige normalfordelte stokastiske variable). Antar at H 0 er sann, dvs µ µ 2 0 og får da; Z X Ȳ σ /7 + /8 N(0, ) Forkaster H 0 dersom observert z obs < z α, dvs z obs < z 0.05.645. Observer; z obs x ȳ σ /7 + /8 6.3 6.8 /7 + /8 0.96
Side 2 av 7 Da z obs ikke er i forkastningsområdet beholder vi H 0, og kan ikke konkludere med at Solan sin rute er raskest. For å finne styrken må vi finne fordelingen til Z når X N(6, 2 ) og Y N(7, 2 ). Vi kaller denne stok.var. Z H. Nå er X Ȳ N(, (/7+/8)). Og vi får at Z H X Ȳ er normalfordelt med; X E(Z H ) E( Ȳ ) /7 + /8 /7 + /8 E( X Ȳ ) /7 + /8.92 /7+/8 X V ar(z H ) V ar( Ȳ ) /7 + /8 /7 + /8 V ar( X Ȳ ) Altså Z H N(.92, ). Styrken er sannsynlihgheten for at H 0 blir forkastet, dvs P (Z H <.645) P ( Z H (.92) <.645 (.92) ) Φ(0.27) 0.6064 Dersom µ 6 er µ 2 7 er styrken til testen på 0.6. c) Vi har to utvalg med felles varians, og kan da bruke estimatoren Sp 2 (n )S2 + (m )S2 2 n i (X i X) 2 + m j (Y j Ȳ )2 n + m 2 n + m 2 der S 2 i n (X i X) 2, S2 2 j m (Y j Ȳ )2, n 7 og m 8. Estimert varians; s 2 i p (x i x) 2 + m j (y j ȳ) 2 6.8 + 5.44 n + m 2 7 + 8 2 0.94 For å finne et konfidensintervall for σ 2 trenger vi å finne fordelingen til en stokastisk variabel der både S 2 p og σ 2 inngår. Da det er varians vi ser på, mistenker vi at dette må bli en χ 2 - fordeling. Vi vet at (n )S2 χ 2 σ 2 n og (m )S2 2 σ 2 χ 2 m. Videre har vi at (n + m 2) S 2 p σ 2 (n )S2 σ 2 + (m )S2 2 σ 2. En sum av χ 2 -fordelte variable er χ 2 -fordelt med summer av frihetsgradene. Altså er (n + m 2) Sp 2 χ 2 σ n+m 2, og vi får 2
Side 3 av 7 P (χ 2 α/2 < (n + m 2) S2 p σ 2 < χ 2 α/2) αp ( S2 p(n + m 2) χ 2 α/2 Konfidensintervall [ s2 p(n + m 2) χ 2 α/2, s2 p(n + m 2) ] χ 2 α/2 < σ 2 < S2 p(n + m 2) ) α. χ 2 α/2 Innsatt for verdier; α 0.05, χ 2 0.975,3 5.009, χ 2 0.025,3 24.736 får vi [0.50, 2.44]. En hypotesetest: H 0 : σ 2 H : σ 2 med signifikansnivå på 5% vil ikke bli forkastet da er i konfidensintervallet. d) Enkel lineær regresjonsmodell: Y i α + βt i + ɛ i for i, 2,..., n. Antar uavhengige normalfordelte støyledd; ɛ i N(0, σ ɛ ). (Trenger bare å anta at støyen er uavhengige med E(ɛ i ) 0 og lik varians.) Minste-kvadraters estimatorar for regresjonsparametrene; ˆβ i (t i t)y i i (t i t) 2 ˆα Ȳ ˆβ t Har at E(ˆα) α og E( ˆβ) β. Antar ɛ i N(0, 0.5 2 ), dvs σɛ 2 0.5 2. Har da at Y i N(α + βt i, σɛ 2 ). Fabian sin hypotese (tar lengre tid dess senere på morgenen han starter): H 0 : β 0 H : β > 0 For å teste hypotesa tar vi utgangspunkt i fordelinga til ˆβ. ˆβ er en lineær kombinasjon av normalfordelte stokastiske variable (Y i ), og er dermed selv normalfordelt. Vet at E( ˆβ) β, trenger V ar( ˆβ). V ar( ˆβ) i V ar( (t i t)y i n i (t i t) ) 2 ( i (t i t) 2 ) V ar( 2 n (t i t)y i ) i
Side 4 av 7 Altså er ˆβ N(β, ( i (t i t) 2 ) 2 n (t i t) 2 V ar(y i ) σɛ 2 i (t i t) 2 i σ 2 ɛ i (t i t) 2 ). Og vi har under H 0 Z ˆβ 0 σ ɛ / i (t N(0, ) i t) 2 Vi vil forkaste H 0 dersom vår observerte z obs > z α z 0.0 2.326 z obs 0.037 0.5/ 2250 3.54 z obs er i forkastningsområdet. Vi forkaster H 0, og aksepterer H. e) Vår prediktor: Ŷ0 ˆα + ˆβt 0. Estimerte regresjonsparametre ˆα 5.30 og ˆβ 0.0373. Dermed er predikert verdi for t 0 90; ŷ 0 ˆα + ˆβt 0 8.66. For å finne et prediksjonsintervall ser vi på prediksjonsfeileen Ŷ0 Y 0, som er en lineærkombinasjon av normalfordelte stokastiske variable, og dermed selv normalfordelt med og E(Ŷ0 Y 0 ) E(ˆα + ˆβt 0 (α + βt 0 + ɛ 0 )) α + βt 0 (α + βt 0 ) 0 V ar(ŷ0 Y 0 ) V ar(ˆα + ˆβt 0 (α + βt 0 + ɛ 0 )) V ar(ȳ + ˆβ(t 0 t) (α + βt 0 + ɛ 0 )) (bruker at Ȳ, ˆβ og ɛ 0 er uavhengige) V ar(ȳ ) + (t 0 t) 2 V ar( ˆβ) + V ar(ɛ 0 ) σ2 ɛ n + (t 0 t) 2 σɛ 2 i (t i t) + 2 σ2 ɛ σ 2 Ŷ 0 Vi får dermed at Løser ut for Y 0, og får; P (z α/2 < Ŷ0 Y 0 σŷ0 < z α/2 ) α. P (Ŷ0 z α/2 σŷ0 < Y 0 < Ŷ0 + z α/2 σŷ0 ) α Prediksjonsintervall: [ŷ 0 z α/2 σŷ0 ; ŷ 0 + z α/2 σŷ0 ] [6.5; 0.8].
Side 5 av 7 Kommentar: Vi har tilpasset modellen med data fra kl 7 : 00 til kl 8 : 00. Deretter har vi predikert for klokka 8 : 30, en halv time senere. Dette blir kalt ekstrapolasjon. Modellen passer for økende morgentrafikk, men fra dataene vet vi ingenting om at trafikken fortsatt er økende fra klokka 8 : 00 til 8 : 30. Vi skal derfor være forsiktig med å bruke modellen utenfor tidsspennet i datasettet vårt. Oppgave 2 Løsning: Ras ved sprengningsarbeid a) S 4 i X i. i) X i er enten suksess,, om ras skjer, eller ikke-suksess, 0, om ras ikke skjer. ii) Uavhengige X i -er. iii) Konstant suksess sannsynlighet p 0.5. S er binomisk fordelt. P (S 0) ( p) 4 0.52 P (S S ) P (S )/P (S ) p( p) 3 4/( 0.52) 0.7. P (S > S ) P (S S ) 0.7 0.29 b) Z er kostnad, Z 40 mill ved X, dvs RAS. Z 0 ved X 0, dvs IKKE RAS. P (Z 40) p 0.5. P (Z 0) p 0.85 E(Z) 40 0.5 + 0 0.85 40 0.5 6 V ar(z) E(Z 2 ) E(Z) 2 40 2 0.5 6 2 4.3 2 204 Std(Z) V ar(z) 4.3 millioner Strategi A har forventet kostnad (6 millioner), mindre enn 7 millioner som man får ved strategi B. Ved kun å se på forventet verdi, vil vi velge A. Usikkerheten i kostnad er derimot stor, og hvis man ikke liker risiko om uforutsett utgift på 40 millioner, vil man velge B. Enten er kostnad 7 millioner, dersom grundig undersøkelse svarer RAS. Dette skjer med sannsynlighet 0.5. Eller er kostnad 0, dersom grundig undersøkelse svarer IKKE RAS. Dette skjer med sannsynlighet 0.85. I tillegg kommer en kostnad til ekspertene på 5 millioner. E(X) 5 + (0.5 7 + 0.85 0) 6.05 Forventet kostnad er 6.050.000 > 6 mill. Dersom man bruker forventet kostnad som beslutningsgrunnlag, bør den grundige undersøkelsen ikke gjennomføres. Undersøkelsen har derimot mindre forventet kostnad enn stategi B, så hvis du har valgt strategi B over, er det kanskje igjen smart å gjennomføre undersøkelsen. Underøkelsen gir utfallsrom på kostnad: {5, 5 + 7 2}.
Side 6 av 7 c) Indikatoren I i er enten 0 (ved feil uttalelse, dvs Y i X i ) eller (ved riktig uttalelse, dvs Y i X i ). Sannsynligheten for rett uttalelse, gitt sannheten X i er: P (I i ) P (Y i X i X i ) γ. Ikke-suksess er I i 0, som skjer 5 ganger, mens suksess er I i som skjer 0 ganger. Rimelighetsfunksjonen (likeilhood) er L(γ) 5 i Log-likelihood er P (Y i y i X i x i ) [γ 5 ( γ) 7 5 ][γ 5 ( γ) 8 5 ] γ P 5 i I i ( γ) 5 P 5 i I i 5 5 l(γ) ln L(γ) I i ln γ + (5 I i ) ln( γ) i Vi deriverer log likelihood og får: l (ˆγ) 5 i I i/ˆγ (5 5 i I i)/( ˆγ) 0. Løsningen er ˆγ 5 i I i/5. Så forslaget er SME. Det er også mulig å løse oppgaven ved å tenke at W 5 i I i er binomisk fordelt, med parameter 5 og γ. Likelihood blir da ( ) 5 L(γ) γ w ( γ) 5 w (2) w med samme løsning som over. Innsetting: ˆγ 5 i I i/5 0/5 2/3 0.67. i () d) i E(ˆγ) E(I i) 5γ/5 γ 5 i V ar(ˆγ) V ar(i i) 5( γ)γ/5 2 ( γ)γ/5 5 2 her er E(I i ) γ + ( γ) 0 γ, og V ar(i i ) E(Ii 2 ) E(I i ) 2 γ γ 2 ( γ)γ. e) Loven om total sannsynlighet: P (Y ) P (Y X )P (X ) + P (Y X 0)P (X 0) Vi får: P (Y ) 0.66 0.5 + 0.33 0.85 0.38 P (Y 0) P (Y ) 0.62 Dette gjør det lettere å bruke Bayes formel P (X Y 0) P (Y 0 X )P (X ) 0.62 0.33 0.5/0.62 0.08
Side 7 av 7 P (X 0 Y 0) 0.08 0.92 P (Y X )P (X ) P (X Y ) 0.66 0.5/0.38 0.26 0.38 P (X 0 Y ) 0.26 0.74 Beslutningen blir billigste løsning. Dersom E(Z Y y) < 7 mill, velges strategi A. Dersom E(Z Y y) > 7 mill, velges strategi B. E(Z Y 0) 40 0.08 + 0 0.92 3.2 < 7 E(Z Y ) 40 0.26 + 0 0.74 0.4 > 7 C + E(Z Y 0)P (Y 0) + 7P (Y ) + 3.2 0.62 + 7 0.38 5.65 Siden forventet kostnad nå er mindre enn 6 mill, bør denne undersøkelsen gjennomføres.