Løsningsforslag eksamen 27. februar 2004

MOT30 Statistiske metoder Løsningsforslag eksamen 7 februar 004 Oppgave a) Y ij = µ i + ε ij, der ε ij uavh N(0, σ ) der µ i er forventa kopperinnhold for legering i og ε ij er feilleddet (tilfeldig variasjon) Alternativt: Y ij = µ + α i + ε ij, der ε ij uavh N(0, σ ) der µ er gjennomsnittlig forventa kopperinnhold, α i er effekten av legering i, 4 i= α i = 0 og ε ij er feilleddet (tilfeldig variasjon) Residual: e ij = y ij ȳ i Fra det første plottet av residualene får vi en sjekk av om variansen er lik i alle grupper (alle legeringer) Det ser ut til å være oppfylt her da residualene ser ut til å ha lik spredning i alle tilfellene Fra det andre plottet av residualene får vi en sjekk av antagelsen om normalfordeling Denne antagelsen ser også ut til å være oppfylt da residualene ligger noenlunde langs en rett linje b) Fra plottet kan det se ut som at legering og 4 tenderer til å ha noe lavere kopperinnhold enn legering og 3 Kilde SS df M S F Legering 00773 3 00059077 658 Feil 008853 00008978 Total 0036576 4 H 0 : µ = µ = µ 3 = µ 4 mot H : minst en ulik Vi forkaster H 0 dersom F f 005,3, = 307 Dvs med de observerte dataene forkaster vi H 0 på 5% nivå Forventet kopperinnhold er ulikt ved de ulike legeringene c) Vi antar at Y,, Y n er N(µ, σ )-fordelte og at Y,, Y n er N(µ, σ )-fordelte og at alle observasjoner er uavhengige Hva vi velger å anta om variansen avgjør hvordan vi går frem videre De finnes tre muligheter ) Antar at σ = σ = σ (lik varians): Konfidensintervall for µ µ : ˆµ ˆµ = Ȳ Ȳ Z = Ȳ Ȳ E(Ȳ Ȳ ) Var(Ȳ Ȳ ) = Ȳ Ȳ (µ µ ) = σ n + σ n Ȳ Ȳ (µ µ ) σ + n n N(0, )

Her er σ ukjente, estimeres ved Spooled = (n )S +(n )S n +n og når σ erstattes med Spooled har vi fra pensum at T = Ȳ Ȳ (µ µ ) t S pooled n + n +n n P ( t α/,n +n T t α/,n +n ) = α P ( t α/,n +n Ȳ Ȳ (µ µ ) S pooled n + n t α/,n +n ) = α P ( t α/,n +n S pooled n + n Ȳ Ȳ (µ µ ) t α/,n +n S pooled n + n ) = α P (Ȳ Ȳ t α/,n +n S pooled n + n µ µ Ȳ Ȳ + t α/,n +n S pooled n + n ) = α Dvs med t α/,n +n = t 005,3 = 60, ȳ = 83043, ȳ = 8993 og s pooled = (7 0004 + 6 000056)/(8 + 7 ) = 0095 får vi følgende 95% konfidensintervall for µ µ : [83043 8993 60 0095 8 + 7, 83043 8993 + 60 0095 8 + 7 ] = [007, 0083] ) Antar at σ σ (ulik varians): Konfidensintervall for µ µ : ˆµ ˆµ = Ȳ Ȳ Z = Ȳ Ȳ E(Ȳ Ȳ ) Var(Ȳ Ȳ ) = Ȳ Ȳ (µ µ ) N(0, ) σ n + σ n Når σ og σ erstattes med estimatorene S og S har vi fra pensum at T = Ȳ Ȳ (µ µ ) S n + S n t ν der ν = (s /n + s /n ) (s /n ) n + (s /n ) n = (0004/8 + 000056/7) (0004/8) 7 + (000056/7) 6 = 48

P ( t α/,ν T t α/,ν ) α S P (Ȳ Ȳ t α/,ν + S S µ µ n n Ȳ Ȳ + t α/,ν + S ) α n n Dvs med t α/,ν = t 005, = 79, ȳ = 83043, ȳ = 8993, s = 0004 og s = 000056 får vi følgende (tilnærmede) 95% konfidensintervall for µ µ : [83043 8993 79 0004 8 + 000056 7, 83043 8993 + 79 0004 8 + 000056 7 ] = [007, 0083] 3) Dersom vi også antar at observasjonenene fra de to andre legeringene er normalfordelte og antar at alle har samme varians kan variansen estimeres ved ˆσ = SSE/(N k) = SSE/(5 4) (generelt er N = k i= n i og k antall grupper) Siden SSE/σ χ N k får vi at når vi erstatter σ i Z = Ȳ Ȳ (µ µ ) σ + N(0, ) n n med estimatoren ˆσ vil T = Ȳ Ȳ (µ µ ) ˆσ n + n t N k P ( t α/,n k T t α/,n k ) = α P (Ȳ Ȳ t α/,n kˆσ + µ µ n n Ȳ Ȳ + t α/,n kˆσ + ) n n = α Dvs med t α/,n k = t 005,5 4 = t 005, = 080, ȳ = 83043, ȳ = 8993, ˆσ = SSE/ = 00008978 = 00996 får vi følgende 95% konfidensintervall for µ µ : [83043 8993 080 00996 8 + 7, 83043 8993 + 080 00996 8 + 7 ] = [008, 008] Uansett hvilken fremgangsmåte vi bruker så får vi et konfidensintervall som ikke inneholder 0, dette viser at det er forskjell i forventet kopperinnhold i de to legeringerne Legering har høyrere forventet kopperinnhold (Pga at 0 ikke er inneholdt i 95% konfidensintervallet vil vil forkaste H 0 : µ = µ mot H : µ µ på 5% nivå) 3

Oppgave a) Når σ er ukjent har vi fra pensum at: H 0 : µ = mot H : µ T = X µ 0 S/ n t n under H 0 Med α = 0 og n = forkaster vi nullhypotesen dersom T t α/,n = t 005, = 796 eller T t α/,n = t 005, = 796 Observert: x = 465/ = 054, s = ni= n (x i x) = 037/ = 0097363, dvs s = 074 og dermed 054 0 t obs = 074/ = 08 Dataene gir ingen grunn for å påstå at forvent- Dvs, vi forkaster ikke H 0 på 0% nivå ningsverdien er ulik b) En god estimator skal være forventningsrett og ha så liten varians som mulig Fra resultatene i formelsamling får vi at nˆσ σ = n σ (X i µ) χ n og i= (n )S σ = n σ (X i X) χ n i= som sammen med resultatet at i en χ ν-fordeling er forventningsverdien ν og variansen ν gir oss: E(ˆσ ) = σ E(nˆσ n σ ) = σ n n = σ E(S σ )S ) = E((n n σ ) = σ (n ) = σ n Var(ˆσ ) = Var( σ n nˆσ σ ) = σ4 Var(nˆσ n σ ) = σ4 n Var(S ) = Var( σ (n )S n σ ) = σ4 n = n σ 4 )S Var((n (n ) σ ) = σ 4 σ4 (n ) = (n ) n Dvs begge estimatorene er forventningsrette, men ˆσ har minst varians og er derfor å foretrekke c) Vi bruker ˆσ og resultatet at og får: n ˆσ σ = n i= (X i µ) σ χ n P (χ α/,n n ˆσ σ χ α/,n ) = α ( χ α/,n P nˆσ ) σ χ α/,n nˆσ = α ( ) nˆσ P σ nˆσ = α χ α/,n χ α/,n 4

Observert: n = og nˆσ = n ni= n (x i µ) = i= (x i ) = 0363 og med α = 005 χ 005, = 3337 og χ 0975,3 = 4404 gir dette 95% konfidensintervall for σ: Oppgave 3 a) Y = Xβ + E der [ ] 0363 3337, 0363 = [006, 008] 4404 Y = Y Y n, X = x x x 3 x x x 3 x n x n x 3n X =, β = 49 39 54 4 75 55 7 7 054 β 0 β β β 3 og E = E E n Fra datautskriften ser vi at: ŷ = b 0 +b x +b x +b 3 x 3 = 570 0349x 0008x + 0955x 3 som spesielt gir ŷ(5, 50, 0) = 570 0349 5 0008 50 + 0955 0 = 569 b) H 0 : β = β = β 3 = 0 mot H : minst en β i 0 Vi forkaster H 0 dersom F f 005,3, = 305, dvs med f obs = 8380 forkaster vi H 0 på 5% nivå De 3 variablene har samlet sett innflytelse på ph-verdien Fra datautskriften ser vi at vi på 5% nivå vil forkaste H 0 : β i = 0 mot H : β i 0 for både β, β og β 3 (alle p verdier mindre enn 005), dvs alle variablene har betydning c) Vi har at H 0 : β 3 = mot H : β 3 Z = B 3 E(B 3 ) Var(B3 ) = B 3 β 3 Var(B3 ) = B 3 Var(B3 ) = B 3 Var(B3 ) N(0, ) under H 0 og med ukjent varians får vi at T = B 3 = B 3 Var(B 3 ) ŜD(B 3 ) t n 4 under H 0 Vi forkaster H 0 dersom T t α/,n 4 = t 005, = 074 eller T t α/,n 4 = 074 Observert: t obs = 0955 0076 = 059 Dvs, vi forkaster ikke H 0 på 5% nivå, dataene gir ikke grunnlag for å hevde at påstanden er gal 5

d) Tar utgangspunkt i: Ŷ 0 Y 0 = ˆµ Y x0 Y 0 der Y 0 er den nye målingen Når x 0 = (, 5, 50, ) T får vi Tallsvar: E(Ŷ0 Y 0 ) = E(ˆµ Y x0 ) E(Y 0 ) = µ Y x0 µ Y x0 = 0 Var(Ŷ0 Y 0 ) uavh = Var(Ŷ0) + Var(Y 0 ) = 007σ + σ = 07σ T = Ŷ0 Y 0 S 07 t n 4 P ( t α/,n 4 T t α/,n 4 ) = α P ( t 005, Ŷ0 Y 0 S 07 t 005,) = 095 P (Ŷ0 t 005, S 07 Y 0 Ŷ0 + t 005, S 07) = 095 Innsatt ŷ 0 = b 0 + b x 0 + b x 0 + b 3 x 30 = 570 0349 5 0008 50 + 0955 0 = 569, s = 007 = 07 og t 005, = 074 gir dette følgende 95% prediksjonsintervall: [569 074 07 07, 569 + 074 07 07] = [545, 593] 6