Løsningsforslag for: MOT10 STATISTISKE METODER 1 VARIGHET: 4 TIMER DATO: 6. november 007 TILLATTE HJELPEMIDLER: Kalkulator: HP0S, Casio FX8 eller TI-0 Tabeller og formler i statistikk (Tapir forlag) MERKNADER: Alle deloppgaver vektlegges likt. Oppgave 1 Vi ønsker å teste om der er en forskjell i styrke mellom to typer bærebjelker. To tilfeldige utvalg er trukket og der er målt antall tonn hver enkelt bjelke tåler før den bryter sammen. For å kunne bruke toutvalgs t tester må vi ha at X i ene og Y i ene er (ihvertfall tilnærmet) normalfordelte. Dersom dette ikke er tilfelle må vi basere testen på at teststørrelsen er tilnærmet normalfordelt. Vi har litt få målinger til å kunne gjøre dette: Begge måleseriene bør være lange, vi har = 5. a) Vi antar (og dette bør i praksis sjekkes!) at X 1,..., X 9 er uif. normalfordelte med forventning µ X og varians σ X, og Y 1,..., Y 5 er uif. normalfordelte med forventning µ Y og varians σ Y. Vil ikke anta like varianser siden estimatene er så ulike. Var(X Y ) = σ X Var(X Y ) = s X + σ Y S X + s Y = 4.008. + S Y. (Se forelesningsnotater) Vil teste: H 0 : µ X µ Y = 0 mot H 1 : µ X µ Y 0. Test: Forkast H 0 dersom T = X Y (µ X µ Y ) S X + S Y t α/,ν eller T = X Y (µ X µ Y ) S X + S Y t α/,ν, der ν = ( s X + s Y ) ( s X ) + ( 1 s Y ) n Y 1 = 6.77 6 (avrundet nedover til nærmeste heltall) Kritisk verdi på 5% nivå er t 0.05,6 =.447. Konklusjon: Dataene gir ikke grunnlag til å forkaste H 0 siden T Obs = 1.174 >.447 og T Obs = 1.174 <.447. Vi kan ikke hevde at det er en forskjell mellom bjelkene. (Hvis like varianser antas blir T Obs = 1.70 og kritisk verdi på 5% nivå t 0.05,1 =.179.) 1
Oppgave En fisker har lenge ergret seg over at han mister så mange fiskekroker. Han lurer på hvilken knute han bør bruke for å best feste fiskekroken til snøret. a) y ij = µ i + ɛ ij, der ɛ ij er u.i.f normalfordelt med forventning 0 og varians σ. (Se forelesningsnotater) Plottet indikerer at knutetype gir høyest styrke, men også at knutetypene har stor varians. b) Variansanalysetabell (ANOVA) for dataene er gitt under: Variasjonskilde SK fg GK F Knute 1.06 6.59 5.09 Feil 15.040 1 1.5 Totalt 8.10 14 Setter opp hypotesetesten: H 0 : alle knutetypene er like sterke mot H 1 : minst en knutetype har forskjellig styrke H 0 : µ 1 = µ = µ mot H 1 : minst én er ulik Vi bruker tabellen og finner at F Obs = 5.09 er større enn kritisk verdi på 5% nivå (f 0.05,,1 =.89). Konklusjon: Vi forkaster nullhypotesen og konkluderer med H 1. Det er statistisk grunnlag for å hevde at minst en av knutetypene er forskjellig. Ut fra plottet som hentyder at knutetype er sterkere enn de andre to og at vi har statistisk grunnlag for å hevde at minst en av knutetypene er forskjellig, anbefaler vi fiskeren å bruke knutetype.
Oppgave En butikkeier ønsker å undersøke hvordan salg av tilhengere avhenger av reklame og pris. Et dataprogram (Excel) brukes til å gjøre en multippel regresjonsanalyse av tilhengersalg som avhengig variabel med reklame og pris som forklaringsvariable. Følgende utskrift ble produsert: Regression Statistics Multippel R 0.9688 R-kvadrat 0.986 Justert R-kvadrat 0.949 Standardfeil 100.067 Observasjoner 1 ANOVA fg SK GK F p-verdi Regresjon 14588118.66 7940609. 68.75 0.0000 Residualer 9 9548781.4 1060975.70 Totalt 11 15540000.00 Koeff. Standardfeil t-stat p-verdi Nedre 95% Øvre 95% Konstant 19668.96 78. 7.1 0.000050 1497.07 5840.86 Reklame (x 1 ) 0.5 0.05 10.18 0.00000 0.41 0.65 Pris (x ) -6.41 0.78-8.17 0.000019-8.18-4.6 a) Multippel regresjonsmodell: Y i = β 0 + β 1 x 1i + β x i + ɛ i, for alle i, der ɛ i er uavhengige og identisk fordelt med forventning 0 og varians σ. For å gjøre hypotesetesting og konfidensintervall antar vi også at ɛ i er normalfordelt. Estimert regresjonsmodell: ŷ = 19668.96 + 0.5x 1 6.41x Estimert forventet salg hvis butikken anvender 0000 i reklame og setter prisen på tilhengere til 00: ŷ = 19668.96 + 0.5 0000 6.41 00 = 15056.96 15056 tilhengere. b) R = SSR = 0.986 9.9% (Se forelesningsnotater) SST Hypotesetest på om forklaringsvariablene i modellen samlet sett innflytelse på salget: Teste H 0 : β 1 = β = 0 mot H 1 : Minst en er ulik null. Denne hypotesen testes i ANOVA-tabellen tilhørende regresjonen. En kan velge å gjennomføre testen ved å bruke p-verdien eller å bruke F -observatoren. Vi ser at p-verdien er mindre enn 0.05 og at F -observatoren (= 68.75) er større enn kritisk verdi f 0.05,,9 = 4.6. Konklusjon: Vi forkaster H 0 på 5% nivå og en kan si at forklaringsvariablene samlet sett har innflytelse på salget av tilhengere. c) Hypotesetest om hvorvidt parameteren tilhørene reklame er forskjellig fra null: H 0 : β 1 = 0 mot H 1 : β 1 0 En kan velge å gjennomføre testen ved å bruke p-verdien eller å bruke t-observatoren. Begge vil gi forkastning av H 0 og en kan si at parameteren for reklame er signifikant forskjellig fra null på et 5% signifikans nivå. Testen forutsetter at ɛ i er uavhengige og identisk normalfordelt med forventning 0 og varians σ. (Forutsetter også at regresjonslinja er korrekt spesifisert).
d) Et 99% konfidensintervall for forventet salg hvis butikken anvender 0000 i reklame og setter prisen på tilhengere til 00. Fra forelesning har vi at: ˆµ Y x 0 µ Y x 0 Var(ˆµ Y x 0 ) t(n k 1), der Var(ˆµ Y x 0 ) = s x T 0 (X T X) 1 x 0 = 0.1694s = 0.1694 100.067 = 17979.67 og Var(ˆµ Y x 0 ) = 4.94. Kritisk verdi: t 0.005,9 =.50, der (n k 1 = 1 1 = 9) Fra a) har vi: ˆµ Y x 0 = 15056.96 Et 99% konfidensintervall for ˆµ Y x 0 : [ˆµ Y x 0 t 0.005,9 Var(ˆµ Y x 0 ), ˆµ Y x 0 + t 0.005,9 Var(ˆµ Y x 0 )] = [15056.96.50 4.94, 15056.96 +.50 4.94] = [1679.16, 1644.77] [1679, 1645] 4
Oppgave 4 En student skal i sin masteroppgave prøve å bestemme konsentrasjonen µ av koffein i Coca Cola. Lar X betegne måleresultatet med den dyre metoden og Y 1, Y og Y betegne måleresultatene for de tre målingene med den rimelige metoden. Resultatene av målinger med den dyre metoden er normalfordelt med forventning µ og varians σ X = 1 og resultatene av målinger med den rimelige metoden er normalfordelt med forventning µ og varians σ Y = 6. Studenten vurderer estimatorene der Ȳ = (Y 1 + Y + Y )/. ˆµ = 1 ( X + Ȳ ) og µ = X + 1 Ȳ, a) En god estimator er forventningsrett og har så liten varians som mulig. Regner ut forventning og varians til ˆµ og µ : E(ˆµ) = 1 ( E(µ ) = E(X) + 1 E(X) + E(Y 1) + E(Y ) + E(Y ) ) ( ) E(Y1 ) + E(Y ) + E(Y ) Konklusjon: Begge estimatorene er forventingsrette. = 1 (µ + µ ) = µ = µ + 1 µ = µ Mellomregning: Var(Ȳ ) uavh. = 1 (Var(Y 1 ) + Var(Y ) + Var(Y )) = σ Y = σ Y = 6 =. Var(ˆµ) uavh. = 1 ( Var(X) + Var( Ȳ ) ) = 1 ( ) σ X + σ Y = 1 4 4 (1 + ) = 4 Var(µ ) uavh. = Var(X) + 1 Var(Ȳ ) = 4 9 σ X + 1 σy 9 = 4 9 1 + 1 9 = 6 9 = Vi velger estimator µ da den har minst varians, Var(µ ) < Var(ˆµ). b) Et 95% konfidensintervall for µ : Siden µ = X + 1 Ȳ er en lineærkombinasjon av uavhengige normalfordelte variable vil µ være normalfordelt, og vi har i a) regnet ut at E(µ ) = µ og Var(µ ) =. Vi får dermed µ N(µ, ) Z = µ E(µ ) Var(µ ) = µ µ N(0, 1) P ( z α/ Z z α/ ) = 1 α P ( z α/ µ µ 5 z α/ ) = 1 α
P ( z α/ µ µ z α/ ) = 1 α P (µ z α/ µ µ + z α/ ) = 1 α Innsatt α = 0.05 z α/ = z 0.05 = 1.96 gir dette at et 95% konfidensintervall for µ er gitt ved: [µ 1.96, µ + 1.96 ] = [µ 1.6, µ + 1.6] c) Estimatoren er forventingsrett for alle α, 0 α 1: E{α X + (1 α)ȳ } = αe X + (1 α)eȳ = αµ + (1 α)µ = µ Vi finner et uttrykk for variansen for estimatoren: Var{α X + (1 α)ȳ } = α σ X + (1 α) σ Y = f(α) Vi deriverer f(α) for å finne den α som gir minst varians for estimatoren: df(α) dα = {ασ X σ Y + α σ Y } = 0 α = σ X σ Y + σ Y Verififisering av at µ er den beste estimatoren i a). Setter inn for σ X = 1, σ Y = 6, = 1 og = : α = σ X σ Y + σ Y = 6 1 1 + 6 = 6