Institutt for matematiske fag Eksamensoppgåve i TMA4255 Anvendt statistikk Fagleg kontakt under eksamen: Anna Marie Holand Tlf: 951 38 038 Eksamensdato: 3. juni 2016 Eksamenstid (frå til): 09:00-13:00 Hjelpemiddelkode/Tillatne hjelpemiddel: C: Gult, stempla A4-ark med dine eigne handskrivne notatar, Tabeller og formler i statistikk (Tapir forlag/fagbokforlaget). Bestemt kalkulator. Annan informasjon: I utskrifta frå MINITAB er komma brukt som desimalskilleteikn. Signifikansnivå 5% skal brukast om ikke anna er spesifisert. Alle svar må grunngjevast. Målform/språk: nynorsk Sidetal: 9 Sidetal vedlegg: 0 Kontrollert av: Dato Sign Merk! Studentane finn sensur i Studentweb. Har du spørsmål om sensuren må du kontakte instituttet ditt. Eksamenskontoret vil ikkje kunne svare på slike spørsmål.
TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk Side 1 av 9 Oppgåve 1 Fisk og parasittar I eit eksperiment vart 141 fiskar plassert i ein stor tank. Fiskane vart klassifisert etter nivået deira av parasittinfeksjon, anten som ikkje-infisert, lett infisert, eller høgt infisert. Nokon av fiskane vart etne av rovfuglar. Det er fordel for parasitten å vere i ein fisk som blir eten av ein fugl sidan dette gjev høve til å infisere fuglen i neste livsstadium til parasitten. Følgjande kryss-tabell vart observert. Ikkje-infisert Lett infisert Høgt infisert Totalt Etne 1 10 37 48 Ikkje etne 49 35 9 93 Totalt 50 45 46 141 a) Forskarane som utførte forsøket ville undersøke om det å bli eten eller ikkje og nivå av parasittisk infeksjon kan sjåast på som to avhengige hendingar? Skriv ned nullhypothesen og den alternative hypotesen og gjennomfør ein hypotesetest basert på tabellen ovanfor. Bruk eit 5% signifikansnivå. Kva blei konklusjonen frå testen? Oppgåve 2 Sigarettar Den føderale handelskommisjonen i USA rangerer årleg variantar av sigarettar etter tjære-, nikotin-, og karbonmonoksidinnhald. Kvart av desse stoffa er farlege for helsa til ein røykar. Tidligare studier har vist at auking i tjære og nikotininnhald i sigarettar er etterfulgt av ein auking i karbonmonoksidmengda som vart slept ut frå sigarettrøyken. I ein studie blei følgjande variablar målt for n = 25 sigarettmerker, y: Karbonmonoksidinnhaldet (CO) (mg), x 1 : Tjæreinnhaldet (mg), x 2 : Nikotininnhaldet (mg), og x 3 : Vekt (g).
Side 2 av 9 TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk Først vart tre separate enkle regresjonsmodeller tilpassa for å studere forholdet mellom innhaldet av CO og kvar av variablane x 1, x 2 and x 3 : der ɛ i er u.i.f. N(0, σ 2 ) for i = 1,..., n. y i =β 01 + β 1 x 1i + ɛ i (1) y i =β 02 + β 2 x 2i + ɛ i (2) y i =β 03 + β 3 x 3i + ɛ i (3) MINITAB-utskrift frå ein statistisk analyse er gitt i Figur 1. Simple regression for x1: Predictor Coef SE Coef T P Constant 1,4129 0,6482 2,18 0,040 x1 0,92813 0,05283 17,57 0,000 S = 1,11865 R-Sq = 93,3% R-Sq(adj) = 93,0% Simple regression for x2: Predictor Coef SE Coef T P Constant -0,238 1,083-0,22 0,828 x2 14,860 1,247 11,92 0,000 S = 1,58842 R-Sq = 86,6% R-Sq(adj) = 86,0% Simple regression for x3: Predictor Coef SE Coef T P Constant -3,86 10,44-0,37 0,715 x3 16,56 10,82 1,53 0,140 S = 4,12276 R-Sq = 9,6% R-Sq(adj) = 5,5% Figur 1: Utskrift frå tilpassing av de enkle regresjonsmodellane i likning (1)-(3) for sigarettdatasettet.
TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk Side 3 av 9 a) Kommenter resultata frå dei enkle regresjonsmodellane i figur 1. Vi vil nå fokusere på den enkle lineære regresjonsmodellen for x 2 i likning (2) som er tilpassa i det midterste panelet i figur 1. I den enkle lineære regresjonsmodellen for x 2 er ein p-verdi gjeve i rada merka x2. Forklar med ord kva denne p-verdien betyr. Finn eit 90% konfidensintervall for β 2 i den enkle lineære regresjonsmodellen for x 2. Kva er eit passande estimat for σ i den enkle lineære regresjonsmodellen for x 2? Vidare vart det utført ein multippel regresjon med både x 1 og x 2 som kovariatar. der ɛ i er u.i.f. N(0, σ 2 ) for i = 1,..., n. y i = β 0 + β 1 x 1i + β 2 x 2i + ɛ i, (4) MINITAB-utskrifta frå den tilpassa multiple regresjonsmodellen er gitt i figur 2. Parvise spredningsplott for x 1, x 2, x 3 og y finst i den øvre delen av figur 3 og parvise Pearson korrelasjoner finst i nedre del av figur 3. Predictor Coef SE Coef T P Constant 1,3089 0,8483 1,54 0,138 x1 0,8918 0,1927 4,63 0,000 x2 0,629 3,203 0,20 0,846 S = 1,14392 R-Sq = 93,4% R-Sq(adj) = 92,7% Analysis of Variance Source DF SS MS F P Regression 2 386,27 193,13 147,59 0,000 Residual Error 21 27,48 1,31 Total 23 413,75 Figur 2: Utskrift frå statistisk analyse av sigarettdataane for modellen i likning (4).
Side 4 av 9 TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk y x1 x2 x1 0,966 x2 0,931 0,960 x3 0,310 0,284 0,286 Figur 3: Parvise spreiingsplott (øvre del) og parvise Pearson korrelasjon (nedre del) mellom variablane y, x 1, x 2 og x 3 i sigarettdatasettet.
TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk Side 5 av 9 Figur 4: Residualplott (normalplott basert på standardiserte residual i øvre venstre panel, standardiserte residual mot tilpassa verdiar i øvre høgre panel, histogram basert på standardiserte residual i nedre venstre panel og standardiserte residual mot rekkjefølga på observasjonane i nedre høgre panel) for regresjonsmodellen i ligning (4) for sigarettdatasettet.
Side 6 av 9 TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk b) Basert på modellen i ligning (4) kva er det predikerte CO innhaldet når x 1 = 10 og x 2 = 0.8? Basert på plotta i figur 4 og statistiske resultat av modelltilpassinga i figur 2, vil du sei at modellen i ligning (4) er ein god modell for dataane? Du må spesifisere kva eigenskapar til tilpassinga av regresjonsmodellen og plotta du brukar for å komme fram til svaret ditt. c) Ved tilpassing av ein enkel lineær regresjon med bare nikotin (x 2 ) som kovariat, miderste panel i figur 1, fann vi at effekten av nikotin var signifikant på eit 5% signifikansnivå, men i den multiple lineære regresjonen med tjære (x 1 ) og nikotin (x 2 ), figur 2, er nikotin ikkje signifikant. Kva kan vere årsaka til dette? Grunngje svaret. Forklar begrepet multikollinearitet. I MINITAB utskrifta frå den tilpassa multiple regresjonsmodellen i figur 2 er det utført tre t-testar og ein F-test. Forklar skilnaden mellom desse t-testane og F-testen. Oppgåve 3 Levetid til batteri Ein produsent av batteri ville undersøke om levetida til batteria er avhengig av dei to faktorene materialtype og driftstemperatur. Tre materialtypar, kalla type 1, 2 og 3, og tre driftstemperaturar, Lav (-10 C), Medium (20 C) and Høg (45 C), vart undersøkt, og responsen blei målt som den effektive levetida av eit batteri (timar, måla på ein kontinuerleg skala). Forsøket blei utført ved å velje tilfeldig 12 batteri for kvar materialtype, og så tilfeldig fordele batteria til kvar av dei tre temperaturnivåa. Totalt 36 målingar blei tekne. Ein to-vegs variansanalysemodell (ANOVA) med samspill vart tilpassa til dataane og resultata er gjevne i tabell 1. Source DF SS MS F value p-value Material 2 10684? 7.9114 0.001976 Temperatur 2 39119 19559.4 28.9677 1.909 10 7 Material Temperatur 4? 2403.4 3.5595? Error 27 18231 675.2 Total?? Tabell 1: Result frå to-vegs ANOVA med samspill på batteridataane.
TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk Side 7 av 9 a) Kva føresetnader ligg bak denne analysen? Fem av verdiane i tabell 1 er erstatta med eit spørsmålstekn (?). Rekn ut talverdiar for kvar av desse og forklar kva kvart av tala betyr. Er det ein significant effekt av samspelsleddet Material Temperature? Utfør ein hypotesetest for å svare på dette spørsmålet. Skriv ned null hypotesen og den alterative hypothesen. Bruk eit α = 0.05 signifikansnivå. Forklar viktige eigenskapar ved resultata frå denne to-vegs ANOVAen og korleis du vil gå vidare med å analysere desse dataane? Produsenten var interessert i å sammenlikne levetida til batteria for driftstemperaturane Medium and Høg for materialtype 3. Det var n Medium = 4 observasjonar for driftstemperatur Medium for materialtype 3. Gjennomsnittleg observert levetid for batteria var x Medium = 145.75 og det empiriske standardavviket var s Medium = 22.54. Vidare var det n Høg = 4 observasjonar for driftstemperatur Høg for materialtype 3. Gjennomsnittleg observert levetid for batteria var x Høg = 85.50 og det empiriske standardavviket var s Høg = 19.28. b) Utfør ein hypotesetest for å undersøke om forventa levetid for batteria ved dei to driftstemperaturane Medium og Høg er ulike for materialtype 3. Skriv ned føresetnadane du treng å gjere for å utføre denne testen. La µ Medium vere forventa levetid for batteria ved driftstemperatur Medium for materialtype 3. Produsentane var interesserte i forventa levetid for batteria på den naturlege logaritmiske skalaen, det vil si γ = ln(µ Medium ). c) Basert på det uavhengige tilfeldige utvalet av størrelse n Medium = 4 frå driftstemperatur Medium for materialtype 3 føreslå ein estimator, ˆγ, for γ. Bruk tilnærma metodar for å finne forventningsverdi og varians for denne estimatoren, det vil sei, E(ˆγ) og Var(ˆγ). Bruk samandraget av dataane gjeve i teksten til å rekne ut ˆγ numerisk og gje estimert numerisk verdi for E(ˆγ) og Var(ˆγ). Hint: Du kan nytte at d dx (ln x) = 1 x.
Side 8 av 9 TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk Oppgåve 4 Vaksineeffektivitet Ein vaksine mot tyfoidfeber vart testa med den hensikt å kontrollere effektiviteten på vaksinen. Testen for effektivitet er målt som den biologiske aktiviteten til vaksinen. Kvar uke vart tre prøver av vaksinen testet for dens effektivitet, over ein periode på 13 veker. La X ij vere målet på effektiviteten til vaksinen for prøve j, i veke i, kor j = 1, 2, 3 og i = 1, 2,..., 13. Vidare, Xi = 1 3j=1 X 3 ij, S i = 1 3j=1 (X 2 ij X i ) 2, X = 1 13 X 13 i=1 i, og S = 1 12 13 i=1 S i. Basert på desse 13 utvala, som ein går ut i frå er i kontroll, finn vi x = 1.012 og s = 0.168. a) Konstruer eit S-chart og eit X-S-chart (med 3σ grensar). Eit nytt utval vart teke, med x = 0.93 og s = 0.65. Ser prosessen ut til å vere i kontroll for dette utvalet? Grunngje svaret.
TMA4255 Anvendt statistikk, 3. juni 2016 Nynorsk Side 9 av 9 Figur 5: Table A22. Factors for constructing control charts.