Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004. Dato: Torsdag 31. mai 2018. Klokkeslett: 09-13. Sted: Åsgårdvegen 9. Tillatte hjelpemidler: «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Telefon/mobil: Rute. 12 Georg Elvebakk 77646532 Vil det bli gått oppklaringsrunde i eksamenslokalet? Svar: JA. Hvis JA: ca. kl. 10:30 og 11:30. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no
VIKTIG: Du kan fritt bruke alle R-utskrifter, tabeller etc. som står bak i oppgavesettet. Merk at i utskriftene kan noen av talla være erstatta av?. Om ikke anna er spesifisert skal signifikansnivået for tester være på 5%. Deloppgavene vil telle likt ved vurderinga. Oppgave 1 Vi er interessert i levetida av en type ventiler som vi antar har weibullfordelte levetider: f X (x) = α β xα 1 e 1 β xα, x 0. Fra et tilfeldig utvalg X 1,...,X n ønsker vi å finne estimater for parametrene α > 0 og β > 0. a) Forklar generelt hva en sannsynlighetsmaksimeringsestimator er. Nevn noen viktige egenskaper ved slike estimatorer. Finn sannsynlighetsmaksimeringsfunksjonen ( likelihooden ) og logaritmen av denne, for situasjonen over. Om en ikke kan finne eksplisitte (analytiske) uttrykk for estimatorene for α og β, forklar hvordan du i praksis ville gått fram for å finne estimater fra et gitt datasett? Vi vil i resten av oppgava anta at form-parameteren α er kjent, mens skalaparameteren β er ukjent og skal estimeres. b) Vis at sannsynlighetsmaksimeringsestimatoren for β er ˆβ = ni=1 X α i n Vis at den transformerte stokastiske variabelen Y = X α er eksponensialfordelt med forventning β. Bruk dette til å finne forventning og varians for ˆβ. Fra fordelinga med α = 2 er et tilfeldig utvalg på n = 10 levetider (i år): 0.89 0.21 0.37 0.43 0.43 0.65 0.62 0.32 0.56 0.39 Det blir påstått at for disse ventilene er β < 1/3. Vi ønsker å utføre en test for dette. c) Sett opp aktuelle hypoteser for β. Vis ved momentgenererende funksjon, eller argumentér for, hva som blir fordelinga til V = 2nˆβ β. Bruk dette som utgangspunkt for en testobservator, og utfør testen for problemstillinga over med signifikansnivå 0.05. 2
Oppgave 2 Et forsøk blei utført med n = 8 tilfeldig valgte personer som røykte marihuana, og m = 8 tilfeldig valgte personer som ikke gjorde dette. Begge gruppene blei bedt om å utføre en kortidsminnetest, og responsen er en skår der høgere verdi er bedre. Røyk 16 20 14 21 20 18 13 15 Ikkerøyk 18 22 21 17 20 17 23 20 Vi er interessert i å sjekke påstanden at personer som ikke røyker marihuana har bedre kortidsminne. a) Beskriv en ikke-parametrisk testmetode du kan bruke for å evaluere påstanden, og presiser forutsetningene for metoden. Gjennomfør denne testen med oppgitte data. Oppgave 3 Vi skal i denne oppgava studere sammenhengen mellom bakkenært ozon(kjemisk symbol O 3 ) og noen meteorologiske forklaringsvariabler. Observasjonene er fra en lokasjon i New York mellom mai og september i 1973 (data fra Chambers o.a. 1983). Følgende variabler blei registrert over totalt n = 111 dager. y : Daglig ozon-konsentrasjon (i ppb). x 1 : Daglig nivå av solstråling (i Langley). x 2 : Vind (i km/t). x 3 : Temperatur (i Celsius). Det er R-utskrifter av de 30 første dagene, noen beskrivende mål (min, maks, gjennomsnitt), regresjonsanalyser o.l. lengre bak i oppgavesettet. Bakkenært ozon regnes som forurensing, og kan påvirke luftvegene (f.eks. hos astmatikere). Gassen produseres når solstråling virker på kjemikalier i lufta. Disse kjemikaliene produseres for det meste ved forbrenning av fossilt brennstoff (så tettbefolka/industrielle områder har vanligvis høgere konsentrasjon). Det er derfor naturlig å anta at sterkere solstråling vil kunne øke ozonkonsentrasjonen. Vind kan også tenkes å påvirke ozonkonsentrasjon ved at gassen spres over et større område. Så for et tettbefolka sted som New York kan en forvente at vind vil ha en negativ effekt på ozonkonsentrasjon. I tillegg er det kjent at planter regulerer ozon ved at gassen absorberes. Men når det er spesielt varmt og tørt mister plantene noe av evnen til å oppta ozon. Så temperatur kan være en interessant forklaringsvariabel, som kan forventes å ha en positiv effekt på ozonkonsentrasjonen. Vi starter med en modell med alle tre forklaringsvariablene. Men merk at i R-utskriftene er det tilpassa én modell med Y som responsvariabel, men også én modell med logaritmen av Y som responsvariabel. Et residualplott er vist for hver av modellene. 3
a) Sett opp modellen for Y. Hva er forutsetningene i denne modellen? Forklar kort hva et residual og studentifisert residual er, og hvilke forutsetninger som kan sjekkes ved de oppgitte residualplotta. Argumentér fra disse to plotta for hvilken responsvariabel du meiner er best å bruke. I resten av oppgava vil vi bruke logaritmen av Y, det vil si Y = lny, som responsvariabel i alle de tilpassa modellene. b) Skriv opp den tilpassa modellen med alle tre forklaringsvariablene, og gi ei presis tolkning av hva denne uttrykker. Rekn ut R 2 -verdien for den tilpassa modellen. Hva er tolkninga av denne? Vi er nå interessert i responsen på en ny dag med x 1 = 200, x 2 = 5, x 3 = 25. Finn predikert respons for denne dagen. Finn et intervall som med 90% sannsynlighet inneholder ozon-verdien (merk: Y) for denne dagen. Vi vil nå undersøke om modellen kan forbedres ved å inkludere samspillsvariabler, spesielt muligheten for samspill mellom temperatur og vind. To mulige modeller vurderes: I) Yi II) Yi = β 0 +β 1 x 1i +β 2 x 2i +β 3 x 3i +β 4 (x 2 x 3 ) i +ǫ i = β 0 +β 1 x 1i +β 2 x 2i +β 3 x 3i +β 4 (x 2 x 3 ) i +β 5 (x 1 x 2 ) i +β 6 (x 1 x 3 ) i +ǫ i c) Utfør en test for om det gir bedre prediksjon av responsen å legge samspillsvariabelen mellom x 2 og x 3 til modellen fra b). Utfør en test for om det gir bedre prediksjon av responsen legge samspillsvariablene mellom x 1 og x 2 og mellom x 1 og x 3 til modell I). Fra disse testene, hvilken av de tre relevante modellene vil du foretrekke? Vi vil i siste punkt bruke modell I): d) Skriv opp den tilpassa modellen. Finn predikert respons for en ny dag med x 1 = 200, x 2 = 5, x 3 = 25. Forklar kvalitativt effekten av den negative samspillskoeffisienten b 4 for sammenhengen mellom forventa respons og x 2 og x 3. I den tilpassa modellen har vi b 2 = 0.1166. Er dette overraskende gitt at det er grunn til å forvente at sterkere vind gir lavere respons? Kunne en mindre omskriving av modellen gitt en noe meir naturlig tolkning? (Hint: Hva er stigningstall for x 2 (vind) ved gjennomsnittstemperaturen x 3 = 25.44?) 4
Oppgave 4 I denne oppgava skal vi se på data fra et forsøk med nikotin-tyggegummi (data fra McConville o.a. 1991). For 10 personer med Tourettes syndrom blei det registrert antall tics (ufrivillige og plutselige rykninger/ytringer) i løpet av en periode på 30 minutter. De fikk deretter målt antall tics mens de tygget nikotin-tyggegummi i 30 minutter, og det blei også gjort to nye målinger i de to påfølgende 30-minutters periodene. Observasjoner: Pasient 1) Uten tyggegummi 2) Under tygging 3) 0-30 minutt etter 4) 30-60 minutt etter 1 249 108 93 59 2 1095 593 600 861 3 83 27 32 61 4 569 363 342 312 5 368 141 167 180 6 326 134 144 158 7 324 126 312 260 8 95 41 63 71 9 413 365 282 321 10 332 293 525 455 Vi kaller responsvariabelen for Y ij, det er 4 perioder (i = 1,2,3,4), og i tillegg har vi informasjon om pasienter (j = 1,2,...,10): Vi skal bruke et randomisert blokkdesign med pasienter som blokkvariabel. Merk at resulater av en ANOVA-analuyse er gitt i utskriftene. Der finner du også gjennomsnitt og standardavvik for hver av periodene, samt et Box-plott. a) Sett opp en randomisert blokkmodell for responsen som funksjon av periode og pasient. Hva er forutsetningene i denne modellen? Hvorfor er det her grunn til å forvente at den randomiserte blokkmodellen vil være et meir effektivt forsøksoppsett enn om vi hadde brukt en 1-faktor-modell (envegs ANOVA) for periode? Sett opp og utfør en test for om det er forskjeller i forventa respons for de 4 periodene. Vi vil nå undersøke nærmere forskjeller mellom individuelle perioder. b) Forklar hvorfor multiple sammenlikninger medfører at vanlige t-tester eller t-konfidensintervall kan gi misvisende resultat. Hva betyr det at Bonferroni-metoden har EWER α? Finn multiple konfidensintervall ved Bonferronimetoden for å sammenlikne de fire periodene. Bruk totalt signifikansnivå α = 0.06. Ser konklusjonene ut til å stemme med Box-plottet? 5
R-utskrifter for ozon-dataene: > ozondata[1:30,] y x1 x2 x3 1 41 190 4.60 19.4 2 36 118 4.97 22.2 3 12 149 7.83 23.3 4 18 313 7.15 16.7 5 23 299 5.34 18.3 6 19 99 8.57 15.0 7 8 19 12.49 16.1 8 16 256 6.03 20.6 9 11 290 5.72 18.9 10 14 274 6.77 20.0 11 18 65 8.20 14.4 12 14 334 7.15 17.8 13 34 307 7.46 18.9 14 6 78 11.43 13.9 15 30 322 7.15 20.0 16 11 44 6.03 16.7 17 1 8 6.03 15.0 18 11 320 10.31 22.8 19 4 25 6.03 16.1 20 32 92 7.46 16.1 21 23 13 7.46 19.4 22 45 252 9.26 27.2 23 115 223 3.54 26.1 24 37 279 4.60 24.4 25 29 127 6.03 27.8 26 71 291 8.57 32.2 27 39 323 7.15 30.6 28 23 148 4.97 27.8 29 21 191 9.26 25.0 30 37 284 12.86 22.2 > apply(ozondata,2,min) y x1 x2 x3 1.00 7.00 1.43 13.90 > apply(ozondata,2,mean) y x1 x2 x3 42.099099 184.801802 6.176757 25.437838 > apply(ozondata,2,max) y x1 x2 x3 168.00 334.00 12.86 36.10 6
# Responsvariabel Y: > ozon.x1.x2.x3.tilp = lm(y~x1+x2+x3,data=ozondata) > plot(fitted(ozon.x1.x2.x3.tilp),rstandard(ozon.x1.x2.x3.tilp), xlab="predikerte verdier",ylab="studentifiserte residual") > abline(0,0) Studentifiserte residual 4 2 0 2 4 20 0 20 40 60 80 100 Predikerte verdier # Responsvariabel logaritmen av Y: > logozon.x1.x2.x3.tilp = lm(log(y)~x1+x2+x3,data=ozondata) > plot(fitted(logozon.x1.x2.x3.tilp),rstandard(logozon.x1.x2.x3.tilp), xlab="predikerte verdier",ylab="studentifiserte residual") > abline(0,0) Studentifiserte residual 4 2 0 2 4 1.5 2.0 2.5 3.0 3.5 4.0 4.5 Predikerte verdier 7
Tilpassa modell for Y med x 1, x 2, og x 3 : > summary(logozon.x1.x2.x3.tilp) Call: lm(formula = log(y) ~ x1 + x2 + x3, data = ozondata) Residuals: Min 1Q Median 3Q Max -2.06380-0.29973 0.00198 0.30637 1.23549 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.3179074 0.3761982 3.503 0.000672 *** x1 0.0025161 0.0005575 4.513 1.65e-05 *** x2-0.0993390 0.0253236-3.923 0.000155 *** x3 0.0883184 0.0109745 8.048 1.24e-12 *** Residual standard error: 0.5092 on 107 degrees of freedom Multiple R-squared:?, Adjusted R-squared: 0.6541 F-statistic: 70.34 on 3 and 107 DF, p-value: < 2.2e-16 > anova(logozon.x1.x2.x3.tilp) Analysis of Variance Table Response: log(y) Df Sum Sq Mean Sq F value Pr(>F) x1 1 17.157 17.1566 66.162 8.013e-13 *** x2 1 20.773 20.7728 80.107 1.204e-14 *** x3 1 16.794 16.7940 64.763 1.244e-12 *** Residuals 107 27.747 0.2593 > X = model.matrix(logozon.x1.x2.x3.tilp) > solve(t(x)%*%x) (Intercept) x1 x2 x3 (Intercept) 5.457692e-01-5.254865e-05-2.826793e-02-1.385515e-02 x1-5.254865e-05 1.198593e-06-1.257307e-06-6.336522e-06 x2-2.826793e-02-1.257307e-06 2.473016e-03 5.198973e-04 x3-1.385515e-02-6.336522e-06 5.198973e-04 4.644604e-04 > x.0 = c(1,200,5,25) > t(x.0)%*%solve(t(x)%*%x)%*%x.0 [,1] [1,] 0.01346447 8
Tilpassa modell for Y med x 1, x 2, x 3 og x 2 x 3 : > logozon.x1.x2.x3.x2x3.tilp = lm(log(y)~x1+x2+x3+x2:x3,data=ozondata) > summary(logozon.x1.x2.x3.x2x3.tilp) Call: lm(formula = log(y) ~ x1 + x2 + x3 + x2:x3, data = ozondata) Residuals: Min 1Q Median 3Q Max -1.98874-0.32026-0.04957 0.30148 1.18952 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.0772942 0.7373273-0.105 0.9167 x1 0.0025958 0.0005491 4.727 7.03e-06 *** x2 0.1166298 0.1018362 1.145 0.2547 x3 0.1407388 0.0262833 5.355 5.01e-07 *** x2:x3-0.0085030 0.0038879?? Residual standard error: 0.5005 on 106 degrees of freedom Multiple R-squared: 0.6781, Adjusted R-squared: 0.6659 F-statistic: 55.82 on 4 and 106 DF, p-value: < 2.2e-16 > anova(logozon.x1.x2.x3.x2x3.tilp) Analysis of Variance Table Response: log(y) Df Sum Sq Mean Sq F value Pr(>F) x1 1 17.157 17.1566 68.5011 4.085e-13 *** x2 1 20.773 20.7728 82.9396 5.730e-15 *** x3 1 16.794 16.7940 67.0533 6.393e-13 *** x2:x3 1 1.198 1.1980?? Residuals 106 26.549 0.2505 9
Tilpassa modell for Y med x 1, x 2, x 3, x 2 x 3, x 1 x 2 og x 1 x 3 : > logozon.x1.x2.x3.x2x3.x1x2.x1x3.tilp = lm(log(y)~x1+x2+x3+x2:x3+x1:x2+x1:x3, data=ozondata) > summary(logozon.x1.x2.x3.x2x3.x1x2.x1x3.tilp) Call: lm(formula = log(y) ~ x1 + x2 + x3 + x2:x3 + x1:x2 + x1:x3, data = ozondata) Residuals: Min 1Q Median 3Q Max -1.98885-0.34077-0.04524 0.31078 1.18530 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -0.0176866 1.0196915-0.017 0.98619 x1 0.0033594 0.0036888 0.911 0.36456 x2 0.1128222 0.1082839 1.042 0.29987 x3 0.1305294 0.0394530 3.308 0.00129 ** x2:x3-0.0072156 0.0044947-1.605 0.11145 x1:x2-0.0001540 0.0002833-0.544 0.58784 x1:x3 0.0000123 0.0001158 0.106 0.91565 Residual standard error: 0.5044 on 104 degrees of freedom Multiple R-squared: 0.6792, Adjusted R-squared: 0.6607 F-statistic: 36.7 on 6 and 104 DF, p-value: < 2.2e-16 > anova(logozon.x1.x2.x3.x2x3.x1x2.x1x3.tilp) Analysis of Variance Table Response: log(y) Df Sum Sq Mean Sq F value Pr(>F) x1 1 17.1566 17.1566 67.4397 6.321e-13 *** x2 1 20.7728 20.7728 81.6545 9.522e-15 *** x3 1 16.7940 16.7940 66.0143 9.819e-13 *** x2:x3 1 1.1980 1.1980 4.7091 0.03228 * x1:x2 1???? x1:x3 1???? Residuals 104 26.4575 0.2544 10
R-utskrifter for nikotintyggegummi-dataene: > nikotin Tics Periode Pasient 1 290 1 1 2 1095 1 2 3 83 1 3 4 560 1 4 5 368 1 5 6 326 1 6 7 324 1 7 8 95 1 8 9 413 1 9 10 332 1 10 11 108 2 1 12 593 2 2 13 27 2 3 14 363 2 4 15 141 2 5 16 134 2 6 17 126 2 7 18 41 2 8 19 365 2 9 20 293 2 10 21 93 3 1 22 600 3 2 23 32 3 3 24 342 3 4 25 167 3 5 26 144 3 6 27 312 3 7 28 63 3 8 29 282 3 9 30 525 3 10 31 59 4 1 32 861 4 2 33 61 4 3 34 312 4 4 35 180 4 5 36 158 4 6 37 260 4 7 38 71 4 8 39 321 4 9 40 455 4 10 11
> tapply(nikotin$tics,nikotin$periode,mean) 1 2 3 4 388.6 219.1 256.0 273.8 > tapply(nikotin$tics,nikotin$periode,sd) 1 2 3 4 284.8018 179.5769 193.3230 244.1023 > plot(tics~as.factor(periode),nikotin) Tics 0 200 400 600 800 1000 1 2 3 4 as.factor(periode) > nikotin.mod.tilp = aov(tics~as.factor(periode)+as.factor(pasient),nikotin) > summary(nikotin.mod.tilp) Df Sum Sq Mean Sq F value Pr(>F) as.factor(periode) 3 160406??? as.factor(pasient) 9 1680432??? Residuals 27 212445 7868 12