Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004. Dato: Torsdag 28. september 2017. Klokkeslett: 09 13. Sted: Tillatte hjelpemidler: Teorifagsbygget. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Telefon/mobil: Rute. 8 Georg Elvebakk 77646532 Vil det bli gått oppklaringsrunde i eksamenslokalet? Svar: JA. Hvis JA: ca. kl. 10.30. Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no
VIKTIG: Du kan fritt bruke alle R-utskrifter, tabeller etc. som står bak i oppgavesettet. Merk at i utskriftene kan noen av talla være erstatta av?. Om ikke anna er spesifisert skal signifikansnivået for tester være på 5%. Deloppgavene vil telle likt ved vurderinga. Oppgave 1 En telefonselger av husforsikringer har som mål å selge 1 forsikring hver dag. Derfor ringer han potensielle kunder til en av dem kjøper forsikring. Han rekner med at han i hver oppringning har samme sannsynlighet p for å treffe en som kjøper forsikring, og at de potensielle kundene kjøper eller ikke uavhengige av hverandre. Antallet samtaler, X, han må gjennomføre på en dag vil da følge en geometrisk fordeling: f(x) = (1 p) x 1 p, x = 1,2,... a) Vis at den kumulative fordelingsfunksjonen til X er gitt ved F(x) = P(X x) = 1 (1 p) x, x = 1,2,... n (Hint: Bruk formelen for a k. Se formelheftet.) k=0 Hva er da sannsynligheten for at han må ringe fleire enn 4 potensielle kunder, P(X > 4). Etter en tid oppdager telefonselgeren at han enkelte dager må ringe veldig mange potensielle kunder for å få solgt en forsikring. Han bestemmer seg derfor for å stoppe etter maksimalt 4 samtaler per dag. Ut fra registreringer av hvor mange han har ringt per dag ønsker han å finne et estimat for p sannsynligheten for forsikringssalg per samtale. Fra 10 dager registrerte han følgende data: Dag nr. i 1 2 3 4 5 6 7 8 9 10 Antall samtaler x i 3 3 1 4 2 2 1 4 4 4 Merk at for noen av dagene står det 4, dette er de dagene han ringte 4 ganger uten å oppnå et salg. Dagene er ordna slik at de n = 7 første dagene er de han oppnådde et salg, de m = 3 siste ga ingen salg. Han ønsker å bruke sannsynlighetsmaksimeringsmetoden til å estimere p. b) Vis at sannsynlighetsmaksimeringsfunksjonen (likelihooden) blir L(p) = (1 p) ( n i=1 x i n) p n (1 p) 4m Bruk denne til å finne en sannsynlighetmaksimeringsestimator for p. c) Finn den observerte fisherinformasjonen for disse parametrene, og bruk den til å finne et tilnærma 95% Wald-konfidensintervall for parameteren p. Vil du ut fra intervallet konkludere at salgssannsynligheten p er ulik 0.5 (50%)? Er det grunn(er) til å mistenke at dette intervallet kan være unøyaktig? Oppgave 2 La X være en standardnormalfordelt stokastisk variabel, det vil si X N(0,1). a) Finn sannsynlighetstettheten til Y = X 2. 2
Oppgave 3 Vi bruker et datasett over egenskaper ved 32 bilmodeller i 1974. Dataene er fra Motor Trend US Magazine og omfatter følgende variabler for hver biltype. y : Bensinforbruk per 100 km. x 1 : Antall hestekrefter. x 2 : Motorstørrelse (i kubikktommer) x 3 : Vekt (i 1000 pund). x 4 Bakakselutveksling. Det er R-utskrifter av data og analyser o.l. lengre bak i oppgavesettet. Vi er interessert i å finne ut hvilke av de fire forklaringsvariablene som kan forklare skilnader i bensinforbruket. Vi starter med en modell med alle variablene. a) Sett opp den fulle modellen på matriseform. Hva er forutsetningene i denne modellen? Skriv opp den tilpassa modellen, og gi ei tolking av hva denne uttrykker. Sett opp og utfør en test for modellen som heilhet ( overall test ). Hva blir konklusjonen? Utskriftene for den tilpassa modellen basert på alle fire forklaringsvariablene gjør at vi mistenker at en eller fleire av disse ikke bidrar til å predikere bensinforbruket. Vi vil derfor forsøke å redusere antall forklaringsvariabler i modellen. b) Sett opp og utfør en test for om x 4 er signifikant i den fulle modellen. Sett opp og utfør en test for om gruppa av x 2 og x 4 er signifikant i den fulle modellen. I siste delpunkt vil vi bruke modellen med bare x 1 og x 3 som forklaringsvariabler: c) Hva blir estimert bensinforbruk for en bilmodell med x 1 = 150 hestekrefter og vekt på x 3 = 3 (3000 pund)? Forklar hva residualer og studentifiserte residualer er, og hvordan disse kan brukes til å sjekke ulike forutsetninger for modellen. Bruk oppgitte plott og annen informasjon til å sjekke om modellforutsetningene er oppfylte, og om modellen eventuelt har andre ugunstige egenskaper. 3
Oppgave 4 I dette problemet skal vi bruke et datasett fra arkeologiske utgravninger i New Mexico. Responsvariabelen er antall potteskår funnet i et felt av standardisert størrelse ved utgravninger i 5 forskjellige områder. I tillegg har vi også informasjon om hvilken av 4 typer keramikk det dreier seg om. (De fire ulike typene er kalt Red on White (1), Mogollon (2), Mimbres (3) og Bold face (4). Data er fra Woosley & McIntyre: Mimbres Mogollon Archeology, University of New Mexico Press.) Målet med analysen er å teste om det er forskjeller i antall skår av de 4 ulike typene, om det er forskjeller mellom områdene, og om det kan finnes samspill mellom områder og typer. Resultater: Y ijk Område 1 Område 2 Område 3 Område 4 Område 5 Gj.snitt Type 1 68 59 54 55 27 33 43 91 53 31 45 37 81 42 38 Cellegj.snitt: 48.67 46.33 75.33 50.00 32.00 50.47 Type 2 49 71 67 45 47 61 41 46 58 39 52 63 51 72 53 Cellegj.snitt: 54.00 58.33 54.67 58.33 46.33 54.33 Type 3 78 54 44 78 41 53 51 76 49 36 35 69 55 46 25 Cellegj.snitt: 55.33 58.00 58.33 57.67 34.00 52.67 Type 4 95 78 41 56 46 122 98 29 81 22 133 89 63 35 26 Cellegj.snitt: 116.67 88.33 44.33 57.33 31.33 67.60 Gj.snitt 68.67 62.75 58.17 55.83 35.92 Y = 56.27 Antall skår er Y ijk hvor i = 1,2,3,4 (keramikktyper), j = 1,2,3,4,5 (områder) og k = 1,2,3 (observasjoner per kombinasjon). Totalgjennomsnittet, gjennomsnitt av hver type, område og kombinasjon er oppgitt. Merk at resultater av en ANOVA-analyse er gitt i utskriftene. a) Sett opp en to-vegs ANOVA-modell med samspill (tofaktormodellen) for disse dataene. Skriv opp uttrykka for SSA, SSB, SSAB og SSE og forklar (kort!) hva de måler. Hvorfor blir SSE/σ 2 kikvadratfordelt med 40 frihetsgrader? b) Forklar hva det vil si at det er samspill mellom faktorene type og område. Kommenter samspillsplottet i utskriftene. Formuler hypoteser og utfør tester for om samspillet eller hovedeffektene er signifikante på 5%-nivå. Vi vil gjerne lage simultane konfidensintervall for forskjeller i forventa antall av type I mellom område 1, 2, og 3. c) Regn ut konfidensintervalla (begrunn valg av metode). Kan du påstå at noen av forskjellene er signifikante? 4
R-utskrifter for bensinforbruk-dataene: > bil Y X1 X2 X3 X4 1 11.200000 110 160.0 2.620 3.90 2 11.200000 110 160.0 2.875 3.90 3 10.315789 93 108.0 2.320 3.85 4 10.990654 110 258.0 3.215 3.08 5 12.577540 175 360.0 3.440 3.15 6 12.994475 105 225.0 3.460 2.76 7 16.447552 245 360.0 3.570 3.21 8 9.639344 62 146.7 3.190 3.69 9 10.315789 95 140.8 3.150 3.92 10 12.250000 123 167.6 3.440 3.92 11 13.213483 123 167.6 3.440 3.92 12 14.341463 180 275.8 4.070 3.07 13 13.595376 180 275.8 3.730 3.07 14 15.473684 180 275.8 3.780 3.07 15 22.615385 205 472.0 5.250 2.93 16 22.615385 215 460.0 5.424 3.00 17 16.000000 230 440.0 5.345 3.23 18 7.259259 66 78.7 2.200 4.08 19 7.736842 52 75.7 1.615 4.93 20 6.938053 65 71.1 1.835 4.22 21 10.939535 97 120.1 2.465 3.70 22 15.174194 150 318.0 3.520 2.76 23 15.473684 150 304.0 3.435 3.15 24 17.684211 245 350.0 3.840 3.73 25 12.250000 175 400.0 3.845 3.08 26 8.615385 66 79.0 1.935 4.08 27 9.046154 91 120.3 2.140 4.43 28 7.736842 113 95.1 1.513 3.77 29 14.886076 264 351.0 3.170 4.22 30 11.939086 175 145.0 2.770 3.62 31 15.680000 335 301.0 3.570 3.54 32 10.990654 109 121.0 2.780 4.11 5
> mod.x1.x2.x3.x4.tilp = lm(y~x1+x2+x3+x4,bil) # Tilpassa modell med X1, X2, X3 og X4. > summary(mod.x1.x2.x3.x4.tilp) Call: lm(formula = Y ~ X1 + X2 + X3 + X4, data = bil) Residuals: Min 1Q Median 3Q Max -3.8865-0.9916 0.2135 0.7891 3.1161 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.841781 3.853333 0.478 0.63652 X1 0.013613 0.007101 1.917 0.06585. X2 0.006010 0.006615 0.908 0.37168 X3 2.242885 0.660247 3.397 0.00213 ** X4 0.087049 0.808053?? Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.593 on 27 degrees of freedom Multiple R-squared: 0.8518, Adjusted R-squared: 0.8299 F-statistic: 38.81 on 4 and 27 DF, p-value: 7.975e-11 > anova(mod.x1.x2.x3.x4.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 269.278 269.278 106.0775 7.512e-11 *** X2 1 94.375 94.375 37.1773 1.638e-06 *** X3 1 30.385 30.385 11.9695 0.001812 ** X4 1 0.029 0.029?? Residuals 27 68.540 2.539 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 6
> mod.x1.x3.tilp = lm(y~x1+x3,bil) # Tilpassa modell med X1 og X3 > summary(mod.x1.x3.tilp) Call: lm(formula = Y ~ X1 + X3, data = bil) Residuals: Min 1Q Median 3Q Max -3.9676-1.1666 0.1802 0.9414 3.3442 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.482968 0.962823 1.540 0.13435 X1 0.017591 0.005438 3.235 0.00303 ** X3 2.701331 0.381045 7.089 8.45e-08 *** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.562 on 29 degrees of freedom Multiple R-squared: 0.8471, Adjusted R-squared: 0.8365 F-statistic: 80.33 on 2 and 29 DF, p-value: 1.494e-12 > anova(mod.x1.x3.tilp) Analysis of Variance Table Response: Y Df Sum Sq Mean Sq F value Pr(>F) X1 1 269.278 269.278 110.394 2.124e-11 *** X3 1 122.591 122.591 50.258 8.449e-08 *** Residuals 29 70.738 2.439 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Studentifiserte residual 3 2 1 0 1 2 8 10 12 14 16 18 20 Tilpassa verdier 7
R-utskrifter for potteskår-dataene: > summary(aov(skaar~as.factor(omraade)*as.factor(type),data=utgraving)) Df Sum Sq Mean Sq F value Pr(>F) as.factor(omraade) 4 7365 1841.1 8.761 3.54e-05 *** as.factor(type) 3 2682 893.9 4.254 0.010645 * as.factor(omraade):as.factor(type) 12 11585 965.5?? Residuals 40 8406 210.1 Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 mean of Utgraving$Skaar 40 60 80 100 120 Utgraving$Type 2 3 1 4 1 2 3 4 5 Utgraving$Omraade 8