Fakultet for naturvitenskap og teknologi EKSAMENSOPPGAVE Eksamen i: STA-2004 Dato: 27.mai 2016 Klokkeslett: 09-13 Sted: Åsgårdvegen 9 Tillatte hjelpemidler: «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator. Type innføringsark (rute/linje): Antall sider inkl. forside: Kontaktperson under eksamen: Rute. 10 Georg Elvebakk Telefon/mobil: 77646532 NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen Postboks 6050 Langnes, N-9037 Tromsø / 77 64 40 00 / postmottak@uit.no / uit.no
VIKTIG: Du kan fritt bruke alle R-utskrifter, tabeller etc. som står bak i oppgavesettet. Merk at i utskriftene kan noen av talla være erstatta av?. Om ikke anna er spesifisert skal signifikansnivået for tester være 5%. Deloppgavene vil telle likt ved vurderinga. Oppgave 1 Vi ønsker å finne sannsynlighetstettheten til summen av to uavhengige kontinuerlige stokastiske variable, X og Y, der X f X (x) og Y f Y (y). Påstand: En kan finne tettheten til V = X + Y via konvolusjonsformelen: f V (v) = f X (x) f Y (v x) dx a) Vis ved bruk av transformasjonsformelen at denne formelen stemmer. Bruk formelen over til å vise at summen av to uavhengige identisk eksponensialfordelte variabler blir gammafordelt. (Husk intervallgrenser for x.) Vi er nå interessert i levetida av en type lyspærer som vi antar har eksponensialfordelte levetider: f X (x) = 1 β e x β, x 0. Problemet er at vi ikke har observert data for levetidene direkte, men levetidene til gatelykter som inneholder to lyspærer. Disse er kopla slik at den ene står på vent og tar over når den første svikter. Levetidene, V, for lyktene er dermed summen av to antatt uavhengige eksponensialfordelte levetider, altså gammafordeling med α = 2 og β: f V (v) = 1 β 2 v e v β, v 0. Vi har n = 6 uavhengige observasjoner av lyktlevetider, V 1, V 2,..., V n. Lyktnr. 1 2 3 4 5 6 Levetid 248 199 331 87 119 137 b) Sett opp likelihoodfunksjon for β og vis at SME-estimatoren blir ˆβ = ni=1 V i 2n Rekn ut estimatet for de oppgitte dataene. Finn forventning og varians av estimatoren. Vi øsnker nå å finne et konfidensintervall for β. 4n ˆβ β c) Vis ved MGF eller grunngi hvorfor W = frihetsgrader. Bruk dette til å utlede et konfidensintervall for β. Finn et estimert 95%-konfidensintervall fra dataene. 2 er kikvadratfordelt med 4n
Vi vil nå bruke en bayesmodell, der vi (basert på anna tilgjengelig informasjon) antar at apriorifordeling for β er invers gammafordeling: π(β) = 1 e 1/(βb) b a Γ(a) β a+1, β 0 I denne fordelinga er E(β) = 1 b(a 1) og V ar(β) = 1 b 2 (a 1) 2 (a 2). d) Forklar generelt hva ei aposterorifordeling representerer. Vis at aposteriorifordelinga for β òg blir invers gammafordeling. Finn en bayesestimator for β, og vis at denne kan skrives som en lineærkombinasjon av informasjon fra data og fra apriorifordelinga. Oppgave 2 I denne oppgava skal vi bruke data fra et forsøk (basert på Bethea et al., 1985) der vi ønsker å undersøke om det er forskjeller i forventa styrke av limfugen for fire limtyper. Det blei gjort tilsammen 24 uavhengige forsøk, 6 med hver limtype. Resultat styrkemålinger: Limtype Gj.snitt St.avvik 1 60 63 57 53 56 57 57.67 3.44 2 57 52 55 59 56 54 55.50 2.43 3 45 45 45 47 46 44 45.33 1.03 4 55 56 47 51 51 56 52.67 3.61 Merk at noen resultater av en ANOVA-analyse er gitt i utskriftene. a) Er limtype en fiksert eller stokastisk faktor? Forklar. Sett opp en modell med forutsetninger for dette forsøket. Sett opp hypoteser, rekn ut SSA fra tabellen over, og utfør en test for den aktuelle problemstillinga. Vi er spesielt interessert i limtype 1, og vil bruke den tilpassa modellen til å rekne ut noen estimater for denne limtypen. b) Hva blir estimatet for forventa fugestyrke for limtype 1. Utled et 95%-prediksjonsintervall for styrken av en (ny) limfuge med limtype 1, og rekn ut intervallet fra observasjonene. 3
Oppgave 3 Her skal vi bruke et datasett fra 47 fransktalende provinser i Sveits omkring 1888 (Mosteller & Tukey, 1977), en periode da antall barn i familier gikk nedover. Datasettet inneholder et standardisert fruktbarhetsmål og fleire variabler som kanskje kan forklare forskjellen i antall barn mellom provinsene. Variabler observert for hver provins: y : x 1 : x 2 : x 3 : x 4 : x 5 : Et standardisert fruktbarhetsmål (kalt Ig ). % med utdanning utover grunnskole i provinsen. % katolske i provinsen (resten protestantiske ). % levendefødte i provinsen som lever under ett år. % militære rekrutter med høgste fysiske standard i provinsen. % menn som arbeider i jordbruket i provinsen. (Målet Ig er prosent barn sammenlikna med det biologiske maksimum.) Vi ønsker å bruke variablene x 1, x 2, x 3, x 4 og x 5 til å modellere Y (Ig). Vi deler først forklaringsvariablene i to grupper, de kulturelle variablene x 1 og x 2, og de tre andre (som har med helsestell, ernæring og arbeid å gjøre). Vi er mest interessert i de kulturelle variablene x 1 (utdanning) og x 2 (religion), så vi begynner med en modell med disse to variablene. a) Formuler en multippel regresjonsmodell basert på x 1 og x 2. Skriv opp den estimerte modellen og gi en tolkning av hva denne sier deg. I utskriftene (summary) er det oppgitt at en F-test med 2 og 44 frihetsgrader ga en observert F-verdi på 29.7. Forklar kort hvilke hypoteser som er testet, hvordan testobservatoren er konstruert, og konklusjonen. Et interessant spørsmål er om sammenhengen mellom utdanning og fruktbarhet blir modifisert av religion. For å sjekke dette innføres en samspillsvariabel mellom x 1 og x 2 i modellen: Y i = β 0 + β 1 x 1i + β 2 x 2i + β 3 x 1i x 2i + ɛ i, i = 1,..., 47 Den estimerte modellen er gitt i utskriftene. b) I den estimerte modellen er den estimerte samspillsparameteren negativ. Hva betyr dette for effekten av økende utdanning i provinser med liten andel katolikker kontra de med stor? Ta utgangspunkt i fordelinga til B 3 (estimator for β 3 ) og utled et 95%- konfidensintervall for β 3. Rekn ut intervallet basert på utskriftene. Kan du ut fra intervallet avgjøre hvorvidt det er signifikant samspill mellom variablene. Nå vil vi se om vi kan få en bedre modell ved å ta med andre variabler i tillegg til x 1 og x 2 (ikke samspill). c) Sett opp hypoteser og utfør en test for om det gir bedre prediksjon av Y å legge til (gruppa av) variablene x 3, x 4 og x 5 i modellen. Hvilke modeller blir sammenlikna i denne testen? 4
I den fulle modellen med alle x-variablene, finn predikert (tilpassa) verdi for en provins med x-variabelverdier tilsvarende Courtelary. Finn også et konfidensintervall for forventa respons µ Y x for en slik provins. Vi ønsker å undersøke nærmere hvilke av variablene x 3, x 4, x 5 som eventuelt bør inkluderes i en modell for Y. For å avgjøre dette er fleire mål utrekna for aktuelle modeller: Modell R2 R2adj Cp 1 x1+x2 0.5745071 0.5551665 18.486158 2 x1+x2+x3 0.6625438 0.6390004 8.178162 3 x1+x2+x4 0.5748498 0.5451882 20.438243 4 x1+x2+x5 0.6422541 0.6172951 11.014774 5 x1+x2+x3+x4 0.6638654 0.6318526 9.993398 6 x1+x2+x3+x5 0.6993476 0.6707140 5.032800 7 x1+x2+x4+x5 0.6497897 0.6164364 11.961249 8 x1+x2+x3+x4+x5 0.7067350 0.6709710 6.000000 d) Forklar kort hvordan disse godhetsmåla kan benyttes i en prosedyre for å velge en god modell for Y. Hva er sammenhengen mellom R 2 adj og residualvariansen S2? Ut fra utrekningene over og andre utskrifter, argumentér for hvilken modell du ville ansett som den beste. Er det annen informasjon du gjerne ville ha hatt tilgang til ved valg av modell? 5
> limstyrke Styrke Type 1 60 1 2 63 1 3 57 1 4 53 1 5 56 1 6 57 1 7 57 2 8 52 2 9 55 2 10 59 2 11 56 2 12 54 2 13 45 3 14 45 3 15 45 3 16 47 3 17 46 3 18 44 3 19 55 4 20 56 4 21 47 4 22 51 4 23 51 4 24 56 4 > anova(aov(styrke~factor(type),data=limstyrke)) Analysis of Variance Table Response: Styrke Df Sum Sq Mean Sq F value Pr(>F) factor(type)????? Residuals 20 159.50 7.975 6
> swiss y x1 x2 x3 x4 x5 Courtelary 80.2 12 9.96 22.2 15 17.0 Delemont 83.1 9 84.84 22.2 6 45.1 Franches-Mnt 92.5 5 93.40 20.2 5 39.7 Moutier 85.8 7 33.77 20.3 12 36.5 Neuveville 76.9 15 5.16 20.6 17 43.5 Porrentruy 76.1 7 90.57 26.6 9 35.3 Broye 83.8 7 92.85 23.6 16 70.2 Glane 92.4 8 97.16 24.9 14 67.8 Gruyere 82.4 7 97.67 21.0 12 53.3 Sarine 82.9 13 91.38 24.4 16 45.2 Veveyse 87.1 6 98.61 24.5 14 64.5 Aigle 64.1 12 8.52 16.5 21 62.0 Aubonne 66.9 7 2.27 19.1 14 67.5 Avenches 68.9 12 4.43 22.7 19 60.7 Cossonay 61.7 5 2.82 18.7 22 69.3 Echallens 68.3 2 24.20 21.2 18 72.6 Grandson 71.7 8 3.30 20.0 17 34.0 Lausanne 55.7 28 12.11 20.2 26 19.4 La Vallee 54.3 20 2.15 10.8 31 15.2 Lavaux 65.1 9 2.84 20.0 19 73.0 Morges 65.5 10 5.23 18.0 22 59.8 Moudon 65.0 3 4.52 22.4 14 55.1 Nyone 56.6 12 15.14 16.7 22 50.9 Orbe 57.4 6 4.20 15.3 20 54.1 Oron 72.5 1 2.40 21.0 12 71.2 Payerne 74.2 8 5.23 23.8 14 58.1 Paysd enhaut 72.0 3 2.56 18.0 6 63.5 Rolle 60.5 10 7.72 16.3 16 60.8 Vevey 58.3 19 18.46 20.9 25 26.8 Yverdon 65.4 8 6.10 22.5 15 49.5 Conthey 75.5 2 99.71 15.1 3 85.9 Entremont 69.3 6 99.68 19.8 7 84.9 Herens 77.3 2 100.00 18.3 5 89.7 Martigwy 70.5 6 98.96 19.4 12 78.2 Monthey 79.4 3 98.22 20.2 7 64.9 St Maurice 65.0 9 99.06 17.8 9 75.9 Sierre 92.2 3 99.46 16.3 3 84.6 Sion 79.3 13 96.83 18.1 13 63.1 Boudry 70.4 12 5.62 20.3 26 38.4 La Chauxdfnd 65.7 11 13.79 20.5 29 7.7 Le Locle 72.7 13 11.22 18.9 22 16.7 Neuchatel 64.4 32 16.92 23.0 35 17.6 Val de Ruz 77.6 7 4.97 20.0 15 37.6 ValdeTravers 67.6 7 8.65 19.5 25 18.7 V. De Geneve 35.0 53 42.34 18.0 37 1.2 Rive Droite 44.7 29 50.43 18.2 16 46.6 Rive Gauche 42.8 29 58.33 19.3 22 27.7 7
> summary(lm(y~x1+x2,data=swiss)) Call: lm(formula = y ~ x1 + x2, data = swiss) Residuals: Min 1Q Median 3Q Max -15.042-6.578-1.431 6.122 14.322 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 74.23369 2.35197 31.562 < 2e-16 *** x1-0.78833 0.12929-6.097 2.43e-07 *** x2 0.11092 0.02981 3.721 0.00056 *** Residual standard error: 8.331 on 44 degrees of freedom Multiple R-squared: 0.5745, Adjusted R-squared: 0.5552 F-statistic: 29.7 on 2 and 44 DF, p-value: 6.849e-09 > anova(lm(y~x1+x2,data=swiss)) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 3162.7 3162.7 45.564 2.66e-08 *** x2 1 961.1 961.1 13.846 0.0005598 *** Residuals 44 3054.2 69.4 8
> summary(lm(y~x1*x2,data=swiss)) Call: lm(formula = y ~ x1 * x2, data = swiss) Residuals: Min 1Q Median 3Q Max -11.953-6.319-1.368 6.380 14.297 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 70.937553 3.106471 22.835 < 2e-16 *** x1-0.427637 0.260176-1.644 0.10754 x2 0.184003 0.054539 3.374 0.00158 ** x1:x2-0.009380??? Residual standard error: 8.191 on 43 degrees of freedom Multiple R-squared: 0.5981, Adjusted R-squared: 0.5701 F-statistic: 21.33 on 3 and 43 DF, p-value: 1.286e-08 > X = model.matrix(lm(y~x1*x2,data=swiss)) > solve(t(x)%*%x) (Intercept) x1 x2 x1:x2 (Intercept) 0.1438423549-0.0100152235-2.042810e-03 1.825553e-04 x1-0.0100152235 0.0010089893 1.641836e-04-1.997680e-05 x2-0.0020428105 0.0001641836 4.433698e-05-4.047599e-06 x1:x2 0.0001825553-0.0000199768-4.047599e-06 5.195180e-07 9
> anova(lm(y~x1+x2+x3+x4+x5,data=swiss)) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x1 1 3162.7 3162.7 61.6004 1.073e-09 *** x2 1 961.1 961.1 18.7187 9.478e-05 *** x3 1 631.9 631.9 12.3080 0.001109 ** x4 1 9.5 9.5 0.1848 0.669562 x5 1 307.7 307.7 5.9934 0.018727 * Residuals 41 2105.0 51.3 > summary(lm(y~x1+x2+x3+x4+x5,data=swiss)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 66.91518 10.70604 6.250 1.91e-07 *** x1-0.87094 0.18303-4.758 2.43e-05 *** x2 0.10412 0.03526 2.953 0.00519 ** x3 1.07705 0.38172 2.822 0.00734 ** x4-0.25801 0.25388-1.016 0.31546 x5-0.17211 0.07030-2.448 0.01873 * Residual standard error: 7.165 on 41 degrees of freedom Multiple R-squared: 0.7067, Adjusted R-squared: 0.671 F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10 > X = model.matrix(lm(y~x1+x2+x3+x4+x5,data=swiss)) > x0 = X[row.names(X)=="Courtelary",] > t(x0)%*%solve(t(x)%*%x)%*%x0 [,1] [1,] 0.1568174 > summary(lm(y~x1+x2+x3+x5,data=swiss)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 62.10131 9.60489 6.466 8.49e-08 *** x1-0.98026 0.14814-6.617 5.14e-08 *** x2 0.12467 0.02889 4.315 9.50e-05 *** x3 1.07844 0.38187 2.824 0.00722 ** x5-0.15462 0.06819-2.267 0.02857 * Residual standard error: 7.168 on 42 degrees of freedom Multiple R-squared: 0.6993, Adjusted R-squared: 0.6707 F-statistic: 24.42 on 4 and 42 DF, p-value: 1.717e-10 10