UNIVERSITETET I OSLO Det matematsk-naturvtenskapelge fakultet Eksamen : STK1000 Innførng anvendt statstkk Eksamensdag: Trsdag 12. desember 2017 Td for eksamen: 14.30 18.30 Oppgavesettet er på 5 sder Tllatte hjelpemdler: Godkjent kalkulator, ordlste for STK1000, og lærebok (alle utgaver, og det er lov å notere læreboka) Kontroller at oppgavesettet er komplett før du begnner å besvare spørsmålene. Alle deloppgaver teller lkt vurderngen av besvarelsen. Lkke tl! Oppgave 1 John Arbuthnot blr av mange tldelt æren for å ha beregnet verdens første p-verd. Nullhpotesen hans om at det blr født lke mange gutter som jenter ble undersøkt ved å studere dåpsstatstkken London mellom 1629 og 1710. Han observerte at 82 år på rad ble det født (og døpt) flere gutter enn jenter. I denne oppgaven skal v se nærmere på om det var nødvendg med observasjoner over 82 år, eller om John Arbuthnot kunne klart seg med ett år.
a) Beregn sannsnlgheten for å observere flere guttefødsler enn jentefødsler 82 år på rad, dersom sannsnlgheten for å føde en gutt er lk sannsnlgheten for å føde en jente. La den stokastske varabelen X være antall guttefødsler 1629. Hvlken sannsnlghetsfordelng har X? Hvlke tre forutsetnnger må være oppflt for at X skal ha denne fordelngen? b) Ta utgangspunkt X og parameteren p fordelngen fra oppgave a). Formuler nullhpotesen og den alternatve hpotesen for hvor stor andel gutter som blr født 1629. G et punktestmat for p, og beregn et 95% konfdensntervall for p. G en tolknng av konfdensntervallet, og forklar hvlken konklusjon du kommer frem tl på hpotesetesten hvs du bruker et sgnfkansnvå på 0.05. c) Anta at den sanne andelen guttefødsler er 0.52. Hvor mange fødsler (n) måtte du observere for å få forkastet en tosdg H0 på nvå 0.05? (Hnt: Ta utgangspunkt nedre grense et 95% konfdensntervall, som oppgave b).) Oppgave 2 Da STK1000-studenter høsten 2016 ble spurt om hvor mange hverdagsklær de har skapet stt, fordelte antallet klær seg på 20 menn og 31 kvnner på følgende måte: Deskrptv statstkk for de 20 mennene: Mn. 1st Qu. Medan Mean 3rd Qu. Max. sd 5.0 27.5 42.5 49.0 59.0 157.0 34.3 Deskrptv statstkk for de 31 kvnnene: Mn. 1st Qu. Medan Mean 3rd Qu. Max. sd 8.0 40.0 50.0 85.0 105.0 330.0 75.2 Utskrftene vser resultatene fra en to-utvalgs t-test og en Wlcoxon Rank Sum test: > t.test(hverdag~kjonn) Welch Two Sample t-test data: hverdag b kjonn t = 2.3216, df = 45.082, p-value = 0.02483
alternatve hpothess: true dfference n means s not equal to 0 95 percent confdence nterval: 4.780768 67.383748 sample estmates: mean n group Kvnne mean n group Mann 85.03226 48.95000 > wlcox.test(hverdag~kjonn) Wlcoxon rank sum test wth contnut correcton data: hverdag b kjonn W = 399.5, p-value = 0.08544 alternatve hpothess: true locaton shft s not equal to 0 a) Hvlke oppsummerngstall fra den deskrptve statstkken beskrver gruppene best? Begrunn svaret. b) Sett opp hpoteser for å teste om det er forskjell på antall klær mellom kjønnene. Forklar hvlken test du velger og hvorfor. Velg sgnfkansnvå 0.05. Hvlken konklusjon trekker du og hvorfor? Oppgave 3 Blant kke-gravde voksne er det funnet en sammenheng mellom hø bod mass ndex (BMI), altså (vekt kg)/(høde m) 2, og hø nsulnresstens. Insulnresstensen reflekteres høe blodsukkerverder, speselt etter at man har spst. I en stude av 130 gravde kvnner ønsket man å undersøke sammenhengen mellom kvnnenes BMI før gravdteten, og deres blodsukkernvåer (målt mmol/l) to tmer etter matnntak, sste halvdel av svangerskapet. Følgende regresjonsanalse ble gjort: > summar(lm(blodsukker ~ BMI )) lm(formula = blodsukker ~ BMI ) Resduals: Mn 1Q Medan 3Q Max -2.8228-0.7290-0.2273 0.7749 3.5811 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 2.77942 0.88482 3.141 0.00209 ** BMI 0.08225 0.03897 2.111 0.03676 * Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 1.169 on 128 degrees of freedom Multple R-squared: 0.03363, Adjusted R-squared: 0.02608 F-statstc: 4.454 on 1 and 128 DF, p-value: 0.03676 a) Hva er effektmålet her? Hvordan tolkes det? G et estmat for sammenhengen mellom mors BMI før svangerskapet og hennes blodsukkernvå to tmer etter matnntak, sste halvdel av svangerskapet. Beregn et 95% konfdensntervall for denne sammenhengen.
Forskerne mstenkte at vektøknngen svangerskapet kunne være en vktg faktor dette. Det ble lagt tl grunn forsknng fra kke-gravde, som vste at selv en moderat øknng BMI førte tl økt nsulnresstens hos personer som ble fulgt opp over td. Helseråd som gs tl gravde om vektøknng svangerskapet har som mål å redusere uheldge konsekvenser av overvekt, både for den gravde og barnet hun bærer. Anbefalt vektøknng vl derfor være en konsekvens av kvnnenes BMI før svangerskapet. Overvektge kvnner anbefales en mndre vektoppgang enn normalvektge kvnner. b) Kan vektøknngen svangerskapet antas å være en en konfunderende varabel (confounder eller lurkng varable) for sammenhengen mellom mors BMI før svangerskapet og hennes blodsukkernvå to tmer etter matnntak, sent svangerskapet? Begrunn svaret. Kommenter følgende utskrft ls av det du nettopp svarte. > summar(lm(blodsukker ~ BMI + vektoknng)) lm(formula = blodsukker ~ BMI + vektoknng) Resduals: Mn 1Q Medan 3Q Max -2.8334-0.6902-0.2317 0.8012 3.5537 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 2.63692 0.97384 2.708 0.00771 ** BMI 0.08268 0.03912 2.113 0.03653 * vektoknng 0.01789 0.05023 0.356 0.72231 Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 1.173 on 127 degrees of freedom Multple R-squared: 0.03459, Adjusted R-squared: 0.01939 F-statstc: 2.275 on 2 and 127 DF, p-value: 0.1069 Oppgave 4 Et av datasettene man fnner R er et datasett med høde, omkrets og tømmervolumet 31 felte krsebærtrær. Omkretsen tl trærne ( cm) er målt brsthøde, 137 cm over bakken. I denne oppgaven er tømmervolumet kovertert tl lter. Man kan gå ut fra at en lter tlsvarer en vedkubbe. Dersom man plotter tømmervolumet (kalt vedkubbe utskrften) og omkretsen på treet x (kalt omkrets utskrften) et scatterplot, ser man at den kan uttrkkes ved regresjonsmodellen 0 1x, ~ N(0, ). Gjennomsntt og standardavvk er x 105. 7, 25. 0 sd, og 854. 3 Utskrften vser en regresjonsanalse som ble gjort av dsse 31 trærne: > summar(lm(vedkubber~omkrets)) lm(formula = vedkubber ~ omkrets) x, sd 465. 5.
Resduals: Mn 1Q Medan 3Q Max -228.386-87.972 4.303 98.961 271.468 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) -1046.1223 95.2903-10.98 7.62e-12 *** omkrets 17.9769 0.8779 20.48 < 2e-16 *** Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 120.4 on 29 degrees of freedom Multple R-squared: 0.9353, Adjusted R-squared: 0.9331 F-statstc: 419.4 on 1 and 29 DF, p-value: < 2.2e-16 a) Hvordan må sammenhengen mellom x og scatterplottet se ut for at det skal være fornuftg å bruke denne regresjonsmodellen? G estmater og tolknng av estmatene for parameterne 0 og 1. b) Beregn et 95% predksjonsntervall for tømmervolum målt vedkubber for et tre med en omkrets på 94.2 cm (dameter 30 cm). c) Utskrften under vser en tlsvarende regresjonsanalse for trærnes omkrets mot trærnes høde (målt meter). Et tlhørende 95% predksjonsntervall for høden tl et tre med en omkrets på 94.2 cm (dameter 30 cm) er [19.2, 26.2]. Forklar hva et predksjonsntervall vser. G en tolknng av de to predksjonsntervallene fra b) og c). For de 31 krsebærtrærne: Hva gr omkretsen tl treet en mest press predksjon av: tømmervolumet eller høden på treet? Begrunn svaret. > round(c(mean(trehodemeter), sd(trehodemeter)),1) [1] 23.2 1.9 > summar(lm(trehodemeter~omkrets)) lm(formula = trehodemeter ~ omkrets) Resduals: Mn 1Q Medan 3Q Max -3.8349-0.8439 0.0964 0.7537 3.0314 Coeffcents: Estmate Std. Error t value Pr(> t ) (Intercept) 18.90714 1.33603 14.152 1.49e-14 *** omkrets 0.04027 0.01231 3.272 0.00276 ** Sgnf. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Resdual standard error: 1.688 on 29 degrees of freedom Multple R-squared: 0.2697, Adjusted R-squared: 0.2445 F-statstc: 10.71 on 1 and 29 DF, p-value: 0.002758 SLUTT