UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: Bio 2150A Biostatistikk og studiedesign Eksamensdag: 6. desember 2013 Tid for eksamen: 14:30-17:30 (3 timer) Oppgavesettet er på 6 sider Vedlegg: Ingen Tillatte hjelpemidler: Kalkulator, samt egenprodusert hjelpemiddel bestående av opp til ti tosidige A4-ark med valgfri tekst, formler, ligninger, figurer, tabeller etc.; håndskrevet eller trykt. Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Eksamen teller 70% av avsluttende karakter. Legg merke til at oppgavene er gitt forskjellig vekt. Oppgave 1 (40%) Francis Galton målte i 1885 høyden av 930 voksne barn og deres respektive foreldre (205 foreldrepar). For foreldrene bestemte han gjennomsnittshøyden for hvert foreldrepar (variabel forelder), hvor han korrigerte for kjønn og økte høyden av kvinner med en faktor 1.08. Variabelen barn angir høyden av voksne barn i cm. En grafisk framstilling av resultatet av de to variablene barn og forelder i datasettet galton er vist på figuren. a. Regresjonslinjen er den heltrukne linjen på figuren. Beskriv kort metoden som benyttes og hvilke R-kommandoer som kan brukes for å trekke denne regresjonslinjen. 1
b. Hvilke forutsetninger må være oppfylt for å kunne utføre lineær regresjon? c. Analysen du utførte i delspørsmål a) gir utskriften nedenfor. Hvordan tolker du de to koeffisientestimatene i denne modellen? Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 60.81149 7.13963 8.517 <2e-16 *** forelder 0.64629 0.04114 15.711 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 5.686 on 926 degrees of freedom Multiple R-squared: 0.2105, Adjusted R-squared: 0.2096 F-statistic: 246.8 on 1 and 926 DF, p-value: < 2.2e-16 d. Hva representerer den prikkete linjen på figuren? e. Hvordan vil du definere forskjellen mellom statistisk residual og statistisk error? f. En ANOVA-tabell for regresjonen viser følgende. Sett inn verdiene merket med?, og vis hvordan du kommer fram til verdien for R 2 vist i delspørsmål c), samt hvordan du i R kan finne den kritiske tabellverdien for F. Df Sum Sq Mean Sq F value Pr(>F) forelder 1 7980?? <2e-16 *** Residuals 926 29937? g. Bestem 95% konfidensintervall for skjæringspunkt (intercept) og stigningstall. h. Hva menes med 95% konfidensbånd og 95% prediksjonsintervall? i. Figuren i begynnelsen av oppgaven viser et fenomen kalt Regresjon mot gjennomsnitt ( Regression to the mean ). Hva betyr dette uttrykket i denne sammenhengen og hvilke konsekvenser har det? j. Diskuter ulempene med nullhypotesetesting og bruk av α = 0.05 i økologiske undersøkelser, og om det finnes noe bedre alternativ? Oppgave 2 (35%) Tusenbeinkreps (Anostraca) er en orden av krepsdyr innen klassen Branchiopoda (bladføttinger). De fleste artene lever i ekstreme habitater som saltsjøer, tidevannspytter og grunne høyfjellssjøer, blant annet fordi de er svært sensitive for predasjon fra fisk, amfibier, etc. og fordi de har robuste hvileegg som tåler godt uttørking eller bunnfrysing. Tusenbeinkrepsen Branchinecta paludosa finnes sirkumpolart i innsjøer nord for 60 N. I en periode rundt 1970 registrerte fiskeforskeren Per Aass forekomst av B. paludosa i høyfjellsdammer innenfor et område på rundt 900 km 2 i Rondane, Dovrefjell og Lesjafjellet, i et høydeintervall 2
som strakte seg fra rett over tregrensa (ca. 900 meter) og opp til mer enn 1600 meter over havet. I 2011 oppsøkte NIVA-forskeren Markus Lindholm de samme dammene og registrerte forekomst av B. paludosa på nytt. En analyse av disse funnene sammenliknet med Per Aass registreringer 40 år tidligere ble i 2012 publisert i fagtidsskriftet Freshwater Biology (57, 2591 2601). Følgende utskrift er basert på et datasett ekstrahert fra Tabell 1 i Lindholm m. fl. (2012), hvor den først variabelen er høyde over havet (meter) og de to siste er forekomst av B. paludosa i henholdsvis 1970 og 2011. > bp <- read.table("lindholm.2012.txt", sep = "\t", header = TRUE) > summary(bp) alt Bp.1970 Bp.2011 Min. : 916 absent :45 absent :63 1st Qu.:1082 present:76 present:58 Median :1158 Mean :1167 3rd Qu.:1234 Max. :1631 a. Hvilke datatyper er de 3 variablene i datasettet, og hvor mange observasjoner var det i alt? b. Estimer sannsynlighetene for forekomst av B. paludosa i henholdsvis 1970 og 2011. c. Hva er en odds? Estimer oddsene for forekomst av B.paludosa i 1970 og 2011, og odds ratio for forekomst i 2011 i forhold til 1970. Du gjør deretter kommandoen > (bp.x <- with(bp, table(bp.1970, Bp.2011))) Bp.2011 Bp.1970 absent present absent 44 1 present 19 57 d. Hva kalles dataobjektet som produseres av table()-funksjonen, og hvordan tolker du radene og kolonnene i dette objektet? e. Hva slags figur vil kommandoen plot(bp.x) gi oss? Vi lager et nytt R-objekt med følgende kommando: bp2 <- data.frame(alt=c(bp$alt, bp$alt), Bp=factor(c(bp$Bp.1970, bp$bp.2011)), year=factor(rep(c(1970, 2011), each=121))) f. Ut fra det du vet om bp skal du ha informasjon nok til å skrive ned hvilket resultat du forventer å få av kommandoen summary(bp2). Du lager en glm av bp2 og får følgende utskrift: > summary(m <- glm(bp ~ year, data = bp2, family = binomial)) 3
Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 0.5241 0.1881 2.786 0.00533 ** year2011-0.6068 0.2617-2.318 0.02043 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 332.68 on 241 degrees of freedom Residual deviance: 327.25 on 240 degrees of freedom g. Hva slags modellobjekt blir m og hvilke forutsetninger er denne modellen basert på? h. Hvordan tolker du koeffisientestimatet for year2011? Lag et 95% konfidensintervall for odds ratioen du estimerte i delspørsmål c). Oppgave 3 (25%) Følgende datasett som ble brukt av R.A. Fisher, angir kroppsvekten i kg (variabel Bwt) og vekten av hjertet i gram (variabel Hwt) hos voksne katter fordelt på kjønn (variabel Sex; hunner (F), hanner (M)) > library(mass) > summary(cats) Sex Bwt Hwt F:47 Min. :2.000 Min. : 6.30 M:97 1st Qu.:2.300 1st Qu.: 8.95 Median :2.700 Median :10.10 Mean :2.724 Mean :10.63 3rd Qu.:3.025 3rd Qu.:12.12 Max. :3.900 Max. :20.50 a. Hvordan vil du gå fram for å plotte datapunktene i datasettet cats som vist på figuren nedenfor? 4
b. For summary(lm(hwt ~ Bwt * Sex, data=cats)) får man følgende utskrift. Hvordan vi du beskrive feltene A til F i oppsummering av modellen? c. Ved plotting av modellen får man følgende. Hvordan tolker du disse plottene? 5
6