UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Eksamen i: Bio 2150A Biostatistikk Eksamensdag: 5. desember 2011 Tid for eksamen: 09:00-12:00 (3 timer) Oppgavesettet er på 6 sider Vedlegg: Ingen Tillatte hjelpemidler: Kalkulator, samt egenprodusert hjelpemiddel bestående av opp til ti tosidige A4-ark med valgfri tekst, håndskrevet eller trykt. Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Eksamen teller 50% av avsluttende karakter. Legg merke til at oppgavene er gitt forskjellig vekt. Oppgave 1 (30%) a. Definer type I-feil, type II-feil, signifikanssannsynlighet og teststyrke ( power ). b. Anslå korrelasjonskoeffisienten mellom X og Y i hver av figurene a d ovenfor. 1
c. Hva er likningene for de rette linjene i figurene a d ovenfor? d. Figuren ovenfor viser dødelighet i et eksperiment hvor 72 rhesusaper ble utsatt for en aerosol med forskjellige konsentrasjoner av anthrax-sporer. Den logistiske regresjonsmodellen i figuren har likning Log-odds(Mortality) = -1.74 + 0.0000364 (Anthrax dose). Hvilken Anthrax-dose gir 50 % mortalitet (LC50)? e. Hva er sannsynligheten for at alle forsøksdyrene overlever ved en dose lik LC50 når en har 4 forsøksdyr? Hvor stor blir denne sannsynligheten hvis en har 8 forsøksdyr? f. Hva vil det si at et forsøksdesign er balansert? Hvilke konsekvenser kan det ha hvis et forsøksdesign er ubalansert? 2
Oppgave 2 (40%) Tetrahymena pyriformis er en ciliat som kan dyrkes i bakteriefrie laboratoriekulturer og er en mye brukt modellorganisme for eukaryot cellebiologi. Per Hellung-Larsen ved Københavns Universitet så på størrelsen av T.pyriformis-celler i kulturer med forskjellig celletetthet og med forskjellig sammensetning av vekstmediet (med og uten tilskudd av glukose). Datasettet tetra består av følgende 3 variable: glucose: hvorvidt mediet var tilsatt glukose eller ikke conc: cellekonsentrasjon som antall pr. mikroliter (µl) diameter: gjennomsnittlig cellediameter i mikrometer (µm) Sammendraget av datasettet ser slik ut: > summary(tetra) glucose conc diameter Mode :logical Min. : 11.0 Min. :19.20 FALSE:19 1st Qu.: 27.5 1st Qu.:21.40 TRUE :32 Median : 69.0 Median :23.30 NA's :0 Mean :164.3 Mean :23.00 3rd Qu.:243.0 3rd Qu.:24.35 Max. :631.0 Max. :26.30 a. Hva slags typer er disse variablene? Hvor mange observasjoner var det? Hva var interkvartilavstandene for variablene conc og diameter? b. Hvilke R-kommandoer ville du bruke for å lage de fire plottene som er vist nedenfor? Hva forteller plottene oss hvordan variablene bør transformeres? 3
Det ser altså ut som det er en negativ sammenheng mellom cellediameter og -tetthet, og at sammenhengen er mer lineær på logaritmisk skala. Men hvordan spiller effekten av glukose-tilskudd inn i dette? For å undersøke dette lager vi ytterligere to plott: c. Hvilke R-kommandoer ville du brukt for å lage disse to plottene, og hva forteller de oss? Vi lager tre lineære modeller for å analysere sammenhengen mellom cellediameter, celletetthet og glukosetilskudd: > m1 <- lm(log(diameter) ~ log(conc), data = tetra) > m2 <- lm(log(diameter) ~ log(conc) + glucose, data = tetra) > m3 <- lm(log(diameter) ~ log(conc) * glucose, data = tetra) d. Hva slags type lineære modeller er dette? Hvor mange residuale frihetsgrader vil hver enkelt av dem ha? e. Modell m1 har residual kvadratsum lik 0.0716 og total kvadratsum lik 0.3202. Bruk denne informasjonen til å sette opp en variansanalysetabell for modellen og vis at F-verdien er lik 170 for en hypotesetest om stigningstall lik null. Regn også ut hvor stor del av variasjonen i log(diameter) som kan forklares av log(conc) i modell m1. For å sammenlikne disse modellene gjør vi følgende analyse: > anova(m1, m2) Model 1: log(diameter) ~ log(conc) Model 2: log(diameter) ~ log(conc) + glucose Res.Df RSS Df Sum of Sq F Pr(>F) 1 49 0.071569 2 48 0.021234 1 0.050335 113.78 2.932e-14 *** --- > anova(m2, m3) Model 1: log(diameter) ~ log(conc) + glucose Model 2: log(diameter) ~ log(conc) * glucose Res.Df RSS Df Sum of Sq F Pr(>F) 1 48 0.021234 2 47 0.020448 1 0.00078615 1.807 0.1853 f. Hva kaller vi den typen analyser vi her har gjort? Hva forteller de oss om hvilken modell vi bør foretrekke av alternativene m1, m2 og m3? Hvordan tolker du den foretrukne modellen? 4
g. Bruk koeffisienttabellen fra modell m2 (nedenfor) til å finne regresjonslinjene for log(diameter) som funksjon av log(conc) i kulturer med og uten glukosetilskudd. Hva blir predikert cellediameter i kulturer med 100 celler / µl, med og uten glukose? Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 3.333490 0.011024 302.38 < 2e-16 *** log(conc) -0.055393 0.002301-24.07 < 2e-16 *** glucosetrue 0.065020 0.006095 10.67 2.93e-14 *** h. Regn ut et ca. 95 % konfidensintervall for det felles stigningstallet til de to regresjonslinjene. i. Hvor mange prosent øker cellediameteren når celletettheten øker fra 10 til 100 celler / µl? Oppgave 3 (30%) a. Økoklinbegrepet er et helt sentralt begrep ved beskrivelse av natuvariasjon. Forklar kort hva som menes med en økoklin og hvorfor dette begrepet er så viktig. b. I naturbeskrivelsessystemet 'Naturtyper i Norge' (NiN) brukes 'økoklindiagrammer' som et hjelpemiddel til å beskrive naturvariasjon. Under finner du økoklindiagrammet for natursystem-hovedtypen (T30). Forklar hva vi kan lese ut av dette diagrammet. økoklin 3 kalkinnhold (KA) 6 kalkmark 5 kalkrik 4 intermediær 3 2 økoklin 1 snødekkebetinget vekstsesongreduksjon (SV) 1 2 3 ekstrem økoklin 2 vannmetning: vannmetning av marka (VM A) A1 A2 fuktmark mark [5] kalk lågurtkalk [4] lågurt [3] intermediært svakt lågurt [2] gras [1] gras [10] fuktkalk lågurtkalkfukt [9] fukt lågurtfukt [8] mineralnæringsfattig intermediært fuktmark svakt lågurtfukt [7] fuktmark grasfukt [6] fuktmark grasfukt økoklin 2 vannmetning: vannmetning av marka (VM A) A1 mark [13] kalk kalk [12] lågurt [11] A2 fuktmark [16] fuktmarkkalk kalkfukt [15] fuktmark lågurtfukt [14] fuktmark fukt økoklin 2 vannmetning: vannmetning av marka (VM A) A1 mark [19] ekstremkalk ekstremt kalk [18] ekstrem intermediært ekstrem [17] ekstrem ekstrem A2 fuktmark [22] ekstrem på fuktmark ekstremt kalkfukt [21] ekstrem på fuktmark intermediært ekstremfukt [20] ekstrem på fuktmark ekstremfukt 5
Grunnlaget for identifisering av viktige økokliner i NiN er undersøkelser av sammenhenger mellom variasjon i artssammensetning og variasjon i viktige miljøfaktorer (såkalte økologiske basisundersøkelser). Slike undersøkelser bruker data om mengde av de m artene som er registrert på en antall, n, lokaliteter. På hver lokalitet er det også registrert p miljøvariabler. Datagrunnlaget for analyser består altså av ei m x n art-lokalitetsmatrise og ei p x n miljøvariabel-lokalitetsmatrise. c. Forklar hvorfor ordinasjonsmetoden PCA (principal component analysis) vanligvis er velegnet til å finne struktur i miljøvariabel-lokalitetsmatrise, men dårlig egnet til å finne struktur i artlokalitetsmatrisa. d. Hvilket av begrepene artssammensetninggradient, kompleks miljøgradient og økoklin passer til å beskrive en ordinasjonsakse for ordinasjon av ei art-lokalitetsmatrise? e. En forsker holder på med en økologsk basisundersøkelse av variasjon i planteartssammensetning i en lite undersøkt naturtype, arktisk steppe. Hun har registrert artssammensetning i 36 ruter á 1 m 2, og ønsker å bruke ordinasjonsmetoder til å finne hovedstrukturen i artlokalitetsmatrisa. Hun lager to ordinasjoner av dette datamaterialet, en DCA-ordinasjon og en GNMDS-ordinasjon. Hun beregner korrelasjonskoeffisienter (Kendall s τ) mellom rutenes plassering langs de to første DCA-aksene og de to GNMDS-aksene. Resultatet er som følger: DCA 1 DCA 2 τ P τ P GNMDS 1 0.8929 <0.0001 0.0401 0.6595 GNMDS 2 0.1567 0.1148 0.1056 0.2106 Hvilke konsekvenser bør dette resultatet få for forskerens videre analysearbeid? 6