UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet Underveiseksamen i : BIO2150 Biostatistikk og studiedesign Eksamensdag: 9. oktober 2013 Tid for eksamen: kl. 11:00 14:00 (3 timer) Oppgavesettet er på 13 sider Vedlegg: Ingen Tillatte hjelpemidler: Ingen Kandidatnummer: Oppgavene er flervalgsoppgaver hvor det skal krysses av for korrekt svar eller påstand. I noen tilfeller er flere svar korrekte. Det skal da krysses av for det alternativet som spesifiserer hvilke svar som er riktige. Det skal aldri krysses av for mer enn ett svaralternativ på hvert spørsmål. Alle oppgavene teller likt. Det blir ikke trukket for feil svar. Etter at du har besvart oppgavene, må de valgte svaralternativene overføres til den første siden av oppgavesettet (denne siden). Sjekk nøye at du krysser av riktig på svararket. Bare dette svararket (side 1-2) skal innleveres. Resten av oppgavesettet tar du med etter endt eksamen, slik at du kan sammenlikne dine svar med fasiten. Denne blir lagt ut på Fronter etter eksamensavslutning. Oppgave 1: Oppgave 8: Oppgave 2: Oppgave 9: Oppgave 3: Oppgave 10: Oppgave 4: Oppgave 11: Oppgave 5: Oppgave 12: Oppgave 6: Oppgave 13: Oppgave 7: Oppgave 14: 1
Oppgave 15: Oppgave 23: Oppgave 16: Oppgave 24: Oppgave 17: Oppgave 25: Oppgave 18: Oppgave 26: Oppgave 19: Oppgave 27: Oppgave 20: Oppgave 28: Oppgave 21: Oppgave 29: Oppgave 22: Oppgave 30: 2
1. Du har fått følgende figur av to normalfordelte variable x og y: Vilken ca. verdi for korrelasjonskoeffisienten r kan du finne fra figuren? a) r = 1 b) r = -0.8 c) r = 1.2 d) r = 0.7 e) r = 0.5 2. I et eksperiment strider dine data mot forutsetningene som kreves for å kunne utføre en-veis ANOVA. Imidlertid finnes det et ikke-parametrisk alternativ, og det er: a) Kjikvadrattest b) Tukey-Kramer test c) Wilcoxon test d) Kruskal-Wallis test e) Mann-Whitney test 3. I et eksperiment på laben målte dere diameter og volum av erter, klinkekuler og golfballer i et forsøk på å bestemme verdien av π. Formelen for volum (V) av en kule hvor r er radius er: V = 4 3 πr3 3
R-kommandoen plot(log(volum)~log(radius) vil for noen utvalgte verdier av radius gi følgende grafiske framstilling: Hva er stigningstallet (stigningskoeffisienten) for den rette linjen på figuren? a) 2.8 b) -1.4 c) 3.0 d) 3.2 e) 0.5 4. I foregående oppgave (3) ser du at for en verdi av radius så er ln(r) = 0. Hvilken verdi av radius er det som tilsvarer denne verdien? a) radius=0 b) radius=0.5 c) radius=-0.5 d) radius=10 e) radius=1 5. Ved hypotesetesting er det mulig å begå Type I feil hvor signifikansnivå (forkastningsnivå) vanligvis settes α=0.05, og nullhypotesen H 0 forkastes når P-verdien er mindre eller lik 0.05. Med dette som utgangspunkt hvor sannsynlig er det at man vil forkaste en sann nullhypotese? a) 5% 4
b) 1% c) Avhenger av β-verdien for Type II feil d) 95% e) 50% 6. Du plotter sannsynlighetstetthetsfunksjonene f(x) for tre normalfordelinger og får tre kurver som vist på figuren. Vilke parameterverdier varierer? a) F-verdiene b) Arealene under kurvene c) Gjennomsnittsverdier og varianser d) t-verdiene e) Både a) og d) er riktige 7. En vanlig kortstokk med 52 kort har 13 kort med hjerter ( ), ruter ( ), kløver ( ) og spar ( ), og har utfallsrommet: S={,,,, E,K,Q,J,10,9,8,7,6,5,4,3,2}. Hva er sannsynligheten for at du trekker et ess (E) eller et kort med hjerter ( )? a) 4/52 7.7% b) 17/52 32.7% 5
c) 16/52 30.8% d) 13/52 25% e) 26/52 50% 8. Du har laget et histogram over x-verdier og laget en heltrukken linje. Hvilken R-kommando har du brukt for å lage den heltrukne linjen? a) curve(dchisq(x,df=0),add=t) b) curve(qnorm(x),add=t) c) curve(pnorm(x),add=t) d) curve(rnorm(x),add=t) e) curve(dnorm(x),add=t) 9. Du har målt skuddlengden av 10 hveteblad med måleenhet centimeter (cm). Hva blir måleenheten for variansen? a) Har ingen måleenhet (dimensjonsløs) b) cm 3 c) cm 2 d) (cm 2 - cm 2 ) 6
e) cm 10. Hvilket tall er mest sannsynlig som summen ved kast av to vanlige terninger? a) 6 b) 7 c) 5 d) 4 e) 10 11. Hva er forventningsverdien E(X) ved kast av 5 mynter? a) 3 b) 2 c) 5 d) 2.5 e) 1 12. I et feltforsøk undersøkes effekten av tre gjødseltyper (FERTIL = 1, 2 eller 3) på avlingen (YIELD). Det er 10 forsøksfelt (eksperimentelle enheter) for hver gjødseltype. De 30 feltene høstes og avlingen i tonn for hvert felt bestemmes. Med R-kommandoen summary(aov(yield ~ FERTIL)) får du følgende ANOVA-tabell: Df Sum Sq Mean Sq F value Pr(>F) FERTIL 2 10.82 5.411? 0.00859 ** Residuals 27 25.62 0.949 Hva blir F-verdien i denne tabellen? a) 6.4 b) 29 c) 13.5 d) 0.4 e) 5.7 7
13. I det samme eksperimentet som i oppgave 12 vil du med R-kommandoen summary(lm(yield~fertil)) finne i utskriften en verdi for Multiple R-squared kalt R 2 -verdien. Hva er definisjonen på denne verdien? a) R 2 = kovarians b) R 2 = SS total SS groups c) R 2 = SS groups SS total d) R 2 = korrelasjonskoeffisienten e) R 2 = SS total SS groups 2 14. I hypotesetesting betyr Type II-feil følgende : a) Forkaste en sann nullhypotese b) Beholde en sann nullhypotese c) Feile i å forkaste en usann nullhypotese d) For få antall frihetsgrader e) Pseudoreplikering av tidsseriedata 15. Vi har målt fotlengde (cm) og fordelingen er som på figuren, hvor n er antall målinger. Vi ønsker å regne om fotlengdedata til standard normalfordeling. Vilken av følgende formler kan du benytte for å foreta denne omregningen? a) z = n i=1 (y i y) 2 n n 1 b) z = 1 (y i y) 2 c) z = y i y s n 1 n i=1 d) z = (y i y) 2 e) z = (y i y) 2 16. I et forsøk undersøkes 6 sorter bønner (BEAN) og hvor stor avling de gir (YIELD). For å unngå effekten av gradienter på forsøksfeltet deles forsøket i 4 blokker (BLOCK ). Eksperimentet gir følgende ANOVA-tabell: summary(aov(yield~bean+block)) Df Sum Sq Mean Sq F value Pr(>F) 8
BEAN? 444.4 88.89 23.476 1.34e-06 *** BLOCK? 52.9 17.63 4.657 0.0171 * Residuals? 56.8 3.79 Vilke verdier for antall frihetsgrader (Df) er utelatt i tabellen? a) BEAN Df=6, BLOCK Df= 4, Residuals Df=6 b) BEAN Df= 10, BLOCK Df=4, Residuals Df=10 c) BEAN Df= 6, BLOCK Df= 4, Residuals Df=10 d) BEAN Df= 5, BLOCK Df=3, Residuals Df=15 e) BEAN Df= 7, BLOCK Df=5, Residuals Df=12 17. Figuren viser sannsynlighetstetthetsfunksjonen for en statistisk fordeling som i dette tilfellet bare er definert av df=6. Hvilken statistisk fordeling er dette? a) Kjikvadratfordelingen b) F-fordelingen c) Binomialfordelingen d) t-fordelingen e) Poisson-fordelingen 18. Hvor stor andel av arealet under en normalfordelingskurve utgjør gjennomsnittsverdien ± ett standardavvik? a) 95% b) 99% 9
c) 68.3% d) 50% e) 100% 19. Et mosaikk-plot brukes til grafisk framstilling av: a) relativ frekvens av to kategoriske variable b) relativ frekvens av to kontinuerlig variable c) frekvensen av en kategorisk variabel d) frekvensen av en numerisk variabel e) kvantilene og medianverdi for en kategorisk variabel 20. I modellen YIELD ~ FERTIL som viser sammenheng mellom avling (YIELD) og tre gjødseltyper (FERTIL) så er FERTIL a) forklaringsvariabel b) uavhengig variabel c) prediktorvariabel d) kategorisk variabel e) både a), b), c) og d) 21. I eksperimentet som er angitt i oppgave 12 kan man lage en nullmodell: summary(lm(yield~1). Vilken verdi vil du finne som Intercept i koeffisienttabellen for nullmodellen? a) Stigningstallet b) Grand mean (stormiddeltallet) c) Nullmodellen har ingen Intercept d) Gjennomsnitt for referansen FERTIL1 e) Variansen 10
22. Et datasett viser sammenhengen mellom volumet (VOLUME) av hoggbart skogvirke ut fra måling av høyden av trærne og diameter (DIAMET) målt 1.5 meter over bakken. Som statistisk utvalg hogges 31 trær, og fra disse måles volum, høyde, samt diameter 1.5 meter over bakken. ANOVA-tabellen for sammenhengen mellom volum og diameter: summary(aov(lm(volume~diamet))) blir som følgende, men hva er tallet for Df DIAMET? Df Sum Sq Mean Sq F value Pr(>F) DIAMET? 6.079 6.079 419.4 <2e-16 *** Residuals 29 0.420 0.014 a) 30 b) 31 c) 1 d) 2 e) 3 23. Hvilken fordeling får summen av to uniformt fordelte stokastiske variable? a) Triangelfordeling b) Uniform fordeling c) Normalfordeling d) Poissonfordeling e) Binomialfordeling 24. Standardavviket til en populasjon er 4. Hva blir standardavviket til gjennomsnittet av 16 observasjoner fra denne populasjonen? a) 2 b) 4 c) 1 d) 2 e) 1 2 11
25. Du har en regresjonsmodell av typen y i = a + bx i + ε i hvor ε i er uavhengige, identisk normalfordelte med forventning 0 og a og b er ukjente parametere. Hvilken formel vil du bruke for å estimere stigningstallet (b)? a) (x i x )(y i y) (x i x ) b) (x i x )(y i y) (x i x ) 2 c) (x i x )(y i y) (x i x ) 2 (y i y) 2 d) (y i y) 2 (x i x ) 2 e) (y i y) (x i x ) 26. Hvis fødselsvekten på norske barn kan beskrives av en normalfordeling med forventning 3.67 kg og standardavvik 0.51 kg, hvilken R-kommando ville du da bruke for å finne sannsynligheten for at en nyfødt veier mindre enn 3 kg? a) dnorm(3, 0.51, 3.67) b) dnorm(3, 3.67, 0.51) c) rnorm(3, 3.67, 0.51) d) pnorm(3, 3.67, 0.51) e) 1 - pnorm(3, 3.67, 0.51) 27. I en analyse av fotosynteserate (y) som funksjon av lysintensitet (x) lager du en lineær modell med R-kommandoen lm(y ~ x) og får følgende koeffisienttabell Estimate Std. Error t value Pr(> t ) (Intercept) -8.4167 3.4861-2.414 0.0465 * x 5.2833 0.6195 8.528 6.05e-05 *** Hvordan vil du finne kompensasjonsbelysningen, dvs. den verdien av x som gir y = 0? a) -8.4167 b) 8.4167 c) 5.2833 8.4167 = -3.1334 d) 5.2833 / 8.4167 = 0.6277 e) 8.4167 / 5.2833 = 1.5931 12
28. I en analyse av vanninnholdet i planter (pcth2o) fra forskjellige slekter (genus) lager du en lineær modell lm(pcth2o ~ genus) og får følgende anova-tabell Response: pcth2o Df Sum Sq Mean Sq F value Pr(>F) genus 3 1162.27 387.42 16.547 6.456e-09 *** Residuals 108 2528.70 23.41 Hvor stor andel av den totale variasjonen forklares av slektstilhørighet? a) 2528.70 / (1162.27+2528.70) = 0.69 b) 1162.27 / (1162.27+2528.70) = 0.31 c) 1-23.41 / 387.42 = 0.94 d) 1 1162.27 / 2528.70 = 0.54 e) 1162.27 / 2528.70 = 0.46 29. Du har en matrise X med forekomst/fravær (TRUE/FALSE) av arter, hvor artene er organisert kolonnevis og lokalitetene radvis. Hva får du når du tar R-kommandoen apply(x, 1, sum)? a) Antall kolonner i matrisen b) Antall arter pr. lokalitet c) Totalt antall arter d) Antall lokaliteter pr. art e) Totalt antall forekomster 30. I en regresjonsmodell y = a + b x har du estimert stigningstallet til 2.5. Hva blir estimatet for skjæringspunktet med y-aksen (a) når du vet at gjennomsnittet av x er lik 2 og gjennomsnittet av y er lik 6? a) 1 b) 2 c) 3 d) 4 e) 5 13