Eksamensoppgåve i (emnekode) (emnenamn)

Like dokumenter
Statistisk modellering for biologar og bioteknologar, ST juni, 2011 Kl. 913 Sensur: 30. juni, 2011

Bioberegninger, ST november 2006 Kl. 913 Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner.

Statistisk modellering for biologer og bioteknologer, ST august, 2012 Kl. 913 Sensur: 3 uker etter eksamen

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Statistisk modellering for biologer og bioteknologer, ST juni, 2012 Kl. 913 Sensur: 25. juni, 2012

Statistisk modellering for biologer og bioteknologer, ST2304

Bioberegninger, ST1301 Onsdag 1. juni 2005 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 22.

Eksamensoppgåve i TMA4240 Statistikk

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

TMA4240 Statistikk 2014

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Eksamensoppgåve i TMA4240 / TMA4245 Statistikk

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Bioberegninger, ST1301 Mandag 22. mai, 2006 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 12.

TMA4240 Statistikk Høst 2013

EKSAMEN I EMNE TMA4245 STATISTIKK

Eksamensoppgåve i TMA4295 Statistisk inferens

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i ST0103 Brukerkurs i statistikk

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMEN I TMA4285 TIDSREKKJEMODELLAR Fredag 7. desember 2012 Tid: 09:00 13:00

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Eksamensoppgåve i TMA4255 Anvendt statistikk

Slope-Intercept Formula

Eksamensoppgåve i TMA4245 Statistikk

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i FIN3006 / FIN8606 Anvendt tidsserieøkonometri

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i GEOG1004 Geografi i praksis Tall, kart og bilder

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

UNIVERSITETET I OSLO

Prøveeksamen i STK3100/4100 høsten 2011.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

TMA4245 Statistikk Eksamen 9. desember 2013

Eksamensoppgave i TMA4135 Matematikk 4D

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamensoppgave i TMA4265 Stokastiske Prosesser

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

EKSAMEN I FAG TMA4240/TMA4245 STATISTIKK Lørdag 10. august 2013

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i SØK1004 Statistikk for økonomer

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i SANT2100 Etnografisk metode

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4320 Introduksjon til vitenskapelige beregninger

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator.

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

SOS 31 MULTIVARIAT ANALYSE

Databases 1. Extended Relational Algebra

UNIVERSITETET I OSLO

Løsningsforslag øving 9, ST1301

Eksamensoppgave i TMA4265 Stokastiske prosesser

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

AvtaleGiro beskrivelse av feilmeldinger for oppdrag og transaksjoner kvitteringsliste L00202 levert i CSV fil

EKSAMENSOPPGAVE STA-1001.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i TMA4245 Statistikk

Eksamensoppgave i TMA4240 Statistikk

Om eksamen. Never, never, never give up!

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Eksamensoppgave i GEOG Befolkning, miljø og ressurser

Eksamensoppgave i GEOG Menneske og sted I

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Om eksamen. Never, never, never give up!

EKSAMEN I TMA4240 Statistikk

Eksamensoppgave i TMA4240 / TMA4245 Statistikk

Eksamensoppgåve i TMA4250 Romleg Statistikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i TMA4295 Statistisk inferens

EKSAMEN I TMA4285 TIDSREKKEMODELLER Fredag 7. desember 2012 Tid: 09:00 13:00

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

Eksamensoppgåve i ST2304 Statistisk modellering for biologar og bioteknologar

Eksamensoppgave i GEOG Geografi i praksis - Tall, kart og bilder

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

Eksamensoppgave i GEOG1005 Jordas naturmiljø

Maple Basics. K. Cooper

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

EKSAMENSOPPGAVE I SØK 1002 INNFØRING I MIKROØKONOMISK ANALYSE

Hvordan føre reiseregninger i Unit4 Business World Forfatter:

Transkript:

Institutt for (instituttnamn): Institutt for matematiske fag. Eksamensoppgåve i (emnekode) (emnenamn) ST2304 Statistisk modellering for biologer og bioteknologer Fagleg kontakt under eksamen: Jarle Tufto Tlf.: 99705519 Eksamensdato: 15. mai, 2015 Eksamenstid (frå-til): 9-13 Hjelpemiddelkode/Tillatne hjelpemiddel: Tillatne hjelpemidler: Eit håndskreve gult A4 ark, kalkulator, ``Tabeller og formler i statistikk'' (Tapir forlag), K. Rottmann: Matematisk formelsamling. Annan informasjon: Målform/språk: Nynorsk Sidetal (utan framside): 7 Sidetal vedlegg: 0 Kontrollert av: Dato Sign Merk! Studentane finn sensur i Studentweb. Har du spørsmål om sensuren må du kontakte instituttet ditt. Eksamenskontoret vil ikkje kunne svare på slike spørsmål.

Noregs teknisk-naturvitskaplege universitet Institutt for matematiske fag Side 1 av 7 Hjelpesider for nokre R funksjonar det kan hende du får bruk for følgjer på side 6. Oppgåve 1 Gå ut i frå at vi set opp eit stort tal innsektsfellar langs ein linje i terrenget for å finne ein skjeldsynt innsektsart. La X i vere talet på eksemplar av arten som er gått i den i te fella når denne vert undersøkt etter eitt døger, og gå ut i frå at kvar X i er uavhengig Poisson-fordelt med forventningsverdi 0.002. a) Grunngje kort kvifor føresetnaden om Poisson-fordeling kan vere rimeleg og skriv eit R-uttrykk som reknar ut sannsynet for at minst eitt eksemplar av arten vert fanga i ei gjeve felle. Skriv uttrykket slik at verdien blir teke vare på i variabelen p.tilstades. La Y være talet på feller som vi må undersøke før vi finn ei felle kor den sjeldsynte arten er tilstades. b) Kva for fordeling har Y om vi føreset at talet på fellar er ubegrensa? Skriv R-uttrykk som reknar ut sannsynet for at Y tek ein verdi mellom 18.2 og 30.5 og sannsynet for at Y tek akkurat verdien 20. c) Skriv eit R-uttrykk som reknar ut eit 95%-sannsynsintervall for Y,altså nedre og øvre 2.5%-kvantil til Y. Oppgåve 2 Vi ønskjer å undersøke korleis tid for hekkestart hos kjøttmeispar påverkar talet på utflygne ungar. Kjøttmeis legg opptil to kull kvar sesong. Vi registrerer difor tid for hekkestart t (talet på dagar etter 1. april) og totalt tal på utflygne ungar y for tilsaman 92 hekkande kjøttmeispar. Dei observerte dataene er som i figuren under.

Side 2 av 7 y (antall unger som forlot reiret) 0 2 4 6 8 10 12 20 0 20 40 60 Dato for hekkestart t (relativt til 1. april) Vi tilpassar så ein generalisert lineær modell til dataene på følgjande måte. > t2 <- t^2 > fit <- glm(y ~ t + t2, family=poisson(link="log")) > summary(fit) Call: glm(formula = y ~ t + t2, family = poisson(link = "log")) Deviance Residuals: Min 1Q Median 3Q Max -3.2729-2.8407 0.2778 1.1982 2.6146 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 1.2361689 0.2547556 4.852 1.22e-06 ***

Side 3 av 7 t 0.0437550 0.0222333 1.968 0.0491 * t2-0.0010827 0.0004782-2.264 0.0236 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 360.23 on 91 degrees of freedom Residual deviance: 353.81 on 89 degrees of freedom AIC: 606.07 Number of Fisher Scoring iterations: 5 a) La 0, 1 og 2 vere parameterane i modellen (der 2 er regressjonkoeffisienten for t 2 ). Skriv opp modellen i matematisk notasjon. Skriv i tillegg opp kva forventa tal på utflydde ungar, E(Y ), blirsomfunksjonavtidforhekkestartt. b) E(Y ) som funksjon av t er plottet i figuren over. Om vi reparameteriserar modellen kan vi skrive samanhengen på formen E(Y )=y 0 e 1 2( t t 0! ) 2, (1) altså ei Gauss-kurve (sjå figur) der t 0 er optimalt hekkestartstidspunkt, y 0 er forventa tal på utflydde ungar for hekkestart ved t = t 0,og! er eit mål på «breidda» til Gausskurva (i dagar) (analogt med standardavviket til ein normalfordelt variabel). Vis at samanhengen mellom! og 2 iregresjonsmodellenoverergjeveved r 1! =. (2) 2 2 c) Rekn ut eit estimat av! og tilhøyrande standardfeil til dette estimatet. d) Test om det er overdispersjon i dataene. Rund om nødvendig av talet på fridomsgrader til næraste multiplum av 10. Kan vi i lys av dette stole på standardfeilet rekna ut i punkt c? Vi estimerar variansen til Y til å være omlag 2.8 gangar større enn forventa dersom Y hadde hatt same varians som ein Poisson-fordelt variabel. Rekn ut nye korrigera estimat av standardfeilen til ˆ2 og ˆ!. Diskuterkortkonkretemekanismarsomkangenerere overdispersjon i dette tilfellet.

Side 4 av 7 IrestenavoppgåvaskalviimeirdetaljstuderefordelingatilvariabelenY skildra tidlegare (talet på ungar produsert av ulike kjøttmeispar i løpet av hekkesesongen). Eit histogram av den observerte fordelinga til Y (representert ved stolpane i histogrammet) er gjeve nedanfor. Histogram of y Density 0.00 0.10 0.20 0 5 10 15 y Histogrammet tydar på at det er eit høgare sannsyn for at Y tek verdien null, såkalla nullinflasjon, i forhold til kva ein kunne forvente dersom fordelinga hadde vore beskrivd ved ein Poisson-fordeling. For å modellere dette tilpassar vi ein model H 1 der P (Y = y) =p 0 I 0 (y)+(1 p 0 ) e y, (3) y! kor I 0 (y) er ein funksjon av y som tek verdien 1 for y =0og verdien 0 for y 6= 0.Denne modellen representerer da at null-inflasjon inntreff med sannsyn p 0 (mislykka hekking f.eks. som følgje av at ein rugekasse vert teke over av ein svart-kvit fluesnappar). Gjeve null-inflasjon tek Y verdien 0 med sannsyn 1. Gjeve at null-inflasjon ikkje intreffer (med sannsynlighet 1 p 0 ) er Y poissonfordelt med parameter. Vi estimerer p 0 og ved å programmere minus log-likelihoodfunksjonen for modellen omtala over som ein funksjon med navn lnl. Vitilpassarsåmodellennumeriskpåfølgjandemåtei R. Den tilpassa modellen er representert ved sirklane i figuren over.

Side 5 av 7 > fit <- optim(c(.2,5),lnl,y=y,hessian=true) > fit $par [1] 0.2709197 6.7380696 $value [1] 213.6592 $counts function gradient 57 NA $convergence [1] 0 $message NULL $hessian [,1] [,2] [1,] 463.7016481-0.4010448 [2,] -0.4010448 9.8763866 > solve(fit$hessian) [,1] [,2] [1,] 2.156635e-03 8.757323e-05 [2,] 8.757323e-05 1.012552e-01 e) Kva er sannsynsmaksimeringsestimata av p 0 og samt tilnærma standardfeil til desse estimatane? f) Skriv opp eit matematisk uttrykk for log-likelihoodfunksjonen for modellen utan nullinflasjon H 0 og rekn ut det maksimale log likelihoodet under denne modellen. Det er ikkje nødvendig å utleie SMEen av dersom du kjem i håg denne. Det er oppgjeve at utvalsstorleiken n =92,at P n i=1 y i =452,ogat P n i=1 ln(y i!) = 452. Kan vi forkaste H 0 til fordel for H 1? g) Programmer funksjonen lnl som vi har brukt over for å tilpasse modellen H 1.Dette kan gjerast f.eks. ved å nytte vektorisert if-else-setning, sjå hjelpesida til ifelse, eller ved å nytte logiske vektorar som indeksar. Det kan også være høveleg å nytte funksjonen dpois.

Side 6 av 7 Poisson package:stats R Documentation The Poisson Distribution Description: Usage: Density, distribution function, quantile function and random generation for the Poisson distribution with parameter lambda. dpois(x, lambda, log = FALSE) ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) rpois(n, lambda) Arguments: x: vector of (non-negative integer) quantiles. q: vector of quantiles. p: vector of probabilities. n: number of random values to return. lambda: vector of (non-negative) means. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are P[X <= x], otherwise, P[X > x]. Details: Value: Source: The Poisson distribution has density p(x) = lambda^x exp(-lambda)/x! for x = 0, 1, 2,.... The mean and variance are E(X) = Var(X) = lambda. If an element of x is not integer, the result of dpois is zero, with a warning. p(x) is computed using Loader s algorithm, see the reference in dbinom. The quantile is right continuous: qpois(p, lambda) is the smallest integer x such that P(X <= x) >= p. Setting lower.tail = FALSE allows to get much more precise results when the default, lower.tail = TRUE would return 1, see the example below. dpois gives the (log) density, ppois gives the (log) distribution function, qpois gives the quantile function, and rpois generates random deviates. Invalid lambda will result in return value NaN, with a warning. The length of the result is determined by n for rpois, and is the maximum of the lengths of the numerical arguments for the other functions. The numerical arguments other than n are recycled to the length of the result. Only the first elements of the logical arguments are used. dpois uses C code contributed by Catherine Loader (see dbinom ). ppois uses pgamma. qpois uses the Cornish-Fisher Expansion to include a skewness correction to a normal approximation, followed by a search. rpois uses Poisson deviates from modified normal distributions. _ACM Transactions on Mathematical Software_, *8*, 163-179. See Also: Distributions for other standard distributions, including dbinom for the binomial and dnbinom for the negative binomial distribution. Examples: poisson.test. require(graphics) -log(dpois(0:7, lambda = 1) * gamma(1+ 0:7)) # == 1 Ni <- rpois(50, lambda = 4); table(factor(ni, 0:max(Ni))) 1 - ppois(10*(15:25), lambda = 100) # becomes 0 (cancellation) ppois(10*(15:25), lambda = 100, lower.tail = FALSE) # no cancellation par(mfrow = c(2, 1)) x <- seq(-0.01, 5, 0.01) plot(x, ppois(x, 1), type = "s", ylab = "F(x)", main = "Poisson(1) CDF") plot(x, pbinom(x, 100, 0.01), type = "s", ylab = "F(x)", main = "Binomial(100, 0.01) CDF") ------------------------------------------------------------------------------- Geometric package:stats R Documentation The Geometric Distribution Description: Usage: Density, distribution function, quantile function and random generation for the geometric distribution with parameter prob. dgeom(x, prob, log = FALSE) pgeom(q, prob, lower.tail = TRUE, log.p = FALSE) qgeom(p, prob, lower.tail = TRUE, log.p = FALSE) rgeom(n, prob) Arguments: x, q: vector of quantiles representing the number of failures in a sequence of Bernoulli trials before success occurs. p: vector of probabilities. n: number of observations. If length(n) > 1, the length is taken to be the number required. prob: probability of success in each trial. 0 < prob <= 1. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are P[X <= x], otherwise, P[X > x]. Details: Value: The geometric distribution with prob = p has density for x = 0, 1, 2,..., 0 < p <= 1. p(x) = p (1-p)^x If an element of x is not integer, the result of dgeom is zero, with a warning. The quantile is defined as the smallest value x such that F(x) >= p, where F is the distribution function. dgeom gives the density, pgeom gives the distribution function, qgeom gives the quantile function, and rgeom generates random deviates. Invalid prob will result in return value NaN, with a warning. Ahrens, J. H. and Dieter, U. (1982). Computer generation of The length of the result is determined by n for rgeom, and is

Side 7 av 7 Source: the maximum of the lengths of the numerical arguments for the other functions. The numerical arguments other than n are recycled to the length of the result. Only the first elements of the logical arguments are used. dgeom computes via dbinom, using code contributed by Catherine Loader (see dbinom ). pgeom and qgeom are based on the closed-form formulae. rgeom uses the derivation as an exponential mixture of Poissons, see Devroye, L. (1986) _Non-Uniform Random Variate Generation._ Springer-Verlag, New York. Page 480. See Also: Distributions for other standard distributions, including dnbinom for the negative binomial which generalizes the geometric distribution. Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) _The New S Language_. Wadsworth & Brooks/Cole. See Also: if. Examples: x <- c(6:-4) sqrt(x) #- gives warning sqrt(ifelse(x >= 0, x, NA)) # no warning ## Note: the following also gives the warning! ifelse(x >= 0, sqrt(x), NA) ## example of different return modes: yes <- 1:3 no <- pi^(0:3) typeof(ifelse(na, yes, no)) # logical typeof(ifelse(true, yes, no)) # integer typeof(ifelse(false, yes, no)) # double Examples: qgeom((1:9)/10, prob =.2) Ni <- rgeom(20, prob = 1/4); table(factor(ni, 0:max(Ni))) ----------------------------------------------------------------------- ifelse package:base R Documentation Conditional Element Selection Description: Usage: ifelse returns a value with the same shape as test which is filled with elements selected from either yes or no depending on whether the element of test is TRUE or FALSE. Arguments: Details: Value: ifelse(test, yes, no) test: an object which can be coerced to logical mode. yes: return values for true elements of test. no: return values for false elements of test. If yes or no are too short, their elements are recycled. yes will be evaluated if and only if any element of test is true, and analogously for no. Missing values in test give missing values in the result. A vector of the same length and attributes (including dimensions and "class" ) as test and data values from the values of yes or no. The mode of the answer will be coerced from logical to accommodate first any values taken from yes and then any values taken from no. Warning: The mode of the result may depend on the value of test (see the examples), and the class attribute (see oldclass ) of the result is taken from test and may be inappropriate for the values selected from yes and no. Sometimes it is better to use a construction such as (tmp <- yes; tmp[!test] <- no[!test]; tmp), possibly extended to handle missing values in test. References: