Statistisk modellering for biologar og bioteknologar, ST juni, 2011 Kl. 913 Sensur: 30. juni, 2011

Like dokumenter
Bioberegninger, ST november 2006 Kl. 913 Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner.

Statistisk modellering for biologer og bioteknologer, ST august, 2012 Kl. 913 Sensur: 3 uker etter eksamen

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Eksamensoppgåve i (emnekode) (emnenamn)

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Statistisk modellering for biologer og bioteknologer, ST juni, 2012 Kl. 913 Sensur: 25. juni, 2012

Statistisk modellering for biologer og bioteknologer, ST2304

Bioberegninger, ST1301 Onsdag 1. juni 2005 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 22.

Eksamensoppgåve i ST2304 Statistisk modellering for biologar og bioteknologar

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Bioberegninger, ST1301 Mandag 22. mai, 2006 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 12.

Prøveeksamen i STK3100/4100 høsten 2011.

Løsningsforslag øving 9, ST1301

TMA4240 Statistikk Høst 2013

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4240 Statistikk 2014

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA-2004.

Bioberegninger, ST1301 Mandag 21. mai, 2007 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 12.

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Eksamensoppgave i TMA4275 Levetidsanalyse

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

Forelesning 8 STK3100

Bioberegninger - notat 4: Mer om sannsynlighetsmaksimering

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Eksamensoppgåve i TMA4240 Statistikk

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4240 Statistikk

Forelesning 7 STK3100

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Løsningsforslag øving 8, ST1301

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Forelesning 11 STK3100/4100

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Checking Assumptions

ST1101/ST6101 Sannsynlighetsregning og statistikk Vår 2019

EKSAMEN I TMA4245 STATISTIKK Tysdag 21. mai 2013 Tid: 09:00 13:00 (Korrigert )

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA-1001.

UNIVERSITETET I OSLO

SOS 31 MULTIVARIAT ANALYSE

Generalization of age-structured models in theory and practice

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Eksamensoppgåve i ST0103 Brukarkurs i statistikk

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

Eksamen i TMA4123/TMA4125 Matematikk 4M/N

Eksamensoppgave i TMA4135 Matematikk 4D

Introduksjon til Generaliserte Lineære Modeller (GLM)

Checking Assumptions

Generelle lineære modeller i praksis

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

Stationary Phase Monte Carlo Methods

Slope-Intercept Formula

Maple Basics. K. Cooper

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgåve i TMA4255 Anvendt statistikk

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

Eksamensoppgave i TMA4320 Introduksjon til vitenskapelige beregninger

EKSAMENSOPPGAVER STAT100 Vår 2011

Tidspunkt for eksamen: 12. mai ,5 timer

SVM and Complementary Slackness

MA2501 Numerical methods

UNIVERSITETET I OSLO

Universitetet i Bergen Det matematisk-naturvitenskapelige fakultet Eksamen i emnet Mat131 - Differensiallikningar I Onsdag 25. mai 2016, kl.

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE. Eksamen i: STA 1002 Statistikk og sannsynlighet 2. Dato: Fredag 1. juni Tid: Kl 09:00 13:00. Sted: Åsgårdvegen 9

TMA4245 Statistikk Eksamen 9. desember 2013

Second Order ODE's (2P) Young Won Lim 7/1/14

Eksamensoppgave i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgåve i ST1201/ST6201 Statistiske metoder

Eksamen i: STAT100 Statistikk. Tid: Tirsdag (3.5 timer)

Lineære modeller i praksis

Notat 6 - ST februar 2005

Transkript:

Noregs teknisk-naturvitskaplege universitet Institutt for matematiske fag Side 1 av 8 Nynorsk Faglig kontakt under eksamen: Professor Jarle Tufto Telefon: 99 70 55 19 Statistisk modellering for biologar og bioteknologar, ST2304 9. juni, 2011 Kl. 913 Sensur: 30. juni, 2011 Tillatne hjelpemidler: Eit håndskreve gult A4 ark, kalkulator, Tabeller og formler i statistikk (Tapir forlag), K. Rottmann: Matematisk formelsamling. Hjelpesider for nokre R funskjonar det kan hende du får bruk for følgjer på side 7. Oppgåve 1 Gå ut i frå at talet på individ av ein gjeve art i rutar av storleik A er Poissonfordelt med forventning λa hvor λ = 0.5 per kvadratmeter. a) Skriv eit uttrykk i R som berekner sannsynet for at det er eksakt 5 individ i ei rute på 10 kvadratmeter Vi ser på 5 ruter og lagar ein vektor A i R som representerar arealet (i kvadratmeter) til desse på følgjande måte. A <- c(10,15,20,25,30) b) Skriv eit uttrykk i R som, for kvar av dei 5 rutene, berekner sannsynet for at det er meir enn 5 individ i ruta. c) Skriv eit uttrykk i R som simulerar talet på individ i kvar av de 5 rutene.

ST2304 Stat. mod. for biol. og biotekn.9. juni, 2011 Side 2 av 8 Oppgåve 2 Vi studerar overlevelse i 20 ulike gråspurvkull og observerar talet på antall overlevende unger x etter 12 dager, totalt tal på egg n i kvart reir, brystekkstorleik til faren (variabelen badgesize, mm 2 ), og klekketidpunkt (variabelen clutchdate, antall dagar siden 1. januar). > sparrows x n badgesize clutchdate 1 1 3 583 108 2 1 4 477 102 3 3 3 507 133 4 1 3 390 102 5 3 5 313 121 6 2 7 546 116 7 3 5 422 125 8 2 3 505 122 9 2 4 210 110 10 4 5 380 131 11 2 5 355 127 12 2 3 469 118 13 3 4 281 115 14 1 5 243 108 15 3 4 430 131 16 4 7 347 122 17 4 4 503 117 18 1 4 238 110 19 0 3 208 113 20 2 7 418 105 Plot av andelen overlevande versus brystekkstorleik og klekketidpunkt følgjer under.

ST2304 Stat. mod. for biol. og biotekn.9. juni, 2011 Side 3 av 8 x/n 0.0 0.2 0.4 0.6 0.8 1.0 x/n 0.0 0.2 0.4 0.6 0.8 1.0 200 300 400 500 badgesize 105 110 115 120 125 130 clutchdate a) Vi tilpassar fyrst ein lineær regresjonsmodell kor vi brukar andelen overlevande som responsvariabel og klekketidpunkt som eineste forklaringsvariabel etter å ha tatt bryst- ekkstorleik ut av modellen. > prop <- x/n > summary(lm(prop ~ clutchdate)) Call: lm(formula = prop ~ clutchdate) Residuals: Min 1Q Median 3Q Max -0.43890-0.08541 0.00396 0.10957 0.48400 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1.73908 0.57646-3.017 0.00741 ** clutchdate 0.01927 0.00492 3.918 0.00101 ** --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 Residual standard error: 0.206 on 18 degrees of freedom Multiple R-squared: 0.4603,Adjusted R-squared: 0.4303 F-statistic: 15.35 on 1 and 18 DF, p-value: 0.001009 Basert på denne modellen, kva er predikert andel overlevande i eit kull med klekketid-

ST2304 Stat. mod. for biol. og biotekn.9. juni, 2011 Side 4 av 8 punkt lik 150? Gir denne prediksjonen meining? Er det andre føresetnader i modellen som ikkje er oppfyllt? Ville du stolt på konklusjonen at klekketidspunkt har ein signikant eekt på overlevnaden basert på denne modellen? Gå ut i frå at vi i staden tilpassar ein generalisert lineær modell på følgjande måte. > summary(glm(prop ~ clutchdate+badgesize,weight=n,family=binomial(link=logit))) Call: glm(formula = prop ~ clutchdate + badgesize, family = binomial, weights = n) Deviance Residuals: Min 1Q Median 3Q Max -1.62259-0.28653-0.04847 0.37706 2.19469 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -9.730598 3.116205-3.123 0.00179 ** clutchdate 0.077864 0.026339 2.956 0.00311 ** badgesize 0.001614 0.002110 0.765 0.44426 --- Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26.667 on 19 degrees of freedom Residual deviance: 15.571 on 17 degrees of freedom AIC: 53.893 Number of Fisher Scoring iterations: 4 b) Skriv ned føresetnadene for denne modellen og ein ligning som representerar modellen i matematisk notasjon. c) Kva er predikert overlevnad i eit kull med klekketidpunkt lik 150 og kor faren har ein brystekkstorleik på 400 mm 2. d) Er det tekn på over- eller under-dispersjon i dataene? Diskuter kort moglege mekanismar som kan generere over- og under-dispersjon i dette dømet.

ST2304 Stat. mod. for biol. og biotekn.9. juni, 2011 Side 5 av 8 Oppgåve 3 Gå ut i frå at vi observerar levetidene X (i år) til 100 furutrær. Eit histogram av dei observerte levetidene (inneholdt i vektoren x) er vist under. Frequency 0 2 4 6 8 10 12 14 0 20 40 60 80 100 120 140 x Vi føreset at desse levetidene følgjer ein gamma fordeling med tettleiksfunksjon f(x) = 1 β α Γ(α) xα 1 e x/β (1) a) Skriv ein funskjon lnl som tar to argument; ein vektor som inneheld parameterne α og β og ein annan vektor som inneheld observasjonane. Funskjonen skal returnerar det negative log likelihoodet som funksjonsverdi. Vi minimaliserar så det negative log likelihood på følgjande måte i R. > fit <- optim(c(1,1),lnl,x=x,hessian=true) > fit $par [1] 1.270927 20.400906 $value

ST2304 Stat. mod. for biol. og biotekn.9. juni, 2011 Side 6 av 8 [1] 423.9039 $counts function gradient 73 NA $convergence [1] 0 $message NULL $hessian [,1] [,2] [1,] 117.014163 4.9017432 [2,] 4.901743 0.3055501 > solve(fit$hessian) [,1] [,2] [1,] 0.02605615-0.4180021 [2,] -0.41800208 9.9785242 b) Kva for parameter verdier maksimalisar likelihoodfunksjonen? Kva vert det maksimale log likelihoodet? Finn tilnærma standardfeil til estimatene. Gå ut i frå at vi også tilpassar ein enklere eksponentiell modell til dataene og at dette gir eit observert maksimalt log likelihood lik -425.56. c) Forklar kvifor den ekponentielle modellen er nøstet i gamma modellen. Om vi brukar ein asymptotisk tilnærming, kan vi forkaste den eksponentielle modellen i favør av gamma modellen?

ST2304 Stat. mod. for biol. og biotekn.9. juni, 2011 Side 7 av 8 Poisson package:stats R Documentation The Poisson Distribution Description: Usage: Density, distribution function, quantile function and random generation for the Poisson distribution with parameter `lambda'. dpois(x, lambda, log = FALSE) ppois(q, lambda, lower.tail = TRUE, log.p = FALSE) qpois(p, lambda, lower.tail = TRUE, log.p = FALSE) rpois(n, lambda) Arguments: x: vector of (non-negative integer) quantiles. q: vector of quantiles. p: vector of probabilities. n: number of random values to return. lambda: vector of (non-negative) means. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are P[X <= x], otherwise, P[X > x]. Details: Value: Source: The Poisson distribution has density p(x) = lambda^x exp(-lambda)/x! for x = 0, 1, 2,.... The mean and variance are E(X) = Var(X) = lambda. If an element of `x' is not integer, the result of `dpois' is zero, with a warning. p(x) is computed using Loader's algorithm, see the reference in `dbinom'. The quantile is right continuous: `qpois(p, lambda)' is the smallest integer x such that P(X <= x) >= p. Setting `lower.tail = FALSE' allows to get much more precise results when the default, `lower.tail = TRUE' would return 1, see the example below. `dpois' gives the (log) density, `ppois' gives the (log) distribution function, `qpois' gives the quantile function, and `rpois' generates random deviates. Invalid `lambda' will result in return value `NaN', with a warning. `dpois' uses C code contributed by Catherine Loader (see `dbinom'). `ppois' uses `pgamma'. `qpois' uses the Cornish-Fisher Expansion to include a skewness correction to a normal approximation, followed by a search. `rpois' uses Ahrens, J. H. and Dieter, U. (1982). Computer generation of Poisson deviates from modified normal distributions. _ACM Transactions on Mathematical Software_, *8*, 163-179. See Also: Distributions for other standard distributions, including `dbinom' for the binomial and `dnbinom' for the negative binomial distribution. Examples: `poisson.test'. require(graphics) -log(dpois(0:7, lambda=1) * gamma(1+ 0:7)) # == 1 Ni <- rpois(50, lambda = 4); table(factor(ni, 0:max(Ni))) 1 - ppois(10*(15:25), lambda=100) # becomes 0 (cancellation) ppois(10*(15:25), lambda=100, lower.tail=false) # no cancellation par(mfrow = c(2, 1)) x <- seq(-0.01, 5, 0.01) plot(x, ppois(x, 1), type="s", ylab="f(x)", main="poisson(1) CDF") plot(x, pbinom(x, 100, 0.01),type="s", ylab="f(x)", main="binomial(100, 0.01) CDF") -------------------------------------------------------------------------------- GammaDist package:stats R Documentation The Gamma Distribution Description: Usage: Density, distribution function, quantile function and random generation for the Gamma distribution with parameters `shape' and `scale'. dgamma(x, shape, rate = 1, scale = 1/rate, log = FALSE) pgamma(q, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE) qgamma(p, shape, rate = 1, scale = 1/rate, lower.tail = TRUE, log.p = FALSE) rgamma(n, shape, rate = 1, scale = 1/rate) Arguments: x, q: vector of quantiles. p: vector of probabilities. n: number of observations. If `length(n) > 1', the length is taken to be the number required. rate: an alternative way to specify the scale. shape, scale: shape and scale parameters. Must be positive, `scale' strictly. log, log.p: logical; if `TRUE', probabilities/densities p are returned as log(p). lower.tail: logical; if TRUE (default), probabilities are P[X <= x], otherwise, P[X > x]. Details: If `scale' is omitted, it assumes the default value of `1'. The Gamma distribution with parameters `shape' = a and `scale' = s has density f(x)= 1/(s^a Gamma(a)) x^(a-1) e^-(x/s) for x >= 0, a > 0 and s > 0. (Here Gamma(a) is the function implemented by R's `gamma()' and defined in its help. Note that a=0 corresponds to the trivial distribution with all mass at point 0.) The mean and variance are E(X) = a*s and Var(X) = a*s^2. The cumulative hazard H(t) = - log(1 - F(t)) is `-pgamma(t,..., lower = FALSE, log = TRUE)'. Note that for smallish values of `shape' (and moderate `scale') a large parts of the mass of the Gamma distribution is on values of x so near zero that they will be represented as zero in computer arithmetic. So `rgamma' can well return values which will be represented as zero. (This will also happen for very large values of `scale' since the actual generation is done for `scale=1'.)

ST2304 Stat. mod. for biol. og biotekn.9. juni, 2011 Side 8 av 8 Value: `dgamma' gives the density, `pgamma' gives the distribution function, `qgamma' gives the quantile function, and `rgamma' generates random deviates. Invalid arguments will result in return value `NaN', with a warning. # even for shape = 0.001 about half the mass is on numbers # that cannot be represented accurately (and most of those as zero) pgamma(.machine$double.xmin, 0.001) pgamma(5e-324, 0.001) # on most machines 5e-324 is the smallest # representable non-zero number table(rgamma(1e4, 0.001) == 0)/1e4 Note: The S parametrization is via `shape' and `rate': S has no `scale' parameter. `pgamma' is closely related to the incomplete gamma function. defined by Abramowitz and Stegun 6.5.1 (and by `Numerical Recipes') this is As P(a,x) = 1/Gamma(a) integral_0^x t^(a-1) exp(-t) dt Source: P(a, x) is `pgamma(x, a)'. Other authors (for example Karl Pearson in his 1922 tables) omit the normalizing factor, defining the incomplete gamma function as `pgamma(x, a) * gamma(a)'. A few use the `upper' incomplete gamma function, the integral from x to infinity which can be computed by `pgamma(x, a, lower=false) * gamma(a)', or its normalized version. See also <URL: http://en.wikipedia.org/wiki/incomplete_gamma_function>. `dgamma' is computed via the Poisson density, using code contributed by Catherine Loader (see `dbinom'). `pgamma' uses an unpublished (and not otherwise documented) algorithm `mainly by Morten Welinder'. `qgamma' is based on a C translation of Best, D. J. and D. E. Roberts (1975). Algorithm AS91. Percentage points of the chi-squared distribution. _Applied Statistics_, *24*, 385-388. plus a final Newton step to improve the approximation. `rgamma' for `shape >= 1' uses Ahrens, J. H. and Dieter, U. (1982). Generating gamma variates by a modified rejection technique. _Communications of the ACM_, *25*, 47-54, and for `0 < shape < 1' uses Ahrens, J. H. and Dieter, U. (1974). Computer methods for sampling from gamma, beta, Poisson and binomial distributions. _Computing_, *12*, 223-246. References: Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) _The New S Language_. Wadsworth & Brooks/Cole. Shea, B. L. (1988) Algorithm AS 239, Chi-squared and incomplete Gamma integral, _Applied Statistics (JRSS C)_ *37*, 466-473. Abramowitz, M. and Stegun, I. A. (1972) _Handbook of Mathematical Functions._ New York: Dover. Chapter 6: Gamma and Related Functions. See Also: `gamma' for the gamma function. Distributions for other standard distributions, including `dbeta' for the Beta distribution and `dchisq' for the chi-squared distribution which is a special case of the Gamma distribution. Examples: -log(dgamma(1:4, shape=1)) p <- (1:9)/10 pgamma(qgamma(p,shape=2), shape=2) 1-1/exp(qgamma(p, shape=1))