Statistisk modellering for biologer og bioteknologer, ST2304

Like dokumenter
Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Statistisk modellering for biologer og bioteknologer, ST august, 2012 Kl. 913 Sensur: 3 uker etter eksamen

Bioberegninger, ST november 2006 Kl. 913 Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner.

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Statistisk modellering for biologar og bioteknologar, ST juni, 2011 Kl. 913 Sensur: 30. juni, 2011

Eksamensoppgåve i (emnekode) (emnenamn)

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Prøveeksamen i STK3100/4100 høsten 2011.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Bioberegninger, ST1301 Onsdag 1. juni 2005 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 22.

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Løsningsforslag øving 9, ST1301

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

EKSAMENSOPPGAVE STA-2004.

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Bioberegninger, ST1301 Mandag 21. mai, 2007 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 12.

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

ECON240 VÅR / 2016 BOKMÅL

EKSAMENSOPPGAVER STAT100 Vår 2011

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMEN I FAG TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

ST0202 Statistikk for samfunnsvitere

vekt. vol bruk

Forelesning 8 STK3100

Bioberegninger, ST1301 Mandag 22. mai, 2006 Kl Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner. Sensur: 12.

Tilleggsoppgaver for STK1110 Høst 2015

Eksamensoppgave i TMA4255 Anvendt statistikk

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

UNIVERSITETET I OSLO

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 3. juni Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

TMA4240 Statistikk 2014

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

UNIVERSITETET I OSLO

Forelesning 7 STK3100

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

Logistisk regresjon 2

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

EKSAMEN I TMA4255 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

Bokmål. Eksamen i: Stat100 Statistikk Tid: 18. mai Emneansvarlig: Trygve Almøy:

Eksamensoppgave i SOS3003 Anvendt statistisk dataanalyse i samfunnsvitenskap

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ST0202 Statistikk for samfunnsvitere

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

SOS 31 MULTIVARIAT ANALYSE

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

EKSAMENSOPPGAVE. «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamen i: STAT100 Statistikk. Tid: Tirsdag (3.5 timer)

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Eksamensoppgave i ST3001

Eksamensoppgave i TMA4255 Anvendt statistikk

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Lineære modeller i praksis

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

UNIVERSITETET I OSLO

Tid: Torsdag 11.desember 9:00 12:30 (3.5 timer) Emneansvarlig: Solve Sæbø, Tlf

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

Eksamensoppgave i TMA4255 Anvendt statistikk

10.1 Enkel lineær regresjon Multippel regresjon

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

Introduksjon til Generaliserte Lineære Modeller (GLM)

UNIVERSITETET I OSLO

Forelesning 7 STK3100/4100

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

Transkript:

Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag Side 1 av 8 Bokmål Faglig kontakt under eksamen: Professor Jarle Tufto Telefon: 99705519 Statistisk modellering for biologer og bioteknologer, ST2304 24. mai, 2013 Kl. 9 13 Sensur: 14. juni, 2013 Tillatte hjelpemidler: Et håndskrevet gult A4 ark, kalkulator, Tabeller og formler i statistikk (Tapir forlag), K. Rottmann: Matematisk formelsamling. Hjelpesider for noen R funksjoner det kan hende du får bruk for følger på side 8. Oppgave 1 Vi ønsker å undersøke om variansene σx 2 og σ2 Y i to normalfordelte populasjoner er forskjellige fra hverandre og trekker utvalg av størrelse 10 fra den en populasjonen og 20 fra den andre. Det kan da vises at testobservatoren F = SX 2 /S2 Y, hvor S2 X og S2 Y er de to utvalgsvariansene, er F -fordelt med 9 og 19 frihetsgrader under nullhypotesen H 0 : σx 2 = σ2 Y. a) Skriv et R uttrykk som beregner de kritiske verdiene for testen hvis vi velger et signifikansnivå på 0.05. b) Anta at estimatet av de to variansene blir henholdsvis 13.5 og 5.2. Skriv et R-uttrykk som beregner testens signifikanssannsynlighet. c) Er testobservatoren diskret eller kontinuerlig fordelt? Hva er sannsynligheten for at testobservatoren tar en verdi eksakt lik 1? d) Skriv et R-uttrykk som simulerer 1000 realisasjoner av testobservatoren under antakelsen om at H 0 er sann og som plotter et histogram av disse realisasjonene.

ST2304 Stat. mod. for biol. og biotekn. 24. mai, 2013 Side 2 av 8 Oppgave 2 Vi ønsker å finne optimal temperatur for vekst av kveiteyngel og måler vekst y (gram/uke) ved 19 ulike vanntemperaturer x ( C) under ellers like betingelser. De observerte dataene er vist under. y 5 6 7 8 9 11 5 10 15 20 x Anta at vi modellerer sammenhengen mellom responsvariabelen y (vekst) og temperatur x ved hjelp av multippel regresjon hvor vi inkluderer temperatur x og kvadratet av temperatur, x 2, som forklaringsvariable som følger. > x2 <- x^2 > modell <- lm(y ~ x + x2) > summary(modell) Call: lm(formula = y ~ x + x2) Residuals: Min 1Q Median 3Q Max -1.55021-0.31092 0.03203 0.38368 1.04305 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 4.862606 0.497222 9.780 2.14e-08 *** x 0.816051 0.109049 7.483 8.95e-07 *** x2-0.031351 0.005044-6.215 9.41e-06 ***

ST2304 Stat. mod. for biol. og biotekn. 24. mai, 2013 Side 3 av 8 Residual standard error: 0.6683 on 17 degrees of freedom Multiple R-squared: 0.8165,Adjusted R-squared: 0.7949 F-statistic: 37.82 on 2 and 17 DF, p-value: 5.504e-07 a) Skriv opp modellen vi har tilpasset i matematisk (algebraisk) notasjon og hva som er forutsetningen for modellen. Hvilke forklaringsvariabler har en statistisk signifikant effekt på responsvariabelen? b) Vis at optimal veksttemperatur x 0 er funksjonen x 0 = f(b 1, b 2 ) = b 1 2b 2, (1) hvor b 1 er regresjonskoeffisienten for temperatur x og b 2 er regresjonskoeffisienten for kvadratet av temperatur x 2. Hint: Sett den deriverte av vekst y m.h.p. temperatur x lik 0 og løs for x. Hva blir estimatet ˆx 0 av optimal veksttemperatur? Virker dette rimelig ut i fra de observerte dataene? c) Beregn standardfeilen til ˆx 0. Du vil blant annet trenge et estimat av kovariansen mellom ˆb 1 og ˆb 2 som kan leses ut av følgende R-utskrift. Se hjelpsiden for vcov for mer informasjon. > vcov(modell) (Intercept) x x2 (Intercept) 0.247229-0.048192 0.001959 x -0.048192 0.011891-0.000534 x2 0.001959-0.000534 0.000025 Kommenter igjen om svaret virker rimelig ut i fra figuren over.

ST2304 Stat. mod. for biol. og biotekn. 24. mai, 2013 Side 4 av 8 Oppgave 3 Som del av en kartlegging av rekreasjonell bruk av Bymarka i Trondheim telles antall turgåere, syklister og joggere som passerer et gitt punkt på vei inn i marka mellom kl 0900 og 2000 hver dag i løpet av juni og juli i 2012. Vi legger inn dataene som følgende dataramme i R. > bymarka weekday weekend precip count 1 fri no 0.1 13 2 sat yes 0.3 21 3 sun yes 2.8 20 4 mon no 0.2 7 5 tue no 0.7 10 6 wed no 0.0 11 7 thu no 1.9 13 8 fri no 0.5 9 9 sat yes 0.0 20 10 sun yes 0.6 20 11 mon no 0.1 11 12 tue no 0.0 10 13 wed no 0.4 8 14 thu no 2.7 13 15 fri no 1.8 8 16 sat yes 0.6 21 17 sun yes 8.7 15 18 mon no 0.8 13 19 tue no 0.0 10 20 wed no 0.0 9 21 thu no 0.0 7... 57 fri no 0.0 1 58 sat yes 12.4 5 59 sun yes 8.2 4 60 mon no 6.5 5 61 tue no 0.0 12 Variablene weekday og weekend er faktorer som representer henholdsvis ukedag og hverdag/helg. Variabelen precip er antall millimeter nedbør i hvert døgn og count antall personer som passerte hver av dagene. Dataene er grafisk framstilt i følgende figur.

ST2304 Stat. mod. for biol. og biotekn. 24. mai, 2013 Side 5 av 8 count (no. of persons) 0 5 10 15 20 25 mon tue wed thu fri sat sun 0 2 4 6 8 10 12 precip (mm) Vi tilpassar først følgende modell (modell A). > fita <- glm(count ~ weekend + precip,fam=poisson) > summary(fita) Call: glm(formula = count ~ weekend + precip, family = poisson(link="log") Deviance Residuals: Min 1Q Median 3Q Max -3.2315-1.2276-0.0180 0.9036 2.3345 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 2.12138 0.05893 35.999 < 2e-16 *** weekendyes 0.69069 0.08493 8.133 4.20e-16 *** precip -0.08896 0.01830-4.860 1.17e-06 ***

ST2304 Stat. mod. for biol. og biotekn. 24. mai, 2013 Side 6 av 8 (Dispersion parameter for poisson family taken to be 1) Null deviance: 188.07 on 60 degrees of freedom Residual deviance: 108.11 on 58 degrees of freedom AIC: 352.32 Number of Fisher Scoring iterations: 5 > drop1(fita,test="chisq") Single term deletions Model: count ~ weekend + precip Df Deviance AIC LRT Pr(>Chi) <none> 108.11 352.32 weekend 1 171.21 413.41 63.093 1.972e-15 *** precip 1 136.50 378.71 28.390 9.919e-08 *** a) Forklar hvorfor Poisson-antakelsen kan være et rimelig utgangspunkt. Hvor mange forventes å passere på helgedager i forhold til på hverdager? Er forskjellen statistisk signifikant? Hva blir forventet antall passerende i en helg på en dag med 5mm nedbør? For å teste om det er en ytterligere forskjell mellom forventet antall turgåere på forskjellige ukedager utover helge-effekten tilpasser vi følgende alternative modell (modell B). > fitb <- glm(count ~ weekday + precip,fam=poisson) > summary(fitb) Call: glm(formula = count ~ weekday + precip, family = poisson) Deviance Residuals: Min 1Q Median 3Q Max -3.2586-1.1416-0.0993 0.9164 2.4785 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 2.22000 0.12422 17.871 < 2e-16 ***

ST2304 Stat. mod. for biol. og biotekn. 24. mai, 2013 Side 7 av 8 weekdaytue -0.09275 0.16958-0.547 0.584407 weekdaywed -0.19018 0.18585-1.023 0.306167 weekdaythu -0.14767 0.17758-0.832 0.405633 weekdayfri -0.08671 0.17030-0.509 0.610648 weekdaysat 0.63720 0.14876 4.283 1.84e-05 *** weekdaysun 0.54393 0.15132 3.595 0.000325 *** precip -0.08874 0.01857-4.777 1.78e-06 *** (Dispersion parameter for poisson family taken to be 1) Null deviance: 188.07 on 60 degrees of freedom Residual deviance: 106.33 on 53 degrees of freedom AIC: 360.54 Number of Fisher Scoring iterations: 5 > drop1(fitb,test="chisq") Single term deletions Model: count ~ weekday + precip Df Deviance AIC LRT Pr(>Chi) <none> 106.33 360.54 weekday 6 171.21 413.41 64.877 4.572e-12 *** precip 1 133.60 385.81 27.269 1.770e-07 *** b) Forklar hvorfor modell A er nøstet i modell B. Hva er antall estimerte parametere under henholdsvis modell A og B? Utfør en test av om det er en innbyrdes forskjell mellom henholdsvis ulike hverdager og ulike helgedager i forventet antall passerende utover helg/hverdag-effekten. Hint: Dette kan ikke leses direkte ut av utskriften over men må gjøres «for hånd». Er modell A eller B å foretrekke ut i fra de observerte dataene? Forutsett at det ikke er overdispersjon i dataene. c) Test om det er overdispersjon under den valgte modellen. Diskuter mulige mekanismer som kan tenkes å generere overdispersjon i dette tilfelle.

ST2304 Stat. mod. for biol. og biotekn. 24. mai, 2013 Side 8 av 8 FDist package:stats R Documentation The F Distribution Description: Usage: Density, distribution function, quantile function and random generation for the F distribution with df1 and df2 degrees of freedom (and optional non-centrality parameter ncp ). df(x, df1, df2, ncp, log = FALSE) pf(q, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE) qf(p, df1, df2, ncp, lower.tail = TRUE, log.p = FALSE) rf(n, df1, df2, ncp) Arguments: x, q: vector of quantiles. p: vector of probabilities. n: number of observations. If length(n) > 1, the length is taken to be the number required. df1, df2: degrees of freedom. Inf is allowed. ncp: non-centrality parameter. If omitted the central F is assumed. log, log.p: logical; if TRUE, probabilities p are given as log(p). lower.tail: logical; if TRUE (default), probabilities are P[X <= x], otherwise, P[X > x]. Details: Value: Note: The F distribution with df1 = n1 and df2 = n2 degrees of freedom has density f(x) = Gamma((n1 + n2)/2) / (Gamma(n1/2) Gamma(n2/2)) (n1/n2)^(n1/2) x^(n1/2-1) (1 + (n1/n2) x)^-(n1 + n2)/2 for x > 0. It is the distribution of the ratio of the mean squares of n1 and n2 independent standard normals, and hence of the ratio of two independent chi-squared variates each divided by its degrees of freedom. Since the ratio of a normal and the root mean-square of m independent normals has a Student s t_m distribution, the square of a t_m variate has a F distribution on 1 and m degrees of freedom. The non-central F distribution is again the ratio of mean squares of independent normals of unit variance, but those in the numerator are allowed to have non-zero means and ncp is the sum of squares of the means. See Chisquare for further details on non-central distributions. df gives the density, pf gives the distribution function qf gives the quantile function, and rf generates random deviates. Invalid arguments will result in return value NaN, with a warning. Supplying ncp = 0 uses the algorithm for the non-central distribution, which is not the same algorithm used if ncp is omitted. This is to give consistent behaviour in extreme cases with values of ncp very near zero. probability, code contributed by Catherine Loader (see dbinom ); for the non-central case computed _via_ dbeta, code contributed by Peter Ruckdeschel. For pf, _via_ pbeta (or for large df2, _via_ pchisq ). For qf, _via_ qchisq for large df2, else _via_ qbeta. References: Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) _The New S Language_. Wadsworth & Brooks/Cole. Johnson, N. L., Kotz, S. and Balakrishnan, N. (1995) _Continuous Univariate Distributions_, volume 2, chapters 27 and 30. Wiley, New York. See Also: Distributions for other standard distributions, including dchisq for chi-squared and dt for Student s t distributions. Examples: ## the density of the square of a t_m is 2*dt(x, m)/(2*x) # check this is the same as the density of F_{1,m} x <- seq(0.001, 5, len=100) all.equal(df(x^2, 1, 5), dt(x, 5)/x) ## Identity: qf(2*p - 1, 1, df)) == qt(p, df)^2) for p >= 1/2 p <- seq(1/2,.99, length=50); df <- 10 rel.err <- function(x,y) ifelse(x==y,0, abs(x-y)/mean(abs(c(x,y)))) quantile(rel.err(qf(2*p - 1, df1=1, df2=df), qt(p, df)^2),.90)# ~= 7e-9 -- vcov package:stats R Documentation Calculate Variance-Covariance Matrix for a Fitted Model Object Description: Usage: Returns the variance-covariance matrix of the main parameters of a fitted model object. Arguments: vcov(object,...) object: a fitted model object, typically. Sometimes also a summary() object of such a fitted model. Details: Value:...: additional arguments for method functions. For the glm method this can be used to pass a dispersion parameter. This is a generic function. Functions with names beginning in vcov. will be methods for this function. Classes with methods for this function include: lm, mlm, glm, nls, summary.lm, summary.glm, negbin, polr, rlm (in package MASS ), multinom (in package nnet ) gls, lme (in package nlme ), coxph and survreg (in package survival ). ( vcov() methods for summary objects allow more efficient and still encapsulated access when both summary(mod) and vcov(mod) are needed.) A matrix of the estimated covariances between the parameter estimates in the linear or non-linear predictor of the model. This should have row and column names corresponding to the parameter names given by the coef method. Source: The code for non-zero ncp is principally intended to be used for moderate values of ncp : it will not be highly accurate, especially in the tails, for large values. For the central case of df, computed _via_ a binomial