Prøveeksamen i STK3100/4100 høsten 2011.

Prøveeksamen i STK3100/4100 høsten 2011. Oppgave 1 (a) Angi tetthet/punktsannsynlighet for eksponensielle klasser med og uten sprednings(dispersjons)ledd. Nevn alle fordelingsklassene du kjenner som kan skrives på en slik form. (b) Utled generelle uttrykk for forventning og varians innen eksponensielle klasser. (c) Velg en av fordelingsklassene du nevnte i punkt (a) (dog ikke normalfordelingen) og vis at denne er en eksponensiell klasse. Finn på denne bakgrunn forventning og varians i klassen. (d) Gi den generelle definisjonen av en generalisert lineær modell. Utledd score ligningene for modellen. (e) Utledd et uttrykk for forventet informasjon under generaliserte lineære modeller. Hvordan må linkfunksjonen avhenge av variansfunksjonen for at forventet informasjon ikke skal avhenge av responsenes forventninger? Oppgave 2 I en studie av forekomst av Type II diabetes fant man diabets hos 97 av 21779 normalvektige og hus 623 av 16897 overvektige. (a) Beregn odds-ratioen for diabetes mellom overvektige og normalvektige. Forklar hva odds-ratioen estimerer og hvordan den fortolkes for disse dataene. (Overvekt defineres gjennom Body Mass Index = BMI = (vekt i kg)/(høyde i m) 2 der overvekt svarer til BMI 25 og normalvektig til BMI < 25.) (b) La x i = (x i1,..., x ip ) være en kovariat, β = (β 0, β 1,..., β p ) T en regresjonsparameter og η i = β 0 + β 1 x i1 + + β p x ip en lineær prediktor for individ nr. i. Med Y i = indikator for at individ i har diabetes, antas den logistiske regresjonsmodellen P (Y i = 1) = eη i 1 + e η i. Forklar hvorfor e β j kan fortolkes som en odds-ratio for j = 1,..., p. (c) På neste side er det angitt resultater fra diabetesstudien mot kovariatene x i1 = alder (i år) og x i2 = BMI (målt kontinuerlig). Beregn odds-ratioen for diabetes (i) mellom 50-åringer og 25-åringer

2 (ii) mellom individer med BMI=20 og BMI=30 (iii) mellom 50-åringer med BMI=30 og 25-åringer med BMI=20 > summary(glm(diab~alder+bmi,family=binomial)) (Intercept) -11.6387 0.2674-43.5262 alder 0.0412 0.0030 13.7757 bmi 0.2075 0.0079 26.2496 Residual deviance: 6080.9 on 38673 degrees of freedom Correlation of (Intercept) alder alder -0.5108 bmi -0.7727-0.1316 (d) Finn 95% konfidensintervall for odds-ratioene du beregnet i forrige punkt. Finn også et 95% konfidensintervall for sannsynligheten for at en 50 åring med BMI skal få diabetes. (e) Under er angitt resultater fra logistiske regresjonsanalyser bare mot alder og bare mot BMI. Gi en forklaring på fenomenet som opptrer. alder og BMI var lik 0.32 i denne studien. > summary(glm(diab~alder,family=binomial)) (Intercept) -6.74306 0.15856-42.52612 alder 0.05467 0.00276 19.75154 Korrelasjonen mellom Residual deviance: 6689.7 on 38674 degrees of freedom > summary(glm(diab~bmi,family=binomial)) (Intercept) -10.07061 0.21893-45.99865 alder 0.22902 0.00749 30.42720 Residual deviance: 6282.5 on 38674 degrees of freedom

3 Oppgave 3 Vi vil i denne oppgaven se på et datasett fra Ohio. Datasettet som omhandler 536 barn var samlet inn som en del av et studie om effekten av luftforurensning. Barna var med i studiet i 4 år fra alder 7 til 10. Response var en binær variabel lik 1 hvis barnet hadde en tung pust (hvesing) og 0 ellers. I tillegg var følgende variabler registert: id en variabel som identifiserer barnet age 7 år=-2, 8 år=-1, 9 år=0, 10 år = 1 smoke en indikator om mor var røyker i første år av studiet (1=røker, 0 ellers) For hvert barn er det 4 observasjoner, ett per år. (a) Nedenfor følger en utskrift av en glm tilpasning med binomisk fordeling på responsen og logit link samt age og smoke som forklaringsvariable Call: glm(formula = resp ~ age + smoke, family = binomial, data = ohio) Pr(> z ) (Intercept) -1.88373 0.08384-22.467 <2e-16 *** age -0.11341 0.05408-2.097 0.0360 * smoke 0.27214 0.12347 2.204 0.0275 * (Dispersion parameter for binomial family taken to be 1) Null deviance: 1829.1 on 2147 degrees of freedom Residual deviance: 1819.9 on 2145 degrees of freedom AIC: 1825.9 Number of Fisher Scoring iterations: 4 (b) Forklar hva de ulike deler av utskriften betyr. Hvilke svakheter ligger i denne analysen? (c) En utvidet analyse der id er tatt med som en kategorisk forklaringsvariabel ga følgende resultat (der regresjonstabellen er forkortet ned ved at rader tilhørende id faktorene ikke er tatt med) Call:

4 glm(formula = resp ~ age + smoke + as.factor(id), family = binomial, data = ohio) Deviance Residuals: Min 1Q Median 3Q Max -1.836e+00-5.710e-06-8.363e-07-5.912e-07 1.840e+00 Pr(> z ) (Intercept) -4.968e+07 3.415e+07-1.455 0.14573 age -2.353e-01 7.893e-02-2.981 0.00288 ** smoke 1.149e+13 1.037e+14 0.111 0.91179... (Dispersion parameter for binomial family taken to be 1) Null deviance: 1829.09 on 2147 degrees of freedom Residual deviance: 774.72 on 1609 degrees of freedom AIC: 1852.7 Number of Fisher Scoring iterations: 25 Utfør en likelihood ratio test for å sammenlikne de to modellene. Hvilken modell vil du konkludere med er best? Hvilken konklusjon får du hvis du bruker AIC kriteriet? (d) Forklar hvorfor residual deviansen for modellen som innkluderer id som forklaringsvariabel har så mye færre frihetsgrader. Diskuter svakheter med denne tilnærmingen (e) Vi vil nå istedet se på en blandet modell der logit(p ij ) = X ij β + b i der b i N(0, σ 2 b ) og der vi nå antar Y ij b i Binom(1, p ij ) og gitt b i -ene så er alle Y ij -ene uavhengige. Diskuter fordeler med en slik modell. Diskuter også hvilke (beregningsmessige) problemer slike modeller kan gi. (f) Skisser kort ulike strategier for estimering innen en GLMM modell. (g) Nedenfor følger en utskrift av tilpasning basert på GLMM modellen ovenfor.

5 Generalized linear mixed model fit by the Laplace approximation Formula: resp ~ age + smoke + (1 id) Data: ohio AIC BIC loglik deviance 1598 1621-795 1590 Random effects: Groups Name Variance Std.Dev. id (Intercept) 5.4906 2.3432 Number of obs: 2148, groups: id, 537 Fixed effects: Pr(> z ) (Intercept) -3.37398 0.18710-18.033 <2e-16 *** age -0.17677 0.06995-2.527 0.0115 * smoke 0.41465 0.29599 1.401 0.1612 Hva blir estimatet for σ 2 b her? Vil du foretrekke denne modellen fremfor de tidligere modeller? Begrunn svaret. Virker det som smoke er en viktig forklaringsvariabel her? Oppgave 4 Anta en GLMM modell Y ij b i uif Poisson(µ i j) log(µ ij ) =x T ijβ + b i b i uif N(0, σ 2 b ) Du kan i denne oppgaven bruke (uten å vise det) at E[exp(b i )] = exp(0.5σ 2 b ) Var[b i ] =(exp(σ 2 b ) 1) exp(σ2 b ) (a) Finn den marginale forventning til Y ij og diskuter resultatet i forhold til fortolkning av regresjonskoeffisienter på individ og populasjonsnivå. (b) Finn også den marginale variansen til Y ij samt kovariansen mellom Y ij og Y ik. Diskuter hvordan disse resultatene kan brukes for å gjøre uformelle sjekk på om modellen er rimelig.