Forelesning 11 STK3100/4100 Plan for forelesning: 1. november 2012 Geir Storvik 1. Generaliserte lineære blandede modeller Eksempler R-kode GLMM - generell formulering av modell Likelihood og estimering p. 1
Modell klasser Normal Eksponensiell klasse lm glm Faste effekter lmm glmm Faste og tilfeldige effekter glmm = Generalized Linear Mixed Models (generaliserte lineære blandede modeller) p. 2
GLMM Tillater innbygging av avhengigheter mellom observasjoner Modell-struktur svært likt lineære blande modeller Felt stadig i utvikling (i forskningsfronten) Mange tilnærminger Ganske teknisk Vanskelig dokumentasjon p. 3
Eksempel: Biomangfold i sjøen Antall arter RIKZ målt innenfor 9 områder. 5 observasjoner innen hvert område (ulike sites ) Ønsker å forklare variasjon ved NAP : Høyde ved stasjon i forhold til gj.snittelig høyde Exposure: Index kombinert fra ulike ting (felles for hvert område) Totalt 45 obsevasjoner Analysert tidligere med normalfordelt respons (log-transformert) Telledata: Mer rimelig med Poisson fordeling p. 4
Biodiversitet > Mglm2 = glm(richness NAP,family=quasipoisson,data = RIKZ) > summary(mglm2) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.7910 0.1104 16.218 < 2e-16 *** NAP -0.5560 0.1250-4.448 6.02e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for quasipoisson family taken to be 3.044178) Null deviance: 179.75 on 44 degrees of freedom Residual deviance: 113.18 on 43 degrees of freedom AIC: NA Tar ikke hensyn til avhengigheter innen Beach (quasipoisson: Samme som poisson men estimerer også dispersjon) p. 5
Biodiversitet og GLMM > library(mass) > MglmmPQL = glmmpql(richness NAP,random= 1 fbeach,family=poisson,data > summary(mglmmpql) Linear mixed-effects model fit by maximum likelihood Random effects: Formula: 1 fbeach (Intercept) Residual StdDev: 0.4590787 1.112673 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Richness NAP Value Std.Error DF t-value p-value (Intercept) 1.6887218 0.17517518 35 9.640189 2.19e-11 NAP -0.5058049 0.08592218 35-5.886779 1.09e-06 Merk: P-verdier forskjellige! p. 6
LMM - alternativ modell-spesifisering LMM: Y ij =X ij β +Z ij b i +ε ij b i uif N(0,D) ε ij uif N(0,σ 2 ) Alternativ formulering: E[Y ij b i ] =X ij β +Z ij b i Var[Y ij b i ] =σ 2 b i uif N(0,D) og gittb i -ene så er alle Y ij uavhengige og normalfordelte. p. 7
GLMM LMM: E[Y ij b i ] =µ ij = X ij β +Z ij b i Var[Y ij b i ] =σ 2 b i uif N(0,D) og gittb i -ene så er alle Y ij uavhengige og normalfordelte. GLMM E[Y ij b i ] =µ ij g(µ ij ) =X ij β +Z ij b i b i uif N(0,D) og gittb i -ene så er alle Y ij uavh. fra en fordeling innen den eksponensiell klasse p. 8
E. cervi L1 i hjort Ecervi.01 tilstedeværelse av E. cervi L1 (i ekskrementer) fsex kjønn Length lengde på dyr Farm Farm (24 ulike) > DE.glm<-glm(Ecervi.01 CLength * fsex, data = DeerEcervi, + family = binomial) > summary(de.glm) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 0.652409 0.109602 5.953 2.64e-09 *** CLength 0.025112 0.005576 4.504 6.68e-06 *** fsex2 0.163873 0.174235 0.941 0.3469 CLength:fSex2 0.020109 0.009722 2.068 0.0386 * Repeterte målinger innen samme farm. Tar ikke hensyn til mulige avhengigheter innen farmer. > table(deerecervi$farm) AL AU BA BE CB CRC HB LN MAN MB MO NC NV PN 15 32 50 13 85 1 17 33 27 34 209 27 20 37 RN RO SAU SE TI TN VISO VY 23 30 3 26 19 25 13 7 p. 9
Hjort og farm Mulig utvidelse > DE.glm<-glm(Ecervi.01 CLength * fsex+ffarm, data = DeerEcervi, + family = binomial) > anova(de.glm,test="chisq") Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 825 1073.13 CLength 1 64.815 824 1008.31 8.225e-16 *** fsex 1 0.191 823 1008.12 0.662216 ffarm 23 252.638 800 755.48 < 2.2e-16 *** CLength:fSex 1 9.984 799 745.50 0.001579 ** Problemer ffarm klart signifikant Bruker 23 frihetsgrader Kan vise at også interaksjon mellom ffarm og CLength signifikant, ytterligere 22 frihetsgrader Ikke av interesse å se på forskjell mellom farmer Hvordan predikere for farmer der vi ikke har data? p. 10
GLMM for hjortedata GLM GLMM Y ij Bin(1,p ij ) logit(p ij ) =α+β 1 Length ij +β 2 Sex ij +β 3 Length ij Sex ij +α Farm i Y ij Bin(1,p ij ) logit(p ij ) =α+β 1 Length ij +β 2 Sex ij +β 3 Length ij Sex ij +a i a i N(0,σ 2 a) Betydning av Farm måles nå gjennom σ 2 a. Reduserer antall parametre relatert til Farm fra 23 til 1! p. 11
GLMM og R Mange mulige funksjoner. Vil her se på glmmpql: > library(mass) > DE.PQL<-glmmPQL(Ecervi.01 CLength * fsex, + random = 1 ffarm, family = binomial, data = DeerEcervi) > summary(de.pql) Random effects: Formula: 1 ffarm (Intercept) Residual StdDev: 1.462108 0.9620576 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Ecervi.01 CLength * fsex Value Std.Error DF t-value p-value (Intercept) 0.8883697 0.3373283 799 2.633547 0.0086 CLength 0.0378608 0.0065269 799 5.800768 0.0000 fsex2 0.6104570 0.2137293 799 2.856216 0.0044 CLength:fSex2 0.0350666 0.0108558 799 3.230228 0.0013 p. 12
glmmpql - tolkning av output Random effects: Formula: 1 ffarm (Intercept) Residual StdDev: 1.462108 0.9620576 ˆσ 2 a = 1.4621082 = 2.14 Residual StdDev: Standard avvik av working residuals. Svarer ikke til noen parameter her! p. 13
GLMM og likelihood Vanlig GLM LMM GLMM Likelihood kan skrives opp direkte Y i multivariat normalfordelt, likelihood kan igjen skrives opp direkte. f(y i β,θ) = f(y i b i,β,d)db i b i = f(y ij b i,β,d)db i Vanskelig integral å beregne! Må i tillegg optimere b i j L(β,θ) = i f(y i β,θ) mhp β,θ der D = D(θ). STORT numerisk problem p. 14
Numeriske integrering Anta g(µ ij ) = X ij β +b i Vi har f(y ij b i,β,θ) =e (θ ijy ij a(θ ij ))/φ logc(y ij ;φ), θ ij = θ ij (µ ij (β,b i )) L(β,θ) = e j [(θ ijy ij a(θ ij ))/φ logc(y ij ;φ)] 1 e b2 i /(2σ2 b ) db i i b i 2πσb = 1 h(b i ) e b2 i /(2σ2 b ) db i i b i 2πσb = h (v i )e v 2 idv i, v i = b i / 2σb 2 i v i Gauss-Hermite kvadratur: h (v i )e v 2 idv i v i d h (x k )w k k=1 der (w k,x k ) er designet til å gi presise approksimasjoner når h er polynomisk Kan generaliseres tilg(µij ) = X ij β +Z ij b i, men krever lav dimensjon på b i Må kunne gruppere data i klustre Sterkt linket til gaussiske fordeling påbi p. 15
Laplace tilnærminger l(β,θ) = i { } log f(y i b i )f(b i D)db i b i = i { } log e g i(b i ) db i b i Taylor approksimasjon (en dimensjon): g i (b i ) g i (ˆb i )+g i (ˆb i )(b i ˆb i )+ 1 2 g i (ˆb i )(b i ˆb i ) 2 Velgˆb i : g i (ˆb i ) = 0 og anta g i (ˆb i ) < 0 (maks-punkt) som gir (der vi definerer σ 2 i = 1/g i (ˆb i )) log e gi(b) db i log b i =log b i e g(ˆb)+ 1 2σ 2 i {e g i(ˆb i ) 2πσ i (b ˆb) 2 db 1 e 1 2σ i 2 b i 2πσi =g i (ˆb i )+ 1 2 log(2π)+ 1 2 log(σ2 i ) (b i ˆb i ) 2 db i } =g i (ˆb i )+ 1 2 log(2π) 1 2 log( g i (ˆb i )) p. 16
Laplace tilnærming - generell dimensjon l(β,θ) i { g i (ˆb i ) q 2 log(2π) 1 2 log 2 g i (ˆb i ) b i b T i } Merk: g i avhenger av β,θ! Må optimerel(β,θ) mhp β,θ. Enklere enn numerisk integrasjon Mindre nøyaktig, men bra nok? Vist seg å fungere svært godt i veldig høye dimensjoner! p. 17
Penalized Quasi-likelihood Idé: Bruke noe enklere enn likelihood funksjon. L(β,θ) = f(y β,θ) = b f(y b, β)f(b θ)db Se istedet på og maksimer mhp β,θ og b! L PQL (b,β,θ) = f(y,b β,θ) = f(y b,β)f(b θ) l PQL (b,β,θ) = logf(y b,β) 1 2 bt Db logf(y b,β) er vanlig log-likelihood hvis vi oppfatter b som parameter(e). 1 2 bt Db er et straffeledd (presser b mot null) Egenskaper PQL estimater mindre presise enn ML. Asymptotiske resultater krever økende antall observasjoner for hver tilfeldig effekt (dvs typisk økende antall observasjoner innen hver gruppe) p. 18
REML Også for GLMM, vil ML-estimater av varianskomponenter være forventningsskjeve (bli for små). Mulig med REML justeringer også for GLMM. Noe mer komplisert her p. 19
Sammenlikning estimeringsmetoder Skrondal og Rabe-Hesketh (2004): Ingen klar vinner mellom ML og REML REML: Devians testing ikke mulig for faste effekter REML mindre sensitiv til outliere p. 20
Inferens Under passende regularitetsbetingelser gjelder vanlige ML-resultater: ˆθ er konsistent ˆθ er asymptotisk normal ˆθ er asymptotisk effisient Cov[ˆθ] er tilnærmet lik den inverse av Fisher informasjonsmatrisen, som igjen er tilnærmet lik den observerte informasjonsmatrisen Gjelder også for alternative (approksimative) estimeringsmetoder, men kovariansmatrisene noe forskjellige Kovariansmatriser (minst) like vanskelig å beregne som estimater. Programvare gjør dette for oss p. 21
Eksempler Kun vist resultater med glmmpql som bruker PQL metoden. Finnes også rutiner som gjør ML: lmer/glmer, glmmml, men er mindre robuste ML metoder generelt bedre enn PQL, men ML metoder ikke utviklet godt nok ennå Mange gode Bayesianske løsninger. p. 22