Forelesning STK300/400 Plan for forelesning: 3. oktober 20 Geir Storvik. Generaliserte lineære blandede modeller Eksempler R-kode - generell formulering av modell Tillater innbygging av avhengigheter mellom observasjoner Modell-struktur svært likt lineære blande modeller Felt stadig i utvikling (i forskningsfronten) Mange tilnærminger Ganske teknisk Vanskelig dokumentasjon Likelihood og estimering p. /2 p. 3/2 Modell klasser Normal lm Eksponensiell klasse glm Faste effekter Eksempel: Biomangfold i sjøen Antall arter RIK målt innenfor 9 områder. 5 observasjoner innen hvert område (ulike sites ) Ønsker å forklare variasjon ved NAP : Høyde ved stasjon i forhold til gj.snittelig høyde Exposure: Index kombinert fra ulike ting (felles for hvert lmm glmm Faste og tilfeldige effekter glmm = Generalized Linear Mixed Models (generaliserte lineære blandede modeller) område) Totalt 45 obsevasjoner Analysert tidligere med normalfordelt respons (log-transformert) Telledata: Mer rimelig med Poisson fordeling p. 2/2 p. 4/2
Biodiversitet LMM - alternativ modell-spesifisering > Mglm2 = glm(richness NAP,family=quasipoisson,data = RIK) > summary(mglm2) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept).790 0.04 6.28 < 2e-6 *** NAP -0.5560 0.250-4.448 6.02e-05 *** --- Signif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. LMM: Y ij =X ij β + ij + ε ij ε ij N(0, σ 2 ) (Dispersion parameter for quasipoisson family taken to be 3.04478) Null deviance: 79.75 on 44 degrees of freedom Residual deviance: 3.8 on 43 degrees of freedom AIC: NA Tar ikke hensyn til avhengigheter innen Beach (quasipoisson: Samme som poisson men estimerer også dispersjon) Alternativ formulering: E[Y ij ] =X ij β + ij Var[Y ij ] =σ 2 og gitt -ene så er alle y ij uavhengige og normalfordelte. p. 5/2 p. 7/2 Biodiversitet og > library(mass) > MglmmPQL = glmmpql(richness NAP,random= fbeach,family=poisson,data > summary(mglmmpql) Linear mixed-effects model fit by maximum likelihood Random effects: Formula: fbeach (Intercept) Residual StdDev: 0.4590787.2673 LMM: E[Y ij ] =µ ij = X ij β + ij Var[Y ij ] =σ 2 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Richness NAP Value Std.Error DF t-value p-value (Intercept).688728 0.75758 35 9.64089 2.9e- NAP -0.5058049 0.0859228 35-5.886779.09e-06 Merk: P-verdier forskjellige! og gitt -ene så er alle y ij uavhengige og normalfordelte. g(µ ij ) =X ij β + ij p. 6/2 og gitt -ene så er alle y ij uavh. fra en fordeling innen den eksponensiell med forventning µ ij. p. 8/2
E. cervi L i hjort Ecervi.0 tilstedeværelse av E. cervi L (i ekskrementer) fsex kjønn Length lengde på dyr Farm Farm (24 ulike) > DE.glm<-glm(Ecervi.0 CLength * fsex, data = DeerEcervi, + family = binomial) > summary(de.glm) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 0.652409 0.09602 5.953 2.64e-09 *** CLength 0.0252 0.005576 4.504 6.68e-06 *** fsex2 0.63873 0.74235 0.94 0.3469 CLength:fSex2 0.02009 0.009722 2.068 0.0386 * Repeterte målinger innen samme farm for hjortedata GLM Y ij Bin(, p ij ) logit(p ij ) =α + β Length ij + β 2 Sex ij + β 3 Length ij Sex ij + α Farm i Y ij Bin(, p ij ) logit(p ij ) =α + β Length ij + β 2 Sex ij + β 3 Length ij Sex ij + a i a i N(0, σ 2 a ) Betydning av Farm måles nå gjennom σ 2 a. Reduserer antall parametre relatert til Farm fra 23 til! Tar ikke hensyn til mulige avhengigheter innen farmer. p. 9/2 p. /2 Hjort og farm Mulig utvidelse > DE.glm<-glm(Ecervi.0 CLength * fsex+ffarm, data = DeerEcervi, + family = binomial) > anova(de.glm,test="chisq") Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 825 073.3 CLength 64.85 824 008.3 8.225e-6 *** fsex 0.9 823 008.2 0.66226 ffarm 23 252.638 800 755.48 < 2.2e-6 *** CLength:fSex 9.984 799 745.50 0.00579 ** Problemer ffarm klart signifikant Bruker 23 frihetsgrader Kan vise at også interaksjon mellom ffarm og CLength signifikant, ytterligere 22 frihetsgrader Ikke av interesse å se på forskjell mellom farmer Hvordan predikere for farmer der vi ikke har data? og R Mange mulige funksjoner. Vil her se på glmmpql: > library(mass) > DE.PQL<-glmmPQL(Ecervi.0 CLength * fsex, + random = ffarm, family = binomial, data = DeerEcervi) > summary(de.pql) Random effects: Formula: ffarm (Intercept) Residual StdDev:.46208 0.9620576 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Ecervi.0 CLength * fsex Value Std.Error DF t-value p-value (Intercept) 0.8883697 0.3373283 799 2.633547 0.0086 CLength 0.0378608 0.0065269 799 5.800768 0.0000 fsex2 0.604570 0.237293 799 2.85626 0.0044 CLength:fSex2 0.0350666 0.008558 799 3.230228 0.003 p. 0/2 p. 2/2
glmmpql - tolkning av output Random effects: Formula: ffarm (Intercept) Residual StdDev:.46208 0.9620576 ˆσ 2 a =.46208 2 = 2.4 Residual StdDev: Standard avvik av working residuals. Svarer ikke til noen parameter her! Numeriske integrering Anta g(µ ij ) = X ij β + Vi har f(y ij, β, θ) =e (θ ijy ij a(θ ij ))/φ log c(y ij ;φ) L(β, θ) = Y P e j [(θ ijy ij a(θ ij ))/φ log c(y ij ;φ)] e b2 i /(2σ2 b ) d i 2πσb = Y h( ) e b2 i /(2σ2 b ) d i 2πσb = Y h (v i )e v 2 i dv i i v i Gauss-Hermite kvadratur: h (v i )e v i dv i v i 2 dx h (x k )w k k= p. 3/2 der (w k, x k ) er designet til å gi presise approksimasjoner når h er polynomisk Kan generaliseres, men krever lav dimensjon på bi Må kunne gruppere data i klustre Sterkt linket til gaussiske fordeling på bi p. 5/2 og likelihood Vanlig GLM LMM Likelihood kan skrives opp direkte Y i multivariat normalfordelt, likelihood kan igjen skrives opp direkte. Vanskelig integral å beregne! Må i tillegg optimere mhp β, θ der D = D(θ). STORT numerisk problem f(y i β, θ) = f(y i, β,d)d Y = f(y ij, β,d)d j L(β, θ) = Y i f(y i β, θ) Laplace tilnærminger l(β, θ) = X i Taylor approksimasjon (en dimensjon): j ff log f(y i )f( D)d = X i j ff log e g i( ) d g i ( ) g i (ˆ ) + g i (ˆ )( ˆ ) + 2 g i (ˆ )( ˆ ) 2 Velg ˆ : g i (ˆ ) = 0 og anta g i (ˆ ) < 0 (maks-punkt) som gir (der vi definerer σ 2 i = /g i (ˆ )) log e gi(b) d log e g(ˆb)+ 2σ i 2 (b ˆb) 2 db ( =log e g i(ˆ ) 2πσ e ) 2σi 2 ( ˆ ) 2 d 2πσ =g i (ˆ ) + 2 log(2π) + 2 log(σ2 i ) =g i (ˆ ) + 2 log(2π) 2 log( g i (ˆ )) p. 4/2 R p. 6/2
Laplace tilnærming (forts) l(β, θ) X i ( g i (ˆ ) q 2 log(2π) 2 log 2 g i (ˆ ) b T i Merk: g i avhenger av β, θ! Må optimere l(β, θ) mhp β, θ. Enklere enn numerisk integrasjon Mindre nøyaktig, men bra nok? Vist seg å fungere svært godt i veldig høye dimensjoner! ) REML Også for, vil ML-estimater av varianskomponenter være forventningsskjeve (bli for små. Mulig med REML justeringer også for. Noe mer komplisert her p. 7/2 p. 9/2 Penalized Quasi-likelihood Idé: Bruke noe enklere enn likelihood funksjon. Se istedet på og maksimer mhp β, θ og b! L(β, θ) = f(y β, θ) = f(y b, β)f(b θ)db b L P QL (b, β, θ) = f(y,b β, θ) = f(y b, β)f(b θ) Sammenlikning estimeringsmetoder Skrondal og Rabe-Hesketh (2004): Ingen klar vinner mellom ML og REML REML: Devians testing ikke mulig for faste effekter REML mindre sensitiv til outliere l P QL (b, β, θ) = log f(y b, β) 2 bt Db log f(y b, β) er vanlig log-likelihood hvis vi oppfatter b som parameter(e). 2 bt Db er et straffeledd (presser b mot null) Egenskaper PQL estimater mindre presise enn ML. Asymptotiske resultater krever økende antall observasjoner for hver tilfeldig effekt (dvs typisk økende antall observasjoner innen hver gruppe) p. 8/2 p. 20/2
Inferens Under passende regularitetsbetingelser gjelder vanlige ML-resultater: ˆθ er konsistent ˆθ er asymptotisk normal ˆθ er asymptotisk effisient Cov[ˆθ] er tilnærmet lik Fisher informasjonsmatrisen, som igjen er tilnærmet lik den observerte informasjonsmatrisen Gjelder også for alternative (approksimative) estimeringsmetoder, men kovariansmatrisene noe forskjellige Kovariansmatriser (minst) like vanskelig å beregne som estimater. Programvare gjør dette for oss p. 2/2