Forelesning 11 STK3100/4100

Like dokumenter
Forelesning 11 STK3100/4100

Forelesning 8 STK3100/4100

7. november 2011 Geir Storvik

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100

Forelesning 7 STK3100/4100

Prøveeksamen i STK3100/4100 høsten 2011.

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Forelesning 7 STK3100/4100

Generaliserte Lineære Modeller

Generaliserte Lineære Modeller

Forelesning 6 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

UNIVERSITETET I OSLO

Introduksjon til Generaliserte Lineære Modeller (GLM)

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Forelesning 5 STK3100/4100

UNIVERSITETET I OSLO

Eksponensielle klasser

Tilleggsoppgaver for STK1110 Høst 2015

Kapittel 6 - modell seleksjon og regularisering

Forelesning 6 STK3100/4100

Forelesning 8 STK3100

UNIVERSITETET I OSLO

Forelesning 10 STK3100

Oppsummering av STK2120. Geir Storvik

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Forelesning 7 STK3100

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Forelesning 9 STK3100

UNIVERSITETET I OSLO

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

STK Oppsummering

UNIVERSITETET I OSLO

Forelesning 6 STK3100/4100

10.1 Enkel lineær regresjon Multippel regresjon

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

STK Oppsummering

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Forelesning 3 STK3100

Ekstraoppgaver for STK2120

UNIVERSITETET I OSLO

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Klassisk ANOVA/ lineær modell

Prøveeksamen STK vår 2017

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

STK juni 2016

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Fasit og løsningsforslag STK 1110

Generelle lineære modeller i praksis

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

EKSAMENSOPPGAVER STAT100 Vår 2011

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

UNIVERSITETET I OSLO

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Statistisk analyse av data fra planlagte forsøk

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Prøveeksamen STK2100 (fasit) - vår 2018

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Forelesning STK september 2011

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

Eksponensielle klasser og GLM

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

Løsningsforslag eksamen 27. februar 2004

Statistikk og havressurser

Statistikk og havressurser

Eksamensoppgave i TMA4275 Levetidsanalyse

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Oppgave 1. Kilde SS df M S F Legering Feil Total

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

Inferens i regresjon

Variansanalyse og lineær regresjon notat til STK2120

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

vekt. vol bruk

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Transkript:

Forelesning 11 STK3100/4100 Plan for forelesning: 1. november 2012 Geir Storvik 1. Generaliserte lineære blandede modeller Eksempler R-kode GLMM - generell formulering av modell Likelihood og estimering p. 1

Modell klasser Normal Eksponensiell klasse lm glm Faste effekter lmm glmm Faste og tilfeldige effekter glmm = Generalized Linear Mixed Models (generaliserte lineære blandede modeller) p. 2

GLMM Tillater innbygging av avhengigheter mellom observasjoner Modell-struktur svært likt lineære blande modeller Felt stadig i utvikling (i forskningsfronten) Mange tilnærminger Ganske teknisk Vanskelig dokumentasjon p. 3

Eksempel: Biomangfold i sjøen Antall arter RIKZ målt innenfor 9 områder. 5 observasjoner innen hvert område (ulike sites ) Ønsker å forklare variasjon ved NAP : Høyde ved stasjon i forhold til gj.snittelig høyde Exposure: Index kombinert fra ulike ting (felles for hvert område) Totalt 45 obsevasjoner Analysert tidligere med normalfordelt respons (log-transformert) Telledata: Mer rimelig med Poisson fordeling p. 4

Biodiversitet > Mglm2 = glm(richness NAP,family=quasipoisson,data = RIKZ) > summary(mglm2) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.7910 0.1104 16.218 < 2e-16 *** NAP -0.5560 0.1250-4.448 6.02e-05 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for quasipoisson family taken to be 3.044178) Null deviance: 179.75 on 44 degrees of freedom Residual deviance: 113.18 on 43 degrees of freedom AIC: NA Tar ikke hensyn til avhengigheter innen Beach (quasipoisson: Samme som poisson men estimerer også dispersjon) p. 5

Biodiversitet og GLMM > library(mass) > MglmmPQL = glmmpql(richness NAP,random= 1 fbeach,family=poisson,data > summary(mglmmpql) Linear mixed-effects model fit by maximum likelihood Random effects: Formula: 1 fbeach (Intercept) Residual StdDev: 0.4590787 1.112673 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Richness NAP Value Std.Error DF t-value p-value (Intercept) 1.6887218 0.17517518 35 9.640189 2.19e-11 NAP -0.5058049 0.08592218 35-5.886779 1.09e-06 Merk: P-verdier forskjellige! p. 6

LMM - alternativ modell-spesifisering LMM: Y ij =X ij β +Z ij b i +ε ij b i uif N(0,D) ε ij uif N(0,σ 2 ) Alternativ formulering: E[Y ij b i ] =X ij β +Z ij b i Var[Y ij b i ] =σ 2 b i uif N(0,D) og gittb i -ene så er alle Y ij uavhengige og normalfordelte. p. 7

GLMM LMM: E[Y ij b i ] =µ ij = X ij β +Z ij b i Var[Y ij b i ] =σ 2 b i uif N(0,D) og gittb i -ene så er alle Y ij uavhengige og normalfordelte. GLMM E[Y ij b i ] =µ ij g(µ ij ) =X ij β +Z ij b i b i uif N(0,D) og gittb i -ene så er alle Y ij uavh. fra en fordeling innen den eksponensiell klasse p. 8

E. cervi L1 i hjort Ecervi.01 tilstedeværelse av E. cervi L1 (i ekskrementer) fsex kjønn Length lengde på dyr Farm Farm (24 ulike) > DE.glm<-glm(Ecervi.01 CLength * fsex, data = DeerEcervi, + family = binomial) > summary(de.glm) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 0.652409 0.109602 5.953 2.64e-09 *** CLength 0.025112 0.005576 4.504 6.68e-06 *** fsex2 0.163873 0.174235 0.941 0.3469 CLength:fSex2 0.020109 0.009722 2.068 0.0386 * Repeterte målinger innen samme farm. Tar ikke hensyn til mulige avhengigheter innen farmer. > table(deerecervi$farm) AL AU BA BE CB CRC HB LN MAN MB MO NC NV PN 15 32 50 13 85 1 17 33 27 34 209 27 20 37 RN RO SAU SE TI TN VISO VY 23 30 3 26 19 25 13 7 p. 9

Hjort og farm Mulig utvidelse > DE.glm<-glm(Ecervi.01 CLength * fsex+ffarm, data = DeerEcervi, + family = binomial) > anova(de.glm,test="chisq") Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 825 1073.13 CLength 1 64.815 824 1008.31 8.225e-16 *** fsex 1 0.191 823 1008.12 0.662216 ffarm 23 252.638 800 755.48 < 2.2e-16 *** CLength:fSex 1 9.984 799 745.50 0.001579 ** Problemer ffarm klart signifikant Bruker 23 frihetsgrader Kan vise at også interaksjon mellom ffarm og CLength signifikant, ytterligere 22 frihetsgrader Ikke av interesse å se på forskjell mellom farmer Hvordan predikere for farmer der vi ikke har data? p. 10

GLMM for hjortedata GLM GLMM Y ij Bin(1,p ij ) logit(p ij ) =α+β 1 Length ij +β 2 Sex ij +β 3 Length ij Sex ij +α Farm i Y ij Bin(1,p ij ) logit(p ij ) =α+β 1 Length ij +β 2 Sex ij +β 3 Length ij Sex ij +a i a i N(0,σ 2 a) Betydning av Farm måles nå gjennom σ 2 a. Reduserer antall parametre relatert til Farm fra 23 til 1! p. 11

GLMM og R Mange mulige funksjoner. Vil her se på glmmpql: > library(mass) > DE.PQL<-glmmPQL(Ecervi.01 CLength * fsex, + random = 1 ffarm, family = binomial, data = DeerEcervi) > summary(de.pql) Random effects: Formula: 1 ffarm (Intercept) Residual StdDev: 1.462108 0.9620576 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Ecervi.01 CLength * fsex Value Std.Error DF t-value p-value (Intercept) 0.8883697 0.3373283 799 2.633547 0.0086 CLength 0.0378608 0.0065269 799 5.800768 0.0000 fsex2 0.6104570 0.2137293 799 2.856216 0.0044 CLength:fSex2 0.0350666 0.0108558 799 3.230228 0.0013 p. 12

glmmpql - tolkning av output Random effects: Formula: 1 ffarm (Intercept) Residual StdDev: 1.462108 0.9620576 ˆσ 2 a = 1.4621082 = 2.14 Residual StdDev: Standard avvik av working residuals. Svarer ikke til noen parameter her! p. 13

GLMM og likelihood Vanlig GLM LMM GLMM Likelihood kan skrives opp direkte Y i multivariat normalfordelt, likelihood kan igjen skrives opp direkte. f(y i β,θ) = f(y i b i,β,d)db i b i = f(y ij b i,β,d)db i Vanskelig integral å beregne! Må i tillegg optimere b i j L(β,θ) = i f(y i β,θ) mhp β,θ der D = D(θ). STORT numerisk problem p. 14

Numeriske integrering Anta g(µ ij ) = X ij β +b i Vi har f(y ij b i,β,θ) =e (θ ijy ij a(θ ij ))/φ logc(y ij ;φ), θ ij = θ ij (µ ij (β,b i )) L(β,θ) = e j [(θ ijy ij a(θ ij ))/φ logc(y ij ;φ)] 1 e b2 i /(2σ2 b ) db i i b i 2πσb = 1 h(b i ) e b2 i /(2σ2 b ) db i i b i 2πσb = h (v i )e v 2 idv i, v i = b i / 2σb 2 i v i Gauss-Hermite kvadratur: h (v i )e v 2 idv i v i d h (x k )w k k=1 der (w k,x k ) er designet til å gi presise approksimasjoner når h er polynomisk Kan generaliseres tilg(µij ) = X ij β +Z ij b i, men krever lav dimensjon på b i Må kunne gruppere data i klustre Sterkt linket til gaussiske fordeling påbi p. 15

Laplace tilnærminger l(β,θ) = i { } log f(y i b i )f(b i D)db i b i = i { } log e g i(b i ) db i b i Taylor approksimasjon (en dimensjon): g i (b i ) g i (ˆb i )+g i (ˆb i )(b i ˆb i )+ 1 2 g i (ˆb i )(b i ˆb i ) 2 Velgˆb i : g i (ˆb i ) = 0 og anta g i (ˆb i ) < 0 (maks-punkt) som gir (der vi definerer σ 2 i = 1/g i (ˆb i )) log e gi(b) db i log b i =log b i e g(ˆb)+ 1 2σ 2 i {e g i(ˆb i ) 2πσ i (b ˆb) 2 db 1 e 1 2σ i 2 b i 2πσi =g i (ˆb i )+ 1 2 log(2π)+ 1 2 log(σ2 i ) (b i ˆb i ) 2 db i } =g i (ˆb i )+ 1 2 log(2π) 1 2 log( g i (ˆb i )) p. 16

Laplace tilnærming - generell dimensjon l(β,θ) i { g i (ˆb i ) q 2 log(2π) 1 2 log 2 g i (ˆb i ) b i b T i } Merk: g i avhenger av β,θ! Må optimerel(β,θ) mhp β,θ. Enklere enn numerisk integrasjon Mindre nøyaktig, men bra nok? Vist seg å fungere svært godt i veldig høye dimensjoner! p. 17

Penalized Quasi-likelihood Idé: Bruke noe enklere enn likelihood funksjon. L(β,θ) = f(y β,θ) = b f(y b, β)f(b θ)db Se istedet på og maksimer mhp β,θ og b! L PQL (b,β,θ) = f(y,b β,θ) = f(y b,β)f(b θ) l PQL (b,β,θ) = logf(y b,β) 1 2 bt Db logf(y b,β) er vanlig log-likelihood hvis vi oppfatter b som parameter(e). 1 2 bt Db er et straffeledd (presser b mot null) Egenskaper PQL estimater mindre presise enn ML. Asymptotiske resultater krever økende antall observasjoner for hver tilfeldig effekt (dvs typisk økende antall observasjoner innen hver gruppe) p. 18

REML Også for GLMM, vil ML-estimater av varianskomponenter være forventningsskjeve (bli for små). Mulig med REML justeringer også for GLMM. Noe mer komplisert her p. 19

Sammenlikning estimeringsmetoder Skrondal og Rabe-Hesketh (2004): Ingen klar vinner mellom ML og REML REML: Devians testing ikke mulig for faste effekter REML mindre sensitiv til outliere p. 20

Inferens Under passende regularitetsbetingelser gjelder vanlige ML-resultater: ˆθ er konsistent ˆθ er asymptotisk normal ˆθ er asymptotisk effisient Cov[ˆθ] er tilnærmet lik den inverse av Fisher informasjonsmatrisen, som igjen er tilnærmet lik den observerte informasjonsmatrisen Gjelder også for alternative (approksimative) estimeringsmetoder, men kovariansmatrisene noe forskjellige Kovariansmatriser (minst) like vanskelig å beregne som estimater. Programvare gjør dette for oss p. 21

Eksempler Kun vist resultater med glmmpql som bruker PQL metoden. Finnes også rutiner som gjør ML: lmer/glmer, glmmml, men er mindre robuste ML metoder generelt bedre enn PQL, men ML metoder ikke utviklet godt nok ennå Mange gode Bayesianske løsninger. p. 22