Forelesning 11 STK3100/4100

Like dokumenter
Forelesning 11 STK3100/4100

Forelesning 8 STK3100/4100

7. november 2011 Geir Storvik

Forelesning 9 STK3100/4100

Forelesning 9 STK3100/4100

Forelesning 7 STK3100/4100

Prøveeksamen i STK3100/4100 høsten 2011.

Generaliserte Lineære Modeller

Forelesning 7 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Generaliserte Lineære Modeller

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

Forelesning 6 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 5 STK3100/4100

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

UNIVERSITETET I OSLO

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 6 STK3100/4100

Tilleggsoppgaver for STK1110 Høst 2015

UNIVERSITETET I OSLO

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Forelesning 7 STK3100

Kapittel 6 - modell seleksjon og regularisering

Forelesning 8 STK3100

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Forelesning 9 STK3100

Eksponensielle klasser

UNIVERSITETET I OSLO

Forelesning 10 STK3100

UNIVERSITETET I OSLO

Oppsummering av STK2120. Geir Storvik

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

STK Oppsummering

UNIVERSITETET I OSLO

Forelesning 6 STK3100/4100

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

UNIVERSITETET I OSLO

Forelesning 3 STK3100

Forelesning STK september 2011

10.1 Enkel lineær regresjon Multippel regresjon

Ekstraoppgaver for STK2120

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

STK Oppsummering

STK juni 2016

UNIVERSITETET I OSLO

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Klassisk ANOVA/ lineær modell

Generelle lineære modeller i praksis

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVER STAT100 Vår 2011

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Eksponensielle klasser og GLM

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Statistikk og havressurser

Prøveeksamen STK vår 2017

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Statistikk og havressurser

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

Prøveeksamen STK2100 (fasit) - vår 2018

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

Punktestimator. STK Bootstrapping og simulering - Kap 7 og eget notat. Bootstrapping - eksempel Hovedide: Siden λ er ukjent, bruk ˆλ:

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Tidspunkt: Fredag 18. mai (3.5 timer) Tillatte hjelpemidler: C3. Alle typer kalkulatorer, alle andre hjelpemidler.

Løsningsforslag eksamen 27. februar 2004

UNIVERSITETET I OSLO

Løsningsforslag eksamen STAT100 Høst 2010

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Variansanalyse og lineær regresjon notat til STK2120

Observatorer. STK Observatorer - Kap 6. Utgangspunkt. Eksempel høyde Oxford studenter

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Forelesning 6 STK3100

Lineære modeller i praksis

TMA4240 Statistikk Høst 2012

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

EKSAMENSOPPGAVE STA-1001.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Gruvedrift. Institutt for matematiske fag, NTNU. Notat for TMA4240/TMA4245 Statistikk

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Statistisk analyse av data fra planlagte forsøk

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Transkript:

Forelesning STK300/400 Plan for forelesning: 3. oktober 20 Geir Storvik. Generaliserte lineære blandede modeller Eksempler R-kode - generell formulering av modell Tillater innbygging av avhengigheter mellom observasjoner Modell-struktur svært likt lineære blande modeller Felt stadig i utvikling (i forskningsfronten) Mange tilnærminger Ganske teknisk Vanskelig dokumentasjon Likelihood og estimering p. /2 p. 3/2 Modell klasser Normal lm Eksponensiell klasse glm Faste effekter Eksempel: Biomangfold i sjøen Antall arter RIK målt innenfor 9 områder. 5 observasjoner innen hvert område (ulike sites ) Ønsker å forklare variasjon ved NAP : Høyde ved stasjon i forhold til gj.snittelig høyde Exposure: Index kombinert fra ulike ting (felles for hvert lmm glmm Faste og tilfeldige effekter glmm = Generalized Linear Mixed Models (generaliserte lineære blandede modeller) område) Totalt 45 obsevasjoner Analysert tidligere med normalfordelt respons (log-transformert) Telledata: Mer rimelig med Poisson fordeling p. 2/2 p. 4/2

Biodiversitet LMM - alternativ modell-spesifisering > Mglm2 = glm(richness NAP,family=quasipoisson,data = RIK) > summary(mglm2) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept).790 0.04 6.28 < 2e-6 *** NAP -0.5560 0.250-4.448 6.02e-05 *** --- Signif. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. LMM: Y ij =X ij β + ij + ε ij ε ij N(0, σ 2 ) (Dispersion parameter for quasipoisson family taken to be 3.04478) Null deviance: 79.75 on 44 degrees of freedom Residual deviance: 3.8 on 43 degrees of freedom AIC: NA Tar ikke hensyn til avhengigheter innen Beach (quasipoisson: Samme som poisson men estimerer også dispersjon) Alternativ formulering: E[Y ij ] =X ij β + ij Var[Y ij ] =σ 2 og gitt -ene så er alle y ij uavhengige og normalfordelte. p. 5/2 p. 7/2 Biodiversitet og > library(mass) > MglmmPQL = glmmpql(richness NAP,random= fbeach,family=poisson,data > summary(mglmmpql) Linear mixed-effects model fit by maximum likelihood Random effects: Formula: fbeach (Intercept) Residual StdDev: 0.4590787.2673 LMM: E[Y ij ] =µ ij = X ij β + ij Var[Y ij ] =σ 2 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Richness NAP Value Std.Error DF t-value p-value (Intercept).688728 0.75758 35 9.64089 2.9e- NAP -0.5058049 0.0859228 35-5.886779.09e-06 Merk: P-verdier forskjellige! og gitt -ene så er alle y ij uavhengige og normalfordelte. g(µ ij ) =X ij β + ij p. 6/2 og gitt -ene så er alle y ij uavh. fra en fordeling innen den eksponensiell med forventning µ ij. p. 8/2

E. cervi L i hjort Ecervi.0 tilstedeværelse av E. cervi L (i ekskrementer) fsex kjønn Length lengde på dyr Farm Farm (24 ulike) > DE.glm<-glm(Ecervi.0 CLength * fsex, data = DeerEcervi, + family = binomial) > summary(de.glm) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 0.652409 0.09602 5.953 2.64e-09 *** CLength 0.0252 0.005576 4.504 6.68e-06 *** fsex2 0.63873 0.74235 0.94 0.3469 CLength:fSex2 0.02009 0.009722 2.068 0.0386 * Repeterte målinger innen samme farm for hjortedata GLM Y ij Bin(, p ij ) logit(p ij ) =α + β Length ij + β 2 Sex ij + β 3 Length ij Sex ij + α Farm i Y ij Bin(, p ij ) logit(p ij ) =α + β Length ij + β 2 Sex ij + β 3 Length ij Sex ij + a i a i N(0, σ 2 a ) Betydning av Farm måles nå gjennom σ 2 a. Reduserer antall parametre relatert til Farm fra 23 til! Tar ikke hensyn til mulige avhengigheter innen farmer. p. 9/2 p. /2 Hjort og farm Mulig utvidelse > DE.glm<-glm(Ecervi.0 CLength * fsex+ffarm, data = DeerEcervi, + family = binomial) > anova(de.glm,test="chisq") Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 825 073.3 CLength 64.85 824 008.3 8.225e-6 *** fsex 0.9 823 008.2 0.66226 ffarm 23 252.638 800 755.48 < 2.2e-6 *** CLength:fSex 9.984 799 745.50 0.00579 ** Problemer ffarm klart signifikant Bruker 23 frihetsgrader Kan vise at også interaksjon mellom ffarm og CLength signifikant, ytterligere 22 frihetsgrader Ikke av interesse å se på forskjell mellom farmer Hvordan predikere for farmer der vi ikke har data? og R Mange mulige funksjoner. Vil her se på glmmpql: > library(mass) > DE.PQL<-glmmPQL(Ecervi.0 CLength * fsex, + random = ffarm, family = binomial, data = DeerEcervi) > summary(de.pql) Random effects: Formula: ffarm (Intercept) Residual StdDev:.46208 0.9620576 Variance function: Structure: fixed weights Formula: invwt Fixed effects: Ecervi.0 CLength * fsex Value Std.Error DF t-value p-value (Intercept) 0.8883697 0.3373283 799 2.633547 0.0086 CLength 0.0378608 0.0065269 799 5.800768 0.0000 fsex2 0.604570 0.237293 799 2.85626 0.0044 CLength:fSex2 0.0350666 0.008558 799 3.230228 0.003 p. 0/2 p. 2/2

glmmpql - tolkning av output Random effects: Formula: ffarm (Intercept) Residual StdDev:.46208 0.9620576 ˆσ 2 a =.46208 2 = 2.4 Residual StdDev: Standard avvik av working residuals. Svarer ikke til noen parameter her! Numeriske integrering Anta g(µ ij ) = X ij β + Vi har f(y ij, β, θ) =e (θ ijy ij a(θ ij ))/φ log c(y ij ;φ) L(β, θ) = Y P e j [(θ ijy ij a(θ ij ))/φ log c(y ij ;φ)] e b2 i /(2σ2 b ) d i 2πσb = Y h( ) e b2 i /(2σ2 b ) d i 2πσb = Y h (v i )e v 2 i dv i i v i Gauss-Hermite kvadratur: h (v i )e v i dv i v i 2 dx h (x k )w k k= p. 3/2 der (w k, x k ) er designet til å gi presise approksimasjoner når h er polynomisk Kan generaliseres, men krever lav dimensjon på bi Må kunne gruppere data i klustre Sterkt linket til gaussiske fordeling på bi p. 5/2 og likelihood Vanlig GLM LMM Likelihood kan skrives opp direkte Y i multivariat normalfordelt, likelihood kan igjen skrives opp direkte. Vanskelig integral å beregne! Må i tillegg optimere mhp β, θ der D = D(θ). STORT numerisk problem f(y i β, θ) = f(y i, β,d)d Y = f(y ij, β,d)d j L(β, θ) = Y i f(y i β, θ) Laplace tilnærminger l(β, θ) = X i Taylor approksimasjon (en dimensjon): j ff log f(y i )f( D)d = X i j ff log e g i( ) d g i ( ) g i (ˆ ) + g i (ˆ )( ˆ ) + 2 g i (ˆ )( ˆ ) 2 Velg ˆ : g i (ˆ ) = 0 og anta g i (ˆ ) < 0 (maks-punkt) som gir (der vi definerer σ 2 i = /g i (ˆ )) log e gi(b) d log e g(ˆb)+ 2σ i 2 (b ˆb) 2 db ( =log e g i(ˆ ) 2πσ e ) 2σi 2 ( ˆ ) 2 d 2πσ =g i (ˆ ) + 2 log(2π) + 2 log(σ2 i ) =g i (ˆ ) + 2 log(2π) 2 log( g i (ˆ )) p. 4/2 R p. 6/2

Laplace tilnærming (forts) l(β, θ) X i ( g i (ˆ ) q 2 log(2π) 2 log 2 g i (ˆ ) b T i Merk: g i avhenger av β, θ! Må optimere l(β, θ) mhp β, θ. Enklere enn numerisk integrasjon Mindre nøyaktig, men bra nok? Vist seg å fungere svært godt i veldig høye dimensjoner! ) REML Også for, vil ML-estimater av varianskomponenter være forventningsskjeve (bli for små. Mulig med REML justeringer også for. Noe mer komplisert her p. 7/2 p. 9/2 Penalized Quasi-likelihood Idé: Bruke noe enklere enn likelihood funksjon. Se istedet på og maksimer mhp β, θ og b! L(β, θ) = f(y β, θ) = f(y b, β)f(b θ)db b L P QL (b, β, θ) = f(y,b β, θ) = f(y b, β)f(b θ) Sammenlikning estimeringsmetoder Skrondal og Rabe-Hesketh (2004): Ingen klar vinner mellom ML og REML REML: Devians testing ikke mulig for faste effekter REML mindre sensitiv til outliere l P QL (b, β, θ) = log f(y b, β) 2 bt Db log f(y b, β) er vanlig log-likelihood hvis vi oppfatter b som parameter(e). 2 bt Db er et straffeledd (presser b mot null) Egenskaper PQL estimater mindre presise enn ML. Asymptotiske resultater krever økende antall observasjoner for hver tilfeldig effekt (dvs typisk økende antall observasjoner innen hver gruppe) p. 8/2 p. 20/2

Inferens Under passende regularitetsbetingelser gjelder vanlige ML-resultater: ˆθ er konsistent ˆθ er asymptotisk normal ˆθ er asymptotisk effisient Cov[ˆθ] er tilnærmet lik Fisher informasjonsmatrisen, som igjen er tilnærmet lik den observerte informasjonsmatrisen Gjelder også for alternative (approksimative) estimeringsmetoder, men kovariansmatrisene noe forskjellige Kovariansmatriser (minst) like vanskelig å beregne som estimater. Programvare gjør dette for oss p. 2/2