Forelesning 5 STK3100

Devians Forelesning 5 STK3100 22. setember 2008 S. O. Samuelsen Plan for forelesning: 1. Mer om evians 2. Devians og Gooness-of-fit tester 3. GLM og resiualer 4. Observert og forventet informasjon 5. Otimeringsrutiner 6. Iterative revektee minste kvarater (IRwLS) Forelesning 5 STK3100. 1/40 Eks: Y i N(µ i,σ 2 ): Den mettee moellen har µ i = Y i l = n 2 log(2πσ2 ) 1 2σ 2 (Y i µ i ) 2 l = n 2 log(2πσ2 ) Derme finner vi at likelihoo ratio mellom mettet moell og en vilkårlig moell blir 2( l l) = 1 (Y σ 2 i µ i ) 2 og foreslår en generalisering av kvaratsum til GLM. Vi efinerer generelt Deviansen ve = 2( l l) er altså l er log-likelihoo for en mettee moellen. Forelesning 5 STK3100. 3/40 En Mettet (saturate) moell er en moell som har en arameter er observasjon. Sesielt er alle anre moeller nøstet i en mettee moellen. Eks: Biller Den mettee moellen har ulike sannsynligheter π i for hver giftose og tilassee sannsynligheter blir π i = Y i /n i. For GLM får vi en erfekt tilasning til ata Y i slik at reikerte forventninger µ i = Y i. Den mettee moellen får også maksimal onåelig likelihoo l over alle tenkelige moeller. Forelesning 5 STK3100. 2/40 Devians = 2( l l) Merk: Minimering av D er ekvivalent me maksimering av likelihooen. Eksemler å Devianser: Poisson: = 2 n [Y i log(y i /λ i ) (Y i λ i )] Binomisk, π i = Y i /n i : = 2 n [Y i log( π i π i ) + (n i Y i ) log( 1 π i 1 π i )] Et ar anre begreer: Nullevians = Devians me Moell: µ i = µ eller g(µ i ) = β 0, vs. kun konstantle i moellen Resiual evians = Devians i aktuell moell g(µ i ) = β 0 + β 1 x i1 +... + β x i, vs. eviansen innsatt MLE ˆβ Forelesning 5 STK3100. 4/40

LRT og Devians Ariori MLE ˆβ = (ˆβ 1,..., ˆβ ) gir Devians ˆ = 2[ l ˆl] = 2[ l l(ˆβ)] Uner nullhyotesen er β q+1 = = β = 0. Da fås MLE β = (β 1,...,β q, 0,..., 0) som gir evians = 2[ l l ] = 2[ l l(β )]. Likelihoo ratio testen gis nå ve at uner H 0 G = 2[l(ˆβ) l(β )] = ˆ χ 2 q. Vi gjør altså LRT ve å beregne evianser for moellene som sammenlignes! Test for H 0 : β = β 0 : Wal-test Me ˆβ MLE for β og se stanarfeil for ˆβ : Z = ˆβ β 0 se N(0, 1) (tilnærmet) Likelihoo-Ratio-test: Ariori MLE ˆβ = (ˆβ 1,..., ˆβ ) Uner nullhyotesen fås MLE β = (β 1,...,β 1,β 0 ) Likelihoo ratio testen gis a ve at tilnærmet G = 2[l(ˆβ) l(β )] = ˆ χ 2 1 (kjikvaratforelt me 1 frihetsgra). Forelesning 5 STK3100. 5/40 Forelesning 5 STK3100. 7/40 Eksemel: Biller Ariori moell: logit(π i ) = β 0 + β 1 x i Nullhyotese: β 1 = 0 Nullevians: = 284.2 Resiual evians: ˆ = 11.23 LRT: G = ˆ = 272.97, vs. soleklar forkastning sml. χ 2 1 Ariori moell: logit(π i ) = β 0 + β 1 x i + β 2 x 2 i Nullhyotese: β 2 = 0 Devians uner H 0 : = 11.23 Resiual evians: ˆ = 3.195 LRT: G = ˆ = 8.03, -veri P(χ 2 1 > 8.03) = 0.0046, vs. signifikant avvik LR-test for H 0 : β = β 0 i R For å utføre enne LR-testen i R benyttes et som kalles offset. Uner nullhyotesen er lineær reiktor η i = β 0 + β 1 x i1 + + β 1 x i, 1 + β 0 x i er β 0 x i er kjente størrelser. Disse må sesifiseres i rogrammet! I R gjøres ette ve å legge inn offset(beta0*x) i moellformelen, f.eks. > glm(y x1+x2+x3+offset(beta40*x4),family=oisson) Da vil arametrene β 0,β 1,β 2 og β 3 estimeres uner en forutsetning at β 4 = β 40. Forelesning 5 STK3100. 6/40 Forelesning 5 STK3100. 8/40

Eks. Biller: H 0 : β 1 = 40 uner logit-lineær moell β 0 + β 1 x i. Wal-test: Vi hae ˆβ 1 = 34.27 me se 1 = 2.912. Vi får Z 1 = 34.27 40 2.915 = 1.966 og (tosiig) -veri blir 2P(Z 1 > 1.966) = 0.049. LR-test: Finn ˆ = 11.23 = evians ariori Finner = 14.72 = evians når β 1 = 40. Differansen G = ˆ = 3.49 Devians og gooness-of-fit tester Uner gitte forutsetninger gjeler tilnærmet ˆ χ 2 n 1 uner moell η i = β 0 + β 1 x i1 + + β x i Sesielt gjeler ette når Y i Bin(n i,π i ) er n i π i > 5 og n i (1 π i ) > 5 Y i Po(µ i ) og µ i > 5 Dette kan brukes til å teste om moellen svikter. ersom P(χ 2 n 1 > ˆ ) er liten er et grunn til å tvile å moellen. som skal være trukket fra en tilnærmet χ 2 1 uner nullhyotesen, gir -veri P(χ 2 1 > 3.49) = 0.062 Forelesning 5 STK3100. 9/40 Forelesning 5 STK3100. 11/40 LR-Biller: H 0 : β 1 = 40 i R > glmfit0biller<-glm(cbin(doe,ant-doe) Dose,family=binomial) > glmfit2biller<-glm(cbin(doe,ant-doe) offset(40*dose), family=binomial) > anova(glmfit2biller,glmfit0biller,test="chisq") Analysis of Deviance Table Moel 1: cbin(doe, Ant - Doe) offset(40 * Dose) Moel 2: cbin(doe, Ant - Doe) Dose Resi. Df Resi. Dev Df Deviance P(> Chi ) 1 7 14.7188 2 6 11.2322 1 3.4866 0.0619 > glmfit2biller Coefficients: (Intercet) -70.9 Degrees of Freeom: 7 Total (i.e. Null); 7 Resiual Null Deviance: 14.72 Resiual Deviance: 14.72 AIC: 42.92 Resiual evians i lineær-normal moell Me ˆµ i = ˆβ 0 + ˆβ 1 x i1 +... + ˆβ x i blir resiual-eviansen ˆ = 1 σ 2 (Y i ˆµ i ) 2 = (n 1)ˆσ2 σ 2 er ˆσ 2 = n (Y i ˆµ i ) 2 /(n 1) er forventningsrett for σ 2. Men når Y i N(β 0 + β 1 x i1 +... + β x i,σ 2 ) er essuten uten tilnærmelse. ˆ χ 2 n 1 Resultatet egner seg ikke til gooness-of-fit testing for lineærnormale moeller sien vi må estimere σ 2. I moeller uten (eller me kjent) sreningsle blir et annerlees. Forelesning 5 STK3100. 10/40 Forelesning 5 STK3100. 12/40

Eks: Biller Me (logit)-lineær moell β 0 + β 1 x i ble ˆ = 11.23. Hvis ette er en go moell bure a ˆ = 11.23 ikke være en ekstrem veri i forhol til χ 2 6. Vi finner P(χ 2 6 > 11.23) = 0.082, altså en inikasjon å at et er mulig å forbere moellen. Vi finner a også at kvaratleet i en utviee moellen er signifikant. Kvaratlesmoellen får resiualevians 3.195 og me P(χ 2 5 > 3.195) = 0.67 er et ikke lenger antyning til moell-avvik. Pearson Kjikvarat X 2 Utrykket 1 σ 2 (Y i ˆµ i ) 2 kan også generaliseres ve Pearson Kjikvarat: X 2 = (Y i ˆµ i ) 2 Var(Y i ) Som resiualevians ˆ vil X 2 være tilnærmet χ 2 n 1 uner forutsetning av at Y i -ene er tilnærmet normalforelte. Binomisk Poisson X 2 = n (Y i n iˆπ i ) 2 X 2 = n n iˆπ i (1 ˆπ i ) (Y i ˆµ i ) 2 ˆµ i Forelesning 5 STK3100. 13/40 Forelesning 5 STK3100. 15/40 Kravene n i π i > 5 og n i (1 π i ) > 5 kan sjekkes: Beregner n iˆπ i > 5 og n i (1 ˆπ i ) > 5 > glmfit0biller<-glm(cbin(doe,ant-doe) Dose,family=binomial) > roun(ant*glmfit0biller$fit,2) 3.46 9.84 22.45 33.90 50.10 53.29 59.22 58.74 > roun(ant*(1-glmfit0biller$fit),2) 55.54 50.16 39.55 22.10 12.90 5.71 2.78 1.26 > glmfit1biller<-glm(cbin(doe,ant-doe) Dose+I(Doseˆ2),family=binomial) > roun(ant*glmfit1biller$fit,2) 7.03 10.52 19.00 29.96 49.20 54.73 60.82 59.74 > roun(ant*(1-glmfit1biller$fit),2) 51.97 49.48 43.00 26.04 13.80 4.27 1.18 0.26 Noen reikerte verier er litt små i forhol til kravet, gooness-of-fit testene å forrige sie er antagelig noe konservative. Pearson X 2 for billeataene Pearson X 2 er ikke imlementert i R, men lett å beregne: > yhat<-ant*glmfit0biller$fit > varhat<-ant*glmfit0biller$fit*(1-glmfit0biller$fit) > X2<-sum((Doe-yhat)ˆ2/varhat) > X2 [1] 10.02682 > 1-chisq(X2,6) [1] 0.1235272 > yhat<-ant*glmfit1biller$fit > varhat<-ant*glmfit1biller$fit*(1-glmfit1biller$fit) > X2<-sum((Doe-yhat)ˆ2/varhat) > X2 [1] 3.00387 > 1-chisq(X2,5) [1] 0.6993891 Altså X 2 nokså lik ˆ her. Forelesning 5 STK3100. 14/40 Forelesning 5 STK3100. 16/40

Pearson-resiualer efineres ve r Pi = Y i ˆµ i Var(Y i ) 0.5 og er altså en irekte generalisering av vanlige resiualer e i = (Y i ˆµ i )/ˆσ hvor et tas hensyn til at varians tyisk avhenger av forventningen i GLM. Merk at Pearson X 2 = n r2 Pi. > roun(resiuals(glmfit0biller,tye="earson"),2) 1.41 1.10-1.18-1.61 0.59-0.13 1.09 1.13 > sum(resiuals(glmfit0biller,tye="earson")ˆ2) [1] 10.02682 Deviansresiualer for binomiske ata r i = sign(y i n iˆπ i ) 2[Y i log( π i ˆπ i ) + (n i Y i ) log( 1 π i 1 ˆπ i )] ser ikke umielbart ut som resiualer, men gir verier ofte ikke avviker mye fra Pearson-resiualer > roun(resiuals(glmfit0biller,tye="eviance"),2) 1.28 1.06-1.20-1.59 0.61-0.13 1.25 1.59 > sum(resiuals(glmfit0biller,tye="eviance")ˆ2) [1] 11.23223 De er essuten efault i R: roun(resiuals(glmfit0biller),2) 1.28 1.06-1.20-1.59 0.61-0.13 1.25 1.59 Forelesning 5 STK3100. 17/40 Forelesning 5 STK3100. 19/40 Deviansresiualer Sammenligning av resiualene Vi kan også efinere resiualer basert å biragene til eviansen me (logit-)lineær moell: ˆ = 2 [ l i ˆl i ] er l i og ˆl i er log-likelihoo-birag i mettet moell og ve MLE ˆβ. Sesifikt efineres Devians-resiualer ve r i = sign(y i ˆµ i ) 2( l i ˆl i ) = slik at vi onår ˆ = n r2 i. + 2( l i ˆl i ) hvis Y i > ˆµ i 2( l i ˆl i ) hvis Y i < ˆµ i resiualer -1.5-1.0-0.5 0.0 0.5 1.0 1.5 Deviansresiualer Pearson-resiualer 1.70 1.75 1.80 1.85 Dose Forelesning 5 STK3100. 18/40 Forelesning 5 STK3100. 20/40

Sammenligning av resiualene Anscomberesiualer, forts. me moell: logit(π i ) = β 0 + β 1 x i + β 2 x 2 i For V (µ i ) = µ i blir transformasjonen h() resiualer -0.5 0.0 0.5 = 3 : h(µ) = log(µ) (Invers gaussisk foreling) 3 : h(µ) = rµ r for r = 3/(3 ) For binomisk variansfunksjon V (π) = π(1 π) finnes ikke ekslistitt h(), må benytte numerisk integrasjon. Poeng me Anscomberesiualer: Nærmere normalforelte resiualer 1.70 1.75 1.80 1.85 Viser seg å være tilnærmet like eviansresiualer Dose Ser ingen kurvatur i lottet nå! Forelesning 5 STK3100. 21/40 Forelesning 5 STK3100. 23/40 Anscomberesiualer For valgte funksjoner h() kan man generelt efinere resiualer ve r ia = h(y i) h(ˆµ i ) Var[h(Y i )] 0.5 Det viser seg at h() gitt ve h (µ) = V (µ) 1/3 gir trejeorensmoment E[h(Y i ) E(h(Y i ))] 3 0 tilnærmet symmetrisk foreling bere tilnærming til normalforeling Isåfall blir også Var[h(Y i )] φ i h (µ i ) 2 V (µ i )(= φ i V (µ i ) 1/3 ) og Anscombe-resiualene r ia = h(y i) h(ˆµ i ) φi h (ˆµ i ) V (ˆµ i ) Eks. Anscomberesiualer for billene M1<-glm(cbin(Doe,Ant-Doe) Dose,family=binomial,ata=biller) attach(biller) y0<-doe/ant n<-length(ant) varfu<-function(i) i*(1-i) her<-function(i) varfu(i)ˆ(-1/3) anscomberes<-numeric(0) for (i in 1:n) { i0<-m1$fit[i] anscomberes[i]<-integrate(her,i0,y0[i])$value anscomberes[i]<-anscomberes[i]*sqrt(ant[i])/(her(i0)*sqrt(varfu(i0))) } > roun(anscomberes,2) [1] 1.29 1.06-1.20-1.60 0.61-0.13 1.26 1.69 Forelesning 5 STK3100. 22/40 Forelesning 5 STK3100. 24/40

Sammenligning Scorefunksjon og estimeringsligninger for GLM Anscombe, evians og Pearson resiualer: Komonent j i scorefunksjonen U(β) = (U 1 (β),...,u (β)) uttrykkes erme resiualer 1.5 1.0 0.5 0.0 0.5 1.0 1.5 a a a a a a a a a Devians Pearson Anscombe U j (β) = l(β) β j = U ij (β) = 1 φ x ij Y i µ i g (µ i )V (µ i ) Vi finner altså MLE ˆβ ve å løse ligningene, j = 1,...,, U j (ˆβ) = 1 φ x ij er ˆµ i er estimert forventning me β = ˆβ. Y i ˆµ i g (ˆµ i )V (ˆµ i ) = 0 1.70 1.75 1.80 1.85 Dose Forelesning 5 STK3100. 25/40 Forelesning 5 STK3100. 27/40 Log-likelihoo for GLM Me log-likelihoo-birag l i (β) = log(f(y i ;θ i,φ) blir log-likelihoo l(β) = l i (β) = [ θ iy i a(θ i ) + log(c(y i ))] φ sien Y i -ene er uavhengige me tetthet f(y i ;θ i,φ) Observert /forventet informasjonsmatrise (generell link) Observert informasjon J(β) = 2 l β 2 Forventet informasjon ble a (vist sist) [ J (β) = E[ J(β)] = 1 1 x ij x ik φ g (µ i ) 2 V (µ i ) ] j,k=1 Forelesning 5 STK3100. 26/40 Forelesning 5 STK3100. 28/40

Kanonisk link: Observert info = Forventet info Observert informasjon J(β) = [ J kj (β)] j,k=1 er J kj (β) = U j β k = 1 n φ x ij η i µ i (Y i µ i ) β k η i µ i = 1 n φ x 1 ijx ik = J g (µ i ) jk(β) sien J kj (β) ikke avhenger av noe stokastisk. Vi finner essuten at J kj (β) = J jk (β) = 1 φ x ij x ik V (µ i ) sien θ i = η i g 1 (θ i ) = µ i = a (θ i ) V (µ i ) = a (θ i ) = 1 g (µ i ). Score og Informasjon å matriseform Vi kan uttrykke score U(β) = 1 φ X Wg (µ)(y µ) og forventet informasjon J = 1 φ X WX er (Y µ) = (Y 1 µ 1,...,Y n µ n ), x 11 x 12 x 1 x 21 x 22 x 2 X = esignmatrisen =.... x n1 x n2 x n og 1 W = iag( g (µ 1 ) 2 V (µ 1 ),, 1 g (µ n ) 2 V (µ n ) ), 1 vs. iagonalmatrisen me leene g (µ i ) 2 V (µ i langs iagonalen. ) Forelesning 5 STK3100. 29/40 Forelesning 5 STK3100. 31/40 Eksemel: Logistisk regresjon, binære Y i : E[Y i ] = π i V (π i ) = Var(Y i ) = π i (1 π i ) Så me g(π i ) = logit(π i ) = log( π i 1 π i ) = η i blir Dessuten [ J = x ij x ik π i (1 π i ) g (µ i ) = 1 π i + 1 1 π i = ] j,k=1 1 π i (1 π i ) = 1 V (π i ).. samt at g (µ) = iag(g (µ 1 ),,g (µ n )), Forelesning 5 STK3100. 30/40 Forelesning 5 STK3100. 32/40

Newton-Rahson og Fisher-Scoring La l(θ) være en generell likelihoo me scorefunksjon U(θ), observert informasjon J(θ) og forventet informasjon J (θ). Da oateres anslag θ (k) til nytt anslag θ (k+1) ve Newton-Rahson: θ (k+1) = θ (k) + J(θ (k) ) 1 U(θ (k) ) Fisher-scoring: θ (k+1) = θ (k) + J (θ (k) ) 1 U(θ (k) ) Iterasjonen fortsetter til l(θ (k+1) ) l(θ (k) ) < ǫ = 0.000001 (f.eks.) Motivasjon: Newton s algoritme Fisher-scoring billeata # 0) Definerer esignmatrise og matrise av resonser X<-cbin(re(1,8),Dose) Y<-matrix(Doe,ncol=1) # 1) Initier betaol og loglikelihoo 0<-sum(Doe)/sum(Ant) betaol<-matrix(c(log(0/(1-0)),0),ncol=1) loglikol<-sum(y*log(0/(1-0)))+sum(antall*log(1-0)) esilon<-0.00001 logliknew<-loglikol+2*esilon iterasjon<-0 rint(aste("iterasjon nr.",iterasjon," Loglik=",loglikol)) 0 = f(x ) f(x) + (x x)f (x) x x f(x)/f (x) xny = xg f(xg)/f (xg) Forelesning 5 STK3100. 33/40 Forelesning 5 STK3100. 35/40 Fisher-scoring for GLM Nytt anslag for β: β (k+1) = β (k) + J (β (k) ) 1 U(β (k) ) = β (k) + (X W (k) X) 1 X W (k) g (µ (k) )(Y µ (k) ) er µ (k),g (µ (k) ) og W (k) er µ,g (µ) og W evaluert i β (k). Ogave: Anta Y i N(µ i,σ 2 ) me µ i = β jx ij. Vis at at Fisher-scoring-algoritmen konverger i 1. iterasjon til minste kvaraters estimator ˆβ = (X X) 1 X Y uavhengig av startveri β (0). Fisher-scoring billeata, forts. #2) Iterer til loglikelihoo enres lite <-1/(1+ex(-X%*%betaol)) while(logliknew-loglikol>esilon){ iterasjon<-iterasjon+1 loglikol<-logliknew mu<-matrix(antall*,ncol=1) W<-iag(antall**(1-)) U<-t(X)%*%(Y-mu) J<-t(X)%*%W%*%X betanew<-betaol+solve(j)%*%u betaol<-betanew <-1/(1+ex(-X%*%betaol)) logliknew<-sum(y*log(/(1-)))+sum(antall*log(1-)) rint(aste("iterasjon nr.",iterasjon," Loglik=",logliknew)) rint(cbin(betanew,sqrt(iag(solve(j))))) } Forelesning 5 STK3100. 34/40 Forelesning 5 STK3100. 36/40

Fisher-scoring billeata, Iterasjon > source("fisher-biller-2") [1] "Iterasjon nr. 0 Loglik= -322.720512463475" [1] "Iterasjon nr. 1 Loglik= -197.971198920648" [,1] [,2] -39.61553 2.655919 Dose 22.32162 1.479649 [1] "Iterasjon nr. 2 Loglik= -187.04648234255" [,1] [,2] -54.66721 3.705446 Dose 30.84234 2.074389 [1] "Iterasjon nr. 3 Loglik= -186.242796387785" [,1] [,2] -60.12267 4.697433 Dose 33.93325 2.637674 [1] "Iterasjon nr. 4 Loglik= -186.235404045172" [,1] [,2] -60.71136 5.131104 Dose 34.26687 2.883965 Vektet minste kvaraters metoe Y i N(µ i,σ 2 /w i ) me µ i = β jx ij og w i = kjente vekter Da blir log-likelihoo l(β) = 1 2σ 2 n (Y i µ i ) 2 w i + K og vektet minste kvaraters estimatoren blir er ˆβ = (X WX) 1 X WY Y = søylevektor av resonsene X = esignmatrisen W = iag(w 1,...,w n ) Forelesning 5 STK3100. 37/40 Forelesning 5 STK3100. 39/40 Fisher-scoring billeata, Iterasjon forts. [1] "Iterasjon nr. 5 Loglik= -186.235403271769" [,1] [,2] -60.71745 5.180201 Dose 34.27033 2.911850 # glm i R (til sammenligning) Value St. Error t value (Intercet) -60.71733 5.173518-11.73618 Dose 34.27026 2.908076 11.78451 GLM Fisher-scoring = IRLS-algoritmen = Iteratively Reweighte Least-Squares Algoritmen. Me (k) = g (µ (k) )(Y µ (k) ) β (k+1) = β (k) + (X W (k) X) 1 X W (k) (k) = (X W (k) X) 1 [X W (k) Xβ (k) + X W (k) (k) ] = (X W (k) X) 1 X W (k) Z (k) er Z (k) = Xβ (k) + g (µ (k) )(Y µ (k) ) altså som vektet minste kvaraters estimator me "resonser" Z (k) vekter W (k) som begge må oateres i hver iterasjon. Forelesning 5 STK3100. 38/40 Forelesning 5 STK3100. 40/40