Generaliserte Lineære Modeller

Like dokumenter
Generaliserte Lineære Modeller

Forelesning 6 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 6 STK3100/4100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Forelesning 4 STK3100

Forelesning STK september 2011

Forelesning 6 STK3100

Eksponensielle klasser

Forelesning 6 STK3100/4100

Eksponensielle klasser og GLM

Forelesning 8 STK3100

Forelesning 3 STK3100

Forelesning 5 STK3100/4100

UNIVERSITETET I OSLO

Forelesning 5 STK3100

Forelesning 10 STK3100

Forelesning 11 STK3100/4100

Forelesning 7 STK3100/4100

Forelesning 7 STK3100/4100

UNIVERSITETET I OSLO

Prøveeksamen i STK3100/4100 høsten 2011.

Tilleggsoppgaver for STK1110 Høst 2015

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Forelesning 7 STK3100

Forelesning 11 STK3100/4100

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

STK juni 2016

Forelesning 9 STK3100

Ekstraoppgaver for STK2120

Forelesning 7 STK3100

Forelesning 8 STK3100/4100

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

TMA4240 Statistikk Eksamen desember 2015

UNIVERSITETET I OSLO

Forelesning 9 STK3100/4100

UNIVERSITETET I OSLO

FORMELSAMLING TIL STK1100 OG STK1110

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO

Forelesning 9 STK3100/4100

Eksamensoppgave i TMA4267 Lineære statistiske modeller

7. november 2011 Geir Storvik

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

STK Oppsummering

UNIVERSITETET I OSLO

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

TMA4240 Statistikk Eksamen desember 2015

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

La U og V være uavhengige standard normalfordelte variable og definer

Notater i ST2304 H. T. L. 1 Fordelingsfunksjonene i R α-kvantilen... 3

Løsningsforslag: STK2120-v15.

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSTRAOPPGAVER I STK1110 H2017

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

Oppsummering av STK2120. Geir Storvik

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

UNIVERSITETET I OSLO

Medisinsk statistikk Del I høsten 2009:

UNIVERSITETET I OSLO

Siden vi her har brukt første momentet i fordelingen (EX = EX 1 ) til å konstruere estimatoren kalles denne metoden for momentmetoden.

TMA4240 Statistikk Høst 2007

TMA4240 Statistikk H2015

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Kapittel 6 - modell seleksjon og regularisering

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

TMA4240 Statistikk Høst 2009

Ekstraoppgaver STK3100 h10

Kapittel 2: Hendelser

Ridge regresjon og lasso notat til STK2120

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

Eksamensoppgave i Løsningsskisse TMA4240 Statistikk

Matematisk statistikk og stokastiske prosesser B, høsten 2006 Løsninger til oppgavesett 5, s. 1. Oppgave 1

TMA4245 Statistikk Eksamen desember 2016

Prøveeksamen STK vår 2017

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Prøveeksamen STK2100 (fasit) - vår 2018

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

FORMELSAMLING TIL STK1100 OG STK1110

Om eksamen. Never, never, never give up!

10.1 Enkel lineær regresjon Multippel regresjon

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Formelsamling i medisinsk statistikk

Transformasjoner av stokastiske variabler

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Transkript:

Lineær regresjon er en GLM Generaliserte Lineære Modeller Responser (Y i -er) fra normalfordelinger Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip E[Y i ] = µ i = η i, dvs. linkfunksjonen g(µ i ) = µ i er STK3100-15. september 2008 Sven Ove Samuelsen Plan for 4. forelesning: 1. Definisjoner av GLM 2. Linkfunskjoner, Kanonisk Link 3. Estimering GLM - Maximum Likelihood 4. Large sample resultater 5. Tester GLM - Likelihood Ratio - Devians identitetsfunksjonen Spesielt gjør R-kommandoene lm for lineær regresjon og glm essensielt det samme bare med litt forskjellig utskrift. Lineær regresjon er spesielt default-spesifikasjonen av for glm Generaliserte Lineære Modeller p. 1/47 Generaliserte Lineære Modeller p. 3/47 Definisjon av GLM En GLM = Generalisert Lineær Modell kan defineres ved Uavhengige Y 1,Y 2,...,Y n fra samme eksponensiell klasse med tetthet f(y;θ i ) = c(y;φ) exp((θ i y i a(θ i ))/φ) og forventninger µ i = a (θ i ) Lineære komponenter (prediktorer) η i = β 0 + β 1 x i1 + + β p x ip = β x i Linkfunksjon g(): Med µ i = E[Y i ] kobles forventningen til lineær komponent ved at g(µ i ) = η i Merk at µ i avhenger av β gjennom g(µ i ) = η i. Dermed avhenger også θ i av β via sammenhengen µ i = a (θ i ). Generaliserte Lineære Modeller p. 2/47 Eks. 1: Fødselsvekter > lm(vekt sex+svlengde) Call: lm(formula = vekt sex + svlengde) (Intercept) sex svlengde -1447.2-163.0 120.9 > glm(vekt sex+svlengde) Call: glm(formula = vekt sex + svlengde) (Intercept) sex svlengde -1447.2-163.0 120.9 Degrees of Freedom: 23 Total (i.e. Null); 21 Residual Null Deviance: 1830000 Residual Deviance: 658800 AIC: 321.4 Generaliserte Lineære Modeller p. 4/47

Logistisk regresjon er en GLM Responser (Y i -er) fra binomiske fordelinger bin(n i,π i ) Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip E[Y i ]/n i = π i = exp(η i) 1+exp(η i ). Dermed fås linkfunksjon g(π i ) = log( π i 1 π i ) Kaller g(π) = log( π ) = logit(π) for logit-funksjonen. 1 π > glm(cbind(dode,ant-dode) Dose,family=binomial) Call: glm(formula = cbind(dode, Ant - Dode) Dose, family = binomial) (Intercept) Dose -60.72 34.27 Andre linkfunksjoner Binomiske data Spesielt benyttes ofte probit-link, der Φ(η) = η g 2 (µ) = Φ 1 (µ) exp( x 2 /2) 2π dx = kumulativ for N(0,1). En annet alternativ er Komplementær log-log-link g 3 (π) = log( log(1 π)) som er invers av F(η) = 1 exp( exp(η)) hvilket er kumulativ for "Gumbel-fordelingen" Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 11.23 AIC: 41.43 Generaliserte Lineære Modeller p. 5/47 Generaliserte Lineære Modeller p. 7/47 Linkfunksjoner Binomiske data Invers av linkfunksjon for logistisk regresjon g(π) = log( π 1 π ) er g 1 (η) = exp(η) 1 + exp(η), dvs. g 1 (η) er en kumulativ fordelingsfunksjon for en kontinuerlig fordeling Kontinuerlig og strengt voksende g 1 ( ) = 0 og g 1 ( ) = 1 Kan generelt definere linkfunksjoner ved g(µ) = F 1 (µ) der F() er en kontinuerlig kum.fu. Eks. Linkfunksjoner > glm(cbind(dode,ant-dode) dose,family=binomial(link=probit)) (Intercept) dose -34.94 19.73 Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 10.12 AIC: 40.32 > glm(cbind(dode,ant-dode) dose,family=binomial(link=cloglog)) (Intercept) dose -39.57 22.04 Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 3.446 AIC: 33.64 Generaliserte Lineære Modeller p. 6/47 Generaliserte Lineære Modeller p. 8/47

Eks GLM: Poisson-regresjon Responser Y i Po(µ i ) Lineær komponent η i = β 0 + β 1 x i1 + + β p x ip Vanlige linkfunksjoner η i = g 0 (µ i ) = log(µ i ) eller µ i = exp(η i ), log-lineær modell η i = g 1/2 (µ i ) = µ i η i = g p (µ i ) = µ p i Kanonisk link Merk at µ i avhenger av β gjennom g(µ i ) = η i. Dermed avhenger også θ i av β via sammenhengen µ i = a (θ i ). Matematisk sett forenkles en GLM ved å anta θ i = η i, dvs. kanonisk (naturlig) parameter = lineær prediktor. Isåfall kalles linkfunksjonen g(µ i ) for kanonisk. Generaliserte Lineære Modeller p. 9/47 Generaliserte Lineære Modeller p. 11/47 Eks. Antall tidligere barn av gravide > glm(children age,family=poisson) (Intercept) age -4.0895 0.1129 Degrees of Freedom: 140 Total (i.e. Null); Null Deviance: 194.4 Residual Deviance: 165 AIC: 290 139 Residual > glm(children age,data=births,family=poisson(link=sqrt)) (Intercept) age -0.61109 0.04477 Eksempler på kanonisk link Da blir µ i = g 1 (η i ) = g 1 (θ i ). Siden vi generelt også har µ i = a (θ i ) finner vi den kanoniske linken fra g 1 (θ i ) = a (θ i ) Normalfordeling: Vanlig lineær-normal modell a (θ) = θ = g 1 (θ) som medfører g(µ) = µ. Poissonfordeling: Log-lineær modell a (θ) = exp(θ) = g 1 (θ i ) som medfører g(µ) = log(µ). Degrees of Freedom: 140 Total (i.e. Null); Null Deviance: 194.4 Residual Deviance: 164.4 AIC: 289.3 139 Residual Binomisk fordeling: Logistisk regresjon a (θ) = exp(θ) 1+exp(θ) = g 1 (θ i ) som gir g(π) = log(π/(1 π)) = logit(π). Generaliserte Lineære Modeller p. 10/47 Generaliserte Lineære Modeller p. 12/47

Likelihood for GLM (uten spredningsledd) Siden Y i -ene er uavhengige med tetthet f(y i ;θ i ) blir likelihooden L(β) = n f(y i ;θ i ) Merk at dette er en funksjon av regresjonskoeffisientene β siden θ i er en funksjon av µ i som igjen er en funksjon av β. Med log-likelihood-bidrag l i (β) = log(f(y i ;θ i ) blir log-likelihood l(β) = l i (β) = [θ i Y i a(θ i ) + log(c(y i ))] når det ikke er spredningsledd i modellen (φ = 1). Scorefunksjon og estimeringsligninger for GLM Komponent j i scorefunksjonen U(β) = (U 1 (β),...,u p (β)) uttrykkes dermed U j (β) = l(β) = U ij (β) = Merk at E[U j (β)] = 0 siden E[Y i µ i ] = 0 x ij Y i µ i g (µ i )V (µ i ) Vi finner altså MLE ˆβ ved å løse ligningene, j = 1,...,p, U j (ˆβ) = x ij Y i ˆµ i g (ˆµ i )V (ˆµ i ) = 0 der ˆµ i er estimert forventning med β = ˆβ. Generaliserte Lineære Modeller p. 13/47 Generaliserte Lineære Modeller p. 15/47 Scorebidrag for GLM Score-bidrag utledes ved utstrakt bruk av kjerneregelen og regelen om derivert av invers funksjon der Altså blir η i = x ij U ij (β) = l i(β) = η i η i θ i l i θ i η i = 1 η i = 1 g(µ i ) = 1 g (µ i ) θ i = 1 = 1 a (θ i ) = 1 = 1 a (θ i ) V (µ i ) θ i θ i l i θ i = [θ iy i a(θ i )+log(c(y i ))] θ i = Y i a (θ i ) = Y i µ i Y i µ i U ij (β) = x ij g (µ i )V (µ i ) Estimeringsligninger GLM med spredningsledd Sålangt har vi antatt observasjoner fra eksponensiell klasse uten spredningsledd. Utledningen modifiseres lett til fordelinger med tetthet f(y;θ i,φ) = c(y;φ) exp( θ iy a(θ i ) ) siden φ l i = [ θ i Y i a(θ i ) + log(c(y φ i,φ))] = 1 θ i θ i φ [Y i a (θ i ] = 1 φ [Y i µ i ]. Altså blir komponent j i score-funksjonen U j (β) = l(β) = 1 φ x ij Y i µ i g (µ i )V (µ i ) der φ inngår proporsjonalt og ikke betyr noe for estimeringen. Generaliserte Lineære Modeller p. 14/47 Generaliserte Lineære Modeller p. 16/47

Estimeringsligninger med kanonisk link Matematisk sett forenkles en GLM ved å anta θ i = η i, dvs. kanonisk (naturlig) parameter = lineær prediktor. Isåfall kalles linkfunksjonen g(µ i ) for kanonisk. Vi får da at score-funksjonen gis ved siden l i (β) U j (β) = 1 φ x ij [Y i µ i ] = θ i l i θ i = x ij 1 φ [Y i µ i ] Generaliserte Lineære Modeller p. 17/47 Forventet informasjonsmatrise (generell link) Siden [ ] E (Y i µ i ) [1/(g (µ i )V (µ i ))] = 0 blir dermed forventet informasjon [ J (β) = E[ J(β)] = 1 1 x ij x ik φ g (µ i ) 2 V (µ i ) som vi også finner ved siden J jk = Cov(U j,u k ) = 1 φ 2 n = 1 φ n x ij x ik g (µ i ) 2 V (µ i ) U j (β) = 1 φ x ij ] p j,k=1 x ij x ik g (µ i ) 2 V (µ i ) 2 Var(Y i µ i ) Y i µ i g (µ i )V (µ i ) Generaliserte Lineære Modeller p. 19/47 Observert informasjonsmatrise (generell link) der og J(β) = 2 l β 2 = [ 2 l β k ] p j,k=1 = [ U j β k ] p j,k=1 U j β k = 1 n φ x ij [(Y i µ i )/(g (µ i )V (µ i ))] β k = 1 n φ x ij η i [(Y i µ i )/(g (µ i )V (µ i ))] β k η i = 1 φ n x ijx ik 1 g (µ i ) [(Y i µ i )/(g (µ i )V (µ i ))] [(Y i µ i )/(g (µ i )V (µ i ))] 1 (Y = i µ i ) g (µ i )V (µ i ) +(Y i µ i ) [1/(g (µ i )V (µ i ))] 1 = + (Y g (µ i )V (µ i ) i µ i ) [1/(g (µ i )V (µ i ))] Kanonisk link: Observert info = Forventet info Observert informasjon J(β) = [ J kj (β)] p j,k=1 der J kj (β) = U j β k = 1 n φ x ij η i (Y i µ i ) β k η i = 1 n φ x 1 ijx ik = J g (µ i ) jk(β) siden J kj (β) ikke avhenger av noe stokastisk. Vi finner dessuten at J kj (β) = J jk (β) = 1 φ x ij x ik V (µ i ) siden θ i = η i g 1 (θ i ) = µ i = a (θ i ) V (µ i ) = a (θ i ) = 1 g (µ i ). Generaliserte Lineære Modeller p. 18/47 Generaliserte Lineære Modeller p. 20/47

Large sample resultat for MLE (spesielt ved GLM) Under regularitetsantagelser vil n(ˆβ β) Np (0, J 1 0 ) der N p (0, J 0 ) angir multivariat normalfordeling med forventningsvektor 0 = (0,...,0) og kovariansmatrise J0 1. Dessuten er J 0 grensen til 1 J når n. n Noe heuristisk skrives dette resultatet av og til evt, ˆβ N p (β, J 1 ) ˆβ N p (β, J 1 ) (ikke så vanlig ved GLM siden uttrykket for J er enklere). Multivariat normalfordeling Vi definerer at en p-dimensjonal vektor Y = (Y 1,...,Y p ) er multivariat normalfordelt dersom vi kan skrive Y = AZ + µ der Z = (Z 1,...,Z p ) er en vektor av p uavhengige N(0,1) variable Z i, µ = (µ 1,...,µ p ) en vilkårlig p-dimensjonal vektor av tall og a 11 a 12 a 1p a 21 a 22 a 2p A = = [a.... ij ] p i,j=1 a p1 x p2 a pp Generaliserte Lineære Modeller p. 21/47 er en ikke-singulær matrise. Generaliserte Lineære Modeller p. 23/47 Large sample resultat scorefu. (spesielt ved GLM) Under regularitetsantagelser vil 1 n U(β) N p (0, J 0 ) Dette følger av det fler-dimensjonale sentralgrenseteoremet for ikke-identisk fordelte stokastiske variable via n l i (β) β l i (β) U(β) = β = 1. n l i (β) β p samt E[U(β)] = 0 og at kovariansmatrisen til U(β) er lik J. Kortform: U(β) N p (0, J ) Generaliserte Lineære Modeller p. 22/47 Momenter i multivariat normalfordeling Spesielt blir p Y j = a ji Z i + µ j som har E[Y j ] = µ j. Dermed blir forventningen i den p-dimensjonal normalfordelingen Dessuten blir variansen til Y j E[Y] = AE[Z] + µ = µ σ 2 j = Var[Y j ] = og kovariansen mellom Y j og Y k p ρ jk σ j σ k = Cov[Y j,y k ] = a 2 ji p a ji a ki Generaliserte Lineære Modeller p. 24/47

Kovariansmatrise til stokastisk vektor Y med Var(Y j ) = σj 2 og Cov(Y j,y k ) = ρ jk σ j σ k defineres ved σ1 2 ρ 12 σ 1 σ 2 ρ 1p σ 1 σ p ρ 12 σ 1 σ 2 σ2 2 ρ 2p σ 2 σ p V = = [Cov(Y.... j,y k )] p j,k=1 ρ 1p σ 1 σ p ρ 2p σ 2 σ p σp 2 Spesielt for multivariat normalfordelt Y = AZ + µ skriver vi Y N p (µ,v) Vi kan dessuten uttrykke V fra A ved V = AA (verifiser!) Generaliserte Lineære Modeller p. 25/47 Tetthet for multivariat normalfordeling gis da ved f Y (y) = (2π) p/2 V 1/2 exp( 1 2 (y µ) V 1 (y µ)) Bevis: Den inverse transformasjonen h() blir gitt fra og h() har Jacobi-matrise A 1. Z = h(y) = A 1 (Y µ) Her vet vi dessuten at Z = (Z 1,...,Z p ) har uavhengige og N(0,1) fordelte komponenter, altså har Z tetthet f Z (z) = (2π) p/2 exp( 1 2 p z2 i ) = (2π) p/2 exp( 1 2 z z) Generaliserte Lineære Modeller p. 27/47 Multivariat transformasjonssetning Fra Rice (STK1100, s. 102-103) has at hvis Z har multivariat tetthet f Z (z) Y = g(z) Z = h(y) (invers funksjon) med Jacobi-matrise Jac(h(Y)) = h y = [ h i yj ]p i.j=1 så har Y tetthet f Y (y) = f Z (h(y)) Jac(h(y)) der Jac(h(y)) er determinanten til Jac(h(y)). Tetthet for multivariat normalfordeling, forts. Videre er kovariansmatrisen til Y gitt ved V = AA og har determinant V = A 2 samt invers V 1 = (A ) 1 A 1 = (A 1 ) A 1. (Siste likhet følger av generelle matriseregel (CD) = D C brukt ved at identitetsmatrisen I = (AA 1 ) = (A 1 ) A ) Innsatt i f Z (h(y)) Jac(h(y)) gir dette f Y (y) = (2π) p/2 exp( 1 2 (y µ) (A 1 ) A 1 (y µ)) A 1 = (2π) p/2 V 1/2 exp( 1 2 (y µ) V 1 (y µ)) siden A 1 = 1 A = V 1/2 Generaliserte Lineære Modeller p. 26/47 Generaliserte Lineære Modeller p. 28/47

Spesialtilfeller 1. Univariat normaltetthet 1 formen med V = [σ 2 ]. 2. Bivariat normaltetthet f(y 1,y 2 ) = exp( med µ = (µ 1,µ 2 ) og 2πσ exp( (y µ)2 2σ 2 ) er på denne 1 2(1 ρ 2 ) [(y 1 µ 1 )2 σ 1 2 + (y 2 µ 2 )2 σ 2 2 2ρ(y 1 µ 1 )(y 2 µ 2 ) ]) σ 1 σ 2 2πσ 1 σ 2 1 ρ 2 = (2π) p/2 V 1/2 exp( 1 2 (y µ) V 1 (y µ)) V = σ2 1 ρσ 1 σ 2 ρσ 1 σ 2 σ2 2 Generaliserte Lineære Modeller p. 29/47 Flerparameter Score- og Wald-tester Sist så vi at hvis S N p (E[S],V) så er "eksponenten" i tettheten (S E[S]) V 1 (S E[S]) χ 2 p Under "helspesifiserte" nullhypoteser H 0 : β = β 0, eller H 0 : β 1 = β 01,...,β p = β 0p er dermed Wald-testobservatoren, med ˆ J lik J innsatt ˆβ, (ˆβ β 0 ) ˆ J (ˆβ β0 ) χ 2 p (tilnærmet). Tilsvarende gjelder for Score-test observatoren: U(β 0 ) J 1 U(β 0 ) χ 2 p der altså U(β 0 ) er scorefunksjonen evaluert i θ 0. Generaliserte Lineære Modeller p. 31/47 Eksponentens fordeling For multivariate normalfordelinger er "eksponenten" (y µ) V 1 (y µ) et 2. gradspolynom i y og f Y (y) konstant på ellipsoider i det p-dimensjonale rom. Dessuten får vi at eksponenten innsatt stokastisk Y blir (Y µ) V 1 (Y µ) = Z Z = p Zi 2 χ 2 p altså kjikvadratfordelt med p frihetsgrader siden Z i N(0,1) og uavhengige. Generaliserte Lineære Modeller p. 30/47 Flerparameter Likelihood-ratio tester Ved 2. ordens Taylorutvikling kan det vises at G(β 0 ) = 2[l(ˆβ) l(β 0 )] (ˆβ β 0 ) J (ˆβ β 0 ), der l(β) er log-likelihood. Dermed får vi også tilnærmet G(β 0 ) χ 2 p under den helspesifiserte nullhypotesen H 0 : β = β 0. Wald-, Score- og Likelihood ratio (LR) testene asymptotisk ekvivalente, men kan avvike betydelig med "lite" data. Wald-testene har generelt noe dårligere small-sample egenskaper enn Score og LR. Siden LRT kan beregnes direkte fra log-likelihood l(β) er den enkel å bruke. Generaliserte Lineære Modeller p. 32/47

Det er sjelden vi tester helspesifiserte hypoteser Eks. 1: Med Y i = antall biller av n i som dør med giftdose x i er Y i Bin(n i,π i ) og vi antok π i = exp(β 0 + β 1 x i ) 1 + exp(β 0 + β 1 x i ) og testet H 0 : β 1 = 0 uten å ta hensyn til konstantledd β 0. Eks. 2: Med fødselsvekt Y i = β 1 x i1 + β 2 x i2 + β 3 x i3 + β 4 x i4 + ε i x i1 = indikatorvariabel for gutt, x i2 = indikatorvariabel for jente, x i3 = produkt av varighet og indikator gutt, x i4 = produkt av varighet og indikator jente testet vi om vesthastigheten er den samme for gutter og jenter: H 0 : β 3 = β 4 uten å være opptatt av β 1 og β 2. Generaliserte Lineære Modeller p. 33/47 Delspesifisert Wald-test MLE ˆβ = (ˆβ 1,..., ˆβ p ) har (estimert) kovariansmatrise som kan blokkdeles ˆ J 1 = ˆΣ 11 ˆΣ 12 der ˆΣ 22 er kovariansmatrise for (ˆβ p q+1,..., ˆβ p ) Men marginalfordelinger i den multivariate normalfordelingen er også normalfordelt, altså ˆΣ12 ˆΣ 22 (ˆβ p q+1,..., ˆβ p ) N q (0, ˆΣ 22 ) q dimensjonalt normalfordelt med forventning 0 under H 0 og kovariansmatrise ˆΣ 22. Generaliserte Lineære Modeller p. 35/47 Delspesifiserte hypoteser Apriorispesifikasjon: g(µ i ) = β 1 x i1 + + β p x ip Helspesifisert hypotese: Spesifiserer verdiene for alle parametre Delspesifisert hypotese: Spesifiserer kun verdiene for noen parametre Typisk delspesifisert nullhypotese H 0 : β p q+1 = β p q+2 = = β p = 0 der q < p, slik at under H 0 blir g(µ i ) = β 1 x i1 + + β p q x i,p q Delspesifiserte hypoteser kan også testes med Wald, LR og Score-tester (men Score-tester er ikke så vanlige). For alle testene ender vi opp med χ 2 q fordelte test-observatorer. Delspesifisert Wald-test, forts. Dermed blir Wald-testen gitt ved at tilnærmet under H 0. (ˆβ p q+1,..., ˆβ p )ˆΣ 1 22 (ˆβ p q+1,..., ˆβ p ) χ 2 q Vi brukte implisitt dette resultatet når vi testet om giftdose har effekt på billedødelighet. ˆβ1 = 34.27 se 1 = 2.912 z = ˆβ 1 /se 1 = 11.77 z 2 = 138.5 Generaliserte Lineære Modeller p. 34/47 Generaliserte Lineære Modeller p. 36/47

R-utskrift Biller > glmfit0biller<-glm(cbind(dode,ant-dode) Dose,family=binomial) > summary(glmfit0biller) Call: glm(formula = cbind(dode, Ant - Dode) Dose, family = binomial) Deviance Residuals: Min 1Q Median 3Q Max -1.5941-0.3944 0.8329 1.2592 1.5940 Estimate Std. Error z value Pr(> z ) (Intercept) -60.717 5.181-11.72 <2e-16 *** Dose 34.270 2.912 11.77 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 11.232 on 6 degrees of freedom AIC: 41.43 Generaliserte Lineære Modeller p. 37/47 Likelihood Ratio Test - Biller Definerer binomisk likelihood som funksjon og beregner G: > logl<-function(p){ + li<-y*log(p)+(n-y)*log(1-p) + l<-sum(li) + l} > n<-ant > y<-dode > p0<-glm(cbind(dode,ant-dode) 1,family=binomial)$fit > p1<-glm(cbind(dode,ant-dode) Dose,family=binomial)$fit > 2*(logl(p1)-logl(p0)) [1] 272.9702 NB. G = 272.97 finnes også som differans mellom "Null Devians" og "Residual Devians" på side 37. Generaliserte Lineære Modeller p. 39/47 LRT med delspesifisert hypotese Som før: Apriori MLE ˆβ = (ˆβ 1,..., ˆβ p ) Under nullhypotesen er β p q+1 = = β p = 0. Da fås MLE β = (β1,...,β p q, 0,...,0) Likelihood ratio testen gis nå ved at G = 2[l(ˆβ) l(β )] χ 2 q er tilnærmet kjikvadratfordelt. Nøstede modeller Eksempel: Biller, π i = P( Død Dose x i ) Modell M0: logit(π i ) = β 0 uavhengig av dose Modell M1: logit(π i ) = β 0 + β 1 x i lineært avhengig av dose Modell M2: logit(π i ) = β 0 + β 1 x i + β 2 x 2 i kvadratisk avhengig av dose Her er M0 nøstet i M1 som igjen er nøstet i M2. Dette fordi M0 er et spesialtilfelle av M1 som igjen er et spesialtilfelle av M2. Vi kan benytte M0 som nullhypotese for M1 og M2. Vi kan også benytte M1 som nullhypotese for M2. Generelt er en Modell A nøstet i en Modell B dersom A er et spesialtilfelle av B. Generaliserte Lineære Modeller p. 38/47 Generaliserte Lineære Modeller p. 40/47

Mettet (saturated) modell er en modell som har en parameter per observasjon. Spesielt er alle andre modeller nøstet i den mettede modellen. Eks: Biller Den mettede modellen har ulike sannsynligheter π i for hver giftdose og tilpassede sannsynligheter blir π i = Y i /n i. For GLM får vi en perfekt tilpasning til data Y i slik at predikerte forventninger blir µ i = Y i. Den mettede modellen får også maksimal oppnåelig likelihood l over alle tenkelige modeller. Generaliserte Lineære Modeller p. 41/47 Devians = 2( l l) Merk: Minimering av er ekvivalent med maksimering av likelihooden. Eksempler på Devianser: Poisson: = 2 n [Y i log(y i /λ i ) (Y i λ i )] Binomisk, π i = Y i /n i : = 2 n [Y i log( π i π i ) + (n i Y i ) log( 1 π i 1 π i )] Et par andre begreper: Nulldevians = Devians med Modell: µ i = µ eller g(µ i ) = β 0, dvs. kun konstantledd i modellen Residual devians = Devians i aktuell modell g(µ i ) = β 0 + β 1 x i1 +... + β p x ip, dvs. deviansen innsatt MLE ˆβ Generaliserte Lineære Modeller p. 43/47 Devians Eks: Y i N(µ i,σ 2 ): Den mettede modellen har µ i = Y i l = n 2 log(2πσ2 ) 1 2σ 2 (Y i µ i ) 2 l = n 2 log(2πσ2 ) Dermed finner vi at likelihood ratio mellom mettet modell og en vilkårlig modell blir 2( l l) = 1 (Y σ 2 i µ i ) 2 og foreslår en generalisering av kvadratsum til GLM. Vi definerer generelt Deviansen ved = 2( l l) der altså l er log-likelihood for den mettede modellen. Generaliserte Lineære Modeller p. 42/47 LRT og Devians Apriori MLE ˆβ = (ˆβ 1,..., ˆβ p ) gir Devians ˆ = 2[ l ˆl] = 2[ l l(ˆβ)] Under nullhypotesen er β p q+1 = = β p = 0. Da fås MLE β = (β 1,...,β p q, 0,..., 0) som gir devians = 2[ l l ] = 2[ l l(β )]. Likelihood ratio testen gis nå ved at under H 0 G = 2[l(ˆβ) l(β )] = ˆ χ 2 q. Vi gjør altså LRT ved å beregne devianser for modellene som sammenlignes! Generaliserte Lineære Modeller p. 44/47

Eksempel: Biller Apriori modell: logit(π i ) = β 0 + β 1 x i Nullhypotese: β 1 = 0 Nulldevians: = 284.2 Residual devians: ˆ = 11.23 LRT: G = ˆ = 272.97, dvs. soleklar forkastning sml. χ 2 1 Apriori modell: logit(π i ) = β 0 + β 1 x i + β 2 x 2 i Nullhypotese: β 2 = 0 Devians under H 0 : D = 11.23 Residual devians: ˆ = 3.195 LRT: G = ˆ = 8.03, p-verdi P(χ 2 1 > 8.03) = 0.0046, dvs. signifikant avvik R-utskrift II > M0<-glm(cbind(Dode,Ant-Dode) 1,family=binomial) > M1<-glm(cbind(Dode,Ant-Dode) Dose,family=binomial) > M2<-glm(cbind(Dode,Ant-Dode) Dose+I(Doseˆ2),family=binomial) > anova(m0,m1,m2,test="chisq") Analysis of Deviance Table Model 1: cbind(dode, Ant - Dode) 1 Model 2: cbind(dode, Ant - Dode) Dose Model 3: cbind(dode, Ant - Dode) Dose + I(Doseˆ2) Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 7 284.202 2 6 11.232 1 272.970 2.556e-61 3 5 3.195 1 8.037 0.005 > anova(m0,m2,test="chisq") Analysis of Deviance Table Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 7 284.202 2 5 3.195 2 281.008 9.55e-62 Generaliserte Lineære Modeller p. 45/47 Generaliserte Lineære Modeller p. 47/47 R-utskrift > glm(cbind(dode,ant-dode) Dose+I(Doseˆ2),family=binomial) Call: glm(formula = cbind(dode, Ant - Dode) Dose + I(Doseˆ2), family = (Intercept) Dose I(Doseˆ2) 431.1-520.6 156.4 Degrees of Freedom: 7 Total (i.e. Null); 5 Residual Null Deviance: 284.2 Residual Deviance: 3.195 AIC: 35.39 > summary(glm(cbind(dode,ant-dode) Dose+I(Doseˆ2),family=binomial))$coef Estimate Std. Error z value Pr(> z ) (Intercept) 431.1058 180.65356 2.386368 0.01701573 Dose -520.6153 204.52250-2.545516 0.01091164 I(Doseˆ2) 156.4116 57.86301 2.703136 0.00686887 > 1-pchisq(8.03,1) [1] 0.004600884 Generaliserte Lineære Modeller p. 46/47