Forelesning 6 STK3100/4100

Binomiske eller binære responser Forelesning 6 STK3100/4100 26. september 2008 Geir Storvik (S. O. Samuelsen) Plan for forelesning: 1. GLM Binære data 2. Link-funksjoner 3. Parameterfortolkning logistisk regresjon 4. Parameterfortolkning andre linkfunksjoner 5. Goodness-of-fit: Hosmer-Lemeshow-test Anta Y i Bin(n i,π i ) er uavhengige. Kan alltid definere 1 for j = 1,...,Y i Y i,j = 0 for j = Y i + 1,...,n i som gir oss binære data. Forelesning 6 STK3100/4100 p. 1/43 Forelesning 6 STK3100/4100 p. 3/43 Binomiske responser Anta Y i Bin(n i,π i ) er uavhengige. Da har vi data fra en eksponensiell klasse. ( ) ni f(y,θ i,φ i ) = π y i y (1 π i) n i y i =c(y) ep(yθ i a(θ i )) der θ i = log(π i /(1 π i )),a(θ i ) = n i log(1 + ep(θ i )) mens spredningsleddet φ i = 1 er kjent og c(y) = ( n i y ). Som kjent blir E[Y i ] = a (θ i ) = n i ep(θ i ) 1+ep(θ i ) = n iπ i = µ i og Var[Y i ] = φ i a (θ i ) = n i ep(θ i ) (1+ep(θ i )) 2 = n i π i (1 π i ). Binære responser eller grupperte data? Y i Bin(n i,π i ),i = 1,...,k eller Y i Bin(1,π i ),i = 1,...,n = i n i Estimering ekvivalent ved begge representasjoner Testing for sammenlikning av modeller også ekvivalent Goodness-of-fit test (devians) blir forskjellig! χ 2 n q n = k for grupperte data n = k i=1 n i for binære data Krav devians goodness-of-fit test: Y i Bin(n i,π i ) der n i π i > 5 og n i (1 π i ) > 5 Forelesning 6 STK3100/4100 p. 2/43 Forelesning 6 STK3100/4100 p. 4/43

Biller > dim(beetle) [1] 8 3 > glm(cbind(dode,ant-dode) Dose,family=binomial,data=beetle) (Intercept) Dose -60.72 34.27 Degrees of Freedom: 7 Total (i.e. Null); Null Deviance: 284.2 Residual Deviance: 11.23 AIC: 41.43 > dim(beetle2) [1] 481 2 > glm(dode Dose,family=binomial,data=beetle2) (Intercept) Dose -60.72 34.27 Degrees of Freedom: 480 Total (i.e. Null); Null Deviance: 645.4 Residual Deviance: 372.5 AIC: 376.5 6 Residual 479 Residual Forelesning 6 STK3100/4100 p. 5/43 Krav til linkfunksjon for binære responser g() bør være glatt (deriverbar) strengt monoton (voksende) verdier over alle reelle tall g([0, 1]) = R eller ekvivalent g 1 (R) = [0, 1] g 1 (η) kumulativ fordelingsfunksjon for kontinuerlig fordeling på R Logit-linken tilfredstiller disse kravene. Spesielt er g 1 (η) kumulativ i "logistisk fordeling" der tettheten er ep(η) (1 + ep(η)) 2 Forelesning 6 STK3100/4100 p. 7/43 GLM binære responser Uavhengige binære Y i med suksess-sannsynlighet π i (n i = 1 her) Lineær prediktor η i = β T i Linkfunksjon g(π i ) = η i Vi har så langt hovedsaklig sett på link-funksjonen som gir π i g(π i ) = log( ) = logit(π i ) 1 π i π i = ep(η i) 1 + ep(η i ) = g 1 (η i ) Spesielt er dette den kanoniske link-funksjonen, i.e. kanonisk parameter θ i = η i Som kjent gir logit-linken logistisk regresjon. Forelesning 6 STK3100/4100 p. 6/43 Kumulativ og tetthet i "standard" logistisk fordeling F() 0.0 0.2 0.4 0.6 0.8 1.0 Kumulativ logistisk fordeling -6-4 -2 0 2 4 6 f() 0.0 0.05 0.10 0.15 0.20 0.25 Tetthet logistisk fordeling -6-4 -2 0 2 4 6 Tettheten er symmetrisk om = 0, så forventningen er lik 0. Dessuten kan det vises at variansen i standard-logistisk 2 ep() π2 (1 + ep()) 2d = 3 = 1.8137992 Forelesning 6 STK3100/4100 p. 8/43

Probit-link: Invers av kumulativ for standard-normal Siden kravet til en link-funksjon er at den er invers av en kumulativ er en naturlig kandiat til link: der Φ(y) = y g(η) = Φ 1 (η) 1 2π ep( 1 2 2 )d. Siden tettheten i standardnormalfordelingen er symmetrisk om y = 0 får vi ofte resultater tilsvarende logist regresjon med probit link (probit analyse). Imidlertid Normalfordelingen har lettere haler enn logistisk fordeling, kan ha situasjoner der probit passer bedre Sammenlikning estimater E[Y i ] =g 1 (η i ) g 1 (0) + (g 1 ) (0)η i 0.5 + 0.25ηi l logit = 0.5 + φ(0)η p i probit Dvs for η i 0, ηi l ηp φ(0)/0.25 = (8/π) 1.6 eller β l j 1.6 βp j Forelesning 6 STK3100/4100 p. 9/43 Forelesning 6 STK3100/4100 p. 11/43 Kumulativ og tetthet for logit og probit R-utskrift Biller: Logit vs. Probit F() 0.0 0.2 0.4 0.6 0.8 1.0 Kumulative fordelingsfunksjoner logistisk probit (skalert) -6-4 -2 0 2 4 6 f() 0.0 0.05 0.10 0.15 0.20 0.25 Tettheter -6-4 -2 0 2 4 6 > logfit<-glm(cbind(dode,ant-dode) Dose,binomial(link=logit),beetle) > profit<-glm(cbind(dode,ant-dode) Dose,binomial(link=probit),beetle) > logfit (Intercept) Dose -60.72 34.27 Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 11.23 AIC: 41.43 > profit (Intercept) Dose -34.94 19.73 Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 10.12 AIC: 40.32 Forelesning 6 STK3100/4100 p. 10/43 > logfit$coef/profit$coef (Intercept) Dose 1.737999 1.737147 Forelesning 6 STK3100/4100 p. 12/43

varians π 2 /6 0.41 2 Forelesning 6 STK3100/4100 p. 16/43 Akaike informasjonskriterium (AIC) defineres generelt ved AIC = 2ˆl + 2q der q = antall parametre i modellen og ˆl maksimum log-likelihood under modellen. Akaike-kriteriet benyttes ved å velge den modellen med minst AIC-verdi. R-utskrift Biller: Probit > summary(profit) Deviance Residuals: Min 1Q Median 3Q Ma -1.5714-0.4703 0.7501 1.0632 1.3449 Estimate Std. Error z value Pr(> z ) (Intercept) -34.935 2.648-13.19 <2e-16 *** Dose 19.728 1.487 13.27 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 10.120 on 6 degrees of freedom AIC: 40.318 Number of Fisher Scoring iterations: 4 Forelesning 6 STK3100/4100 p. 13/43 Forelesning 6 STK3100/4100 p. 15/43 R-utskrift Biller: Logit > summary(logfit) Deviance Residuals: Min 1Q Median 3Q Ma -1.5941-0.3944 0.8329 1.2592 1.5940 Estimate Std. Error z value Pr(> z ) (Intercept) -60.717 5.181-11.72 <2e-16 *** Dose 34.270 2.912 11.77 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 11.232 on 6 degrees of freedom AIC: 41.43 clog-log-link basert på Gumbel-fordelingen Linken η i = g(π i ) = log( log(1 π i )) kalles den "komplementære log-log-linken" Dens inverse er gitt ved π i = 1 ep( ep(η i )) = F(η i ) som er kumulativ for (den standardiserte) Gumbelfordelingen. Egenskaper: ikke er symmetrisk veldig lette haler mot + haler som logistisk fordeling mot forventning er - Eulers s konstant 0.58 Forelesning 6 STK3100/4100 p. 14/43

Kumulativ og tetthet Gumbelfordeling Kumulative fordelingsfunksjon Gumbel Tetthet Gumbel F() 0.0 0.2 0.4 0.6 0.8 1.0 f() 0.0 0.1 0.2 0.3 Sammenlikning med AIC > AIC(logfit,profit,clogfit) df AIC logfit 2 41.43027 profit 2 40.31780 clogfit 2 33.64448 cloglog-link gir best tilpasning. -4-2 0 2 4-4 -2 0 2 4 Forelesning 6 STK3100/4100 p. 17/43 Forelesning 6 STK3100/4100 p. 19/43 R-utskrift Biller: Clog-log > clogfit<-glm(cbind(dode,ant-dode) Dose,binomial(link=cloglog),beetle) > summary(clogfit) Estimate Std. Error z value Pr(> z ) (Intercept) -39.572 3.240-12.21 <2e-16 *** Dose 22.041 1.799 12.25 <2e-16 *** Null deviance: 284.2024 on 7 degrees of freedom Residual deviance: 3.4464 on 6 degrees of freedom AIC: 33.644 Number of Fisher Scoring iterations: 4 > logfit$coef/clogfit$coef (Intercept) Dose 1.534342 1.554832 Forelesning 6 STK3100/4100 p. 18/43 Tilpassede sannsynligheter for billedata med logistisk regresjon og cloglog-link: andel dode biller 0.0 0.2 0.4 0.6 0.8 1.0 logistisk cloglog 1.70 1.75 1.80 1.85 dose (log_10) Cloglog-linken treffer observerte andeler bedre enn logistisk regr., svarer til residual-devians på 3.45 for cloglog og 11.23 for logistisk regresjon. Forelesning 6 STK3100/4100 p. 20/43

2. ordens ledd > form = cbind(dode,ant-dode) Dose+I(Doseˆ2) > logfit2<-glm(form,binomial(link=logit),beetle) > profit2<-glm(form,binomial(link=probit),beetle) > clogfit2<-glm(form,binomial(link=cloglog),beetle) > AIC(clogfit,logfit2,profit2,caufit2,clogfit2) df AIC clogfit 2 33.64448 logfit2 3 35.39294 profit2 3 35.29647 clogfit2 3 35.60866 GLM Binomiske / binære responser Y i Bin(n i,π i ) der linkfunskjonen g(π i ) = η i = β T i er invers av kontinuerlig kumulativ fordelingsfunksjon på R. Følgende linkfunksjoner er implementert i R: Logistisk regresjon: g(π i ) = log(π i /(1 π i )) ekvivalent med g 1 (η i ) = ep(η i) 1+ep(η i ) Probit-analyse: g(π i ) = Φ 1 (π i ) clog-log-link g(π i ) = log( log(1 π i )) ekvivalent med π i = 1 ep( ep(η i )) "Cauchit-analyse" g(π i ) = tan(π(π i 0.5)) log-link g(π i ) = log(π i ) (ikke invers av kumulativ over R) Forelesning 6 STK3100/4100 p. 21/43 Forelesning 6 STK3100/4100 p. 23/43 Tilpassede sannsynligheter for billedata også med logistisk regresjon og 2. gradsledd i Dose andel dode biller 0.0 0.2 0.4 0.6 0.8 1.0 logistisk cloglog logistisk, 2. gradsledd Parameterfortolkning logistisk regresjon Vi definerer odds for begivenhet ved: π = Odds 1 π For logistisk regresjon blir oddsen, med η = β T, dvs Odds = ep(η) 1+ep(η) 1 ep(η) 1+ep(η) = η = log Odds ep(η) 1+ep(η) 1 1+ep(η) = ep(η) 1.70 1.75 1.80 1.85 dose (log_10) 2. gradsledd ga en devians på 3.19 sammenlignet med 3.44 for cloglog-linken. AIC-verdier ble 35.93 med 2. gradsledd og 33.64 for cloglog. Forelesning 6 STK3100/4100 p. 22/43 Forelesning 6 STK3100/4100 p. 24/43

Parameterfortolkning logistisk regresjon: Odds-ratio La k = k,k j, j = j + 1, dvs = (0,...,0, 1, 0,..., 0), Forholdet mellom oddsene med kovariater og, kalt odds-ratioen, (med π = e η /(1 + e η ) og η = β T ) OR j = π 1 π π 1 π eller omvendt = ep(β j ) = Odds Odds = ep(η η) = ep(β T ( )) β j = log(or j ), dvs. regresjonsparametrene fortolkes som log-odds-ratioer eller relativ endring i odds (på log skala) Tilnærmelsen OR RR Relativ risk Odds-ratio π 0.01 0.05 0.10 0.20 0.01 0.05 0.10 0.20 π = 0.01 1 0.2 0.1 0.05 1.00 0.19 0.09 0.04 π = 0.05 5 1.0 0.5 0.25 5.21 1.00 0.47 0.21 π = 0.10 10 2.0 1.0 0.50 11.00 2.11 1.00 0.44 π = 0.20 20 4.0 2.0 1.00 24.75 4.75 2.25 1.00 π = 0.30 30 6.0 3.0 1.50 42.43 8.14 3.86 1.71 π = 0.40 40 8.0 4.0 2.00 66.00 12.67 6.00 2.67 π = 0.50 50 10.0 5.0 2.50 99.00 19.00 9.00 4.00 Forelesning 6 STK3100/4100 p. 25/43 Forelesning 6 STK3100/4100 p. 27/43 Odds-ratio Relativ Risk når sannsynlighetene er små En "relativ risk" er definert som forholdet mellom to sannsynligheter, f.eks. RR = π π Spesielt når både π og π er små blir 1 π 1 og 1 π 1. Dermed får vi OR = π π 1 π 1 π π π = RR Dvs for små sannsynligheter måler ep(β j ) (tilnærmet) relativ endring i sannsynlighet når j øker med en enhet. Sannsynlighetene er nær 0.5 Anta π = 0.5 + δ og π = 0.5 δ. Da blir 1 π = 0.5 δ = π og 1 π = 0.5 + δ = π slik at ( ) OR = π 1 π π 2 = = RR 2 π 1 π π dvs. ikke tilnærmelse mellom størrelsene og OR avviker vesentlig mer fra 1 enn RR Forelesning 6 STK3100/4100 p. 26/43 Forelesning 6 STK3100/4100 p. 28/43

Uttrykket odds: Spill I ett pengespill satser man en innsats 1 og får deretter utbetalt U = G 0 + 1 hvis man vinner. Hvis man taper får man ikke innsatsen tilbake. Gevinsten etter å ha spilt er derfor 1 hvis en taper spillet G = hvis en vinner spillet G 0 Eksempel: Studie av dødelighet med Wilm s tumor > glm(d unfav+factor(stg),family=binomial(link=logit))$coef (Intercept) unfav factor(stg)2 factor(stg)3 factor(stg)4-3.2415851 1.9927784 0.6957588 1.0305140 1.7935930 > glm(d unfav+factor(stg),family=binomial(link=cloglog))$coef (Intercept) unfav factor(stg)2 factor(stg)3 factor(stg)4-3.2240445 1.7404373 0.6591325 0.9664677 1.6147868 Vi antar at sannsynlighet for å tape er π. Hvis spillet er rettferdig er dvs. 0 = E[G] = G 0 (1 π) 1 π, G 0 = π 1 π = Odds for å tape Forelesning 6 STK3100/4100 p. 29/43 Forelesning 6 STK3100/4100 p. 31/43 Parameter-fortolkning med clog-log-link eller π =1 ep( ep(β T )) η =β T = log( log(1 π)) For π liten er log(1 π) π (Taylor) som gir og dermed η log(π) π ep(η) RR j = π π ep(β j) Forelesning 6 STK3100/4100 p. 30/43 Fortolkning av parametre med probitanalyse Noen ganger har vi kontinuerlige responser, Y i0 N(β T i,σ 2 ) (f.eks. normalfordelt), men velger å studere 1 hvis Y i0 < γ = terskelverdi Y i = 0 hvis ikke Eks. Y i0 = fødselsvekt 1 hvis Y i0 < 2500 gram Y i = 0 hvis ikke Eks. Psykometriske målinger, Y i0 = score på depresjonsskala 1 hvis Y i0 > terskelverdi Y i = 0 hvis ikke Forelesning 6 STK3100/4100 p. 32/43

Underliggende skala 1 hvis Y i0 < γ = terskelverdi Y i = 0 hvis ikke Sammenheng parametre i probit og underliggende skala Forventning for E[Y i0 ] = β T i = β 0 + β 1 i1 + + β p ip svarer altså til probitmodell Φ 1 (π i ) = α 0 + α 1 i1 + + α p ip tetthet 0.0 0.1 0.2 0.3 0.4 der α 0 = γ β 0 σ α j = β j for j = 1,...,p σ Merk: Standardavviket σ for den underliggende skalaen er ikke mulig å identifisere. Y0 Forelesning 6 STK3100/4100 p. 33/43 Forelesning 6 STK3100/4100 p. 35/43 Probit, forts. Hvorfor binære respons? Tradisjon for tabellanalyse Direkte score Y i0 kan være svært skjevfordelt Direkte score er kanskje ikke registert, bare noe vi forestiller oss ("latent" variabel) Vi finner sammenhengen mellom Y i0 N(β T i,σ 2 ) Y i = I(Y i0 γ) Eksempel: Fødselsvekt og svangerskapsvarighet > summary(lm(vekt svlengde+se)) Estimate Std. Error t value Pr(> t ) (Intercept) -1447.24 784.26-1.845 0.0791. svlengde 120.89 20.46 5.908 7.28e-06 *** se -163.04 72.81-2.239 0.0361 * --- Residual standard error: 177.1 on 21 degrees of freedom Multiple R-Squared: 0.64, Adjusted R-squared: 0.6057 F-statistic: 18.67 on 2 and 21 DF, p-value: 2.194e-05 Vi får altså estimert ˆσ = 177.1. ved π i = P(Y i = 1) = P(Y i0 γ) = Φ( γ σ (β σ ) i ) Forelesning 6 STK3100/4100 p. 34/43 Forelesning 6 STK3100/4100 p. 36/43

Eksempel: Fødselsvekt og svangerskapsvarighet, forts. > lavvekt<-1*(vekt<2800) > table(lavvekt) 0 1 17 7 > > glm(lavvekt svlengde+se,family=binomial(link=probit))$coef (Intercept) svlengde se 24.1550285-0.6801164 0.7522067 > lm(vekt svlengde+se)$coef/177.1 (Intercept) svlengde se -8.1718986 0.6826331-0.9206059 To strategier for goodness-of fit med binære data Med kategoriske kovariater: Aggreger til binomiske data Hosmer-Lemeshow test Aggregering består i å Tell opp antall individer etter alle nivåer av de kategoriske variablene Tell opp antall Y i = 1 etter alle nivåer av de kategoriske variablene Gjør glm-tilpasning på aggregerte data Definerer Y i = 1 hvis fødselsvekten er mindre enn 2800 gram. Får probit-estimater ˆα j ˆβ j ˆσ fra lineær regresjon. Modellen er OK hvis D og X 2 små i forhold til χ 2 Ñ p der Ñ er antall komb. av nivåer over de kategoriske variablene Krever forventet antall suksesser/fiaskoer i hver gruppe > 5 Forelesning 6 STK3100/4100 p. 37/43 Forelesning 6 STK3100/4100 p. 39/43 Goodness of fit-tester for binomiske data Hvis Y i Bin(n i,π i ) og (a) n i π i > 5 og (b) n i (1 π i ) > 5 for i = 1,...,N er tilnærmet Residual devians Pearson kjikvadrat = 2( l ˆl) χ 2 N p X 2 = n (Y i n iˆπ i ) 2 i=1 n iˆπ i (1 ˆπ i ) χ2 N p der l er log-likelihood i mettet modell, ˆl log-likelihood for den tilpassede modellen med p parametre og ˆπ i estimerte sannsynligheter in denne modellen. Hvis D og X 2 er vesentlig større enn N p tyder det på at modellen passer dårlig. Ofte er imidlertid Y i -ene binære og betingelsen (a) og (b) er da ikke oppfylt. Forelesning 6 STK3100/4100 p. 38/43 Eks. Aggregering: Wilm s tumor > unfavaggr<-c(rep(0,4),rep(1,4)) > stgaggr<-rep(1:4,2) > naggr<-numeric(0) > for (i in 1:8) naggr[i]<-sum(unfav==unfavaggr[i]&stg==stgaggr[i]) > daggr<-numeric(0) > for (i in 1:8) daggr[i]<-sum(d[unfav==unfavaggr[i]&stg==stgaggr[i]]) > glmfit<-glm(cbind(daggr,naggr-daggr) unfavaggr+factor(stgaggr), family=binomial) > glmfit (Intercept) unfavaggr factor(stgaggr)2 factor(stgaggr)3 factor(stgaggr)4-3.2416 1.9928 0.6958 1.0305 1.7936 Degrees of Freedom: 7 Total (i.e. Null); 3 Residual Null Deviance: 413.4 Residual Deviance: 3.33 AIC: 56.85 > X2<-sum(residuals(glmfit,type="pearson")ˆ2) > X2 [1] 3.259168 Forelesning 6 STK3100/4100 p. 40/43

Eks. Aggregering: Wilm s tumor Siden residual devians D = 3.33 X 2 = 3.26 = Pearson kjikvadrat er lite sammenlignet med residualt antall frihetsgrader df = 3 virker modellen OK. Men er forventet antall suksesser og "fiaskoer" > 5? Ja, beregner disse: > round(naggr*glmfit$fit,2) 1 2 3 4 5 6 7 8 53.81 63.55 75.95 76.70 25.19 43.45 61.05 44.30 > round(naggr*(1-glmfit$fit),2) 1 2 3 4 5 6 7 8 1376.19 810.45 693.05 326.30 87.81 75.55 75.95 25.70 Forelesning 6 STK3100/4100 p. 41/43 Eks. X 2 hl : Wilm s tumor > glmfit<-glm(d unfav+factor(stg)+yr.regis+age,family=binomial) > kuttoff<-sort(glmfit$fit)[c(round(length(d)*(1:10)/10))] > gr<-rep(1,length(d)) > for (i in 1:9) gr<-gr+(glmfit$fit>kuttoff[i]) > table(gr) 1 2 3 4 5 6 7 8 9 10 392 392 391 392 392 390 391 392 392 391 > ngr<-as.numeric(table(gr)) > ngr [1] 392 392 391 392 392 390 391 392 392 391 > dgr<-numeric(0) > for (i in 1:10) dgr[i]<-sum(d[gr==i]) > dgr [1] 10 14 16 26 20 28 36 48 79 167 > for (i in 1:10) pigr[i]<-mean(glmfit$fit[gr==i]) > round(pigr,3) [1] 0.024 0.032 0.040 0.049 0.061 0.076 0.095 0.128 0.202 0.427 > X2HL<-sum((dgr-ngr*pigr)ˆ2/(ngr*pigr*(1-pigr))) > X2HL [1] 3.482061 > 1-pchisq(X2HL,8) [1] 0.9005774 Forelesning 6 STK3100/4100 p. 43/43 Hosmer-Lemeshow test Hvis mange kategoriske variable eller skala-kovariater vil ikke aggregering hjelpe. Kan istedet bruke Hosmer-Lemeshow test: Gjør glm-tilpasning Ordner individene etter tilpassede sannsynligheter ˆπ (1) ˆπ (2) ˆπ (n) Lager 10 like store grupper etter ordningen Beregner π gr = gj.sn. av ˆπ (i) i gruppe gr = 1, 2,..., 10 Beregner antall observasjoner n gr og antall suksesser Y gr i gruppe gr Beregner Hosmer-Lemeshow Xhl 2 = 10 (Y gr n gr π gr) 2 gr=1 n gr π gr(1 π gr) Hvis modellen er OK has tilnærmet X 2 hl χ2 8, dvs. df = 10 2 = 8 Forelesning 6 STK3100/4100 p. 42/43