Forelesning 6 STK3100/4100

Like dokumenter
Forelesning 6 STK3100/4100

Forelesning 7 STK3100

Forelesning 6 STK3100

Forelesning 8 STK3100

Generaliserte Lineære Modeller

Generaliserte Lineære Modeller

Forelesning 10 STK3100

Introduksjon til Generaliserte Lineære Modeller (GLM)

Introduksjon til Generaliserte Lineære Modeller (GLM) og blandede modeller

Prøveeksamen i STK3100/4100 høsten 2011.

Introduksjon til Generaliserte Lineære Modeller (GLM)

Forelesning 7 STK3100/4100

Forelesning 5 STK3100/4100

Forelesning 7 STK3100

UNIVERSITETET I OSLO

Forelesning 7 STK3100/4100

Forelesning 11 STK3100/4100

Forelesning 9 STK3100

STK juni 2016

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

UNIVERSITETET I OSLO

Forelesning 3 STK3100

Eksponensielle klasser

Forelesning 8 STK3100/4100

Tilleggsoppgaver for STK1110 Høst 2015

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Forelesning 9 STK3100

Forelesning STK september 2011

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Eksponensielle klasser og GLM

Logistisk regresjon 1

EKSAMENSOPPGAVE. B154 «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark (4 sider) med egne notater. Godkjent kalkulator.

7. november 2011 Geir Storvik

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Medisinsk statistikk Del I høsten 2009:

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Forelesning 6 STK3100

Forelesning 9 STK3100/4100

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

Forelesning 11 STK3100/4100

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

UNIVERSITETET I OSLO

Løsningsforslag til andre sett med obligatoriske oppgaver i STK1110 høsten 2010

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLAR

Forelesning 9 STK3100/4100

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

j=1 (Y ij Ȳ ) 2 kan skrives som SST = i=1 (J i 1) frihetsgrader.

UNIVERSITETET I OSLO

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMENSOPPGAVER STAT100 Vår 2011

Eksamensoppgave i TMA4267 Lineære statistiske modeller

EKSAMENSOPPGAVE STA-2004.

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

DEL 1 GRUNNLEGGENDE STATISTIKK

TMA4240 Statistikk H2015

Generelle lineære modeller i praksis

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Bioberegninger, ST1301 Onsdag 1. juni 2005 Løsningsforslag

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Formelsamling i medisinsk statistikk

Tillatte hjelpemidler: C3: alle typer kalkulator, alle andre hjelpemidler

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Løsningsforsalg til andre sett med obligatoriske oppgaver i STK1110 høsten 2015

Logistisk regresjon 2

Introduksjon Lineære blanda modellar Generaliserte lineære blanda modellar Analyser av modellar Eit randproblem Oppsummering. Blanda modellar i R

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Oppsummering av STK2120. Geir Storvik

UNIVERSITETET I OSLO

Forelesning 5 STK3100

vekt. vol bruk

Prøveeksamen STK2100 (fasit) - vår 2018

ÅMA110 Sannsylighetsregning og statistikk Løsningsforslag til eksamen høst 2010, s. 1. Oppgave 1. Histogram over frekvenser.

Kapittel 6 - modell seleksjon og regularisering

Fra boka: 10.32, 10.33, 10.34, 10.35, 10.3 og (alle er basert på samme datasett).

Ekstraoppgaver STK3100 h10

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

TMA4240 Statistikk Eksamen desember 2015

Inferens. STK Repetisjon av relevant stoff fra STK1100. Eksempler. Punktestimering - "Fornuftig verdi"

UNIVERSITETET I OSLO

Eksamensoppgave i ST2304 Statistisk modellering for biologer og bioteknologer

Eksamensoppgave i ST1201/ST6201 Statistiske metoder

ST0202 Statistikk for samfunnsvitere

Notater i ST2304 H. T. L. 1 Fordelingsfunksjonene i R α-kvantilen... 3

UNIVERSITETET I OSLO

TMA4240 Statistikk Høst 2016

Eksamensoppgåve i TMA4267 Lineære statistiske modellar

FORMELSAMLING TIL STK1100 OG STK1110

HØGSKOLEN I STAVANGER

Eksamen i: STAT100 Statistikk. Tid: Tirsdag (3.5 timer)

Ridge regresjon og lasso notat til STK2120

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

TMA4240 Statistikk Eksamen desember 2015

Transkript:

Forelesning 6 STK3100/4100 p. 1/4 Forelesning 6 STK3100/4100 4. oktober 2012 Presentasjon av S. O. Samuelsen (modifisert av Geir H12) Plan for forelesning: 1. GLM Binære data 2. Link-funksjoner 3. Parameterfortolkning logistisk regresjon 4. Parameterfortolkning andre linkfunksjoner 5. Goodness-of-fit: Hosmer-Lemeshow-test

Forelesning 6 STK3100/4100 p. 2/4 Binomiske responser Anta Y i Bin(n i,π i ) er uavhengige. Da har vi data fra en eksponensiell klasse. f(y,θ i,φ i ) = ( ni y ) π y i (1 π i) n i y i =c(y) exp(yθ i a(θ i )) der θ i = log(π i /(1 π i )),a(θ i ) = n i log(1 + exp(θ i )) mens spredningsleddet φ i = 1 er kjent og c(y) = ( n i y ). Som kjent blir E[Y i ] = a (θ i ) = n i exp(θ i ) 1+exp(θ i ) = n iπ i = µ i og Var[Y i ] = φ i a (θ i ) = n i exp(θ i ) (1+exp(θ i )) 2 = n i π i (1 π i ).

Forelesning 6 STK3100/4100 p. 3/4 Binomiske eller binære responser Anta Y i Bin(n i,π i ) er uavhengige. Kan alltid definere 1 for j = 1,...,Y i Y i,j = 0 for j = Y i + 1,...,n i som gir oss binære data.

Forelesning 6 STK3100/4100 p. 4/4 Binære responser eller grupperte data? Y i Bin(n i,π i ),i = 1,...,k eller Y i Bin(1,π i ),i = 1,...,n = i n i Estimering ekvivalent ved begge representasjoner Testing for sammenlikning av modeller også ekvivalent Goodness-of-fit test (devians) blir forskjellig! χ 2 n q n = k for grupperte data n = k i=1 n i for binære data Krav devians goodness-of-fit test: Y i Bin(n i,π i ) der n i π i > 5 og n i (1 π i ) > 5

Biller > dim(beetle) [1] 8 3 > glm(cbind(dode,ant-dode) Dose,family=binomial,data=beetle) Coefficients: (Intercept) Dose -60.72 34.27 Degrees of Freedom: 7 Total (i.e. Null); Null Deviance: 284.2 Residual Deviance: 11.23 AIC: 41.43 6 Residual > dim(beetle2) [1] 481 2 > glm(dode Dose,family=binomial,data=beetle2) Coefficients: (Intercept) Dose -60.72 34.27 Degrees of Freedom: 480 Total (i.e. Null); Null Deviance: 645.4 Residual Deviance: 372.5 AIC: 376.5 479 Residual Forelesning 6 STK3100/4100 p. 5/4

GLM binære responser Uavhengige binære Y i med suksess-sannsynlighet π i (n i = 1 her) Lineær prediktor η i = β T x i Linkfunksjon g(π i ) = η i Vi har så langt hovedsaklig sett på link-funksjonen som gir π i g(π i ) = log( ) = logit(π i ) 1 π i π i = exp(η i) 1 + exp(η i ) = g 1 (η i ) Spesielt er dette den kanoniske link-funksjonen, i.e. kanonisk parameter θ i = η i Som kjent gir logit-linken logistisk regresjon. Forelesning 6 STK3100/4100 p. 6/4

Forelesning 6 STK3100/4100 p. 7/4 Krav til linkfunksjon for binære responser g() bør være glatt (deriverbar) strengt monoton (voksende) verdier over alle reelle tall g([0, 1]) = R eller ekvivalent g 1 (R) = [0, 1] g 1 (η) kumulativ fordelingsfunksjon for kontinuerlig fordeling på R Logit-linken tilfredstiller disse kravene. Spesielt er g 1 (η) kumulativ i "logistisk fordeling" der tettheten er exp(η) (1 + exp(η)) 2

Kumulativ og tetthet i "standard" logistisk fordeling Kumulativ logistisk fordeling Tetthet logistisk fordeling F(x) 0.0 0.2 0.4 0.6 0.8 1.0 f(x) 0.0 0.05 0.10 0.15 0.20 0.25-6 -4-2 0 2 4 6-6 -4-2 0 2 4 6 x Tettheten er symmetrisk om x = 0, så forventningen er lik 0. Dessuten kan det vises at variansen i standard-logistisk x x 2 exp(x) (1 + exp(x)) 2dx = π2 3 = 1.8137992 Forelesning 6 STK3100/4100 p. 8/4

Forelesning 6 STK3100/4100 p. 9/4 Probit-link: Invers av kumulativ for standard-normal Siden kravet til en link-funksjon er at den er invers av en kumulativ er en naturlig kandiat til link: g(η) = Φ 1 (η) der Φ(y) = y 1 2π exp( 1 2 x2 )dx. Siden tettheten i standardnormalfordelingen er symmetrisk om y = 0 får vi ofte resultater tilsvarende logist regresjon med probit link (probit analyse). Imidlertid Normalfordelingen har lettere haler enn logistisk fordeling, kan ha situasjoner der probit passer bedre

Forelesning 6 STK3100/4100 p. 10/4 Kumulativ og tetthet for logit og probit Kumulative fordelingsfunksjoner Tettheter F(x) 0.0 0.2 0.4 0.6 0.8 1.0 logistisk probit (skalert) f(x) 0.0 0.05 0.10 0.15 0.20 0.25-6 -4-2 0 2 4 6 x -6-4 -2 0 2 4 6 x

Forelesning 6 STK3100/4100 p. 11/4 Sammenlikning estimater E[Y i ] =g 1 (η i ) g 1 (0) + (g 1 ) (0)η i 0.5 + 0.25ηi l logit = 0.5 + φ(0)η p i probit Dvs for η i 0, ηi l η p φ(0)/0.25 = (8/π) 1.6 eller β l j 1.6 β p j

R-utskrift Biller: Logit vs. Probit > logfit<-glm(cbind(dode,ant-dode) Dose,binomial(link=logit),beetle > profit<-glm(cbind(dode,ant-dode) Dose,binomial(link=probit),beetl > logfit Coefficients: (Intercept) Dose -60.72 34.27 Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 11.23 AIC: 41.43 > profit Coefficients: (Intercept) Dose -34.94 19.73 Degrees of Freedom: 7 Total (i.e. Null); 6 Residual Null Deviance: 284.2 Residual Deviance: 10.12 AIC: 40.32 > logfit$coef/profit$coef (Intercept) Dose 1.737999 1.737147 Forelesning 6 STK3100/4100 p. 12/4

Forelesning 6 STK3100/4100 p. 13/4 Akaike informasjonskriterium (AIC) defineres generelt ved AIC = 2ˆl + 2q der q = antall parametre i modellen og ˆl maksimum log-likelihood under modellen. Akaike-kriteriet benyttes ved å velge den modellen med minst AIC-verdi.

Forelesning 6 STK3100/4100 p. 14/4 R-utskrift Biller: Logit > summary(logfit) Deviance Residuals: Min 1Q Median 3Q Max -1.5941-0.3944 0.8329 1.2592 1.5940 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -60.717 5.181-11.72 <2e-16 *** Dose 34.270 2.912 11.77 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 11.232 on 6 degrees of freedom AIC: 41.43

Forelesning 6 STK3100/4100 p. 15/4 R-utskrift Biller: Probit > summary(profit) Deviance Residuals: Min 1Q Median 3Q Max -1.5714-0.4703 0.7501 1.0632 1.3449 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -34.935 2.648-13.19 <2e-16 *** Dose 19.728 1.487 13.27 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 10.120 on 6 degrees of freedom AIC: 40.318 Number of Fisher Scoring iterations: 4

clog-log-link basert på Gumbel-fordelingen Linken η i = g(π i ) = log( log(1 π i )) kalles den "komplementære log-log-linken" Dens inverse er gitt ved π i = 1 exp( exp(η i )) = F(η i ) som er kumulativ for (den standardiserte) Gumbelfordelingen. Egenskaper: ikke er symmetrisk veldig lette haler mot + haler som logistisk fordeling mot forventning er - Eulers s konstant 0.58 varians π 2 /6 0.41 2 Forelesning 6 STK3100/4100 p. 16/4

Forelesning 6 STK3100/4100 p. 17/4 Kumulativ og tetthet Gumbelfordeling Kumulative fordelingsfunksjon Gumbel Tetthet Gumbel F(x) 0.0 0.2 0.4 0.6 0.8 1.0 f(x) 0.0 0.1 0.2 0.3-4 -2 0 2 4 x -4-2 0 2 4 x

Forelesning 6 STK3100/4100 p. 18/4 R-utskrift Biller: Clog-log > clogfit<-glm(cbind(dode,ant-dode) Dose,binomial(link=cloglog),bee > summary(clogfit) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -39.572 3.240-12.21 <2e-16 *** Dose 22.041 1.799 12.25 <2e-16 *** Null deviance: 284.2024 on 7 degrees of freedom Residual deviance: 3.4464 on 6 degrees of freedom AIC: 33.644 Number of Fisher Scoring iterations: 4 > logfit$coef/clogfit$coef (Intercept) Dose 1.534342 1.554832

Forelesning 6 STK3100/4100 p. 19/4 Sammenlikning med AIC > AIC(logfit,profit,clogfit) df AIC logfit 2 41.43027 profit 2 40.31780 clogfit 2 33.64448 cloglog-link gir best tilpasning.

Tilpassede sannsynligheter for billedata med logistisk regresjon og cloglog-link: andel dode biller 0.0 0.2 0.4 0.6 0.8 1.0 logistisk cloglog 1.70 1.75 1.80 1.85 dose (log_10) Cloglog-linken treffer observerte andeler bedre enn logistisk regr., svarer til residual-devians på 3.45 for cloglog og 11.23 for logistisk regresjon. Forelesning 6 STK3100/4100 p. 20/4

Forelesning 6 STK3100/4100 p. 21/4 2. ordens ledd > form = cbind(dode,ant-dode) Dose+I(Doseˆ2) > logfit2<-glm(form,binomial(link=logit),beetle) > profit2<-glm(form,binomial(link=probit),beetle) > clogfit2<-glm(form,binomial(link=cloglog),beetle) > AIC(clogfit,logfit2,profit2,caufit2,clogfit2) df AIC clogfit 2 33.64448 logfit2 3 35.39294 profit2 3 35.29647 clogfit2 3 35.60866

Tilpassede sannsynligheter for billedata også med logistisk regresjon og 2. gradsledd i Dose andel dode biller 0.0 0.2 0.4 0.6 0.8 1.0 logistisk cloglog logistisk, 2. gradsledd 1.70 1.75 1.80 1.85 dose (log_10) 2. gradsledd ga en devians på 3.19 sammenlignet med 3.44 for cloglog-linken. AIC-verdier ble 35.93 med 2. gradsledd og 33.64 for cloglog. Forelesning 6 STK3100/4100 p. 22/4

Forelesning 6 STK3100/4100 p. 23/4 GLM Binomiske / binære responser Y i Bin(n i,π i ) der linkfunskjonen g(π i ) = η i = β T x i er invers av kontinuerlig kumulativ fordelingsfunksjon på R. Følgende linkfunksjoner er implementert i R: Logistisk regresjon: g(π i ) = log(π i /(1 π i )) ekvivalent med g 1 (η i ) = exp(η i) 1+exp(η i ) Probit-analyse: g(π i ) = Φ 1 (π i ) clog-log-link g(π i ) = log( log(1 π i )) ekvivalent med π i = 1 exp( exp(η i )) "Cauchit-analyse" g(π i ) = tan(π(π i 0.5)) log-link g(π i ) = log(π i ) (ikke invers av kumulativ over R)

Forelesning 6 STK3100/4100 p. 24/4 Parameterfortolkning logistisk regresjon Vi definerer odds for begivenhet ved: π = Odds 1 π For logistisk regresjon blir oddsen, med η = β T x, Odds = exp(η) 1+exp(η) 1 exp(η) 1+exp(η) = exp(η) 1+exp(η) 1 1+exp(η) = exp(η) dvs η = log Odds

Forelesning 6 STK3100/4100 p. 25/4 Parameterfortolkning logistisk regresjon: Odds-ratio La x k = x k,k j,x j = x j + 1, dvs x x = (0,...,0, 1, 0,...,0), Forholdet mellom oddsene med kovariater x og x, kalt odds-ratioen, (med π = e η /(1 + e η ) og η = β T x ) OR j = π 1 π π 1 π = exp(β j ) = Odds Odds = exp(η η) = exp(β T (x x)) eller omvendt β j = log(or j ), dvs. regresjonsparametrene fortolkes som log-odds-ratioer eller relativ endring i odds (på log skala)

Forelesning 6 STK3100/4100 p. 26/4 Odds-ratio Relativ Risk når sannsynlighetene er små En "relativ risk" er definert som forholdet mellom to sannsynligheter, f.eks. RR = π π Spesielt når både π og π er små blir 1 π 1 og 1 π 1. Dermed får vi OR = π π 1 π 1 π π π = RR Dvs for små sannsynligheter måler exp(β j ) (tilnærmet) relativ endring i sannsynlighet når x j øker med en enhet.

Forelesning 6 STK3100/4100 p. 27/4 Tilnærmelsen OR RR Relativ risk Odds-ratio π 0.01 0.05 0.10 0.20 0.01 0.05 0.10 0.20 π = 0.01 1 0.2 0.1 0.05 1.00 0.19 0.09 0.04 π = 0.05 5 1.0 0.5 0.25 5.21 1.00 0.47 0.21 π = 0.10 10 2.0 1.0 0.50 11.00 2.11 1.00 0.44 π = 0.20 20 4.0 2.0 1.00 24.75 4.75 2.25 1.00 π = 0.30 30 6.0 3.0 1.50 42.43 8.14 3.86 1.71 π = 0.40 40 8.0 4.0 2.00 66.00 12.67 6.00 2.67 π = 0.50 50 10.0 5.0 2.50 99.00 19.00 9.00 4.00

Forelesning 6 STK3100/4100 p. 28/4 Sannsynlighetene er nær 0.5 Anta π = 0.5 + δ og π = 0.5 δ. Da blir 1 π = 0.5 δ = π og 1 π = 0.5 + δ = π slik at OR = π π 1 π 1 π = ( ) π 2 = RR 2 π dvs. ikke tilnærmelse mellom størrelsene og OR avviker vesentlig mer fra 1 enn RR

Forelesning 6 STK3100/4100 p. 29/4 Uttrykket odds: Spill I ett pengespill satser man en innsats 1 og får deretter utbetalt U = G 0 + 1 hvis man vinner. Hvis man taper får man ikke innsatsen tilbake. Gevinsten etter å ha spilt er derfor 1 hvis en taper spillet G = hvis en vinner spillet G 0 Vi antar at sannsynlighet for å tape er π. Hvis spillet er rettferdig er 0 = E[G] = G 0 (1 π) 1 π, dvs. G 0 = π 1 π = Odds for å tape

Forelesning 6 STK3100/4100 p. 30/4 Parameter-fortolkning med clog-log-link π =1 exp( exp(β T x)) eller η =β T x = log( log(1 π)) For π liten er log(1 π) π (Taylor) som gir η log(π) π exp(η) og dermed RR j = π π exp(β j)

Forelesning 6 STK3100/4100 p. 31/4 Eksempel: Studie av dødelighet med Wilm s tumor 444 døde, 3471 overlevende > glm(d unfav+factor(stg),family=binomial(link=logit), data=nwts)$coef (Intercept) unfav factor(stg)2 factor(stg)3 factor(stg)4-3.2415851 1.9927784 0.6957588 1.0305140 1.7935930 > glm(d unfav+factor(stg),family=binomial(link=cloglog), data=nwts)$coef (Intercept) unfav factor(stg)2 factor(stg)3 factor(stg)4-3.2240445 1.7404373 0.6591325 0.9664677 1.6147868

Fortolkning av parametre med probitanalyse Noen ganger har vi kontinuerlige responser, Y i0 N(β T x i,σ 2 ) (f.eks. normalfordelt), men velger å studere 1 hvis Y i0 < γ = terskelverdi Y i = 0 hvis ikke Eks. Y i0 = fødselsvekt Y i = 1 hvis Y i0 < 2500 gram 0 hvis ikke Eks. Psykometriske målinger, Y i0 = score på depresjonsskala 1 hvis Y i0 > terskelverdi Y i = 0 hvis ikke Forelesning 6 STK3100/4100 p. 32/4

Forelesning 6 STK3100/4100 p. 33/4 Underliggende skala 1 hvis Y i0 < γ = terskelverdi Y i = 0 hvis ikke tetthet 0.0 0.1 0.2 0.3 0.4 Y0

Forelesning 6 STK3100/4100 p. 34/4 Probit, forts. Hvorfor binære respons? Tradisjon for tabellanalyse Direkte score Y i0 kan være svært skjevfordelt Direkte score er kanskje ikke registert, bare noe vi forestiller oss ("latent" variabel) Vi finner sammenhengen mellom Y i0 N(β T x i,σ 2 ) Y i = I(Y i0 γ) ved π i = P(Y i = 1) = P(Y i0 γ) = Φ( γ σ (β σ ) x i )

Forelesning 6 STK3100/4100 p. 35/4 Sammenheng parametre i probit og underliggende skala Forventning for E[Y i0 ] = β T x i = β 0 + β 1 x i1 + + β p x ip svarer altså til probitmodell der α 0 = γ β 0 σ Φ 1 (π i ) = α 0 + α 1 x i1 + + α p x ip α j = β j for j = 1,...,p σ Merk: Standardavviket σ for den underliggende skalaen er ikke mulig å identifisere.

Forelesning 6 STK3100/4100 p. 36/4 Eksempel: Fødselsvekt og svangerskapsvarighet > summary(lm(vekt svlengde+sex)) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1447.24 784.26-1.845 0.0791. svlengde 120.89 20.46 5.908 7.28e-06 *** sex -163.04 72.81-2.239 0.0361 * --- Residual standard error: 177.1 on 21 degrees of freedom Multiple R-Squared: 0.64, Adjusted R-squared: 0.6057 F-statistic: 18.67 on 2 and 21 DF, p-value: 2.194e-05 Vi får altså estimert ˆσ = 177.1.

Forelesning 6 STK3100/4100 p. 37/4 Eksempel: Fødselsvekt og svangerskapsvarighet, forts. > lavvekt<-1*(vekt<2800) > table(lavvekt) 0 1 17 7 > > glm(lavvekt svlengde+sex,family=binomial(link=probit))$coef (Intercept) svlengde sex 24.1550285-0.6801164 0.7522067 > -lm(vekt svlengde+sex)$coef/177.1 (Intercept) svlengde sex 8.1718986-0.6826331 0.9206059 Definerer Y i = 1 hvis fødselsvekten er mindre enn 2800 gram. Får probit-estimater ˆα j ˆβ j ˆσ fra lineær regresjon.

Forelesning 6 STK3100/4100 p. 38/4 Goodness of fit-tester for binomiske data Hvis Y i Bin(n i,π i ) og (a) n i π i > 5 og (b) n i (1 π i ) > 5 for i = 1,...,N er tilnærmet Residual devians Pearson kjikvadrat = 2( l ˆl) χ 2 N p X 2 = n i=1 (Y i n iˆπ i ) 2 n iˆπ i (1 ˆπ i ) χ2 N p der l er log-likelihood i mettet modell, ˆl log-likelihood for den tilpassede modellen med p parametre og ˆπ i estimerte sannsynligheter i denne modellen. Hvis D og X 2 er vesentlig større enn N p tyder det på at modellen passer dårlig. Ofte er imidlertid Y i -ene binære og betingelsen (a) og (b) er da ikke oppfylt.

Forelesning 6 STK3100/4100 p. 39/4 To strategier for goodness-of fit med binære data Med kategoriske kovariater: Aggreger til binomiske data Hosmer-Lemeshow test Aggregering består i å Tell opp antall individer etter alle nivåer av de kategoriske variablene Tell opp antall Y i = 1 etter alle nivåer av de kategoriske variablene Gjør glm-tilpasning på aggregerte data Modellen er OK hvis D og X 2 små i forhold til χ 2 der Ñ p Ñ er antall komb. av nivåer over de kategoriske variablene Krever forventet antall suksesser/fiaskoer i hver gruppe > 5

Eks. Aggregering: Wilm s tumor > table(nwts$unfav) 0 1 3476 439 > table(nwts$stg) 1 2 3 4 1543 993 906 473 > nwts2 = aggregate(nwts$d,by=list(nwts$unfav,nwts$stg),fun=table) Group.1 Group.2 x.0 x.1 1 0 1 1371 59 2 1 1 93 20 3 0 2 809 65 4 1 2 77 42 5 0 3 697 72 6 1 3 72 65 7 0 4 329 74 8 1 4 23 47 > nwts2 = data.frame(unfav=nwts2$group.1,stg=nwts2$group.2, n=nwts2$x[,1]+nwts2$x[,2],d=nwts2$x[,2]) Forelesning 6 STK3100/4100 p. 40/4

Forelesning 6 STK3100/4100 p. 41/4 Eks. Aggregering: Wilm s tumor > glmfit = glm(cbind(d,n-d) as.factor(unfav)+as.factor(stg),data=nw > glmfit (Intercept) unfavaggr factor(stgaggr)2 factor(stgaggr)3 factor(stga -3.2416 1.9928 0.6958 1.0305 1 Degrees of Freedom: 7 Total (i.e. Null); 3 Residual Null Deviance: 413.4 Residual Deviance: 3.33 AIC: 56.85 > X2<-sum(residuals(glmfit,type="pearson")ˆ2) > X2 [1] 3.259168

Forelesning 6 STK3100/4100 p. 42/4 Eks. Aggregering: Wilm s tumor Siden residual devians D = 3.33 X 2 = 3.26 = Pearson kjikvadrat er lite sammenlignet med residualt antall frihetsgrader df = 3 virker modellen OK. Men er forventet antall suksesser og "fiaskoer" > 5? Ja, beregner disse: > round((nwts2$n*glmfit$fit,2) 1 2 3 4 5 6 7 8 53.81 63.55 75.95 76.70 25.19 43.45 61.05 44.30 > round((nwts2$n*(1-glmfit$fit),2) 1 2 3 4 5 6 7 8 1376.19 810.45 693.05 326.30 87.81 75.55 75.95 25.70

Hosmer-Lemeshow test Hvis mange kategoriske variable eller skala-kovariater vil ikke aggregering hjelpe. Kan istedet bruke Hosmer-Lemeshow test: Gjør glm-tilpasning Ordner individene etter tilpassede sannsynligheter ˆπ (1) ˆπ (2) ˆπ (n) Lager 10 like store grupper etter ordningen Beregner π gr = gj.sn. av ˆπ (i) i gruppe gr = 1, 2,...,10 Beregner antall observasjoner n gr og antall suksesser Y gr i gruppe gr Beregner Hosmer-Lemeshow X 2 hl = 10 gr=1 (Y gr n gr π gr ) 2 n gr π gr (1 π gr ) Hvis modellen er OK has tilnærmet X 2 hl χ2 8, dvs. df = 10 2 = 8 Forelesning 6 STK3100/4100 p. 43/4

Forelesning 6 STK3100/4100 p. 44/4 Eks. Xhl 2 : Wilm s tumor > glmfit<-glm(d unfav+factor(stg)+yr.regis+age, data=nwts,family=binomial) > library(mkmisc) > HLgof.test(glmfit$fit,nwts$d) $C Hosmer-Lemeshow C statistic data: glmfit$fit and nwts$d X-squared = 3.4823, df = 8, p-value = 0.9006 $H Hosmer-Lemeshow H statistic data: glmfit$fit and nwts$d X-squared = 6.6996, df = 8, p-value = 0.5694

Eks. X 2 hl : Wilm s tumor > glmfit<-glm(d unfav+factor(stg)+yr.regis+age,family=binomial) > kuttoff<-sort(glmfit$fit)[c(round(length(d)*(1:10)/10))] > gr<-rep(1,length(d)) > for (i in 1:9) gr<-gr+(glmfit$fit>kuttoff[i]) > table(gr) 1 2 3 4 5 6 7 8 9 10 392 392 391 392 392 390 391 392 392 391 > ngr<-as.numeric(table(gr)) > ngr [1] 392 392 391 392 392 390 391 392 392 391 > dgr<-numeric(0) > for (i in 1:10) dgr[i]<-sum(d[gr==i]) > dgr [1] 10 14 16 26 20 28 36 48 79 167 > for (i in 1:10) pigr[i]<-mean(glmfit$fit[gr==i]) > round(pigr,3) [1] 0.024 0.032 0.040 0.049 0.061 0.076 0.095 0.128 0.202 0.427 > X2HL<-sum((dgr-ngr*pigr)ˆ2/(ngr*pigr*(1-pigr))) > X2HL [1] 3.482061 > 1-pchisq(X2HL,8) [1] 0.9005774 Forelesning 6 STK3100/4100 p. 45/4