Forelesning 11. STK november Eksempel: Klinisk forsøk. Fra studiens start ved tid t = 0

Like dokumenter
Forelesning 12. Levetider. STK november Eksempel: Klinisk forsøk. Fra studiens start ved tid

Levetid (varighet av en tilstand)

Lifetime (duration of a state)

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4275 Levetidsanalyse

L12-Dataanalyse. Introduksjon. Nelson Aalen plott. Page 76 of Introduksjon til dataanalyse. Levetider og sensurerte tider

UNIVERSITETET I OSLO

Generaliserte Lineære Modeller

Forelesning 7 STK3100/4100

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

UNIVERSITETET I OSLO

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

Physical origin of the Gouy phase shift by Simin Feng, Herbert G. Winful Opt. Lett. 26, (2001)

Slope-Intercept Formula

Bioberegninger, ST november 2006 Kl. 913 Hjelpemidler: Alle trykte og skrevne hjelpemidler, lommeregner.

SVM and Complementary Slackness

Forelesning 10 STK3100

Forelesning 6 STK3100/4100

Eksamensoppgave i TMA4275 Levetidsanalyse

i=1 t i +80t 0 i=1 t i = 9816.

Eksponensielle klasser

Forelesning 7 STK3100/4100

Prøveeksamen i STK3100/4100 høsten 2011.

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

Generalization of age-structured models in theory and practice

Forelesning 6 STK3100

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

Checking Assumptions

UNIVERSITETET I OSLO

Generaliserte Lineære Modeller

Tilleggsoppgaver for STK1110 Høst 2015

Eksamensoppgave i TMA4267 Lineære statistiske modeller

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

Databases 1. Extended Relational Algebra

Forelesning 7 STK3100

Logistisk regresjon 2

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

Forelesning 8 STK3100/4100

Generelle lineære modeller i praksis

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

UNIVERSITETET I OSLO

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Forelesning 5 STK3100/4100

Checking Assumptions

7. november 2011 Geir Storvik

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Løsningsforslag STK1110-h11: Andre obligatoriske oppgave.

Forelesning 7 STK3100

(a) For regresjon brukes vanligvis kvadratisk tap: L(y, ŷ) = (y ŷ) 2. Den optimale prediktor basert på input variable x er da Ŷ = E[Y x].

Ekstraoppgaver for STK2120

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

Eksamensoppgave i TMA4267 Lineære statistiske modeller

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Dynamic Programming Longest Common Subsequence. Class 27

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Xxxdag xx. juni 2008 Tid: 09:0013:00

Graphs similar to strongly regular graphs

Emneevaluering GEOV272 V17

EXAMINATION PAPER. Exam in: STA-3300 Applied statistics 2 Date: Wednesday, November 25th 2015 Time: Kl 09:00 13:00 Place: Teorifagb.

Eksamensoppgave i TMA4267 Lineære statistiske modeller

TMA4245 Statistikk Eksamen 9. desember 2013

Neuroscience. Kristiansand

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Forelesning 8 STK3100

STK juni 2016

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO

0:6 0:3 0:1 0:4 0:2 0:4

Introduksjon til Generaliserte Lineære Modeller (GLM)

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Universitetet i Bergen Det matematisk-naturvitenskapelige fakultet Eksamen i emnet Mat131 - Differensiallikningar I Onsdag 25. mai 2016, kl.

EKSAMEN I TMA4255 ANVENDT STATISTIKK

Trigonometric Substitution

Regresjonsmodeller. HEL 8020 Analyse av registerdata i forskning. Tom Wilsgaard

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

EKSAMENSOPPGAVE STA «Tabeller og formler i statistikk» av Kvaløy og Tjelmeland. To A4-ark/ 4 sider med egne notater. Godkjent kalkulator. Rute.

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Eksamen ST2303 Medisinsk statistikk Torsdag 30 november 2006 kl

HØGSKOLEN I NARVIK - SIVILINGENIØRUTDANNINGEN

Forelesning 9 STK3100

UNIVERSITETET I OSLO

Forelesning 3 STK3100

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Moving Objects. We need to move our objects in 3D space.

Fakultet for informasjonsteknologi, Institutt for matematiske fag EKSAMEN I EMNE ST2202 ANVENDT STATISTIKK

UNIVERSITETET I OSLO

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Transkript:

Eksempel: Klinisk forsøk Forelesning 11 Fra studiens start ved tid t = 0 Nye pasienter oppdages og inkluderes i studien Pasientene følges opp til død, STK3100-10. november 2008 S. O. Samuelsen eller til de ikke lenger vil delta i studien eller til studiens avslutning 1. Sensurering 2. Overlevelses- og hazardfunksjon 3. Estimering av overlevelse, Kaplan-Meier 4. Log-rank test for forskjell i overlevelse 5. Proporsjonal hazard modell, Cox-regresjon 6. Parametrisk likelihood, Poissonregresjon Forelesning 11 p. 1/49 Forelesning 11 p. 3/49 Levetider Eller mer generelt: Tid til en hendelse Tid til død Tid til en maskin slutter å virke Tid til sykdom Varighet av ekteskap Varighet av arbeidsforhold Alder ved seksuell debut Typisk problem: Sensurering: Ilive ved oppfølgingstidens utløp Eksempel: Klinisk forsøk, forts. Skjematisk: Død angis ved og sensur ved. Fig. til venstre: kalendertid, Fig. til høyre tid inkl. i studien. Patient 10 9 8 7 6 5 4 3 2 1 Observations 0 5 10 15 Time (months) Patient 3 6 2 8 9 1 10 5 4 7 Observations reorganised 0 5 10 15 Survival times (months) Forelesning 11 p. 2/49 Forelesning 11 p. 4/49

Levetider, formelt T i C i = levetid for individ nr. i = tid til sensur for individ nr. i Observerer ikke T i (eller C i ), men bare Y i = min(t i,c i ) = δ i = I(T i = Y i ) = Sensurert levetid for individ nr. i Indikator for død for individ nr. i Responsene i levetidsanalyse er parene (Y i,δ i ), dvs. kombinasjon av kontinuerlig variabel Y i og binær variabel δ i. For eksponensialfordelingen h(t) = λ, dvs. konstant H(t) = λt S(t) = exp( λt) f(t) = λ exp( λt) f(t) 0.0 0.5 1.0 1.5 2.0 Tetthet 0.0 0.5 1.0 1.5 2.0 2.5 3.0 t S(t) Overlevelsesfunksjon 0.0 0.5 1.0 1.5 2.0 2.5 3.0 t F.eks. regresjon på Y i uten hensyn til δ i gir ikke mening. Trenger egne metode for levetidsdata! H(t) 0 1 2 3 4 5 6 Kumulativ hazard h(t) 0.0 1.0 2.0 3.0 Hazard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0.0 0.5 1.0 1.5 2.0 2.5 3.0 t t Forelesning 11 p. 5/49 Forelesning 11 p. 7/49 Fordelingsfunksjoner for levetid T Tetthet f(t) s.a. P(T [t,t + >) f(t) Overlevelsesfunksjon S(t) = P(T > t) Hazard h(t) s.a. P(T [t,t + > T > t) h(t) Kumulativ hazard H(t) = t 0 h(s)ds Betegner S(t) for "Survival" Fortolkn. hazard: Sanns. for død i lite intervall om t (delt på ) gitt ilive ved t. Har da følgende sammenhenger h(t) = f(t)/s(t) S(t) = exp( H(t)) H(t) = log(s(t)) Weibullfordelingene: h(t,λ,α) = αλ α t α 1 Med α = 1: Eksponensialfordeling, h(t) = konstant Med α > 1: Økende hazard Med α < 1: Avtagende hazard hazard 0 5 10 15 20 25 alpha=2 alpha=-1 alpha=0 0 1 2 3 4 5 tid Kumulativ F(t) = P(T t) = 1 S(t) Forelesning 11 p. 6/49 Forelesning 11 p. 8/49

Weibullfordelingene, forts. For Weibullfordelingen has h(t,λ,α) = αλ α t α 1 H(t) = (λt) α S(t) = exp( (λt) α ) f(t) = αλ α t α 1 exp( (λt) α ) F(t) = 1 exp( (λt) α ) Begrunnelse for Kaplan-Meier: ˆP(Dø ved tid t j I live rett før t j ) = m j /n j ˆP(Overleve ved tid t j I live rett før t j ) = 1 m j /n j Dermed ˆP(overleve t j ) = ˆP(Overleve t j Overleve t j 1 ) ˆP(Overleve t j 1 Overleve t j 2 ) ˆP(Overleve t 1 ) = Ŝ(t) Forelesning 11 p. 9/49 Sier at Kaplan-Meier er ikke-parametrisk fordi vi ikke har antatt at levetidene følger en parametrisk fordeling. Kan bruke Ŝ(t) uansett fordeling for T i. Forelesning 11 p. 11/49 Kaplan-Meier estimator for overlevelsesfunksjon Lar, med indikatorfunksjon I(), t j = tid for hendelse nr. j s.a. t j < t j+1 m j = antall døde ved t j = i δ ii(y i = t j ) n j = antall "under risiko" ved t j = i I(Y i t j ) Estimerer da S(t) ved Kaplan-Meier estimatoren når t k < t < t k+1. Ŝ(t) = t j <t [1 m j n j ] = (1 m 1 n 1 )(1 m 2 n 2 ) (1 m k n k ) Et konstruert datasett: Sensurerte levetider Y i = 2, 3, 5, 6, 7, 8, 8, 10, 12 der * indikerer sensurert verdi δ i = 0. Tid t j Under risk Y j Døde m j m j /Y j 1 m j /Y j Ŝ(t) 0 9 0 0 1 1 1 8 8 2 9 1 9 9 9 1 7 8 7 3 8 1 8 8 9 8 = 7 9 7 5 7 0 0 1 9 1 5 7 5 6 6 1 6 6 9 6 0.648 7 5 0 0 1 0.648 2 1 8 4 2 0.324 4 2 10 2 0 0 1 0.324 12 1 1 1 0 0 Forelesning 11 p. 10/49 Forelesning 11 p. 12/49

R-beregning av Kaplan-Meier > y<-c(2, 3, 5, 6, 7, 8, 8, 10, 12) > d<-c(1, 1, 0, 1, 0, 1, 1, 0, 1) > library(survival) > survtest<-survfit(surv(y,d)) > survtest Call: survfit(formula = Surv(y, d)) n events median 0.95LCL 0.95UCL 9 6 8 6 Inf > names(survtest) [1] "n" "time" "n.risk" "n.event" "surv" "type" [7] "std.err" "upper" "lower" "conf.type" "conf.int" "call" > cbind(survtest$time,survtest$n.risk,survtest$n.event,survtest$surv) [,1] [,2] [,3] [,4] [1,] 2 9 1 0.8888889 [2,] 3 8 1 0.7777778 [3,] 5 7 0 0.7777778 [4,] 6 6 1 0.6481481 [5,] 7 5 0 0.6481481 [6,] 8 4 2 0.3240741 [7,] 10 2 0 0.3240741 [8,] 12 1 1 0.0000000 Forelesning 11 p. 13/49 Eksempel: 205 danske melanomapasienter T = Tid til død av melanoma (årsaksspesikt) C = Tid til slutt på oppfølging eller død av annen årsak S(t)=P(T>t) 0 5 10 15 tid (aar) > survfit(surv(time,dead)) Call: survfit(formula = Surv(time, status == 1)) n events median 0.95LCL 0.95UCL 205 57 Inf Inf Inf Forelesning 11 p. 15/49 R-plott av Kaplan-Meier > plot(survfit(surv(y,d))) Kumulativ hazard: Nelson-Aalen estimatoren Estimering av kumulativ hazard: Nelson-Aalen estimatoren Ĥ(t) = t j <t m j n j Kan på denne bakgrunn alternativt estimere S(t) ved exp( Ĥ(t)), evt. H(t) ved log(ŝ(t)). Estimering av hazard h(t) og tetthet f(t): Mulig, men vanskeligere 0 2 4 6 8 10 12 Forelesning 11 p. 14/49 Forelesning 11 p. 16/49

Variansestimering for Ŝ(t) og Ĥ(t): Var(Ĥ(t)) = t j <t m j n 2 j Var(Ŝ(t)) = Ŝ(t)2 t j <t m j n j (n j m j Ŝ(t)2 Var(Ĥ(t)) ) Grafisk sml. i R y<-c(2,3,4,7,10,22,28,29,32,37,40,41,54,61,63,71,127,140,146,158, 167,182,2,6,12,54,56,68,89,96,96,125,128,131,140,141,143,145, 146,148,162,168,173,181) d<-c(rep(1,16),rep(0,6),c(1,1,1,1,0,1,1,1,1,0,0,0,0,0,1,0,1,0,0,1,0,0)) gr<-c(rep(1,22),rep(2,22)) plot(survfit(surv(y,d) gr),lty=1:2,xlab="time (months)",ylab="survival") legend(1,0.2,c("kontroll","behandling"),lty=1:2,bty="n") når få dødsfall m j ved hvert tidspunkt. 95% Konfidensintervall for S(t): Ŝ(t) ± 1.96 Var(Ŝ(t)) Survival Kontroll Behandling 0 50 100 150 Forelesning 11 p. 17/49 Time (months) Forelesning 11 p. 19/49 Sammenligning av to grupper Eksempel: Er overlevelse bedre med ny terapi? (Y i1,δ i1 );i = 1,...,n 1 Overlevelsesdata med trad. terapi (Y i2,δ i2 );i = 1,...,n 2 Overlevelsesdata med ny terapi Ŝ k (t) = Kaplan-Meier estimator i gruppe k,k = 1, 2 Sammenligner Grafisk: Plott Ŝ1(t) og Ŝ2(t) Hypotesetest: Logrank-test Forelesning 11 p. 18/49 Log-rank test O 1 O 2 E k = Antall døde i kontrollgruppa = Antall døde i behandlingsgruppa = "Forv." ant. døde gruppe k under H 0 :Samme dødelighet = j n kj m 1j+m 2j n 1j +n 2j der n kj = "antall under risk" og m kj antall døde i ved tid t j i gruppe k. Tester hypotesen ved eller ekvivalent Z = O 2 E 2 N(0, 1) under H 0 Var(O2 E 2 ) Z 2 = (O 2 E 2 ) 2 Var(O 2 E 2 ) χ2 1 under H 0 Forelesning 11 p. 20/49

Log-rank test, forts. En konservativ test (for store p-verdier) gis ved X 2 = (O 1 E 1 ) 2 E 1 + (O 2 E 2 ) 2 E 2 χ 2 1 under H 0 survdiff(surv(y,d) gr) Call: survdiff(formula = Surv(y, d) gr) N Observed Expected (O-E)ˆ2/E (O-E)ˆ2/V gr=1 22 16 10.6 2.73 4.66 gr=2 22 11 16.4 1.77 4.66 Chisq= 4.7 on 1 degrees of freedom, p= 0.0309 Eks.: Melanoma, K = 3 grupper av tumortykkelse S(t)=P(T>t) 0 5 10 15 tid (aar) > survdiff(surv(time,dead) grthick) Call: survdiff(formula = Surv(time, status == 1) grthick) N Observed Expected (O-E)ˆ2/E (O-E)ˆ2/V grthick=1 109 13 33.75 12.75 31.36 grthick=2 64 30 16.39 11.30 15.88 grthick=3 32 14 6.86 7.42 8.45 Forelesning 11 p. 21/49 Chisq= 31.6 on 2 degrees of freedom, p= 1.39e-07 Forelesning 11 p. 23/49 Log-rank test: Sammenligning av K > 2 grupper H 0 : Samme dødelighet i alle grupper O j = Antall døde i gruppe j = 1,...,K E j = "Forventet" ant. døde i gruppe j = 1,...,K Testobservator: Z 2 χ 2 K 1 Uttrykk for Z 2 er litt komplisert, men testen kan ofte tilnærmes (konservativ) med X 2 = K (O j E j ) 2 χ 2 K 1 j=1 E j The proportional hazards model: 1. One covariate Hazard rate for subject with one covariate X: h X (t) = h 0 (t) exp(βx) where baseline hazard h 0 (t) is hazard for subject with X = 0. Interpretation: Hazard rate ratio (or loosely Relative Risk), In particular with X binary HR = exp(β(x 1 X 0 )) = h X 1 (t) h X0 (t) HR = exp(β) = h 1(t) h 0 (t) Forelesning 11 p. 22/49 Forelesning 11 p. 24/49

Example: Mortality rates among men and women, Statistics Norway, 2000, smoothed. Binary covariate X indicator of men. Prop. hazard model not valid in age interval 0-100 years Prop. hazard model roughly valid in interval 40-85 years with HR 1.8. log(hazard) log(hazard) -8-6 -4-2 -7-6 -5-4 -3-2 0 20 40 60 80 100 40 50 60 70 80 hazard-ratio hazard-ratio 1 2 3 4 1 2 3 4 0 20 40 60 80 100 40 50 60 70 80 Proportional hazards model: 2. Several covariates Hazard rate for individual with covariate vector X = (X 1,X 2,...,X p ) h X (t) = h 0 (t) exp{β 1 X 1 + β 2 X 2 +... + β p X p } where baseline hazard h 0 (t) is hazard function for individual with all X 1 = X 2 =... = X p = 0. Interpretation: Hazard rate ratio (HR) Another subject with X = (X 1,X 2,...,X p) where X 1 = 1, X 1 = 0 and X j = X j otherwise: HR 1 = exp{β 1 } = h X (t) h X (t) Forelesning 11 p. 25/49 Forelesning 11 p. 27/49 Example 1: Melanomadata T = time to death from melanoma hazard h X (t) = h 0 (t) exp(βx) X = indicator of ulceration, HR = h 1(t) h 0 = exp(β) = hazard ratio between those with and (t) without ulceration. X 1 = tumor thickness (mm) subject 1, X 2 = thickness (mm) subject 2= X 1 + 1 mm, HR = exp(β) = rate ratio w. 1 mm difference. Example 1: Melanomadata h X (t) = h 0 (t) exp(β 1 X 1 + β 2 X 2 + β 3 X 3 + β 4 X 4 ) X 1 = sex (M=1, F=0) X 2 = indicator of ulceration, X 3 = age, X 4 = thickness (mm) X = (X 1, 0,X 3,X 4 ) X = (X 1, 1,X 3,X 4 ) HR = h X(t) h X (t) = exp(β 2) = hazard ratio between those with and without ulceration adjusted for sex, age and thickness. Forelesning 11 p. 26/49 Forelesning 11 p. 28/49

Estimation in the proportional hazards model With baseline hazard h 0 (t) = h 0 (t,θ) parametrically specified by likelihood for censored data. Gompertz: h 0 (t,θ = (γ,λ)) = λγ t Weibull: h 0 (t,θ = (γ,λ)) = λ γ t γ 1 With baseline h 0 (t) = h 0j piecewise constant on (t j 1,t j ] by Poissonregression. With baseline hazard h 0 (t) arbitrary function by Cox-regression. Cox Regression: Death at t i. Let L i (β) = P(Subject i died at t i i R(t i ), death at t i ) = = = P h i (t i ) k R(t i ) h k(t i ) P exp(βx i )h 0 (t i ) k R(t i ) exp(βx k)h 0 (t i ) P exp(βx i ) k R(t i ) exp(βx k) where h i (t) = h 0 (t) exp(βx i ) = hazard of subject i at t R(t) = subjects under observation at t = riskset at t. Forelesning 11 p. 29/49 Note L i (β) depend on β only, not on the baseline hazard h 0 (t). Forelesning 11 p. 31/49 Comparison of different types of baseline hazards Cox Partial likelihood: Assume subject i died at t i,i = 1,...,d. log(hazard rate) Gompertz log(hazard rate) Weibull Estimate β by maximizing (Cox, 1972) L(β) = d i=1 L i(β) = L 1 (β)l 2 (β)...l d (β) 0 20 40 60 80 100 0 20 40 60 80 100 Note: We may estimate β and HR = exp(β) without saying anything about the baseline h 0 (t). log(hazard rate) Piecewise constant 4 intervals 0 20 40 60 80 100 log(hazard rate) Piecewise constant 20 intervals 0 20 40 60 80 100 The partial likelihood behaves as a usual likelihood. In particular standard errors of Cox-estimator ˆβ and confidence intervals for ĤR = exp(ˆβ) are produced "automatically". Forelesning 11 p. 30/49 Forelesning 11 p. 32/49

Example 1: Melanomadata R-kode og utskrift: survival Women Men Sex 0 1000 2000 3000 4000 5000 time (days) survival Yes No Ulceration 0 1000 2000 3000 4000 5000 time (days) Tumor size > coxph(surv(time,dead) sex+ulcer+age+thickn,data=mel) Call: coxph(formula = Surv(time, dead) sex + ulcer + age + thickn, data = mel) coef exp(coef) se(coef) z p sex 0.4328 1.542 0.2674 1.62 0.11000 ulcer -1.1645 0.312 0.3098-3.76 0.00017 age 0.0122 1.012 0.0083 1.47 0.14000 thickn 0.1089 1.115 0.0377 2.89 0.00390 survival <40 years 40-69 years 70+ years survival 1st Quantile 2nd Quantile 3rd Quantile 4th Quantile Likelihood ratio test=41.6 on 4 df, p=2e-08 n= 205 0 1000 2000 3000 4000 5000 0 1000 2000 3000 4000 5000 time (days) time (days) Forelesning 11 p. 33/49 Forelesning 11 p. 35/49 Example 1: Melanomadata Variable ˆβ se(ˆβ) Z-value p-value tumorsize (mm) 0.11 0.04 2.89 0.004 ulceration 1.16 0.31 3.76 0.0002 sex (F=0,M=1) 0.43 0.27 1.62 0.11 age (years/10) 0.12 0.08 1.47 0.14 Variable ˆ HR = exp(ˆβ) ˆ HR L ˆ HR U tumorsize (mm) 1.12 1.04 1.20 ulceration 3.20 1.75 5.88 sex (F=0,M=1) 1.54 0.91 2.60 age (years/10) 1.13 0.96 1.33 Mer R-kode og utskrift: > summary(coxph(surv(time,dead) sex+ulcer+age+thickn,data=mel)) coxph(formula = Surv(time, dead) sex + ulcer + age + thickn, data = mel) n= 205 coef exp(coef) se(coef) z p sex 0.4328 1.542 0.2674 1.62 0.11000 ulcer -1.1645 0.312 0.3098-3.76 0.00017 age 0.0122 1.012 0.0083 1.47 0.14000 thickn 0.1089 1.115 0.0377 2.89 0.00390 exp(coef) exp(-coef) lower.95 upper.95 sex 1.542 0.649 0.913 2.604 ulcer 0.312 3.204 0.170 0.573 age 1.012 0.988 0.996 1.029 thickn 1.115 0.897 1.036 1.201 Rsquare= 0.184 (max possible= 0.937 ) Likelihood ratio test= 41.6 on 4 df, p=2e-08 Wald test = 39.4 on 4 df, p=5.72e-08 Score (logrank) test = 46.7 on 4 df, p=1.79e-09 Forelesning 11 p. 34/49 Forelesning 11 p. 36/49

Comparison Cox-regression and Log-rank > summary(coxph(surv(time,dead) ulcer,data=mel)) coef exp(coef) se(coef) z p ulcer -1.47 0.23 0.295-4.98 6.3e-07 exp(coef) exp(-coef) lower.95 upper.95 ulcer 0.23 4.36 0.129 0.41 Rsquare= 0.13 (max possible= 0.937 ) Likelihood ratio test= 28.4 on 1 df, p=9.68e-08 Wald test = 24.8 on 1 df, p=6.3e-07 Score (logrank) test = 29.6 on 1 df, p=5.41e-08 > survdiff(surv(time,dead) ulcer,data=mel) N Observed Expected (O-E)ˆ2/E (O-E)ˆ2/V ulcer=1 90 41 21.2 18.5 29.6 ulcer=2 115 16 35.8 10.9 29.6 Chisq= 29.6 on 1 degrees of freedom, p= 5.41e-08 Forelesning 11 p. 37/49 Example: Exponential distribution Hazard: h(t) = λ (constant in time) Survival function S(t) = exp( λt) Likelihood contribution: L i (λ) = λ δ i exp( λy i ) Likelihood L(λ) = n i=1 λδ i exp( λy i ) = λ D exp( λy ) where n D = δ i = Total no. of deaths and i=1 n Y = Y i = Total observation time i=1 The likelihood is maximized for the occurrence / exposure rate ˆλ = D = "Occurrence" Y "Exposure" Forelesning 11 p. 39/49 Likelihood for right-censored data Assume that lifetimes T i stem from a distribution with density f(t;θ), survival function S(t;θ) and hazard h(t;θ). Right-censored obs: Y i = min(c i,t i ) and δ i = I(Y i = T i ). Likelihood L(θ) = n L i (θ) i=1 where the the likelihood contribution L i (θ) is given by Exact observed (δ i = 1) : L i (θ) = f(y i ;θ) = h(y i ;θ)s(y i ;θ) Right censored (δ i = 0) : L i (θ) = P(T i > Y i ) = S(Y i ;θ) Thus we can summarize the likelihood contribution as L i (θ) = h(y i ;θ) δ i S(Y i ;θ) Forelesning 11 p. 38/49 Alternatively with parametrization λ = exp(θ) the likelihood becomes which gives a loglikelihood and a scorefunction which lead to the estimate L(θ) = exp(θd exp(θ)y ) l(θ) = θd exp(θ)y, U(θ) = D exp(θ)y, ˆθ = log( D Y ). Forelesning 11 p. 40/49

Parametrization λ = exp(θ), contd. The information matrix - evaluated at ˆθ becomes J(ˆθ) = Y exp(ˆθ) = D and so the standard error of ˆθ is given as se = 1/ J(ˆθ) = 1/ D and a 95% confidence interval for λ = exp(θ) is given as D Y exp(±1.96/ D ) Connection to Poisson-likelihood: Importance The importance of this result is that likelihood-based inference for right-censored data (Y i,δ i ) with constant hazard rate can be carried out as if the δ i were Poisson-distributed with expectation λy i. With extension to regression data where λ i = exp(β x i ) the model can be fit as a GLM with Poisson family log-link g(µ) = log(µ) offset log(y i ) Forelesning 11 p. 41/49 Forelesning 11 p. 43/49 Connection to Poisson-likelihood: Assume that for some δ i we have δ i Po(Y i λ) If we observe δ i = δ i the likelihood contribution would be L i = (Y iλ) δ i δ i! exp( Y i λ) Returning to the likelihood contribution of our right-censored data (Y i,δ i ) under an exponential distribution (h(t) = λ) we find and so we have L i = λ δ i exp( λy i ) = L i L i L i. δ i! Y δ i i Forelesning 11 p. 42/49 Regression, exponential baseline In the previous argument we could well have different hazard rates λ i for different individuals. In particular with λ i = exp(β 0 + β 1 x i1 + + β p x ip ) which is a proportional hazards model with constant baseline λ 0 = exp(β 0 ) we can fit the model as if δ i Po(Y i λ i ), and our old friend "glm" with the log-link and a linear predictor will fit the data. η i = log(y i ) + β 0 + β 1 x i1 + + β p x ip In R the contribution from log(y i ) enters as an "offset". Forelesning 11 p. 44/49

Example: Melanomadata, Poisson-regression To see how this works we fit a Poisson-regression to the melanoma-data under the assumption of a constant baseline. Poisson-regression, piecewise constant hazard However, the assumption of a constant hazard h 0 (t) = λ 0 may be relaxed to piecewise constant hazard: > glmfit<-glm(dead offset(log(time))+thickn+i(2-ulcer)+ sex+i(age/10),family=poisson) h 0 (t) = h j0 when t j 1 < t t j Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -5.31153 0.60153-8.830 < 2e-16 *** thickn 0.09833 0.03805 2.584 0.00976 ** I(2 - ulcer) 1.16582 0.31124 3.746 0.00018 *** sex 0.40122 0.26770 1.499 0.13393 I(age/10) 0.13605 0.07968 1.708 0.08773. Null deviance: 232.08 on 204 degrees of freedom Residual deviance: 191.00 on 200 degrees of freedom for suitable partition t 0 = 0 < t 1 <... < t J. For interval j, I j = (t j 1,t j ], and for Y i > t j 1 let δ ij = δ i I(t j 1 < Y i t j ) = Indicator for event ini j Y ij = min(y i,t j ) t j 1 = Observation length in I j A proportional hazards model h i (t) = h 0 (t) exp(β x i ) can then be fit with Poisson-regression as if This fit is compared to our previous Cox-regression for the corresponding model. Forelesning 11 p. 45/49 δ ij Po(Y ij h j0 exp(β x i )) Forelesning 11 p. 47/49 Example: Melanomadata, Cox-regression Poisson regression: Aggregated data > coxph(surv(time,dead) thickn+i(2-ulcer)+sex+i(age/10)) coef exp(coef) se(coef) z p thickn 0.109 1.12 0.0377 2.89 0.00390 I(2 - ulcer) 1.164 3.20 0.3098 3.76 0.00017 sex 0.433 1.54 0.2674 1.62 0.11000 I(age/10) 0.122 1.13 0.0830 1.47 0.14000 Likelihood ratio test=41.6 on 4 df, p=2e-08 n= 205 The results are quite similar, we did not gain anything, but did not loose either. However that the Poisson-regression is more restrictive. It requires a constant baseline h 0 (t) = λ 0 whereas Cox-regression allows for arbitrary baseline hazard function h(t). By h 0 (t) = h 0j on I j the argument about constant hazard is taken care of. Again we would not gain compared with a Cox-regression. However Cox-regression is quite computer intensive and has not been possible to carry out on large data sets (until recently). However, the Poisson-regression result can be extended to aggregated data. Assume that the covariate vector x i take on only a small number of values X 1,...X M and let for one of these D j,x = i:x i =X δ ij Y j,x = i:x i =X Y ij Then D j,x is the number of events and Y j,x the total observational time in < t j 1,t j ] with covariate value X. Forelesning 11 p. 46/49 Forelesning 11 p. 48/49

Poisson regression: Aggregated data, contd. The model h i (t) = h 0 (t) exp(β x i ) can then be fitted as thus with Poisson-regression. D j,x Po(Y j,x h j0 exp(β X)) Today we will probably analyze large population survival data with Cox-regression since we then do not need to do the data aggregation There are however still reasons to use Poisson-regression techniques: Additive hazard models (or other link functions) Multiple time scales Time-dependent covariates Forelesning 11 p. 49/49