Betydning av feilspesifisert underliggende hasard for estimering av regresjonskoeffisienter og avhengighet i frailty-modeller



Like dokumenter
Løsningsforslag øving 6, ST1301

Spesialisering: Anvendt makro 5. Modul

av Erik Bédos, Matematisk Institutt, UiO, 25. mai 2007.

Sensorveiledning UNIVERSITETET I OSLO ØKONOMISK INSTITUTT. ECON 1310 Obligatorisk øvelsesoppgave våren 2012

Eksamen i STK4060/STK9060 Tidsrekker, våren 2006

Forelesning 4 og 5 MET3592 Økonometri ved David Kreiberg Vår c) Hva er kritisk verdi for testen dersom vi hadde valgt et signifikansnivå på 10%?

Levetid (varighet av en tilstand)

Forelesning 26. MAT1030 Diskret Matematikk. Trær med rot. Litt repetisjon. Definisjon. Forelesning 26: Trær. Roger Antonsen

MAT1030 Forelesning 26

Et samarbeid mellom kollektivtrafikkforeningen og NHO Transport. Indeksveileder Indeksregulering av busskontrakter. Indeksgruppe

Prising av opsjoner på OBXindeksen

Virkninger av ubalansert produktivitetsvekst («Baumols sykdom»)

Styring av romfartøy STE6122

Levetid og restverdi i samfunnsøkonomisk analyse

Kort om ny reguleringskurvelogikk. Trond Reitan 19/8-2013

2006/2 Notater Håvard Hungnes. Notater. Hvitevarer Modell og prognose. Gruppe for Makroøkonomi

og ledelse av forsyningskjeder Kapittel 4 Del A - Prognoser SCM200 Innføring i Supply Chain Management

Forelesning nr.9 INF 1410

Om muligheten for å predikere norsk inflasjon ved hjelp av ARIMA-modeller

1. Betrakt følgende modell: Y = C + I + G C = c 0 + c(y T ), c 0 > 0, 0 < c < 1 T = t 0 + ty, 0 < t < 1

INF april 2017

Ådne Cappelen, Arvid Raknerud og Marina Rybalka

Beskjeder. MAT1030 Diskret matematikk. Oppsummering. Oppsummering

Øving 1: Bevegelse. Vektorer. Enheter.

Forelesning 25. Trær. Dag Normann april Beskjeder. Oppsummering. Oppsummering

Rundskriv EØ 1/ Om beregning av inntektsrammer og kostnadsnorm i vedtak om inntektsramme for 2010

Skjulte Markov Modeller

YF kapittel 3 Formler Løsninger til oppgavene i læreboka

Pengemengdevekst og inflasjon

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

, og dropper benevninger for enkelhets skyld: ( ) ( ) L = 432L L = L = 1750 m. = 0m/s, og a = 4.00 m/s.

SNF-arbeidsnotat nr. 06/11. Verdsetting av langsiktige infrastrukturprosjekter. Kåre P. Hagen

RAPPORT. Kalkulasjonsrenten 2012/44. Michael Hoel og Steinar Strøm

Boligprisvekst og markedsstruktur i Danmark og Norge

Internasjonale prisimpulser til importerte konsumvarer

Infoskriv ETØ-1/2016 Om beregning av inntektsrammer og kostnadsnorm for 2015

Ukemønsteret i bensinmarkedet

Produksjonsgapet i Norge en sammenlikning av beregningsmetoder

Oppgaveverksted 3, ECON 1310, h14

Alkoholpolitikk. Samfunnsøkonomiske perspektiver på bruk av avgifter og reguleringstiltak, anvendt på Norge. Patrick B Ranheim.

Faktor - en eksamensavis utgitt av ECONnect

~/stat230/teori/bonus08.tex TN. V2008 Introduksjon til bonus og overskudd

Dokumentasjon av en ny relasjon for rammelånsrenten i KVARTS og MODAG

Elgbeiteregistrering i Trysil og omegn 2005

Obligatorisk oppgave ECON 1310 høsten 2014

En sammenligning av økonomiske teorier for regional vekst

Harald Bjørnestad: Variasjonsregning en enkel innføring.

Funksjonslære Derivasjon Matematikk 2

Dato: 15.september Seksjonssjef studier og etter utdanning Arkivnr 375/2008

Bankers utlånspolitikk over konjunkturene

Working Paper 1996:3. Kortere arbeidstid og miljøproblemer - noen regneeksempler for å illustrere mulige kortsiktige og langsiktige sammenhenger

Finansielle metoder for produksjonsplanlegging av vannkraft

Magne Holstad og Finn Erik L. Pettersen Hvordan reagerer strømforbruket i alminnelig forsyning på endringer i spotpris?

Løsning: V = Ed og C = Q/V. Spenningen ved maksimalt elektrisk felt er

Løysingsforslag for oppgåvene veke 17.

Enkle kretser med kapasitans og spole- bruk av datalogging.

Teknologisk utvikling og flytende naturgass Vil kostnadene ved nye LNG anlegg falle ytterligere i fremtiden?

CDO-er: Nye muligheter for å investere i kredittmarkedet

Eksamensoppgave i SØK3001 Økonometri I

Bevegelse i én dimensjon

t [0, t ]. Den er i bevegelse langs en bane. Med origo menes her nullpunktet

Sensorveiledning ECON2200 Våren 2014

Indikatorer for underliggende inflasjon,

Kredittilbudseffekter i boligettespørselen

Ved opp -og utladning av kondensatorer varierer strøm og spenning. Det er vanlig å bruke små bokstaver for å angi øyeblikksverdier av størrelser.

Bør sentralbanken ta mer hensyn til boligprisene?

Humankapitalens rolle for den økonomiske veksten i Norden

Løsningsforslag til regneøving 5. Oppgave 1: a) Tegn tegningen for en eksklusiv eller port ved hjelp av NOG «NAND» porter.

1. Vis hvordan vi finner likevektsløsningen for Y. Hint: Se forelesningsnotat 4 (Økonomisk aktivitet på kort sikt), side 23-24

Effekten av endringer i lakseprisen på aksjekursen til noen utvalgte lakseselskaper på Oslo Børs.

Eksamensoppgave i FIN3006 Anvendt tidsserieøkonometri

Eksamensoppgave i TFY4190 Instrumentering

Infoskriv ETØ-4/2015 Om beregning av inntektsrammer og kostnadsnorm for 2016

Sensorveiledning UNIVERSITETET I OSLO ØKONOMISK INSTITUTT. ECON 1310 Eksamensoppgave høsten 2011

Styringsteknikk. Kraner med karakter. ABUS kransystemer målrettet krankjøring. setter ting i bevegelse. Kransystemer. t t v. max.

SNF-rapport nr. 21/04

Løsningsforslag. Fag 6027 VVS-teknikk. Oppgave 1 (10%) Oppgave 2 (15%)

Eksamensoppgave i FIN3006 Anvendt tidsserieøkonometri

LØSNINGSFORSLAG TIL EKSAMEN I TFY4160 BØLGEFYSIKK Torsdag 9. august 2007 kl

SAMSPILLET MELLOM PENGE- OG FINANSPOLITIKKEN UNDER ET UNDERLIGGENDE INFLASJONSMÅL FOR EN LITEN ÅPEN ØKONOMI 1

Prising av Kraftderivater SIS 1101

Påvirker flytting boligprisene?

Persistens og interaksjonseffekter ved bruk av ulike offentlig finansierte FoU-virkemidler

FYS3220 Oppgaver om Fourieranalyse

3. Beregning av Fourier-rekker.

Løsningsforslag til obligatorisk øvelsesoppgave i ECON 1210 høsten 06

Forelesning 14 REGRESJONSANALYSE II. Regresjonsanalyse. Slik settes modellen opp i SPSS

Fører høy oljepris til økt oljeboring? * Guro Børnes Ringlund, Knut Einar Rosendahl og Terje Skjerpen

Notater. Katharina Henriksen. Justering for kvalitetsendringer av nye personbiler i konsumprisindeksen. En studie basert på hedonisk imputeringsmetode

WORKING PAPER SERIES

Eksamensoppgave i TFY4190 Instrumentering

BNkreditt AS. Årsrapport 2011

Tillatte hjelpemidler: Lærebok og kalkulator i samsvar med fakultetet sine regler

Faktorer bak bankenes problemlån

Eksempel på beregning av satser for tilskudd til driftskostnader etter 4

Realkostnadsvekst i Forsvaret betydningen av innsatsfaktorenes substitusjonsmulighet

Mot3.: Støy i forsterkere med tilbakekobling

Bevegelse i én dimensjon

1 Innledning. 2 Organisering av kontantforsyningen. 3 Behov for å holde lager

Transkript:

Beydning av feilspesifiser underliggende hasard for esimering av regresjonskoeffisiener og avhengighe i fraily-modeller Bjørnar Tumanjan Morensen Maser i fysikk og maemaikk Oppgaven lever: Mai 2007 Hovedveileder: Bo Henry Lindqvis, MATH Biveileder(e): Tron Anders Moger, Biosaisisk insiu, UiO Norges eknisk-naurvienskapelige universie Insiu for maemaiske fag

Oppgaveeks I denne oppgaven skal jeg undersøke beydningen av feilspesifiser underliggende hasard for esimering av regresjonskoeffisiener og avhengighe i fraily-modeller. Dee gjøres ved å simulere daa med en annen underliggende hasard enn den som anas under esimeringen. Oppgaven gi: 15. januar 2007 Hovedveileder: Bo Henry Lindqvis, MATH

Forord Med denne oppgaven har jeg fullfør den femårige maserudanningen indusriell maemaikk ved NTNU. Oppgaven er gjor gjennom vårsemesere 2007 ved biosaisisk insiu, UiO, som har lag forholdene svær god il ree og som jeg har få e mege god innrykk av. Eksern veileder Tron Anders Moger ved biosaisisk insiu har vær mege hjelpsom og engasjer og en sor akk rees derfor il ham. Bjørnar Morensen, Oslo, mai 2007

Sammendrag Med leveidsdaa for e sor anall familier kan man bruke fraily-modeller il å finne risikofakorer og avhengighe innad i familien.en måe å gjøre dee på er å ana en realisisk fordeling for fraily-variabelen og en fordeling for den underliggende hasarden. De er ikke gjor noen sore undersøkelser om beydningen av feilspesifiser underliggende hasard i frailymodeller idligere. Grunnen il dee er a de har vær vanlig å ana en ikke-paramerisk underliggende hasard. Dee er mulig for enkle frailymodeller, men for fraily-modeller med ulik grad av korrelasjon innen en familie blir dee sraks svær vanskelig. Derfor er de ineressan å undersøke beydningen av feilspesifiser underliggende hasard. I hele denne oppgaven anar vi a den underliggende hasarden er Weibullfordel. Frailyfordelingen anas å være enen gamma- eller sablefordel. Vi simulerer daa der den underliggende hasarden er enen Gomperzfordel, badekarforme eller log-logisisk fordel. Baser på sannsynlighesmaksimeringsesimaoren for avhengigheen og regresjonsparamerene undersøker vi beydningen av feilspesifiser underliggende hasard. Simuleringene viser a dersom de er e sor variasjon i leveidene og e sor sprik mellom virkelig og ilpasse underliggende hasard, underesimeres både risikofakorene og avhengigheen i relaiv sor grad. Dee gjelder både når fraily-variabelen er sablefordel og når den er gammafordel. Enda mer alvorlig er de dersom også fraily-fordelingen er feilspesifiser.

Innhold 1 Innledning 2 2 Noen grunnleggende begreper i leveidsanalyse 6 3 Vanlige fordelinger for hasarden 8 4 Fraily-modeller 10 5 Simuleringer 14 5.1 Gammafordelfraily-variabel... 15 5.2 Sablefordelfraily-variabel... 26 5.3 Feilspesifiser fraily-variabel og underliggende hasard.... 32 6 Diskusjon 40 1

1 Innledning I medisinsk forskning søer man ofe på leveidsdaa. Leveidsdaa inneholder informasjon om iden fra e sarpunk og frem il en hendelse, for eksempel en besem sykdom, innreffer. Som ofes er de mange individer i kohoren der hendelsen aldri har innruffe.de vil si a vi har høyresensurere daa, og dee gjør a man må analysere slike daa ved hjelp av spesielle meoder. Gjennomsnilig leveid er for eksempel sjelden særlig nyig å regne u, i og med a vi ikke har leveiden il samlige individer. Dessuen er leveidsdaa som ofes ikke normalfordele. På grunn av dee er de svær vanlig å bruke Cox-regresjon (Cox, 1972) isedenfor lineær regresjon for å finne u hvilken effek poensielle risikofakorer har på leveiden. I Cox-regresjon anar man ingen fordelingsform for leveidene. Imidlerid gjør man en serk anagelse om a effeken av risikofakorene er konsan over id, og a effeken er lineær på en logarimisk skala. Isedenfor å benye leveiden som avhengig variabel av risikofakorene, benyer man heller hasarden. Hasarden kan olkes som risikoen (per idsenhe) for a hendelsen innreffer på e besem idspunk, gi a den ikke har innruffe fram il dee idspunke. Den enklese Cox-regresjonsmodellen i leveidsanalyse definerer hasarden for individ i som h() =h 0 ()exp β T Z i. (1) Her er h 0 () den underliggende hasarden som er felles for alle individer, β er en vekor av ukjene regresjonsparamere og Z i er kovariavekoren for individ i. For en besem sykdom kan man ha korrelasjon mellom leveidene innen familier. Korrelasjonen kan skyldes fakorer som er vanskelige å måle direke. For eksempel kan de være vanskelig å måle geneiske komponener og bruke dee som en risikofakor. Med familiedaa kan man inrodusere en frailyvariabel Y il å si noe om korrelasjonen i leveider innen familier. Hasarden for individ i er da gi ved h () =Yh 0 ()exp β T Z i. (2) Her vil den uobservere heerogenieen fanges opp i fraily-variabelen Y, mens Cox-ledde, exp(β T Z i ), fanger opp den observere heerogenieen. Noen idlige og vikige arikler om fraily-modeller er gjor av Clayon (1978), Vaupel and Yashin (1985a) og Hougaard (1986b). Selve begrepe fraily ble førs inroduser av Vaupel e al. (1979). Fraily-modeller er fremdeles i krafig uvikling. Den enklese fraily-modellen innebærer a alle individer innen en familie har lik verdi av fraily-variabelen, denne modellen blir kal shared frailymodell. Ved å benye denne modellen kan man se på graden av korrelasjon eer å ha rukke fra virkninger av kovariaer som slekningene har felles. A 2

de er en opphopning av for eksempel lungekref innen en familie, kan skyldes a de er mange i familien som røyker. Eer a vi har rukke fra virkningen av denne risikofakoren, vil vi se a korrelasjonen i id il lungekref mellom slekningene reduseres, siden lungekref hovedsaklig skyldes røyking. Ser vi imidlerid på en arvelig sykdom, vil vi mes sannsynlig finne korrelasjon mellom slekningene selv eer å ha rukke fra virkninger av kovariaer. Dersom frailyledde viser a vi har korrelasjon, må de alså være slik a de fins uobservere miljømessige eller geneiske komponener som er felles for individer i samme familie. Vi anar a Y er konsan over id. Man kan si a mens den underliggende hasarden, h 0 (), beskriver individvariasjon, så beskriver fraily-variabelen gruppevariasjon. Dersom Y for en besem familie er sor, kan dee olkes som a denne familien har sore uobservere risikofakorer, noe som gir en høy risiko for sykdom. Tilsvarende kan lav Y for en besem familie olkes som a de er lien sjanse for a individene i denne familien får sykdommen. Dee vil si a dersom vi har sor variasjon i Y for de ulike familiene, så kan de finnes uobservere risikofakorer som er felles for de i samme familie. Tid il sykdommen vil være avhengig innad i familiene og uavhengig mellom familiene. De er Y alene som modellerer korrelasjonen. Man kan også benye en fraily-modell uen kovariaer, kun for å få e mål på avhengigheen. Dee kan være akuel for eksempel på regiserdaa der få eller ingen kovariaer er ilgjengelig. Denne modellen blir da e spesialilfelle av (2). Ofe er måle vår å esimere korrelasjonen og regresjonsparamerene, og da må man spesifisere Y nærmere. En nærliggende mulighe er å benye en ikke-paramerisk Y. Dee kan være hensiksmessig dersom man ser på Y som søy og kun er ue eer å finne effeken av kovariaene, men som regel er man mer ineresser i å finne e god esima også for korrelasjonen. Dee er vanskelig når man benyer en ikke-paramerisk Y fordi man da generel må bruke asympoisk saisisk inferens (Hougaard, 2000) som kan fungere god når anall individer i hver familie er sor, men dårlig når anall individer i hver familie er forholdsvis lav. Derfor er de mer fornufig å ana en apriorifordeling for Y. De er prakisk å ana en fordeling for Y som har en enkel Laplaceransformasjon. Grunnen il dee er a overlevelsesfunksjonen, S(), de vil si sannsynligheen for a individ i leverlengerenn, ergisom S () = P (T >) = E [S ( Y )] = E [exp ( H ())] = E exp YH 0 ()exp β T Z i = L Y H0 ()exp β T Z i, (3) der L Y ( ) = R exp ( sy) f(y)dy er den Laplaceransformere av Y og H () = R 0 h(u)du. Tilsvarende er H 0 () = R 0 h 0(u)du. Den vanligse anagelsen er a 3

Y er gammafordel, siden dee fører il enkel regning og gir en enkel Laplaceransformasjon. En annen vanlig fordeling er PVF-fordelingen (power variance funcion) (Hougaard, 2000). PVF-fordelingen har en eksra parameer og inkluderer både gammafordelingen, invers-normalfordelingen og posiive sable-fordelingen. Den kan derfor benyes for å gi en bedre ilpasning il daa. I denne oppgaven brukes gammafordelingen og sablefordelingen som fraily-fordelinger. Som for fraily-variabelen må man også spesifisere den underliggende hasarden h 0 (). I en shared fraily-modell er de enkel å regne med en ikke-paramerisk underliggende hasardfunksjon, og dee er implemener i saisisk programvare som S-plus og R. I mer komplisere modeller ar man imidlerid hensyn il a ikke alle individer i samme familie har lik grad av korrelasjon. E eksempel er en kjernefamilie med mor, far og barn. Her kan man dele frailyen inn i komponener for felles og individuel miljø i illegg il geneikk. Felles miljø kan ha samme verdi for alle i familien. Den geneiske komponenen vil la mor og far være uavhengige, mens foreldre og barn har korrelasjon 1 2 siden de i gjennomsni deler halvparen av genene. Komponenen for individuel milø er uavhengig for alle. Da er Y sammensa av flere fordelinger. Ulempen med slike modeller er a en ikke-paramerisk h 0 () fører il a esimeringen av paramerene blir vanskelig sammenligne medenparameriskh 0 (). Deervisaenfeilspesifiser gammafordeling for fraily-variabelen Y har lien beydning for esimeringen av paramerene i den underliggende hasarden og regresjonsparamerene, i verse fall blir esimaene rund 10 % feil (Hsu og Gorfine, 2007). I andre ilfeller er ikke de vikigse a h 0 () er korrek bare man får gode esimaer av korrelasjonen og regresjonsparamerene. En prakisk fordeling som ofe brukes som h 0 () er Weibullfordelingen, hovedsaklig fordi hasardene for mange sykdommer ser neopp Weibullfordele u. Erfaringer fra idligere analyser kan indikere a feilspesifiser h 0 () ikke har så sor beydning (Moger e al., submied og Moger, 2004), men de er ønskelig med en grundigere og mer sysemaisk karlegging av skjevheen og sandardfeilen il paramerene. Hvis vi kan vise a feilspesifiser Weibullhasard har lien beydning i en shared fraily-modell, indikerer dee a feilspesifiser Weibullhasard i en mer kompliser modell også kan ha lien beydning. Dermed kan man sole mer på resulaer man får ved å bruke modeller med Weibullfordel hasard. I kapiel 2 skal vi førs se på noen grunnleggende begreper i leveidsanalyse. I illegg skal vi se hvordan vi kan esimere paramerene og sandardavvikene il disse. I nese kapiel preseneres noen vanlige fordelinger for hasarden, nemlig Weibullfordelingen, Gomperzfordelingen, log-logisisk fordeling og badekarfordeling. I kapiel 4 går vi li nøyere inn på frailymodeller og uleder likelihooden for en shared fraily-modell. I kapiel 5 undersøker vi hvor god denne modellen fungerer på generere daa, både når fraily-variabelen er sablefordel og når den er gammafordel. Vi skal 4

ana a h 0 () er Weibullfordel, men genererer daa der h 0 () ikke er Weibullfordel. Til sis i dee kapiele undersøker vi hvor god modellen fungerer dersom både fraily-variabelen Y og h 0 () er feilspesifiser. Til slu følger en diskusjon i kapiel 6. 5

2 Noen grunnleggende begreper i leveidsanalyse I dee kapiele skal vi se på noen grunnleggende begreper i leveidsanalyse og sammenhengen mellom disse. Jeg har bruk kapiel 2-4 i boka il Klein og Moeschberger (2002). La T være iden innil en besem hendelse innreffer, for eksempel iden il sykdom. Da har vi som vanlig en sannsynlighesfordeling f() som viser den relaive sannsynligheen for å bli syk ved e besem idspunk. Videre er de o svær vanlige sørrelser, overlevelsesfunksjonen S() og hasardfunksjonen (kalles også hasardraen eller hasarden) h(). Overlevelsesfunksjonen gir sannsynligheen for a hendelsen, for eksempel sykdommen, ikke har innruffe ved id T, mens hasardfunksjonen gir sannsynligheen for a hendelsen innreffer i løpe av nese "øyeblikk". Mellom disse re funksjonene har vi en enydig ransformasjon, de vil si a dersom vi kjenner en av disse funksjonene, kan de o andre eksak besemmes. Sammenhengen mellom sannsynlighesfordelingen og overlevelsesfunksjonen er Z S() =P (T >)= f()d, dersom T er koninuerlig. Hasardfunksjonen er gi som P ( T + T ) h() = lim 0 og ved hjelp av Bayes formel kan vi skrive h() = f() S(). (4) Sammenhengen mellom hasarden og overlevelsesfunksjonen er Z S() =exp h(u)du. (5) Høyresensurering er vanlig for leveidsdaa. De vil si a for noen individer har hendelsen ikke innruffe ved undersøkelsens slu. De er da opplag a likelihooden ikke kan konsrueres på vanlig måe når de gjelder høyresensurere leveidsdaa, siden likelihooden vanligvis er gi som l (η) = Q P (T = i η) = Q Q f( i η) = S( i η)h ( i η), i i (4) i der η er alle paramerene i modellen. De enese vi ve om de høyresensurere daaene er a de har overlevd fram il id i,devilsiadeharoverlevdlenger enn i. De gir dermed e bidrag il likelihooden lik overlevelsesfunksjonen ved id, S( i η).vilarδ i =0hvis individ i ikke har opplevd hendelsen. Mosa 0 6

lar vi δ i =1dersom hendelsen har innruffe for individ i. Likelihooden blir dermed l (η) = Q i = Q i = Q i [P (T = i η)] δ i P (T > i η) 1 δ i [S( i η)h ( i η)] δ i S( i η) 1 δ i S( i η)h ( i η) δ i. (6) Likelihooden angir alså sannynligheen for å få daaene som er få, gi paramerene i modellen. De vil si a den er en funksjon av paramerene. Ved å maksimere likelihooden med hensyn på paramerene, finner vi alså de esimaorene for paramerene som maksimerer sannsynligheen for å få akkura disse daaene. Disse kalles gjerne ML(maximum likelihood)-esimaorer. Av ren prakiske grunner er de vanlig å maksimere log-likelihooden isedenfor likelihooden. Dee gjøres ved å see U (η) = log l (η) =0.Sidenden logarimiske funksjonen er en monoon voksende funksjon, forandres ikke ML-esimaorene. I illegg il esimaorer er de også ineressan å finne esimer kovariansmarise il paramerene. La bη være ML-esimaorene for paramerene. Ved Tayloruvikling om de sanne verdiene av paramerene, η 0, har vi a De vil si a η 0=U (bη) U (η 0 )+ η U (η 0)(bη η 0 ). bη η 0 i (η 0 ) 1 U (η 0 ), der i (η 0 )= η U (η 0) er observer informasjonsmarise. Videre har vi a ³ Var i (η 0 ) 1 U (η 0 ) = i (η 0 ) 1 Var(U (η 0 )) i (η 0 ) 1 Man kan vise a U (η 0 ) er normalfordel med forvenning 0 og kovariansmarise i (η 0 ). Følgelig får bη kovariansmarise i (η 0 ) 1. Esimer kovariansmarise blir da i (bη) 1 og bη N ³η 1 0, i (η 0 ). 7

3 Vanlige fordelinger for hasarden Hasardfunksjon h(x) Beingelser Weibull αλx α 1 α, λ > 0,x 0 αx Log-logisisk α 1 λ 1+λx α, λ > 0,x 0 α Gomperz λe αx α, λ > 0,x 0 Tabell 1: Akuelle hasarder α=1,λ=0.1 α=0.5,λ=2 α=3,λ=0.02 h (x) 0.06 0.08 0.10 0.12 0.14 h (x) 1 2 3 4 h (x) 0.0 0.5 1.0 1.5 0 1 2 3 4 5 x 0 1 2 3 4 5 x 0 1 2 3 4 5 x Figur 1: Weibullhasarder Vi skal undersøke esimaene av korrelasjonen og regresjonsparamerene dersom vi anar a den underliggende hasarden kommer fra Weibullfordelingen, når den i virkeligheen kommer fra en annen fordeling. De er re gode grunner il å bruke Weibullfordelingen som underliggende hasard. For de førse har den e enkel maemaisk urykk, som vis i abell 1. For de andre har hasarden den egenskapen a avhengig av om α<1, α =1eller α>1, vil hasardfunksjonen være henholdsvis konsan, avagende eller økende, så vi slipper å gjøre noen anagelser om dee. Tre eksempler er vis i figur 1. Den redje og kanskje vikigse grunnen er re og sle a de observere hasardene for mange sykdommer ser Weibullfordele u. De er også andre fordelinger som den underliggende hasarden kan enkes å komme fra. Vi skal se spesiel på Gomperzfordelingen, den log-logisiske fordelingen og badekarfordelingen. Hasarden for Gomperzfordelingen er vis øvers il vensre i figur 2 og de maemaiske urykke i abell??. Dersom den underliggende hasarden i virkeligheen er Gomperzfordel og vi bruker en modell med Weibullfordel underliggende hasard, kan vi få problemer. Grunnen il dee er a Gomperzhasarden har en sarverdi lik λ, mens Weibullhasarden enen sarer i 0 og er økende eller sarer i uendelig og er avagende, eller den kan være konsan. Dermed får Weibullhasarden en dårlig ilpasning ved lave idspunk. Eersom Weibullhasarden vil forsøke å ilpasse seg idlige idspunk så god som mulig, kan vi dermed få en dårlig 8

Gomperzfordeling(α=0.4,λ=0.2) Badekar-fordeling h (x) 0.2 0.6 1.0 1.4 h(x) 0 1 2 3 4 5 0 1 2 3 4 5 x 0 1 2 3 4 x Log-logisisk fordeling(α=0.5,λ=1) Log-logisisk fordeling(α=2,λ=1) h (x) 0.0 0.5 1.0 1.5 h (x) 0.0 0.4 0.8 0 1 2 3 4 5 x 0 1 2 3 4 5 x Figur 2: Noen akuelle hasarder ilpasning også ved sene idspunk. Neders i figur 2 ser vi a vi også kan få problemer dersom den underliggende hasarden i virkeligheen er log-logisisk fordel fordi denne hasarden blan anne førs kan øke og dereer ava. Da kan en ilpasning ved hjelp av Weibullfordelingen bli rimelig unøyakig og dermed også esimaene. Den sise fordelingen vi skal undersøke er badekarfordelingen, vis øvers il høyre i figur 2. Grunnen il navne er a hasarden kan minne om verrsnie av e badekar. De som kjenneegner denne hasarden er sor risiko for sykdom i saren. Med iden minsker risikoen, før den flaer u og blir sørre igjen. I praksis vil hasarden il en rekke leveider forholde seg på denne måen. E eksempel er hasarden for e menneskes leveid. Fra menneske er 0 il 1-2 år har de en relaiv sor risiko for å dø. Dereer synker risikoen drasisk og er svær lav før den begynner å a seg opp igjen ved 30-50-årsalderen. Siden en Weibullhasard enen vil øke, ava eller være konsan vil også slike daa kunne bli e problem for en modell med Weibullfordel underliggende hasard. 9

4 Fraily-modeller De er vanlig å bruke en muliplikaiv fraily-modell, der hasarden for hver individ er gi som produke av fraily-variabelen Y, den underliggende hasarden h 0 () og e Cox regresjonsledd, exp(β T Z), som i ligning (2). Som nevn i inroduksjonen vil vi benye en shared fraily-modell, i førse omgang med gammafordel fraily-variabel Y, i nese omgang med sablefordel fraily-variabel. Vi kan ha posiiv avhengighe for leveidene innen en familie, mens de er mer kompliser å uvide modellene il negaiv avhengighe. Ideallerflese eksempler er dee heller ikke nødvendig, siden de mes naurlige er a leveidene for individer i samme gruppe har ingen eller posiiv korrelasjon. Individene er uavhengige gi Y. Som mål for graden av avhengighe er de en nærliggende løsning å bruke variansen il Y.Ulempen med denne løsningen er a variansen il Y ikke nødvendigvis er sammenlignbar for o ulike fraily-fordelinger. Derfor må vi finne e anne mål, og e mye bruk mål er Kendall s τ, som er gi ved τ =4 Z 0 sl (s) L (2) (s)ds 1. (7) Kendall s τ ligger mellom 0 og 1, ogsorτ vil si høy grad av avhengighe mellom individene i en familie. For å finne esimaorer for paramerene, regner vi u log-likelihooden R il observasjonene og maksimerer denne, som vis i kapiel 2. La H 0 () = 0 h 0(u)du være den kumulaive underliggende hasarden. Fra ligning (5) får vi a den beingede overlevelsesfunksjonen for k individer i samme familie gi ved ( ) kx S( 1,..., k Y )=S( 1 Y )... S( n Y )=exp Y exp(β T Z i )H 0 ( i ). Vi anar a vi har høyresensurere daa. Vi lar δ i =1hvis individ i har få sykdommen og δ i =0hvis individ i ikke har få sykdommen. Fra ligning (6) får vi dermed a den beingede likelihooden for k individer i en familie er l Y = Q S( i Y )h ( i Y ) δ i i ( )( kx ky ) = exp Y exp(β T Z i )H 0 ( i ) [Yh 0 ( i )exp(β T Z i )] δ i.(8) i=1 Førs anar vi a Y er gammafordel med sannsynlighesfordeling f(y) = θ θ y θ 1 exp( θy)/γ(θ), θ>0. Fordelingen har lik form- og skalaparameer og dermed forvenning 1. Dee gjøres for a paramerene i modellen skal i=1 i=1 10

være idenifiserbare når h 0 () inneholder både skala- og formparameer. Den k e derivere av Laplaceransformen il Y med denne fordelingen, er L (k) Y (s) Γ(k + θ) =( 1)k. (9) Γ(θ) (θ + s) k+θ Samidig er de kjen a E{Y k exp( Ys} = ( 1) k L (k) Y (s). Da blir den ubeingede likelihooden for en familie l = S( 1,..., k ) ky [h( i )] δ i i=1 "( " = E exp Y = i=1 θ θ #) ( kx ky )# exp(β T Z i )H 0 ( i ) [Yh 0 ( i )exp(β T Z i )] δ i i=1 ( ky ) [h 0 ( i )exp(β T Z i )] δ i ( 1) δ. L (δ.) Y = (9) ( ky ) [h 0 ( i )exp(β T Z i )] δ i i=1 θ θ Γ(δ. + θ) Γ(θ) i=1 Ã kx! exp(β T Z i )H 0 ( i ) h θ + P i δ.+θ, (10) k i=1 exp(βt Z i )H 0 ( i ) der δ. = P k i=1 δ i. I illegg anar vi en Weibullfordel hasard, h 0 () =αλ α 1, og dermed H() = R 0 h 0(u)du = λ α.viseerdeeinni(10)ogfåra ( ky l = αλ α 1 i exp(β T Z i ) ) δ i Γ(δ. + θ) Γ(θ) i=1 θ θ h θ + P k i=1 exp(βt Z i )λ α i i=1 i δ.+θ. Siden individer som ikke er i slek er uavhengige, blir likelihooden for de n familiene i kohoren ny k Y j l = [αλ α 1 i,j exp(β T Z i,j )] δ Γ(δ i,j.,j + θ) Γ(θ) j=1 i=1 θ θ h θ + P i k δ.,j+θ, j i=1 exp(βt Z i,j )λ α i,j der subskrip j sår for familie j. Nese skri er som vanlig å finne logarimen av dee, slik a parameeresimeringen blir enklere og mer sabil. Parameerverdiene som maksimerer likelihooden forblir de samme siden log x er en 11

monoon voksende funksjon. Log-likelihooden blir nx k X j log l = δ i,j log (αλ)+(α 1) log (i,j )+β T Z i,j + j=1 i=1 +log[γ (δ.,j + θ)] log [Γ (θ)] + k X j +θ log (θ) (δ.,j + θ)log(θ + exp β T Z i,j λ α i,j ). Når vi anar a fraily-variabelen er sablefordel, kan log-likelihooden regnes u på ilsvarende måe. Sablefordelingen urykkes som en uendelig sum, f (y) = 1 πy X q=1 Γ (qθ +1) q! i=1 ³ ν θ q y qθ sin (θqπ). Av samme grunn som a vi velger å ha kun en parameer i gammafordelingen, velger vi også her å see θ = ν. Denne fordelingen har uendelig forvenning og varians og er veldig skjev. Fra Hougaard (2000) har vi a den δ. e derivere av Laplaceransformen il Y er à kx! θ L (δ.) Y = Q exp i=1 exp β T Z i,j H0 ( i ), der der Q = Xδ. m=1 C δ.,m (θ) θ m " kx i=1 exp β T Z i,j H0 ( i )# mθ δ., C δ.,1 (θ) = Γ (δ. θ) Γ (1 θ),c δ.,δ. (θ) =1 C δ.,m (θ) = C δ. 1,m 1 (θ)+[(δ. 1) mθ] C δ. 1,m (θ). Ved å bruke ligning (8) og ligning (10) får vi a likelihooden for en familie kan skrives som ( ky ) k j l = [h 0 ( i )exp(β T Z i )] δ i Q (θ)exp X λ α i,j exp θ β T Z i,j. i=1 Dermed blir log-likelihooden, når vi anar sablefordel fraily-variabel og i=1 12

Weibullfordel h 0 (), nx k X j log l = δ i,j log (αλ)+(α 1) log (i,j )+β T Z i,j + j=1 i=1 k X j +logq j (θ) λ α i,j exp θ β T Z i,j. (11) i=1 Fra ligning (7) får vi a Kendall s τ når Y er gammafordel blir τ = 1+2θ 1 og når Y er sablefordel blir τ =1 θ. Dermedkanvifinne e esima for τ uifra esimae for θ. VedåbrukeaVar(f (θ)) vi dessuen a 4 Var(τ) (1 + 2θ) 4 Var(θ) når Y er gammafordel, og Var(τ) =Var(θ) ³ df (θ) dθ 2 Var(θ), finner når Y er sablegfordel. Ved å bruke dee kan vi finne esimer sandardavvik il τ. 13

5 Simuleringer Vi skal undersøke skjevheen og sandardavvike il fraily-parameeren θ og regresjonsparamerene β i, i =1,...,p. Vi simulerer m = 200 kohorer med n = 5000 familier i hver kohor fra modellen (2). Grunnen il a n velges såpass sor er a dee er nødvendig for å generere nok familier med mer enn en hendelse/sykdom. Dermed kan avhengigheen esimeres. Dersom sykdommen er sjelden er de også i virkeligheen nødvendig med sor n. Derfor er de vanlig a familiedaase er relaiv sore. Med 200 kohorer ar da en simulering omren e døgn. For å se effeken av både koninuerlige og dikoome kovariaer med både uavhengighe og avhengighe innad i familier, har vi o kovariaer i modellen, de vil si p =2. Den førse kovariaen, med regresjonsparameer β 1,ergammafordel med formparameer lik 0.5 og skalaparameer lik 1,de vil si a den er skjevfordel. Denne kovariaen er uavhengig for alle individer. Den andre kovariaen, med regresjonsparameer β 2,erdikoom,devilsienen0 eller 1, og er avhengig for individer i samme familie. Denne avhengigheen simuleres på en enkel måe. For hver familie sees de førse familiemedlemme, de vil si e ilfeldig familiemedlem, il å ha verdien 0 med 50% sannsynlighe eller 1 med 50% sannsynlighe. De andre familiemedlemme, e anne ilfeldig familiemedlem, får samme verdi på kovariaen som de førse med 70% sannsynlighe. De redje familiemedlemme får dereer samme verdi som de andre familiemedlemme med 70% sannsynlighe og så videre. Anall individer i den j e familien, k j, rekkes slik a vi har 15% sannsynlighe for e individ i familie j, 30% for o individer, 25% for re, 20% for fire, 6% for fem og 4% for seks. Dereer velges regresjonsparamerene og fraily-parameeren θ, og fraily-variablene Y rekkes fra enen gammafordelingen med form- og skalaparameer θ eller sablefordelingen med parameer θ. Videre velger vi en fordeling for den underliggende hasarden, inkluder verdier for paramerene. Gi modellen i (2) kan vi nå simulere leveidene il samlige individer. En måe å gjøre dee på er å rekke u i Uniform(0, 1) og dereer velge i slik a S ( i Y )=u i for alle individene. De vil si a vi må finne i = S 1 (u i Y ). Den inverse av overlevelsesfunksjonen er enkel å finne når h 0 () er Weibull-, Gomperz-, log-logisisk- eller badekarfordel. For å få høyresensurere daa rekker vi en normalfordel grense for hver individ, g i N μ, σ 2,og dersom leveiden il e individ er høyere enn denne grensen, så sier vi a hendelsen ikke har innruffe for dee individe. Dersom vi velger å sensurere mange individer, kan vi velge en lav forvenning. Da bør vi også passe på å ha en relaiv sor varians for i de hele a å få hendelser som skjer eer lang id. For lav varians kan føre il a vi i praksis kun får svær lave idspunk for hendelsene og dermed vil formen il den underliggende hasarden bare være relevan ved lave idspunk. Eer en simulering bør vi derfor undersøke om hendelsen innreffer på idspunk der den underliggende hasarden har få 14

θ ^ τ^ Densiy 0 10 20 30 Densiy 0 10 20 30 0.16 0.18 0.20 0.22 0.24 0.68 0.70 0.72 0.74 β^_1 β^_2 Densiy 0 2 4 6 8 Densiy 0 1 2 3 4 0.45 0.55 0.65-2.6-2.4-2.2-2.0 Figur 3: Fordeling il esimaer når h 0 () Weibull(α =3, λ =0.1), τ = 0.714 og Y er gammafordel. sin karakerisiske form. I relle siuasjoner er de vanlig med en høy grad av sensurering. I disse simuleringene sensurerer vi derfor omren 90 % av individene. Ved å bruke opim-ruinen i R, finner vi log-likelihoodens maksimum og dermed esimaene for paramerene. De kan så sees inn ligningen for informasjonsmarisen, slik a vi finner esimere sandardavvik. Disse kan sammenlignes med de empiriske sandardavvikene. For for eksempel parameeren θ er de empiriske sandardavvikene gi som 1 m 1 P m k=1 der b θ MLE k (MLE) og θ = 1 m ³ bθ MLE k θ 2, er esimae av θ i den k e kohoren baser på likelihood-esimaoren P m b k=1 θ MLE k er de gjennomsnilige esimae for θ. De er ilsvarende for de andre paramerene. Dersom de empiriske sandardavvikene er mye høyere enn de esimere sandardavvikene, kan dee føre il a vi underesimerer usikkerheen il esimaene når vi benyer e reel daase. 5.1 Gammafordel fraily-variabel På grunn av de maemaiske egenskapene og den enkle Laplaceransformen er de vanlig å ana a fraily-variabelen Y er gammafordel med form- og skalaparameer θ. I de følgende simuleringene anar vi denne fordelingen for Y, og daaene blir simuler med denne fraily-fordelingen. For å ha noe å sammenligne sandardavvikene med, undersøker vi sandardavvike for paramerene dersom h 0 () virkelig er Weibullfordel (a paramerene blir korrek esimer er opplag). Resulaene er vis i abell 2 15

Parameer Par Mpar esse empse h 0 () Weibull(α =3,λ=0.1) θ 0.2 0.201 0.0116 0.0115 λ 0.1 0.100 0.0065 0.0067 α 3 3.000 0.0681 0.0689 β 1 0.6 0.598 0.0434 0.0443 β 2 2.3 2.288 0.0955 0.0952 τ 0.714 0.714 0.0117 0.0116 h 0 () Gomperz(α =1.5,λ=0.005) θ 0.2 0.3775 0.0275 0.0452 β 1 0.6 0.4898 0.0431 0.0515 β 2 2.3 1.742 0.0866 0.0876 τ 0.714 0.5715 0.0293 0.0321 h 0 () Log-logisisk(α =1.3,λ=0.2) θ 0.2 0.192 0.0117 0.0127 β 1 0.6 0.604 0.0402 0.0388 β 2 2.3 2.348 0.0941 0.0966 τ 0.714 0.723 0.0133 0.0132 h 0 () badekarforme θ 0.2 0.7736 0.0770 0.0723 β 1 0.6 0.3598 0.0350 0.0323 β 2 2.3 1.304 0.0680 0.0581 τ 0.714 0.3938 0.0223 0.0217 Tabell 2: Resulaer fra simuleringer der τ = 0.714 og Y er gammafordel. Par=paramere, Mpar=gjennomsnilige parameeresimaer baser på de m = 200 kohorene, esse=gjennomsnilig esimer sandardavvik baser på de m =200kohorene, empse=empirisk sandardavvik baser på de m = 200 kohorene. 16

θ ^ τ^ Densiy 0 4 8 Densiy 0 5 10 0.20 0.30 0.40 0.50 0.50 0.60 0.70 β^_1 β^_2 Densiy 0 2 4 6 Densiy 0 2 4 0.4 0.5 0.6 0.7-2.1-1.9-1.7-1.5 Figur 4: Fordeling il esimaer når h 0 () Gomperz(α =1.5, λ =0.005), τ = 0.714 og Y er gammafordel. og de esimere fordelingene er vis i figur 3. Sandardavvike for måle på avhengigheen er omren 0.01, mens de for regresjonsparamerene er li høyere. Alle de esimere fordelingene, i figur 3, ser ilnærme normalfordele u. Dee gjelder i sor se alle simuleringene som er gjor. I de følgende simuleringene vises de esimere fordelingene i all hovedsak bare dersom de ser u som a de er dårlig ilpasse en normalfordeling. Selv om en Gomperzfordel hasard har ganske lik form som en Weibullfordel hasard, er de lang fra opplag a esimaene blir brukbare dersom h 0 () er Gomperzfordel. Som idligere nevn er de problemaisk a for Gomperz er h 0 (0) = λ, mensforweibullerallidh 0 (0) = 0. Dersomλ er sor kan dee føre il a den ilnærmede Weibullhasarden rask vil gå opp mo λ og dermed blir parameeren α i Weibullfordelingen gjerne esimer il åværemellom1 og 2. De vil si a den dobbelderivere av Weibullhasarden ofe vil bli negaiv selv om den dobbelderivere av Gomperzhasarden er posiiv. De er gjor simuleringer med forholdsvis sor λ, blan anne λ =0.05, men sensureringen fører da il a nesen alle hendelsene innreffer på idlige idspunk der h 0 () er omren konsan. Dermed blir selve formen il Gomperzhasarden mindre vikig og esimeringen av paramerene blir svær god, siden Weibullhasarden har den egenskapen a den kan øke svær rask opp il en verdi og derfra oppre ilnærme konsan i ganske lang id. For å få hendelser ved idspunk der Gomperzhasarden har få sin karakerisiske form har vi derfor valg λ =0.005 og α =1.5. Resulae av simuleringen er vis i abell 2. Vi ser a både avhengigheen og beydningen av kovariaene er underesimer med 20 25%. Videre ser vi a esimer 17

h() 0.0 0.1 0.2 0.3 0.4 0.5 Gomperzfordel underliggende hasard Tilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 S() 0.90 0.94 0.98 S() for Gomperzfordel underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Figur 5: Y gammafordel, τ =0.714. Øvers: Sammenligning av korrek Gomperz h 0 () moesimerweibullh 0 (). Neders: Sammenligning av korrek Gomperz overlevelsesfunksjon S () mo esimer Weibull S (). τ = 0.714 0.90 0.92 0.94 0.96 0.98 1.00 0 1 2 3 4 5 Figur 6: Kaplan-Meier, h 0 () Gomperz(α =1.5,λ=0.005), τ =0.714, Y er gammafordel. 18

sandardavvik er ganske nær empirisk sandardavvik for alle paramerene. Sandardavvike il τ (og θ) er endel høyere i denne simuleringen enn i simuleringen med korrek spesifiser Weibull h 0 () mens sandardavvikene il regresjonsparamerene er omren de samme. Figur 4 viser a de esimere fordelingene ikke er like symmeriske som i førse simulering, og de kan se u som om esimaene er li mer usabile i denne simuleringen. Ligning (3) kan brukes il å ulede overlevelsesfunksjonen, S (), fore individ med gie kovariaer. Dee blir da overlevelse for hele modellen, ikke underliggende overlevelsesfunksjon. Når h 0 () er feilspesifiser, er de opp il fraily-fordelingen å kompensere for dee. Overlevelsesfunksjonen viserihvorsorgraddelykkes.nedersifigur5servis () baser på virkelige paramere og Gomperzhasard, ploe mo S () som er baser på gjennomsnilige esimere paramere og Weibullhasard. Begge kovariaene er valg il å ha forvenningsverdien 0.5. Vi ser a den virkelige overlevelsesfunksjonen avviker endel i forhold il den esimere overlevelsesfunksjonen som følge av a h 0 () avviker. Figur 6 viser Kaplan-Meier-ploe for den førse kohoren. Dee gjelder i alle følgende Kaplan-Meier-plo. De er ydelig a vi har unye den karakerisiske formen il Gomperzhasarden siden Kaplan-Meier-ploe i figur 6 viser a vi har hendelser ved idspunk der den underliggende hasarden er serk økende. Dersom den underliggende hasarden i virkeligheen er log-logisisk fordel (α =1.3, λ =0.2), ser de u il a esimaene blir mye bedre enn når den er Gomperzfordel, abell 2. Skjevheen il τ er kun 0.01. Dee kan skyldes a den log-logisiske hasarden har samme sarverdi som Weibullhasarden. Dermed slipper den ilpassede hasarden å få en for rask signing i saren som fører il dårlig ilpasning ved senere idspunk. Dessuen blir den ilnærmede hasarden svær lik ved alle relevane idspunk. Heller ikke her er de esimere sandardavvikene lang unna de empiriske sandardavvikene, og de ligger ganske nær il sandardavvikene i simuleringen med Weibullfordel hasard. De esimere fordelingene er i sørre grad enn i forrige simulering symmeriske og god ilpasse en normalfordeling. I dee eksempele fungerer alså anagelsen om Weibullfordel h 0 () god. De er også gjor simuleringer med log-logisisk h 0 () der α =0.8 og λ =0.05, devilsi a h 0 () er avagende. Også her blir esimaene mege gode, og de empiriske og esimere sandardavvikene forblir nesen uforandre. Når vi anar a h 0 () er Weibullfordel, er de inuiiv a om hasarden i virkeligheen er badekarforme, så kan de gi dårlig ilpasning og dårlige esimaer. E mulig valg for en badekarhasard er ½ h 0 () = 0.5 5 for 0 <<0.1 0.005 ( 0.1) 4 for >0.1 De vil si a hasarden er lineær avagende for 0 <<0.1, mensfor>0.1 er hasarden forskjøve Weibullfordel med λ =0.001 og α =5.AvKaplan- Meier-ploe i figur 10 ser vi a for omren 2% av individene innreffer hen- 19

h() 0.00 0.10 0.20 0.30 Log-logisisk underliggende hasard Tilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 S() 0.85 0.90 0.95 1.00 S() for log-logisisk underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Figur 7: Y gammafordel, τ =0.714. Øvers: Sammenligning av korrek log-logisisk h 0 () mo esimer Weibull h 0 (). Neders: Sammenligning av korrek log-logisisk overlevelsesfunksjon S () mo esimer Weibull S (). τ =0.714 0.90 0.92 0.94 0.96 0.98 1.00 0.0 0.5 1.0 1.5 2.0 2.5 Figur 8: Kaplan-Meier, h 0 () log-logisisk(α =1.3,λ=0.2), τ =0.714, Y er gammafordel. 20

h() 0.0 0.2 0.4 0.6 0.8 1.0 1.2 Badekarforme underliggende hasard Tilnærme Weibullfordel underliggende hasard 0 1 2 3 4 S() 0.85 0.90 0.95 1.00 S() for badekarforme underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0 1 2 3 4 Figur 9: Y gammafordel, τ =0.714. Øvers: Sammenligning av korrek badekarforme h 0 () moesimerweibullh 0 (). Neders: Sammenligning av korrek badekar overlevelsesfunksjon S () mo esimer Weibull S (). τ =0.714 0.90 0.92 0.94 0.96 0.98 1.00 0 1 2 3 4 5 6 Figur 10: Kaplan-Meier, badekarforme h 0 (), τ = 0.714, Y er gammafordel. 21

Parameer Par Mpar esse empse h 0 () Gomperz(α =1.5,λ=0.005) θ 0.75 1.3291 0.1358 0.2704 β 1 0.6 0.4855 0.0365 0.0710 β 2 2.3 1.7233 0.0737 0.2483 τ 0.4 0.2797 0.0404 0.0444 h 0 () badekarforme θ 0.75 119.9 287.0 95.24 β 1 0.6 0.3751 0.0273 0.0263 β 2 2.3 1.4791 0.0633 0.0613 τ 0.4 0.0087 0.0160 0.0094 Tabell 3: Resulaer fra simuleringer der τ = 0.4 og Y er gammafordel. Se abell 2 for forklaring. delsen før den underliggende hasarden synker ned il 0, for 8% av individene innreffer hendelsen når hasarden igjen begynner å øke, mens 90% av individene blir sensurer. Tabell 2 viser a både avhengigheen og kovariaenes virkning i sørre grad enn i de idligere simuleringene blir underesimer. Figur 9 gir oss en indikasjon på hvorfor esimaene blir så dårlige. Av hensyn il de idlige sykdomsilfellene øker Weibullhasarden relaiv rask i saren. Siden Weibullhasarden dermed ikke kan ava, holder den e ilnærme konsan nivå for idspunk der den virkelige hasarden er omren 0. Ide den virkelige hasarden begynner å øke rask igjen, kan ikke den Weibullfordele hasarden gjøre anne enn å holde seg på ilnærme samme nivå som idligere. Dee gjenspeiles også i overlevelsesfunksjonen neders i samme figur. De esimere og empiriske sandardavvikene er svær like og esimaene for fordelingene er symmeriske og ilsynelaende ilnærme normalfordele, men likevel gir de i dee ilfelle relaiv dårlige resulaer å bruke en Weibullfordel hasard. Kaplan-Meier-ploe viser ydelig a h 0 () er ilnærmingsvis badekarforme. For virkelige daa kan de derfor være vikig å undersøke Kaplan-Meier-ploe før man evenuel bruker en Weibullfordel hasard. I de forrige simuleringene har vi valg en relaiv sor avhengighe innad i familiene, τ =0.714. Viskalnåsehvasomskjerdersomvivelgerenmindre avhengighe. Vi seer λ =0.005 og α =1.5 i den Gomperzfordele h 0 (), velger en li lavere avhengighe, τ =0.4, og simulerer nye kohorer. Vi ser a regresjonsparamerene blir underesimer i like sor grad som når τ =0.714. Dee kan yde på a avhengigheen påvirker esimaene for regresjonsparamerene i lien grad når h 0 () er Gomperzfordel. Vi ser a avhengigheen i li sørre grad blir underesimer enn når vi hadde τ =0.714, herblir den underesimer med 30%. Vi ser også a den esimere fordelingen il esimaene, særlig for avhengigheen, har o opper. Begge disse problemene 22

θ^ τ^ Densiy 0 1 2 3 4 Densiy 0 10 20 1.0 1.5 2.0 2.5 0.15 0.20 0.25 0.30 0.35 β^_1 β^_2 Densiy 0 2 4 6 Densiy 0.0 1.0 2.0 3.0 0.3 0.4 0.5 0.6 0.7-2.2-1.8-1.4-1.0 Figur 11: Fordeling il esimaer når h 0 () Gomperz(α =1.5, λ =0.005), τ = 0.4 og Y er gammafordel. h() 0.0 0.1 0.2 0.3 0.4 0.5 Gomperzfordel underliggende hasard Tilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 S() 0.90 0.92 0.94 0.96 0.98 1.00 S() for Gomperzfordel underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Figur 12: Y gammafordel, τ = 0.4. Øvers: Sammenligning av korrek Gomperzfordel h 0 () mo esimer Weibull h 0 (). Neders: Sammenligning av korrek Gomperz overlevelsesfunksjon S () mo esimer Weibull S (). τ =0.4 23

θ^ τ^ Densiy 0.000 0.002 0.004 Densiy 0 40 80 120 0 200 400 600 0.00 0.02 0.04 β^_1 β^_2 Densiy 0 4 8 12 Densiy 0 2 4 6 0.30 0.35 0.40 0.45-1.7-1.5-1.3 Figur 13: Fordeling il esimaer når h 0 () er badekarforme, τ =0.4 og Y er gammafordel. kanskyldesamedhøygradavsensureringoglavgradavavhengighevil noen kohorer ha få familier med mer enn e sykdomsilfelle og dermed blir esimeringen mer usabil. Dee gjelder inuiiv ikke esimeringen av regresjonsparamerene. Med samme badekarformede hasard som idligere og lavere avhengighe, τ =0.4, blir esimae for avhengigheen svær dårlig, abell 3. Selv om τ er såpass sor som 0.4, esimeres parameeren il omren 0. E mulig problem kan være a for noen kohorer blir avhengigheen lav og dermed esimae for θ svær høy. Dermed blir gjennomsnie av esimaene for θ også høy. Dee probleme vil inuiiv være mindre for esimae av τ, siden esimae av τ må være mellom 0 og 1. Ifigur 13 ser vi også a de ikke er dee som er probleme i dee ilfelle. Esimaene for τ er sor se mindre enn 0.04 og aldri i nærheen av den sanne verdien. Esimaene for regresjonsparamerene blir derimo omren like gode som idligere. Dee kan yde på a avhengigheen påvirker esimaene for regresjonsparamerene i lien grad, ikke bare for Gomperzfordel h 0 (), men også når de gjelder badekarforme h 0 (). Dermed kan de være grunn il å ro a dee også gjelder mer generel. I likhe med simuleringen der τ =0.714, er den dobbelderivere av den ilpassede Weibullhasarden også her negaiv. Vi ser i figur 14 a dee fører il en svær dårlig ilpasning for overlevelsesfunksjonen. 24

h() 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Badekarforme underliggende hasard Tilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 S() 0.88 0.92 0.96 1.00 S() for badekarforme underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Figur 14: Y gammafordel, τ = 0.4. Øvers: Sammenligning av korrek badekarforme h 0 () moesimerweibullh 0 (). Neders: Sammenligning av korrek badekar overlevelsesfunksjon S () mo esimer Weibull S (). τ =0.4 0.88 0.90 0.92 0.94 0.96 0.98 1.00 0 1 2 3 4 5 Figur 15: Kaplan-Meier, badekarforme h 0 (), τ =0.4, Y er gammafordel. 25

Parameer Par Mpar esse empse h 0 () Weibull(α =3,λ=0.1) θ 0.2 0.2009 0.0077 0.0080 λ 0.1 0.1065 0.0338 0.0375 α 3 2.9984 0.0751 0.0769 β 1 0.6 0.5994 0.0508 0.0541 β 2 2.3 2.2928 0.1270 0.1366 τ 0.8 0.7991 0.0077 0.0080 h 0 () Gomperz(α =1.5,λ=5 10 7 ) θ 0.2 0.2880 0.0109 0.0139 β 1 0.6 0.4894 0.0523 0.0507 β 2 2.3 1.8931 0.1283 0.1351 τ 0.8 0.7120 0.0109 0.0139 h 0 () badekarforme θ 0.2 0.2557 0.0097 0.0117 β 1 0.6 0.4795 0.0495 0.0506 β 2 2.3 1.923 0.1235 0.1442 τ 0.8 0.7443 0.0097 0.0117 Tabell 4: Resulaer fra simuleringer der τ = 0.8 og Y er sablefordel. Se abell 2 for forklaring. 5.2 Sablefordel fraily-variabel En annen vanlig fraily-fordeling er sablefordelingen. I de følgende simuleringene anar vi a Y er sablefordel mens h 0 () fremdeles anas å være Weibullfordel. For å finne esimaer for paramerene i modellen opimeres dermed log-likelihooden i ligning (11). Vi genererer daa med sablefordel Y, slik a denne anagelsen er korrek og undersøker om resulaene blir omren like gode med denne fraily-fordelingen. Førs gjøres en simulering der alle anagelser er korreke, de vil si a h 0 () er Weibullfordel. Måle for avhengigheen, τ sees lik 0.8 mens de andre paramerene forblir uforandre, abell 4.Vi ser a sandardavvike il θ ble sørre da vi anok gammafordel fraily-variabel og valge τ =0.714. Grunnen il dee er nok a sandardavvike il θ avar når θ nærmer seg 1. Dee gjenspeiles også i simuleringen med gammafordel fraily-variabel der τ =0.4. Her er sandardavvike il θ enda sørre. Sandardavvike il regresjonsparamerene forblir uforandre. Videre simulerer vi daa der h 0 () Gomperz α =1.5,λ=5 10 7. Grunnen il a λ sees svær lav er a vi fremdeles ønsker å unye forskjellen i formen il en Gomperzhasard og en Weibullhasard. Når Y er sablefordel, så er forvenningsverdien il Y uendelig og dermed blir hasarden, de vil si risikoen for å dø i den fulle modellen, sørre enn når Y er gammafordel. Dee kan kompenseres ved å la h 0 () være lav innil den får sin karaker- 26

h() 0.0000 0.0010 0.0020 0.0030 Gomperzfordel underliggende hasard Tilnærme Weibullfordel underliggende hasard 0 1 2 3 4 5 6 S() 0.80 0.85 0.90 0.95 1.00 S() for Gomperzfordel underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0 1 2 3 4 5 6 Figur 16: Y sablefordel, τ =0.8. Øvers: Sammenligning av korrek Gomperzfordel h 0 () mo esimer Weibull h 0 (). Neders: Sammenligning av korrek Gomperz overlevelsesfunksjon S () mo esimer Weibull S (). 27

h() 0.00000 0.00005 0.00010 0.00015 Badekarforme underliggende hasard Tilnærme Weibullfordel underliggende hasard 0 1 2 3 4 5 6 S() 0.85 0.90 0.95 1.00 S() for badekarforme underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0 1 2 3 4 5 6 Figur 17: Y sablefordel, τ = 0.8. Øvers: Sammenligning av korrek badekarforme h 0 () moesimerweibullh 0 (). Neders: Sammenligning av korrek badekar overlevelsesfunksjon S () mo esimer Weibull S (). isiske form. Vi ser a i dee ilfelle blir esimaene, i abell 4, forholdsvis gode. Parameeren som beskriver avhengigheen, τ, esimeres 11% feil, mens regresjonsparamerene esimeres i underkan av 20% feil. Som før blir alle paramerene underesimer. Skjevheen er i omren samme skala som simuleringen med gammafordel fraily-variabel og τ =0.714. De viser a om fraily-variabelen er gammafordel eller sablefordel spiller lien rolle når h 0 () er Gomperzfordel og avhengigheen forholdsvis sor. De empiriske og esimere sandardavvikene il paramerene semmer overens i ilfredssillende grad. Dessuen er de i omren samme sørrelsesorden som når vi simulerer med korreke anagelser. En annen ineressan observasjon, øvers i figur 16, er a den esimere underliggende Weibullhasarden i dee ilfelle ikke ligner Gomperzhasarden i de hele a. Siden h 0 () seruilåhaenmyebedreilpasningnåry er gammafordel, er de grunn il å ro a de sablefordelingen som er skyld i dee. Sablefordelingen er svær skjev og dee er nok den mes sannsynlige grunnen. De er også gjor en simulering med sablefordel frailyvariabel og badekar- 28

0.90 0.92 0.94 0.96 0.98 1.00 0 2 4 6 8 Figur 18: Kaplan-Meier, badekarforme h 0 (), τ =0.8, Y er sablefordel. forme h 0 (). Avhengigheen er den samme som for simuleringen med en Gomperzfordel h 0 (), nemligτ =0.8. Somførerdevikigåvelgeden underliggende hasarden slik a vi får e passe anall hendelser før h 0 () blir 0. Jeg har valg h 0 () = ½ 5 10 6 5 10 5 for 0 <<0.1 1.5 10 6 ( 0.1) 2 for >0.1. De vil si a hasarden er lineær avagende for <0.1, mens den er forskjøve Weibullfordel med λ =5 10 7 og α =3for 0.1. AvKaplan-Meierploe ser vi a omren 4% av leveidene innreffer når <0.1, omren 6% innreffer når >0.1, mens omren 90% av leveidene som vanlig blir sensurer. Også her blir både avhengigheen og regresjonsparamerene underesimer. I abell 4 ser vi a regresjonsparamerene blir underesimer i omren samme grad som når vi anok sablefordel frailyvariabel og gomperzfordel h 0 (), mensτ i dee ilfelle fakisk blir bedre esimer. Øvers i figur 17 ser vi a dee gjelder selv om den esimere underliggende hasarden er svær forskjellig fra den virkelige. Grunnen il dee er a overlevelsesfunksjonen, neders i samme figur, ser u il å bli bedre ilpasse enn i den forrige simuleringen og a de er dee som er vikig når de gjelder å få e god esima for avhengigheen. De er også gjor o simuleringer med en lavere avhengighe, τ =0.5. I den førse er h 0 () Gomperzfordel med samme verdier på paramerene som i den forrige simuleringen med Gomperzfordel h 0 (), nemligα =1.5 og λ =5 10 7. I abell 5 ser vi a esimae for både avhengigheen og regresjonsparamerene blir endel dårligere i dee ilfelle. Måle på avhengigheen, τ, blir underesimer med 35%, mens regresjonsparamerene blir underesimer med henholdsvis 28% og 34%. A måle på avhengigheen blir underesimer i sørre grad når τ er rund 0.5 er ikke overraskende og semmer med de 29

Parameer Par Mpar esse empse h 0 () Gomperz(α =1.5,λ=5 10 7 ) θ 0.5 0.6768 0.0221 0.0338 β 1 0.6 0.4321 0.0484 0.0490 β 2 2.3 1.515 0.0976 0.1132 τ 0.5 0.3232 0.0221 0.0338 h 0 () badekarforme θ 0.5 0.6495 0.0169 0.0186 β 1 0.6 0.4487 0.0400 0.0403 β 2 2.3 1.769 0.1035 0.1057 τ 0.5 0.3505 0.0169 0.0186 Tabell 5: Resulaer fra simuleringer der τ = 0.5 og Y er sablefordel. Se abell 2 for forklaring. h() 0.00 0.02 0.04 0.06 0.08 0.10 0.12 Gomperzfordel underliggende hasard Tilnærme Weibullfordel underliggende hasard 0 1 2 3 4 5 6 7 S() 0.85 0.90 0.95 1.00 S() for Gomperzfordel underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0 1 2 3 4 5 6 7 Figur 19: Y sablefordel, τ =0.5. Øvers: Sammenligning av korrek Gomperzfordel h 0 () mo esimer Weibull h 0 (). Neders: Sammenligning av korrek Gomperz overlevelsesfunksjon S () mo esimer Weibull S (). 30

h() 0.000 0.002 0.004 0.006 Badekarforme underliggende hasard Tilnærme Weibullfordel underliggende hasard 0 10 20 30 40 S() 0.85 0.90 0.95 1.00 S() for badekarforme underliggende hasard S() for ilnærme Weibullfordel underliggende hasard 0 10 20 30 40 Figur 20: Y sablefordel, τ = 0.5. Øvers: Sammenligning av korrek badekarforme h 0 () moesimerweibullh 0 (). Neders: Sammenligning av korrek badekar overlevelsesfunksjon S () mo esimer Weibull S (). vi har funne u for gammafordel fraily-variabel. Men a regresjonsparamerene blir underesimer i signifikan sørre grad når τ = 0.5 i forhold il når τ =0.8 er overraskende. Når Y er gammafordel ser de u il a avhengigheen har lien innvirkning på esimaene for regresjonsparamerene. I dee ilfelle, hvor Y er sablefordel, påvirkes esimae for regresjonsparamerene av avhengigheen i sørre grad. En annen vesenlig forskjell på denne simuleringen og simuleringen der τ =0.8 er a i dee ilfelle ser den esimere underliggende hasarden, øvers i figur 19, u il å være bedre ilpasse en Gomperzhasard. En sannsynlig årsak il a h 0 () esimeres så ulik avhengig av om τ =0.8 eller τ =0.5 er a vi får mange svær lave leveider når τ er høy. I ilfelle når τ =0.5 får vi nesen ingen lave leveider. Til slu undersøker vi esimaene dersom vi velger en lavere avhengighe, τ = 0.5, nårh 0 () er badekarforme. For å få e passe anall hendelser som innreffer før hasarden synker ned il 0, må vi her velge en li annen 31

0.90 0.92 0.94 0.96 0.98 1.00 0 20 40 60 80 Figur 21: Kaplan-Meier, badekarforme h 0 (), τ =0.5, Y er sablefordel. badekarfordeling enn når τ =0.8. Vi velger h 0 () = ½ 5 10 3 5 10 2 for 0 <<0.1 1.5 10 6 ( 0.1) 2 for >0.1. I Kaplan-Meier-ploe ser vi a omren 1% av leveidene innreffer ved <0.1, omren 9% av hendelsene innreffer ved >0.1, mens omren 90% av leveidene blir sensurer. I denne simuleringen ser de u som om vi ilpasser h 0 () bedre enn i simuleringen der τ =0.8. Grunnen kan være a når τ =0.8 var h 0 () svær lav for alle relevane idspunk. Dee kan ha vær problemaisk for esimeringen av h 0 (). En ineressan observasjon er imidlerid a esimaene for både avhengigheen og regresjonsparamerene, i abell 5, er li dårligere i denne simuleringen. Avhengigheen er feilesimer med 30%. Selv om en avhengighe på τ =0.5 iforholdilen avhengighe på τ =0.8 nok kan føre il dårligere esimaer, yder dee på a ilpasningen il h 0 () ikke er hel avgjørende for hvor gode esimaer man får. Likevel er de beryggende a esimaene blir såpass gode også i denne simuleringen. Dessuen er de observere sandardavvikene og de empiriske sandardavvikene nesen ideniske. 5.3 Feilspesifiser fraily-variabel og underliggende hasard Hiil har vi undersøk esimaene dersom h 0 () har vær feilspesifiser. Samidig har vi ana a fraily-variabelen er enen gamma- eller sablefordel og i alle simuleringene har denne anagelsen vær korrek. Vi skal nå undersøke esimaene dersom vi feilspesifiserer både fraily-variabelen Y og den underliggende hasarden h 0 (). Dee vil inuiiv føre il dårligere resulaer. Som i kapiel 5.2 genererer vi førs daa med Gomperz eller badekarforme h 0 () og sablefordel Y, men nå ilpasses modellen med gammafordel 32

Parameer Par Mpar esse empse h 0 () Gomperz(α =1.5,λ=5 10 7 ) β 1 0.6 0.3341 0.0498 0.0595 β 2 2.3 1.334 0.1176 0.1987 τ 0.8 0.9600 0.0013 0.0150 h 0 () badekarforme β 1 0.6 0.4076 0.0472 0.0443 β 2 2.3 1.587 0.1095 0.1506 τ 0.8 0.9745 0.0007 0.0035 Tabell 6: Resulaer fra simuleringer der τ = 0.8 og Y er sablefordel. Modellen er ilpasse gammafordel Y. Se abell 2 for forklaring. θ ^ τ^ Densiy 0 20 40 Densiy 0 10 20 30 0.00 0.02 0.04 0.90 0.94 0.98 β^_1 β^_2 Densiy 0 2 4 6 Densiy 0.0 0.5 1.0 1.5 0.1 0.2 0.3 0.4 0.5-2.0-1.6-1.2-0.8 Figur 22: Fordeling il esimaer når h 0 () er Gomperzfordel og τ =0.8. Y er sablefordel, men anas å være gammafordel. 33