Detaljerte forklaringer av begreper og metoder.



Like dokumenter
Eksamen ST2303 Medisinsk statistikk Onsdag 3 juni 2009 kl

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data).

Risikofaktorer og dødelighet oppfølging av Oslo-undersøkelsen fra

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

UNIVERSITETET I OSLO

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

Logistisk regresjon 2

Løsningsforslag til obligatorisk oppgave i ECON 2130

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

6.2 Signifikanstester

Regresjonsmodeller. HEL 8020 Analyse av registerdata i forskning. Tom Wilsgaard

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Logistisk regresjon 1

Kausalitet - Hvordan komme litt nærmere sannheten

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Løsningsforslag Til Statlab 5

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra Coop Mega 7 7. Coop Obs Rimi Ica Supermarked 7 7

Mulige sammenhenger for plassering på samfunnsstigen

UNIVERSITETET I OSLO

Oppgaver Oppgavetype Vurdering Status 1 ME-417, forside Flervalg Automatisk poengsum Levert. 2 ME-417, oppgave 1 Skriveoppgave Manuell poengsum Levert

Veiledning for utarbeidelsen av økonomiske analyser som fremlegges for Konkurransetilsynet

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Nye referansekurver for vektrelaterte kroppsmål hos barn

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Statistikk er begripelig

KLH3002 Epidemiologi. Eksamen høsten 2012

Univariate tabeller. Statistisk uavhengighet og statistisk avhengighet. Bivariat tabellanalyse. Hvordan bør vi prosentuere denne tabellen?

Fysisk ak(vitet og dødelighet. Elisabeth Forfang, januar 2015 Seksjon for Hjerneslag Oslo Universitetssykehus, Ullevål

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Statistiske undersøkelser av spørsmål om mobbing

Eksamen PSY1011/PSYPRO4111: Sensorveiledning

Noen Statistiske utfordringer ved analyse av PROM

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Forelesning 17 Logistisk regresjonsanalyse

Samfunnsvitenskapelig metode innføring

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable

Kan vi stole på resultater fra «liten N»?

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Kontroller at oppgavesettet er komplett før du begynner å besvare spørsmålene. Ved sensuren teller alle delspørsmål likt.

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

SKOLEEKSAMEN 29. september 2006 (4 timer)

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Torben Wisborg NACA-skåre, luftambulansedagene

Eksamensoppgave i PSY3100 Forskningsmetode Kvantitativ

Kunnskapsesenterets Bruk og tolkning nye PPT-mal av meta-analyser. Jan Odgaard-Jensen, statistiker

Hvordan forstå meta-analyse

ME Vitenskapsteori og kvantitativ metode

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Forelesning 16 Regresjonsanalyse 3. Regresjonsanalyse av timelønn. Modeller med samspill

KLH 3002 Epidemiologi Eksamen Høst 2011 Eksaminator: Geir W. Jacobsen, ISM

Epidemiologi - en oppfriskning. Epidemiologi. Viktige begreper Deskriptiv beskrivende. Analytisk årsaksforklarende. Ikke skarpt skille

Telle mennesker lærerveiledning

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer)

Epidemiologi - en oppfriskning. En kort framstilling. Er det behov for kunnskaper om epidemiologi?

Sammendrag: Bilers alder og risiko. Bakgrunn. Formål. Metode

Emnenavn: Eksamenstid: Faglærer: Bjørnar Karlsen Kivedal

7.2 Sammenligning av to forventinger

UNIVERSITETET I OSLO

Forelesning 10 Statistiske mål for bivariat tabellanalyse. Korrelasjonsmål etter målenivå. Cramers V

TMA4240 Statistikk Høst 2018

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

1 10-2: Korrelasjon : Regresjon

Lineære modeller i praksis

UNIVERSITETET I OSLO

Dødelighet og avstander til akuttmedisinske tjenester - en eksplorerende analyse*

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

2. Forklar med egne ord de viktigste forutsetningene for regresjonen og diskuter om forutsetningene er oppfylt i oppgave 1.

Brystkreft: hyppigheten øker men dødeligheten går ned hvorfor? Lars Vatten, dr med Professor i epidemiologi. Det medisinske fakultet NTNU, Trondheim

Tema Kvalitativ og kvantitativ forskningsmetode. Forskningsmetode. Kausalitet. Reliabilitet og validitet. Usikkerhet. IA mandag 5/9-2014

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

3.A IKKE-STASJONARITET

Kapittel 1 Vitenskap: grunnleggende antakelser

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SVSOS107 VÅREN 2002

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Veiledning Tittel: Veiledning for utarbeiding av økonomiske analyser Dok.nr: RL065

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Utvikling av ulykkesmodeller for ulykker på riks- og fylkesvegnettet i Norge

Forelesning 13 Regresjonsanalyse

Enkel matematikk for økonomer 1. Innhold. Parenteser, brøk og potenser. Ekstranotat, februar 2015

Repeterte målinger. Repeterte målinger. Eirik Skogvoll

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Risikovurdering. Espelid Hensikten med prediksjon må være at vi kan og vil påvirke utviklingen. Hvilken strategi skal vi velge?

Transkript:

Appendiks til Ingar Holme, Serena Tonstad. Risikofaktorer og dødelighet oppfølging av Oslo-undersøkelsen fra 1972-73. Tidsskr Nor Legeforen 2011; 131: 456 60. Dette appendikset er et tillegg til artikkelen og er ikke bearbeidet redaksjonelt Detaljerte forklaringer av begreper og metoder. Prognostisk versus etiologisk studie. Denne artikkelen omhandler utelukkende en prognostisk studie, dvs en studie som estimerer sannsynligheter for død per person med gitte risikofaktor nivåer. I en etiologisk studie er man interessert i mer kausale sammenhenger mellom faktorer og død og det essensielle estimat er forskjellen på størrelsen til regresjonskoeffisienten for en faktor når analysen kjøres med den alene sammenlignet med den en får når det justeres for alle andre faktorer i modellen. Signifikansen til faktoren er således underordnet: det er den prosentvise endring i regresjonskoeffisienten som finner sted ved justering som er av vital interesse. Hvis denne overstiger 20 %, anses vesentlig konfundering å ha funnet sted og kausalitet må vurderes med forsiktighet. Graden av målefeil i risikofaktorene komme også inn i vurderingene her, som ofte blir mer kvalitative. I mange studier blandes begrepene og det er uklart om det er prognostisk, etiologisk eller begge formål som skal besvares. Cox regresjons analyse. En Cox regresjons analyse bruker tid fra screenings dato til døds dato eventuelt slutt dato for oppfølgning (31.12.2006) som avhengig variabel. Det følger dessuten med en dikotom sensurerings variabel som her er lik 1 ved dødsfall og 0 hvis person lever til slutt dato. Uavhengige variable kan være alder, antall sigaretter, kolesterol, etc. og kan være kategoriske eller kontinuerlige. Modellen, som styrer analysen og bærer den fullstendige statistiske informasjon om sammenhengene mellom faktorer og død, består essensielt av et ledd som er lik produkt summen av regresjonskoeffisient og faktor og hver faktor antas å virke proporsjonalt på døds sannsynligheten per tidsenhet. Modellen kalles da også Cox proportional hazards model. Et viktig statistisk mål er å estimere den relative døds 1

sannsynlighet mellom to personer eller grupper som har en gitt forskjell ved screening. Denne kalles gjerne hasard ratio (HR). Hvis f.eks HR=2 mellom røykere og ikke-røykere, har røykerne hatt dobbelt så høy risiko som ikke-røykerne. Vanlig er å angi HR per standard deviasjons forskjell av en faktor mellom grupper. Dette gjøres for at man skal kunne sammenlikne HR mellom ulike faktorer med samme måleenhet. Trinnvis Cox regresjons analyse. I artikkelen ble det oppgitt at trinnvis regresjon var gjort for å finne de vesentlige risiko faktorer for død. Metoden består i først å velge ut (fra kunnskap eller univariate Cox regresjoner per potensiell faktor) mulige faktorer som så brukes som utgangspunkt i modellen. Deretter begynner programmet å teste hvorvidt den faktor som er minst assosiert til død er signifikant. Hvis ikke, elimineres faktoren og modellen tilpasses på nytt uten denne faktor. Igjen testes den svakest assosierte og prosessen stopper når det bare er signifikante (ofte brukt er P<0.05) variable gjenstår. Et P-verdi valg på 0.05 i en slik prosedyre er ofte noe svakt fordi prosedyren har en tendens til å inkludere for mange falske positive risiko faktorer (grunnet tilfeldig noe sterkere assosiasjon i det spesielle utvalget). Et råd er å velge skarpere inklusjons/eksklusjons kriterier, så som P<0.01 eller P<0.001. Konstruksjon av risiko skårer. I artikkelen beskrives konstruksjon av risiko skårer som er nokså allmenngyldige. Som nevnt ovenfor er all informasjon om relativ risiko mellom risikofaktor nivåer inneholdt i produkt summen av estimert regresjons koeffisient og variabel verdi per person og denne beregnes av Cox regresjons programmet. Denne skåren sammen med alder ble så benyttet som uavhengige variable i en logistisk regresjons analyse med død/overlevende som avhengig variabel. I denne modellen kan man beregne sannsynligheten (p) for død per person via den logistiske funksjon (p=exp(sum)/(1+exp(sum), der sum= produktsum av logistisk regresjons koeffisient 2

og faktor verdi og exp er lik eksponential funksjon). Dette er også en skåre som benyttes både i kalibrerings og diskriminant analyser. Kalibrerings analyse. En slik analyse gjøres for å se hvor god modellen er til å estimere døds sannsynligheter i et nytt materiale. Her hentes ut et tilfeldig (eller på annen måte) prøve utvalg (her 69 % av alle) som brukes til å finne de estimerte logistiske regresjons estimater slik det er forklart ovenfor. Logistiske skårer basert på disse koeffisienter beregnes (se formel ovenfor) per person blant de 31 % i test utvalget. Deretter kjøres separat logistisk regresjon i test utvalget og egne sannsynlighets skårer beregnes. Hvis kalibrering er god, burde disse to skårer være høyt korrelerte. Ofte inndeler man de fra test utvalget estimerte skårer i desiler og teller opp det faktiske antall døde i disse desiler og sammenlikner det kalkulerte antall døde ved å bruke skårene fra prøve utvalget (summen av skårene per desil gir det kalkulerte antall døde). Et X- Y plott av observerte og kalkulerte antall døde lages gjerne og tester for forskjell skjer ved en egen kji-kvadrat test (E Figur 1 i artikkel, Hosmer-Lemeshow test). Diskriminant analyse ROC (Receiver Operating Characteristics) Dette er en analyse som skal vise hvor god en modell er til å skille de som dør fra de som overlever. Tradisjonelt har den såkalt ROC analyse blitt brukt for dette formål. En lager gjerne et plott som viser forholdet mellom sensitivitet (evnen til å predikere død når død har funnet sted) og det inverse av spesifisitet (evnen til å forutsi overlevelse når personen overlever). Arealet under kurven bør være så høyt som mulig. Det viser seg at dette målet er relativt lite sensitivt. Flere materialer har vist at en faktor som LDL-kolesterol ikke fanges opp med ROC analyse når den legges til øvrige normale risiko faktorer, til tross for at denne i andre typer analyser er høygradig signifikant. Vurderingen av endringer i ROC arealer har 3

også vært vanskelig å sette inn i en klinisk sammenheng, selv om det anbefales at areal forskjeller under 0.02 enheter ikke bør vektlegges klinisk. NRI (Net Reclassification Improvement) NRI beregninger er blitt populært etter at Pencina et al i 2007 beskrev slike teknikker (Referanse 12 i artikkel). Her beregner man hvor mange som blir reklassifisert til riktigere kategorier av døds sannsynlighet når mer informasjon oppnås. Denne tankegangen er nyttig for kliniker. Hvis innhenting av informasjon om en ekstra risikofaktor viser at mange personer blir riktigere risiko klassifisert, tyder dette på at faktoren er viktig å bruke når kliniker skal beslutte om behandlingsstrategi. Metoden går ut på å beregne hvor mange av de døde som netto øker i risiko kategori når en (eller flere) faktor (er) legges til et gitt sett (øket sensitivitet) og hvor mange av de overlevende som netto nedgraderes i risiko (øket spesifisitet). NRI er lik summen av disse andeler. Modeller som kan sammenliknes er f. eks en modell med bare kolesterol og systolisk blodtrykk med en modell hvor også antall sigaretter legges til. Metodisk inndeler man de individuelle dødsrisikoene for hver modell i et gitt sett av kategorier, f.eks 4 stk som har klinisk relevans (lav, middels, middels høy, høy risiko). Så lages en 4X4 kryss tabell for de døde og de overlevende separat og hvor de to modellers døds sannsynligheter kategoriseres (Se e-tabell 6 i artikkel som eksempel). Andel døde som ligger over hoved diagonalen minus andel som ligger under er netto andel døde som har fått riktigere risiko kategori plassering, dvs økt sensitivitet. Tilsvarende gjelder for de overlevende: Der beregner man andel under minus andel over hoved diagonalen som angir økt spesifisitet og NRI er altså summen av de to andeler. Disse tabellene har egentlig enda større klinisk nytte enn total tallet NRI. Ofte er det uinteressant for kliniker om risikoen øker for de døde fra lav til middels risiko, da dette ikke får noen klinisk konsekvens. Derimot, reklassifiseres mange netto fra kategori 3 til kategori 4, kan dette være viktigere for kliniker å vite fordi faktoren da kan ha betydning for behandlings 4

beslutninger i forhold til retningslinjer etc. Omvendt vil en reklassifisering fra 4 til 3 eller lavere for de overlevende også kunne være viktig å vite, fordi noen kan da bli tatt av medisin eller ellers få endret behandling til et lettere regime. 5