regresjonsmodeller multippel logistisk regresjon logistisk regresjon prediksjon vs assosiasjon den logistisk funksjonen (2)

Like dokumenter
Logistisk regresjon. Regresjonsmodeller. Prediksjon versus assosiasjon. En epidemiologisk problemstilling. Et multivariabelt problem

Forelesning 17 Logistisk regresjonsanalyse

MASTER I IDRETTSVITENSKAP 2018/2020. Individuell skriftlig eksamen. STA 400- Statistikk. Mandag 18. mars 2019 kl

Logistisk regresjon 1

Forelesning 18 SOS1002

Logistisk regresjon 2

Statistikk En måte å beskrive og analysere fenomener kvantitativt Eva Denison

Epidemiologi - en oppfriskning. Epidemiologi. Viktige begreper Deskriptiv beskrivende. Analytisk årsaksforklarende. Ikke skarpt skille

KATEGORISKE DATA- TABELLANALYSE ANALYSE AV. Tron Anders Moger. 3. Mai 2005

Epidemiologi - en oppfriskning. En kort framstilling. Er det behov for kunnskaper om epidemiologi?

SKOLEEKSAMEN 29. september 2006 (4 timer)

EKSAMEN I EMNE TMA4315 GENERALISERTE LINEÆRE MODELLER

TMA4245 Statistikk Eksamen desember 2016

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Utsatt individuell skriftlig eksamen. STA 400- Statistikk

TMA4240 Statistikk Høst 2009

Prøveeksamen i STK3100/4100 høsten 2011.

SKOLEEKSAMEN 2. november 2007 (4 timer)

Eksamensoppgave i TMA4255 Anvendt statistikk

UNIVERSITETET I OSLO

KLH 3002 Epidemiologi Eksamen Høst 2011 Eksaminator: Geir W. Jacobsen, ISM

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 σ2

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Detaljerte forklaringer av begreper og metoder.

Tabell 1: Antallet besøkende pasienter og gjennomsnittlig ventetid i minutter (fiktive data).

Kapittel 3: Studieopplegg

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

MOT310 Statistiske metoder 1, høsten 2011 Løsninger til regneøving nr. 7 (s. 1) Oppgaver fra boka: n + (x 0 x) 2 1. n + (x 0 x) 1 2 ) = 1 γ

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

Eksamensoppgave i TMA4240 Statistikk

EKSAMEN I SOS4020 KVANTITATIV METODE 8. april (4 timer)

Kunnskapsesenterets Bruk og tolkning nye PPT-mal av meta-analyser. Jan Odgaard-Jensen, statistiker

Sjekkliste for vurdering av en kasuskontrollstudie

UNIVERSITETET I OSLO

Repeterte målinger. Repeterte målinger. Eirik Skogvoll. Gjentatte observasjoner på samme individ:

Kort overblikk over kurset sålangt

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Repeterte målinger. Repeterte målinger. Eirik Skogvoll

Eksamensoppgave i TMA4255 Anvendt statistikk

10.1 Enkel lineær regresjon Multippel regresjon

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Anvendt medisinsk statistikk, vår Repeterte målinger, del II

SOS3003 Eksamensoppgåver

2. Forklar med egne ord de viktigste forutsetningene for regresjonen og diskuter om forutsetningene er oppfylt i oppgave 1.

EKSAMEN I SOS4020 KVANTITATIV METODE 20. mars (4 timer)

Oppgave 1. X 1 B(n 1, p 1 ) X 2. Vi er interessert i forskjellen i andeler p 1 p 2, som vi estimerer med. p 1 p 2 = X 1. n 1 n 2.

TMA4240 Statistikk 2014

n n i=1 x2 i n x2 n i=1 Y i og x = 1 n i=1 (x i x)y i = 5942 og n T = i=1 (x i x) 2 t n 2

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i TMA4275 Levetidsanalyse

INSTITUTT FOR SOSIOLOGI OG SAMFUNNSGEOGRAFI EKSAMEN I SOSIOLOGI (MASTER) SOS KVANTITATIV METODE. SKOLEEKSAMEN 11. mai 2005 (4 timer)

EPIDEMIOLOGI. Hva er det? Medisin for ikke-medisinere. onsdag 25. september Tom Ivar Lund Nilsen. Institutt for samfunnsmedisinske fag

Bokmål. Eksamen i: Stat100 Statistikk Tid: 18. mai Emneansvarlig: Trygve Almøy:

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

UNIVERSITETET I OSLO

SENSORVEILEDNING FOR EKSAMENSOPPGAVEN I SOS1002 VÅREN 2008

TMA4245 Statistikk Eksamen desember 2016

SENSORVEILEDNING FOR DEN KVANTITATIVE DELEN AV EKSAMENSOPPGAVEN I SOS1002 HØSTEN 2006

Forelesning 16 Regresjonsanalyse 3. Regresjonsanalyse av timelønn. Modeller med samspill

Lese og presentere statistikk i medisinske forskningsartikler

Tema Kvalitativ og kvantitativ forskningsmetode. Forskningsmetode. Kausalitet. Reliabilitet og validitet. Usikkerhet. IA mandag 5/9-2014

Skoleeksamen i SOS Kvantitativ metode

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Informasjon om eksamen SOS Kvantitativ metode

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

Løsningsforslag til eksamen i TMA4245 Statistikk 7. juni 2007

Epidemiologi. Hvorfor lære epidemiologi? Mål på forekomst av sykdom. Hva brukes epidemiologi til? The study of the occurrence of illness

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Ridge regresjon og lasso notat til STK2120

Sta$s$kk En måte å beskrive og analysere fenomener kvan$ta$vt Eva Denison

Sjekkliste for vurdering av en kohortstudie

Statistikk og dataanalyse

Eksamensoppgave i ST3001

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra Coop Mega 7 7. Coop Obs Rimi Ica Supermarked 7 7

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Mandag 27. mai 2013 Tid: 09:00 13:00

Eksamen i: STA-1002 Statistikk og sannsynlighet 2 Dato: Fredag 31. mai 2013 Tid: Kl 09:00 13:00 Sted: Administrasjonsbygget

Forelesning 13 Regresjonsanalyse

UNIVERSITETET I OSLO

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Løsningsforslag eksamen 25. november 2003

Eksamensoppgave i TMA4255 Anvendt statistikk

Konsekvenser av familiepolitikk 2

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

EKSAMEN I FAG TMA4315 GENERALISERTE LINEÆRE MODELLER Torsdag 14. desember 2006 Tid: 09:0013:00

TMA4240 Statistikk Høst 2016

EKSAMEN I TMA4255 ANVENDT STATISTIKK

EKSAMEN I TMA4315 GENERALISERTE LINEÆRE MODELLER

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

SOS 301 og SOS31/ SOS311 MULTIVARIAT ANALYSE

Transkript:

Innføring i medisinsk statistikk del 2 regresjonsmodeller Hvorfor vil man bruke regresjonsmodeller? multippel logistisk regresjon. predikere et utfall (f.eks. sykdom, død, blodtrykk) basert på et sett av forklaringsvariabler (kovariater) lager statistiske modeller og vurderer modellens GOF inklusjon av variabler baseres på statistisk signifikans (p-verdi) (Rosner, 2000; kap. 3.7) 2. måle en sammenheng (assosiasjonen) mellom et utfall og en forklaringsvariabel (eksponering) og samtidig kontrollere for effekten av andre variabler (konfounding og/eller interaksjon) vurderer om sammenhengen endres når man justerer for potensielle konfoundere vurdere om sammenhengen er forskjellig innenfor ulike nivå av en annen faktor inklusjon av variabler baseres ikke på statistisk signifikans Tom Ivar Lund Nilsen Institutt for samfunnsmedisin 2 prediksjon vs assosiasjon logistisk regresjon analysestrategien når det gjelder prediksjon er ikke den samme som når man holder på med en assosiasjonsstudie denne forskjellen er forskeren ofte ikke bevisst på når han/hun analyserer kliniske eller populasjonsbaserte epidemiolgiske data logistisk regresjon er en matematisk modellering som kan benyttes for å beskrive sammenhengen mellom en eller flere uavhengige variabler (X, X2,..., Xk) og et dikotomt (todelt) avhengig utfall ofte følger man en prediksjonsstrategi selv om hensikten med studien er å måle en/flere assosiasjoner andre matematiske modeller er også mulig, men logistisk regresjon er den overlegent mest populære ved analyse av epidemiologiske data med et dikotom utfall husk at stepwise regression er fy-fy i assosiasjonsstudier... hvorfor er logistisk regresjon blitt så populær...? 3 4 den logistisk funksjonen () den logistisk funksjonen (2) den logistiske funksjonen viser den matematiske formen som den logistiske modellen er basert på funksjonen kalles f(z), og er gitt av uttrykket: f(z) = + e z modellen er laget for å beskrive sannsynligheter, og sannsynligheter kan bare ha verdier mellom 0 og dermed gir modellen sannsynligheten (eller risikoen) for at et individ skal ha en sykdom 5 hvor z er et uttrykk for de uavhengige variablene (X ene) 6 S-formen er også tiltalende, fordi den viser at for lave verdier av z er risikoen lav, inntil en viss grenseverdi hvor risikoen stiger raskt, og for høye verdier av z er risikoen høy dette illustrerer hvordan man ofte tenker at ulike eksponeringer virker på forekomsten av sykdom

lineær regresjon ta utgangspunkt i den lineære regresjonen en kontinuerlig utfallsvariabel Y denne kan relateres til et sett av forklaringsvariabler X,, X k den matematiske modellen er gitt ved uttrykket: E( y x) = α + β x + L+ β k x k SBP (mm Hg) 220 200 80 60 40 20 SBP = 05 +.5xAge E(y x) leses som forventningsverdien av Y, gitt verdien av x denne kan anta alle verdier fra - til + 00 80 7 x-ene representerer de ulike forklaringsvariablene β-ene representerer størrelsen på sammenhengen mellom X og Y α-en representerer et konstantledd 8 20 30 40 50 60 70 80 90 Age (years) den logistiske regresjonsmodellen logistisk transformasjon i logistisk regresjon har vi en dikotom utfallsvariabel Y (syk =, frisk = 0) derfor kan forventningsverdien E(y x) bare ha verdier mellom 0 og forventningsverdien til et dikotomt utfall vil være det samme som sannsynlighet for utfallet derfor kan E(y x) uttrykkes som p dersom man vil undersøke sammenhengen mellom et dikotomt utfall Y og et sett av forklaringsvariabler (X,, X k ) kan man ikke bruke ligningen for lineær regresjon p = α + β x + L+ β dette fordi ved gitte x-verdier kan høyresiden av formelen gi en forventningsverdi (p) som er mindre enn 0 og større enn, og det er ikke mulig i stedet kan man gjøre en logistisk (logit) transformasjon av p k x k logit(p) = ln p p 9 0 logit(p) odds vs sannsynlighet i motestning til p må ikke logit(p) ha verdier mellom 0 og, men kan anta alle verdier fra - til + da kan vi skrive følgende uttrykk for den logistiske modellen sannsynligheten for å få en ener er av 6 = /6 = 0.7 odds for åfåen ener ved terningkast er til 5 eller /6 = 5/6 = /5 = 0.2 p logit( p) = ln = α + βx + L+ β nx n p odds er sannsynligheten (risiko) for at en egenskap er til stede dividert med sannsynligheten for at egenskapen ikke er til stede hvor p er sannsynligheten for sykdom ved en gitt x odds = p / ( - p) hvor p = sannsynligheten for egenskapen (f.eks. ssh for å være røyker) 2 2

logit(p) = naturlig logaritmen av oddsen ln p p logit(p) er altså den naturlig logaritmen av odds for sykdom odds ratio i en case-kontrollstudie kan vi beregne odds for å være eksponert blant de syke, og odds for å være eksponert blant de friske, og forholdet mellom oddsene kalles odds ratio (OR) Eksponering Case Kontroll Ja a b Nei c d odds ratio vil være odds for eksponering blant casene (a/c) dividert med odds for eksponering blant kontorollene (b/d) 3 4 eksempel røyking og hjertekardød odds ratio for eksponering 5 vi vil studere sammenhengen mellom røyking og risiko for å dø av hjertekarsykdom i HUNT (984-86) 502 døde (case), og selektert 2 kontroller per case vi får følgende data som settes inn i en 2x2 tabell Død Ja Nei Ja 32 832 Røyker Nei 8 272 ut fra disse dataene kan man beregne odds for å være røyker blant de casene a/c = 32/8 = 0.27 og odds for å være røyker blant kontrollene b/d = 832/272 = 0.38 6 dette gir en odds ratio på 0.27/0.38 = 0.7 odds for å være røyker blant casene er 0.7 ganger så stor som oddsen for å være røyker blant kontrollene dvs. at casene har ~30% lavere odds (risiko) for å være røyker sammenlignet med kontrollene men ønsker ikke si noe om risikoen for å være røyker dersom man dør av hjertesykdom, vi vil heller si noe om risikoen for å dø dersom man røyker... odds ratio for å være eksponert gitt at man er syk er det samme som odds ratio for å være syk gitt at man er eksponert Røyker OR for sykdom Død Ja Nei Ja 32 832 Nei 8 272 ut fra disse dataene kan man beregne odds for å være case blant røykere a/b = 32/832 = 0.39 vurdering av resultatet? hvor pålitelig er dette resultat? vi kan sjekke konfidensintervall og/eller p-verdi dvs. er det en signifikant sammenheng og odds for å være case blant ikke-røykere c/d = 8/272 = 0.54 7 OR = 0.39 / 0.54 = 0.7 røykere har altså 0.7 ganger så stor risiko for å dø av hjertesykdom som ikke-røykere 8 3

p-verdi p-verdien er sannsynligheten for å ha fått det resultatet du har (OR = 0.7) gitt at det egentlig ikke er noen sammenheng (dvs. at OR egentlig er.0) i dette tilfellet er p-verdien <0.00 det er mindre enn sannsynligheten for å ha fått en OR på 0.7 basert på dette utvalget dersom den sanne OR (i populasjonen) var.0 basert på p-verdien ser det jo ut til å være en pålitelig sammenheng vi har målt men vær oppmerksom på at p-verdien er konfundert: presisjonen blandes sammen med effektstørrelsen den konfunderte p-verdi man kan får en lav p-verdi både når effekten er liten og utvalget stort, og når effekten er stor men utvalget lite: 500 case, 3000 kontroller, OR = 0.7, p <0.00 50 case, 3000 kontroller, OR = 0.2, p < 0.00 3000 case, 6000 kontroller, OR = 0.9, p <0.00 en feil mange gjør er å bruke p-verdien som en dikotom variabel (± 0.05), og kun rapportere sig. vs non-sig. dersom man skal bruke p-verdier må man oppgi hele tallet mange forskningsresultat er gått i søppelbøtta fordi man har vært for opphengt i p-verdien som ikke var signifikant, og mange forskningsresultater har blitt overdrevet fordi p-verdien har vært signifikant 9 20 konfidensintervall konfidensintervallet i eksempelet konfidensintervall blir også brukt for å si noe om presisjonen på den målte sammenhengen et smalt intervall betyr høy presisjon, og et bredt betyr lav presisjon ettersom intervallet angis av to tall og ikke bare ett (slik som p), er det ikke konfundert det forteller oss noe om både presisjon og effektstørrelse blir ofte anvendt som en hypotesetest hvor man bare bedømmer om verdien gitt av H0 er inkludert i intervallet eller ikke men bruk en romslig fortolkning 95% konfidensintervallet i denne analysen hvor odds ratio er 0.7 har en nedre verdi på 0.6 og en øvre verdi på 0.8 konfindesintervallet er smalt, og vi har god presisjon konfidensintervallet omslutter ikke nullverdien.0 en statistisk signifikant sammenheng med α = 0.05 en vanlig fortolkning er at vi med 95% sikkerhet kan si at OR for populasjonen som utvalget kommer fra ligger innenfor dette intervallet konfidensintervallet vil i 95% av tilfellene omslutte den sanne OR i populasjonen 2 22 fortsatt usikkert? konfounding? da har vi altså vurdert resultatene våre ut fra statistiske kriterier, men er vi likevel sikre på at dette er et pålitelig resultat? vi har ennå ikke vurdert om resultatet kan være påvirket av konfounding med andre variabler dvs. variabler som er forbundet både med røyking og med hjertekardød... alder kjønn fysisk aktivitet etc. 23 24 4

kriterier for konfounding kriteriet for at en faktor skal være en konfounder er at den skal være relatert både til eksponeringen og til utfallet En annen faktor C justering for konfounding dersom man har informasjon om potensielle confoundere så kan man justere bort den konfunderende effekten i statistiske analyser A B dette vil i hovedsak si i regresjonsmodeller, som f.eks. logistisk regresjon... røyk død alder alder øker risikoen for hjertekardød røyking vil være ulikt fordelt i ulike aldersgrupper begge kriteriene for en konfounder oppfylt, men hva gjør vi så...? 25 26 logistisk regresjon justering for alder først kjører vi en analyse hvor bare røykevariabelen er med i regresjonsmodellen a a. Variable(s) entered on step :. Lower Upper B S.E. Wald df Sig. Exp(B) -.343.075 20.93.000.70.63.822 -.266.098 7.422.006.766 vi ser at vi får samme resultat som da vi regnet for hånd: OR = 0.7 med tilhørende p-verdi og konfidensintervall a deretter gjentar vi den samme analysen en gang til, men nå legger vi til en aldersvariabel (her: alder som en kontinuerlig variabel) i regresjonsmodellen sammen med røykevariabelen, og vifår følgende resultat: alder B S.E. Wald df Sig. Exp(B) Lower Upper.723.04 48.474.000 2.06.68 2.526.47.005 03.024.000.58.48.69 -.474.386 882.044.000.000 a. Variable(s) entered on step :, alder. 27 28 hva betyr dette? detaljert informasjon etter at vi legger inn alder i modellen forandrer odds ratio estimatet seg dramatisk ujustert hadde vi en OR = 0.7, som vi fortolket som at røykere hadde lavere risiko for å dø av hjertekarsykdom enn ikke-røykere justert for alder er OR nå forandret til 2.0, dvs. røykere har dobbelt så stor risiko for å dø av hjertekarsykdom som ikkerøykere illustrerer viktigheten av å justere for potensielle confoundere det hjelper ikke å ha lave p-verdier og smale konfidensintervall dersom man har målt en feilaktig sammenheng men selv om man har informasjon om potensielle konfoundere er det også nødvendig at denne informasjonen er mest mulig detaljert la oss tenke oss at vi bare hadde informasjon om alder i to kategorier - over og under 50 år dersom vi gjentar analysen med denne aldersvariabelen får vi følgende resultat: a alder_50 Lower Upper B S.E. Wald df Sig. Exp(B) -.060.084.500.479.942.798.2 3.845.24 323.947.000 46.737 30.750 7.036-7.776.440 32.394.000.000 a. Variable(s) entered on step :, alder_50. vi får en forandring i OR fra 0.7 til.0 (dvs. ingen sammenheng) 29 30 5

hvordan vurdere konfounding konfounding vurderes ut fra om det skjer en endring i risikoestimatet (OR) for den faktoren man studerer når man legger til mulige konfunderende variabler i regresjonsmodellen i vårt eksempel var det ganske enkelt å vurdere, det skjedde en stor endring - fra 0.7 til 2.0 når vi inkluderte alder i modellen men hvor stor skal endringen være for at man sier at justeringen har hatt en effekt? ikke noe fasitsvar, en tommelfingerregel er at en endring i OR (eller RR) på 20% eller mer bør man ta hensyn til a flere mulige konfoundere? kjønn? alder gender B S.E. Wald df Sig. Exp(B) Lower Upper.708.04 45.987.000 2.030.654 2.49.48.005 028.383.000.59.49.70 -.239.086 7.682.006.787.665.932 -.84.399 786.452.000.000 a. Variable(s) entered on step :, alder, gender. Viktig! konfounding vurderes ikke ut fra om det er en signifikant sammenheng mellom konfounderen og sykdommen men om det er en endring i den assosiasjonen man studerer... 3 32 flere mulige konfoundere? fysisk aktivitet? a alder gender fysakt_2 Lower Upper B S.E. Wald df Sig. Exp(B).73.23 35.430.000 2.077.633 2.642.49.005 76.774.000.60.48.73 -.337.05 0.269.00.74.58.877 -.606.06 32.904.000.546.444.67-0.208.507 405.034.000.000 a. Variable(s) entered on step :, alder, gender, fysakt_2. dette er blant annet grunnen til at man ikke skal gjøre automatisk stepwise regression hverken kjønn eller fysisk aktivitet trenger å være med når vi ser på effekt av røyking 33 6