Regional forskingskonferanse for Psykiatri og rusfeltet Vår 2013 Olav M. Linaker PH, St. Olavs Hospital/INM, NTNU
Effektiv forskning Dette møtet skal handle om å gjøre forskningsarbeidet vårt effektivt Vi skal få mest mulig kunnskap og produksjon ut av minst mulig innsats Grådighet og latskap er en uslåelig kombinasjon forutsatt at den moralske ryggraden er sterk nok
Vi skal ta utgangspunkt i noen begreper Forskningsspørsmålet Statistisk power Statistisk signifikansgrense Effektstørrelse Klinisk signifikans Andre trusler mot effektiv forskning Og vi skal skule til et hypotetisk forskningsprosjekt underveis
Forskningsspørsmålet Relevant og interessant Presist hvem og hva gjelder det Upresise spørsmål gir upresise svar Observerbart Om vi ikke kan oppdage variasjoner i det vi er interessert i er det ikke mulig å finne dem Testbart Er spørsmålet formet som noe det går an å avkrefte?
Hva er statistisk power En studies evne til å oppdage forskjeller eller sammenhenger hvis de finnes Tradisjonelt settes ønsket styrke ofte til 0,80 Dvs. at det er 80 % sjanse til å finne forskjeller som er der Eller at vi finner forskjeller som er der i 4 av 5 studier. =Sannsynligheten for å unngå type II feil En type-ii-feil er en statistisk feil som består i en feilaktig godtakelse av nullhypotesen. Hvis man konkluderer at nullhypotesen er sann, selv om den egentlig er falsk, har man altså gjort en type-ii-feil
Hva påvirker Power (styrke) En studies Power påvirkes av: Valgt signifikansnivå (alpha oftest 0.05) Effektstørrelsen på det vi er interessert i Antallet som studeres Ved resultater der vi ikke finner ventede forskjeller kan vi gjøre en post-hoc analyse for å se hvor stor sjansene for å finne noe var Hvis vi har bestemt oss for ønsket Power, Signifikansnivå og ønsket Effektstørrelse, kan vi beregne hvor mange som trenges i en undersøkelse (apriori power analyse)
Hvordan påvirkes Power Power svekkes av Strengere alpha (p<0.001) Mindre effektstørrelse Mindre antall studerte (N) Ved en gitt alpha (0.05) ser det slik ut ved forskjellige effektstørrelser (power på y-akse, antall på x-aksen) 120 100 80 60 40 20 0 10 30 50 80 100 200 500 0.20 0.50 0.80
Hvorfor er dette viktig? Ved å ta hensyn til de forhold som inngår i Powerberegningen, kan vi lage mer effektiv forskning Der vi ikke trenger så mange personer, da det er det som ofte er arbeids- og tidskrevende Vi skal se på delelementene Statistisk signifikansgrense Effektstørrelse Klinisk signifikans Hensikten er å begrense den nødvendige N og å kunne være rimelig sikker på resultatet selv om det er negativt.
Statistisk signifikans Sjansene for å gjøre type I feil Dvs. finne noe som ikke er der I vitenskapelig litteratur er den ganske fastlåst til 0.05 eller mindre (eller tilsvarende konfidensintervall) Ser vi på flere forhold i samme undersøkelse må vi korrigere nivået for dette (Bonferroni) Derfor vil en studie som tester flere hypoteser (som multippel regresjon med flere kovariater) i realiteten ha en alpha mindre enn 0.05 Ved å legge inn kovariater svekker vi altså Power Konsekvens: Jobb med protokollen til du har funnet ut hva som er viktig å få svar på Og still bare det ene spørsmålet! Hva med enhalede tester?
Effektstørrelse Hva er Effektstørrelse: formler M er gjennomsnittsverdi, SD er standardavviket
Cohen s d Psykologen Jacob Cohen (1923-1998) populariserte dette målet på styrken av sammenhenger som ofte kalles for Cohen s d (standardized mean difference) Han foreslo også grove retningslinjer for hva som tilsvarte liten, middels og stor effekt knyttet til størrelsen på d Fordelen med effektstørrelser er at de er relativt uavhengige av opprinnelig måleskala. Man transformerer de opprinnelige tall til antatt sammenliknbare størrelser, noe som anvendes i metaanalyser Størrelsen på d er avhengig av spredningen i de aktuelle data d fra en studie er derfor forskjellig fra d fra en annen studie i absolutt størrelse målt etter skalaen tallene er hentet fra Stor effektstørrelse er derfor forskjellig fra klinisk signifikans
Skjønnsmessige grenseverdier Effect size: Standardized mean difference: (d) small = 0.20 medium = 0.50 large = 0.80 d? r? OR? AUC? Effect size: r Small 0.10 Medium 0.30 Large 0.50 Effect size: Odds-ratio small = 1.50 medium = 2.50 large = 4.30
Andre effektstørrelser Korrelasjonskoeffisienten (r) Odds ratio F Eta squared AUC Input Type Input Value r 0,3000 r d odds ratio f eta-squared AUC 0,3000 0,6290 3,1294 0,3145 0,0900 0,6717
Vi går tilbake til Cohen s formel Altså: Standardized mean difference er Mean1-Mean2/ felles Standardavvik d blir altså større når forskjellene mellom gruppene øker og d blir mindre når spredningen i observasjonene øker
Dette er påvirkbart Ser vi på forskjellen i Mean (M1-M2) kan vi maksimere den på forskjellige måter Vi må bestemme observasjonsmåte Vi må bestemme oss for hvor store (små) forskjeller vi er interessert i (klinisk signifikans) Da er det en fordel å kjenne måleinstrumentet selv Eller kanskje det finnes etablerte grenseverdier av interesse? Stort sett bør vi ta sikte på endringer/ forskjeller som er store nok til å være klinisk observerbare og meningsfulle
Kan vi øke forskjellene? (M 1 -M 2 ) Her kan vi se på måleinstrumentene våre utvalget prosedyrer design
Måleinstrumentene Er det presist Fanger det opp de viktige tingene vi er interessert i (validitet) Fanger det opp irrelevante ting (intern konsistens) Fanger det opp ting vi ikke tror vil endres og/eller konstante ting (manglende endringssensitivitet) Hvor viktige disse tingene er varierer med forskningsspørsmålet kan være annerledes for korrelasjonsstudier enn for effektstudier
Følsomhet Er skalaen lang nok til å fange opp interessante forskjeller Er skalaen sensitiv nok i det området vi er interessert i Dette krever både vurderinger og kanskje kliniske piloter/ utprøvinger
Utvalget Mange hensyn å ta: relevans, generaliserbarhet, unngå bias For å bedre muligheter for tydelige forskjeller mellom grupper: Har du valgt personer med bedringspotensiale (eller variasjoner i tilstanden ved korrelasjonsstudier) uten komorbiditet som påvirker måleinstrumentet uten komorbiditet som påvirker effekten av tiltaket Som er relativt like for å unngå «uhell» under randomisering
Prosedyrer Andre ting enn vår «intervensjon» kan påvirke tilstanden og måleverdien: Tid Person Observeres på «samme» tidspunkt Er personene som skal observere samkjørt Kommunikasjon Er det rom for personlige formuleringer og emosjonspåvirkning Rekkefølger Rekkefølgen kan spille en rolle ved flere typer observasjoner Håndtering av biologiske prøver Avleses urinstiks i samme typen lys Ligger prøvene korrekt tid før analyser Er analyseapparater kalibrert Vi ønsker at mest mulig skal være likt
Randomisering Randomisering sikrer mot skjevhet hvis utvalget er stort, men ikke ved små utvalg Studie Kontroll Menn 8 12 Kvinner 12 8 Sum 20 20 P= 0,21 Kanskje bør vi Matche i par? Kan vi gjøre stratifiserte analyser
Designet Har kontrollgruppen samme grad eller frekvens av det du er interessert i? De dårligste har ofte stort eller lite bedringspotensiale Er kontrollenes vilkår klart forskjellige fra studiegruppen Sammenlikner du ny behandling med en allerede kjent effektiv behandling? Sammenlikner du to risikogrupper med hverandre?
Vi går igjen tilbake til Cohen s formel Altså: Standardized mean difference er Mean1-Mean2/ felles Standardavvik d blir altså større når forskjellene mellom gruppene øker og d blir mindre når spredningen i observasjonene øker
Hva med spredningen? Alle observasjoner inneholder støy og bias Støy er tilfeldig variasjon, bias er systematisk variasjon i en bestemt retning Støy øker spredningen på irrelevant måte Derved vil effektstørrelsen og derfor power minke 120 For å redusere støy kan vi se på Måleinstrumentet Utvalget Prosedyrer 100 80 60 40 20 0.20 0.50 0.80 0 10 30 50 80 100 200 500
Hva med nevneren SD er standardavviket eller s: Den blir mindre når individuelle avvik fra snittet er små, dvs. når populasjonene er homogene Den kan også bli mindre når N vokser (hvis flertallet har små avvik)
Presisjon Måleinstrumentet Fanger det opp bare det vi er interessert i (validitet, intern konsistens) Har det en iboende liten irrelevant spredning Inter-rater reliabilitet Test-retest reliabilitet Alternate forms reliabilitet Sammenlikne med gullstandard
Utvalget Har vi utvalg som er relativt like for det aktuelle måleinstrument (og for alminnelig klinisk gangsyn og for dokumenterte variasjoner) Kan særlige problemstillinger øke spredningen kunstig (rusmidler, funksjon, sykdom, kriser, alder, kjønn.) Bør vi sikre oss liten spredning med inklusjons- og eksklusjonskriterier Kan gå utover rekrutteringen En kan få mer like utvalg ved matching og stratifisering
Prosedyrer Andre ting enn kan påvirke våre observasjoner og gi irrelevant spredning, ikke bare pga observasjonsmåten, men også fordi folk er påvirkbare: Tid Observeres på «samme» tidspunkt Person Er personene som skal observere samkjørt Kommunikasjon Er det rom for personlige formuleringer og emosjonspåvirkning Rekkefølger Rekkefølgen kan spille en rolle ved flere typer observasjoner Håndtering av biologiske prøver Avleses urinstiks i samme typen lys Ligger prøvene korrekt tid før analyser Er analyseapparater kalibrert Vi ønsker igjen at mest mulig skal være likt
En observatør Observatørene Dagsform Trening/ hyppighet av skåring Sym- og antipatier Ulike referanserammer De umiddelbare og nære omgivelser kan farge vurderinger Flere observatører Er de samkjørt skårer de like ting likt? Opplæring, trening, Omgivelser/ setting Trenger du å dokumentere inter-rater reliabilitet? Kan du bruke konsensus som endepunkt
Samarbeid Har man laget strenge inklusjonseksklusjonskriterier blir rekruttering raskt et problem Samarbeid mellom flere enheter er da en mulighet for å øke rekruttering Enheter er forskjellige på mange vis Dette kan utsette både størrelsen på oppnådd endring og spredningen for fare Flere enheter gir logistiske og prosedyremessige problemer og en bør vurdere om det svarer seg
Bias Bias er systematiske skjevheter i utvalg, prosedyrer eller observasjoner Hvis de er planlagte er det forskningsjuks! Mens tilfeldige variasjoner gir uklare svar, vil Bias gi feil svar Vanlige tiltak mot bias er Randomisering Blinding Likebehandling Crossover designs Unngå frafall Bindende analyseplan
Frafall Stort frafall reduserer N som kan analyseres og kan øke standardavviket, og svekker Power Et annet problem er at de frafalne kan skjule viktige deler av sannheten (F. eks. bivirkninger) Særlig om frafallet er skjevfordelt bør en tenke på dette Skjevt frafall kan i verste fall føre til helt feil konklusjon
Vi må prøve å hindre frafall Ikke gjøre deltakelse verre enn vi må Vise takknemlighet og folkeskikk Vise entusiasme og motivere deltakere Inklusive samarbeidspartnere Premier? Aktiv oppfølging/ purring (be om tillatelse ved samtykket) Kan vi kompensere frafall med analyser?
Blinding Ideelt sett skulle ingen av de som deltar i arbeidet, hverken som pasienter eller forskere/ assistenter ha peiling på hva som foregår. Det kan være vanskelig Det er lettere å forkle en pille enn et lengre terapiprogram, lysbehandling, opplæring og trening. Man kan bedre dette ved at de som skårer hovedresultater er blindet Pasientene selv kan også skåre, men relevansen til en del kliniske størrelser kan være uklar, og de er heller ikke upåvirkelige
Oppsummert: Det er en stor fordel å vite nøyaktig hva vi lurer på Vi må maksimere gruppeforskjeller Vi må minimere tilfeldig støy i observasjonene Vi må motvirke bias