Kunnskapsbasert fysioterapi - kritisk vurdering av et randomisert kontrollert forsøk, RCT

Fysioterapeuten nr. 6/2000: Kritisk vurdering av studier, critical appraisal, er tema for denne artikkelen. Dette er femte artikkel i en serie om kunnskapsbasert fysioterapi. De fire første sto i FYSIOTERAPEUTEN nr. 1, 2, 3 og 5/2000. Kunnskapsbasert fysioterapi - kritisk vurdering av et randomisert kontrollert forsøk, RCT Gro Jamtvedt Gunvor Hilde Fysioterapi er et tiltaksrettet fag. Både brukere og samarbeidspartnere forventer at fysioterapeuter behandler og gir råd som har en ønsket effekt. Det randomiserte kontrollerte forsøk anses som det best egnede design for å evaluere virkningen av et tiltak og benyttes i økende grad for å evaluere tiltak også innen fysioterapi. Det er derfor viktig å tilegne seg kunnskap på området og ferdigheter til å vurdere publikasjoner med et slikt design. Hva er et randomisert kontrollert forsøk? Det randomiserte kontrollerte forsøk (the randomised controlled trial, RCT) kalles gjerne for gullstandarden når det gjelder å evaluere effekt eller virkning av et tiltak, det være seg forebygging, behandling eller rehabilitering (1, figur 1). Studiedesignet innebærer at man starter med en populasjon eller gruppe mennesker og foretar en tilfeldig fordeling, randomisering, av personene til to eller flere grupper. Den ene gruppen, ofte kalt intervensjonsgruppen, får et tiltak som skal prøves ut. Den andre gruppen, kontrollgruppen, får et kontrolltiltak eller ingen behandling. Man måler så utfall i begge gruppene, for eksempel smerte og funksjon før og etter at tiltaket er gitt. Det er viktig å ha en kontrollgruppe når effekten eller virkningen av et tiltak skal undersøkes. Uten kontrollgruppe kan vi ikke være sikre på om en observert endring skyldes tiltaket vi har gitt, eller om den bare er et resultat av sykdommens naturlige forløp. Tenk deg en undersøkelse som evaluerer effekten av fysioterapi for akutte ryggplager. Dersom studien ikke har kontrollgruppe, kan det tenkes at en observert effekt etter for eksempel seks uker skyldes det naturlige forløpet av sykdommen og ikke effekten av behandlingen. Figur 2 viser hvor lang tid det går før pasienter som er sykemeldt i over to uker på grunn av korsryggsmerter, er tilbake i jobb (2). Kurven viser at det ved seks uker er cirka 50 prosent som er tilbake på jobb, uavhengig av tiltak. Fysioterapi i denne fasen vil tilsynelatende ha god effekt, rett og slett fordi pasienten i alle tilfeller ville blitt bedre. Bare en kontrollert studie kan svare på om fysioterapi påvirker dette forløpet. Tilfeldig fordeling til intervensjons- og kontrollgruppe via randomisering er viktig for å få sammenlignbare grupper. Tilfeldig fordeling får vi i prinsippet ved å slå mynt og kron, men i praksis skjer det på andre måter, for eksempel via et dataprogram. To grupper som skal sammenlignes bør være så like som mulig med hensyn til alt som kan påvirke utfallet, både kjente faktorer og ikke minst ukjente faktorer som kan påvirke sykdomsforløpet. Disse faktorene kalles prognostiske faktorer. Hvis vi vil undersøke effekten av avspenning på kroniske smertepasienter, er det uheldig hvis de med sterkest smerter kommer i en gruppe og de med mer moderate smerter kommer i den andre. Omfatter gruppene tilstrekkelig mange personer, sørger randomiseringen for en balansering av slike faktorer. Ved bruk av RCT bør man kunne si at en observert forskjell mellom gruppene etter at tiltaket er gitt, skyldes selve tiltaket og ikke andre utenforliggende faktorer. En RCT kan bare klargjøre om et tiltak har, eller ikke har, effekt. Andre metoder, blant annet kvalitative studier eller laboratorieforskning, må brukes for å forklare hvorfor og hvordan noe virker. Sjekkliste for å vurdere en RCT Det er utviklet flere sjekklister med spørsmål til bruk ved kritisk vurdering av vitenskapelige artikler, blant annet ved vurdering av en RCT (3-8). The Cochrane Colloquium har egne retningslinjer for hvordan en skal vurdere denne typen studier, blant annet for systematiske oversikter (9). Utdanningsgruppa ved Seksjon for helsetjenesteforskning på Folkehelsa har på bakgrunn av eksisterende lister utviklet en norsk sjekkliste (figur 3, side 12). Sjekklisten er brukt i ulike utdanningsopplegg og benyttes da som regel etter en introduksjon. Introduksjonen forklarer prinsippene for en RCT og drøfter spørsmålene i sjekklisten slik vi gjør i denne artikkelen. Sjekklisten kan imidlertid også brukes uten denne introduksjonen og være et verktøy som kan stå alene for bruk i praksis og undervisning. De fleste spørsmål i sjekklisten skal besvares med «ja», «nei» eller «vet

ikke». To personer vil ofte vurdere en artikkel forskjellig. Dette gir grunnlag for interessante diskusjoner knyttet til kvalitet, resultater og overføringsverdi av resultatene. Hver person vil tilføre denne diskusjonen sine erfaringer og verdirammer. «Vi må enes om å være uenige fordi absolutte sannheter ikke finnes i litteraturen», sier redaktøren av et internasjonalt fysioterapitidsskrift i en leder (10). Tenk deg nå følgende situasjon: Du arbeider som fysioterapeut i privat praksis i en kommune med 20.000 innbyggere. Du og dine åtte kolleger vurderer å erstatte noe av den individuelle behandlingen med gruppetilbud. Kvinner med fibromylagi er en aktuell målgruppe. Før dere bestemmer dere, ønsker du å finne ut om det eksisterer forskning knyttet til nytten av gruppetrening hos denne pasientgruppen og i tilfelle hvilken dosering som er den mest hensiktsmessige. Du leter først etter systematiske oversikter innen feltet, men finner ingen. Via søk i Medline får du mange treff, men stopper opp ved følgende artikkel: Mengshoel AM, Komnæs HB, Førre Ø: The effect of 20 weeks of physical fitness training in female patients with fibromyalgia. Clinical and Experimental Rheumatology 1992, 10, 345-9. I studien ble 34 pasienter inkludert og randomisert til trenings- og kontrollgruppe. Treningsgruppen fikk et «low-impact» aerobic program to ganger per uke i 20 uker. Kontrollgruppen ble bedt om ikke å endre sine treningsvaner i denne perioden. Utfallsmål var blant annet utholdenhet, styrke, smerte, smertemestring og tretthet. Resultatene viste at treningsgruppen ikke fikk økning av smerter eller tretthet og den dynamiske muskelstyrken bedret seg. Du synes artikkelen virker relevant og bestiller den for å vurdere den grundigere. Sjekklisten for kritisk vurdering av en RCT finner du i figur 3. Den er inndelt i fire. Første del samsvarer med de to spørsmålene som ble omtalt i introduksjonsartikkelen til kritisk vurdering som ble publisert i FYSIOTERAPEUTEN 5/2000. Vi vil ikke vurdere artikkelen til Mengshoel med flere konkret fordi dere ikke har den foran dere, men tenkte problemstillinger knyttet til artikkelen vil presenteres underveis. Innledende spørsmål 1. Er hensikten/spørsmålet i studiet presist formulert? Er hensikten eller spørsmålet fokusert? Kommer det klart frem hvilke deltagere eller hvilken populasjon som studeres, hvilket tiltak som prøves ut, hva det eventuelt sammenlignes med, hvilke resultater eller utfallsmål, som for eksempel kondisjon, smerte eller mestring, man er opptatt av i studien? 2. Er et randomisert kontrollert forsøk et egnet design for å besvare spørsmålet? Handler spørsmålet om effekt eller virkning av et tiltak? Er det etisk riktig å gjennomføre et randomisert kontrollert forsøk? Kan du stole på resultatene? Ved hjelp av de sju spørsmålene i denne delen av sjekklisten, kan du foreta en vurdering av den interne validiteten av undersøkelsen. Intern validitet eller gyldighet, er knyttet til om det er sannsynlig at de rapporterte effektene faktisk skyldes tiltaket som evalueres (11). Man er her på utkikk etter systematiske feil, også kalt bias eller skjevheter, som vil kunne forfordele den ene av sammenligningsgruppene og gi en skjevhet eller forskyvning i resultatet. Vi sier at en studie har god metodisk kvalitet eller er valid hvis vi er rimelig sikre på at systematiske feil ikke foreligger. Hvis man raskt skal avgjøre om en artikkel har god kvalitet, kan man oftest gjøre det ved å vurdere metodeavsnittet. Her gis det meste av informasjonen man trenger for å vurdere om resultatene er til å stole på, det vil si hvorvidt studien er beheftet med systematiske feil. Er studien dårlig gjennomført, har det derfor liten verdi å gå videre til resultatdelen (5). 3. Ble utvalget fordelt til forsøk- og kontrollgruppe ved bruk av en tilfredsstillende randomiseringsprosedyre? Ved en god randomiseringsprosedyre skal hver deltager ha like stor mulighet til å komme i intervensjonsgruppen som kontrollgruppen. Randomiseringen er tilfredsstillende dersom den skjer skjult, via lukkede konvolutter, computer-baserte program, tabeller eller lignende. Slike prosedyrer gjør det umulig å påvirke fordelingen av deltagere til intervensjons- og kontrollgruppe. Hvis fordelingen skjer åpent kan det for eksempel være fristende å sende pasienten til kontrollgruppen, dersom man forstår at han er lite motivert for trening. Eksempler på en ikke skjult prosedyre for fordeling, er etter prinsippet «annenhver», bruk av fødselsdatoer eller journalnummer. Slike fordelingsprosedyrer kalles ofte «quasi randomisering». 4. Var gruppene like ved oppstart av studiet/var det like grupper ved baseline? Selv om en god randomiseringsprosedyre er benyttet, kan likevel viktige faktorer fordele seg ujevnt i gruppene som skal sammenlignes. Faren for en slik ujevn fordeling er særlig stor ved studier med små utvalg, det vil si få deltagere. Forfatterne bør derfor vise, i tekst eller tabeller, at gruppene var like etter randomisering. Spesielt

viktig er det at faktorer som kan påvirke utfallet, eksempelvis prognostiske faktorer som alder, smerte, kjønn og sosial klasse, er likt fordelt i de gruppene som sammenlignes. Ulik fordeling av prognostiske faktorer er uheldig, fordi en eventuelt observert forskjell mellom gruppene etter tiltaket er gitt kan skyldes disse forskjellene og ikke selve tiltaket. Dersom deltagerne i treningsgruppen i studien til Mengshoel med flere for eksempel var yngre eller hadde mer smerter enn kontrollgruppen, vil dette kunne ha påvirket resultatet. 5. Ble gruppene behandlet likt bortsett fra tiltaket som evalueres? Tenk deg hvis kvinnene i treningsgruppen i studien til Mengshoel med flere, i tillegg til treningsopplegget som skal evalueres, fikk råd om avspenning og stressmestring. I en slik situasjon er det umulig å vite om en effekt skyldes det ene, det andre, eller kombinasjonen av begge tiltakene. Tilleggstiltak bør unngås eller være like i gruppene som sammenlignes. Det er derfor viktig at studien har en strikt protokoll som beskriver tiltaket og eventuelt kontrolltiltaket. 6. Ble deltagere og behandlere/helsepersonell «blindet» med hensyn til forsøk- og kontrolltiltak? I medikamentutprøving er det mulig å gjennomføre undersøkelser, der hverken deltagere eller de som gir medikamentet vet hvem som får aktive piller og hvem som får narrepiller. Vi sier at deltagerne og behandlerne er «blindet». Slike studier kalles «dobbel-blind» studier. Det er viktig å «blinde» forsøkspersonene ellers kan placeboeffekten gjøre at de som vet at de får en ny og potensiell bedre behandling, føler seg bedre. Placeboeffekten er den terapeutiske effekten av hele behandlingssituasjonen (12), det vil si en effekt som ikke direkte kan tilskrives tiltaket, men en forventning om bedring. Hvis eksempelvis hodepinepasienter får uvirksomme legemidler, vil opptil 80 prosent av dem likevel respondere på behandlingen. Ved å blinde behandleren, ikke å la vedkommende få vite hvilken gruppe deltageren tilhører, unngår man at behandleren fristes til å gi intervensjonsgruppen mer oppmerksomhet, sympati eller grundigere undersøkelser enn kontrollgruppen. I de fleste fysioterapistudier er det umulig å skjule for deltagerne hvilken gruppe de tilhører, og det samme gjelder for behandlerne. I studier som for eksempel evaluerer effekten av elektroterapi eller ultralyd, er blinding imidlertid mulig og bør gjennomføres. Ved kritisk vurdering av et randomisert kontrollert forsøk bør man derfor vurdere om «blinding» var mulig, i så fall hvorvidt det var utført og hvordan man vurderer muligheten for at manglende blinding kan ha påvirket resultatene. 7. Er det gjort rede for frafall, og har man tatt hensyn til dette i analysen? Alle undersøkelser mister deltagere underveis. De kan trekke seg, bli syke, flytte eller utebli av andre årsaker. Eksempelvis kan deltagere bli borte fordi de ble verre av et tiltak eller ikke var motiverte til å fullføre en treningsintervensjon. Forfatterne bør derfor redegjøre for det antall som forsvinner fra studien og om mulig begrunne frafallet. Dette er viktig fordi deltagere som forsvinner kan skille seg fra de som ble igjen, og deres fravær vil kunne påvirke resultatene i studien. Man bør derfor se på antall personer (n) i intervensjons- og kontrollgruppene og se om antallet forandres ved de ulike analysetidspunktene. Man bør også se etter om frafallet er større eller mindre i en av gruppene. Dersom frafallet er ulikt i de gruppene man sammenligner, eller totalt sett er >20 prosent, bør forskerne ha foretatt justerende analyser for å undersøke hvorvidt frafallet påvirker resultatet. Dersom frafallet for eksempel var dobbelt så stort i treningsgruppen som i kontrollgruppen i studien til Mengshoel med flere hvordan skal man tolke det? 8. Ble alle deltagerne i studiet analysert i den gruppen de ble randomisert til («intention to treat» analyse)? Dette spørsmålet henger noe sammen med spørsmål sju, men handler om deltagere som av ulike grunner ikke mottar tiltaket eller behandlingen de er randomisert til. Dersom flere av kvinnene i kontrollgruppen til Mengshoel også hadde begynt å trene, eller flere kvinner i treningsgruppen faktisk ikke møtte til trening hvordan skulle man forholde seg til disse personene? Det kan være fristende å flytte disse deltagerne ut av gruppene de opprinnelig var randomisert til under analysen av data, men en slik manøver spolerer den opprinnelige randomiseringen. Det er altså viktig at deltagerne analyseres i den gruppen de opprinnelig ble fordelt til. Sjekk derfor alltid om forfatterne har gjennomført en slik analyse «intention to treat» analyse. 9. Var forskeren eller observatøren som utførte pre- og posttester blindet for hvem som var forsøks- og kontrollperson, og var tidsintervallet mellom pre- og posttester likt for forsøks- og kontrollgruppe?

I de fleste studier er det mulig å blinde den som foretar utfallsmålingene (outcome assessor). Det betyr at denne personen ikke vet hvilken gruppe deltageren som blir testet, tilhører. I en norsk studie som sammenlignet kirurgi med slyngebehandling for skulderpasienter ble for eksempel alle pasientene etterundersøkt med T-skjorte på for å unngå synlige operasjonsarr (13). Dersom den som tester utfall kjenner hvilken gruppe den enkelte deltager kommer fra, kan hun lett, bevisst eller ubevisst, påvirke utfallsmålet. Dette er særlig aktuelt ved subjektive målemetoder. Tidsintervallet mellom måletidspunkt bør være likt i gruppene som sammenlignes. Tid kan nemlig være en faktor som påvirker utfallet. Hvis du sammenfatter spørsmål seks og ni, som begge handler om blinding, hvordan kunne dette vært ivaretatt på beste måten i treningsstudien til Mengshoel med flere? Oppsummering av intern validitet: Kan du stole på resultatene? På bakgrunn av spørsmålene tre til ni kan du skaffe deg en formening om den interne validiteten eller metodiske kvaliteten på en studie. I internasjonale tidsskrifter pågår det diskusjoner, både innen medisin og fysioterapi, om hvordan man kan vurdere metodisk kvalitet på den beste måten (9, 14), spesielt når man foretar en sammenligning av studier i oversiktsartikler. For kritisk å vurdere en RCT i undervisningssammenheng og for faglig oppdatering i praksis, mener vi spørsmålene i denne sjekklisten er dekkende. Dersom man finner at en artikkel har tilfredsstillende kvalitet, er tiden inne til å se på resultatene. Hva forteller resultatene? 10. Hva er resultatet i denne studien? En studie bør med enkle ord formulere hva som er hovedresultatet. For eksempel at treningsgruppen i gjennomsnitt hadde 30 prosent økning i utholdenhet mot gjennomsnitt ti prosent økning i kontrollgruppen. I fysioterapistudier benyttes ofte utfallsmål som gir en sumscore eller verdi på en skala, for eksempel fra 0-100. Resultatet presenteres oftest som differansen mellom gjennomsnittsverdiene etter at tiltaket er gitt. For eksempel kan intervensjonsgruppen ha en funksjonsforbedring på 25 på skalen fra 0-100 (fra 50 75) sammenlignet med en forbedring på ti (fra 50-60) i kontrollgruppen. Man beregner via statistiske metoder om de to verdiene (60 og 75) er signifikant forskjellige. Det vil si at man beregner sannsynligheten for at de observerte forskjellene ikke skyldes tilfeldigheter. Som regel ønsker man at denne sannsynligheten for tilfeldigheter skal være under en viss verdi, oftest med en øvre grense på fem prosent (p< 0,05). Jo mindre p-verdi, jo større er sannsynligheten for at forskjellen ikke har oppstått ved en tilfeldighet, men skyldes en sann forskjell. Så kan forfatterne og leseren vurdere om den statistiske forskjellen er en klinisk viktig forskjell. For eksempel kan et treningsopplegg sammenlignet med et annet vise statistisk signifikant forbedring av gangavstand på ti meter hos pasienter med coxarthrose. Vi kan vurdere om dette resultatet i det hele tatt har klinisk eller praktisk betydning for pasienten, og om det på bakgrunn av resultatet er grunnlag for å anbefale det ene opplegget fremfor det andre. Effekten kan også oppgis som en andel eller ratio hvis utfallsmålet gis som et dikotomt (todelt) utfall, det vil si to gjensidig utelukkende kategorier, for eksempel «postoperative komplikasjoner» eller «ikke-postoperative komplikasjoner». Da beregner man andelen av komplikasjoner i intervensjonsgruppen og dividerer dette med andelen i kontrollgruppen og får en relativ risiko. Hvis denne tallverdien er under en, betyr det at tiltaket beskytter mot komplikasjoner. Hvis tallverdien er over en, gir tiltaket flere postoperative komplikasjoner. En p-verdi på under fem prosent betyr at den forskjellen vi ser mellom gruppene ikke skyldes tilfeldigheter. En relativ risiko lik en vil det si at det ikke er noe forskjell mellom gruppene (likt tall over og under brøkstreken). 11. Hvor presist er resultatet? Presisjonen forteller hvor stor usikkerhet det er knyttet til resultatet (effektstørrelsen). Dette kan gis som et spredningsmål for eksempel i form av standardavvik, SD, eller som et konfidensintervall, CI. De fleste mener at det å oppgi konfidensintervall er den beste måten å vise usikkerhet knyttet til effektstørrelsen. Konfidensintervallet er det området hvor man med en gitt sikkerhet, for eksempel 95 prosents sikkerhet, kan si at det virkelige resultatet foreligger. Jo bredere dette intervallet er, jo mer usikkerhet er det knyttet til effektmålet. Som regel vil utvalgsstørrelsen påvirke sikkerheten; jo større utvalg jo mer presis effektstørrelse. Kan resultatene overføres til praksis? Vi har nå vurdert intern validitet og resultatene i undersøkelsen. Den siste delen av sjekklisten er knyttet til anvendbarheten eller relevansen av resultatene. Dette kalles ofte ekstern validitet eller generaliserbarhet.

12. Kan resultatene overføres til den lokale befolkning/pasientgruppe? Tror du at de personene som er inkludert i studien er like de menneskene du møter i din egen praksis? Dersom studien til Mengshoel med flere var gjennomført blant kvinner bosatt i Oslo, er det da grunn til å tro at resultatene kan overføres til kvinner bosatt i en liten vestlandskommune? 13. Ble alle viktige utfalls-/resultatmål evaluert i dette studiet? Det er viktig at undersøkelsen har evaluert de resultatene du mener er viktige i forhold til tiltaket som er gitt. Tenk hvis undersøkelsen blant kvinnene med fibromyalgi bare hadde målt oksygenopptak og styrke, hva ville du savnet? Hvilken betydning kunne dette få for hvorvidt du ville benyttet resultatene fra denne undersøkelsen i din egen praksis? 14. Er tiltaket godt beskrevet og gjennomførbart i din praksis? Er for eksempel øvelsesutvalg og dosering så godt beskrevet at du kunne ta treningsopplegget i bruk i din praksis? Hvis dette er mangelfullt beskrevet har studien begrenset nytte for praksisfeltet. 15. Er nytten av tiltaket verdt kostnadene og eventuelle bivirkninger? I de fleste fysioterapistudier blir ikke dette evaluert. Slike betraktninger vil være aktuelle i tilfeller der intervensjonen sammenlignes med langt billigere intervensjoner, eller hvis tiltaket kan ha uheldige bivirkninger. 16. Sammenfaller resultatene i denne studien med resultatene i andre tilgjengelige studier? Kjenner du andre forskningsresultater innen samme felt? Dersom flere gode studier har resultater som peker i samme retning, styrker det troverdigheten av studien du har foran deg. Oppsummering På bakgrunn av spørsmålene i sjekklisten bør du kunne avgjøre om undersøkelsen er av god kvalitet og om den er nyttig for deg i undervisning eller praksis. Noen vil hevde at sjekklisten er for omfattende, mens andre igjen vil savne viktige tema. For eksempel kan noen savne spørsmål tilknyttet målemetodene som er benyttet, om de er valide (om testen måler det som skal måles), om de er reliable (om man får samme resultat hver gang), og om de er følsomme for endring. Det vil være meningsløst å vurdere et fysioterapitiltak med et randomisert kontrollert forsøk uten å benytte måleinstrumenter som kan fange opp det man ønsker å påvirke. Likevel innfrir ikke alle studier når det gjelder bruk av gode målemetoder, og for leseren er det ikke alltid enkelt å vurdere nettopp dette. Det krever at man kjenner til forsk-ning knyttet til den enkelte målemetoden. Dersom man ikke kjenner til kvaliteten på de målemetodene studiet har benyttet, så sjekk i alle fall om forfatterne har referanse på metodene. Sjekklisten som er presentert egner seg godt til bruk i undervisning og i smågrupper på arbeidsplassen. Kritisk vurdering av artikler representerer et trinn i utøvelsen av kunnskapsbasert fysioterapi og er en god start for å initiere interesse for forskningsresultater og kritisk refleksjon over praksis. Så hvorfor ikke bestille artikkelen til Mengshoel med flere og prøve ut sjekklisten på neste fagmøte?