Kunnskapsbasert fysioterapi - kritisk vurdering av et randomisert kontrollert forsøk, RCT



Like dokumenter
Sjekkliste for vurdering av en randomisert kontrollert studie (RCT)

SJEKKLISTE FOR VURDERING AV EN RANDOMISERT KONTROLLERT STUDIE (RCT) Målgruppe: studenter og helsepersonell Hensikt: øvelse i kritisk vurdering

SJEKKLISTE FOR VURDERING AV EN RANDOMISERT KONTROLLERT STUDIE (RCT)

Kurs i kunnskapshåndtering å finne, vurdere, bruke og formidle forskningsbasert kunnskap i praksis. Hege Kornør og Ida-Kristin Ørjasæter Elvsaas

Sjekkliste for vurdering av en kohortstudie

Kunnskapshierarkiet- Hva betyr det for oss? Olav M. Linaker 2011

SJEKKLISTE FOR VURDERING AV EN KOHORTSTUDIE

Kunnskapsbasert fysioterapi Kritisk vurdering av en oversiktsartikkel, review article

Sjekkliste for vurdering av en kasuskontrollstudie

Tverrfaglig ryggpoliklinikk

STUDIEÅRET 2012/2013. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 27. august 2013 kl

Hvordan Kunnskapsesenterets

Mer om hypotesetesting

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Mandag 13. april 2015 kl

Regional forskingskonferanse for Psykiatri og rusfeltet Vår Olav M. Linaker PH, St. Olavs Hospital/INM, NTNU

STUDIEÅRET 2012/2013. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Onsdag 24. april 2013 kl

Løsningsforslag Til Statlab 5

Sjekkliste for vurdering av en kvalitativ studie

Hvordan kvalitetsvurderer vi

ADDISJON FRA A TIL Å

Hva kan bidra til å styrke vår emosjonelle utvikling, psykiske helse og positive identitet?

Hvordan forstå meta-analyse

Hvor finner du svaret? En introduksjon til informasjonskilder og databasesøking

EKSAMENSBOOST - TIPS OG RÅD. Ingrid Sand og Linda Therese Sørensen MN-fakultetet

Banesykling i Stangehallen. Styrketrening - Karma kl:20:00. Spinning - FSC / Terningen Arena

Hva er demens? I denne brosjyren kan du lese mer om:

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak

Metodisk arbeid. Strukturert arbeidsmåte for å nå et bestemt mål

Sammendrag. Innledning

Tilbakemeldinger fra klienter kan gi bedre behandling

Forespørsel om deltakelse i forskningsprosjektet. Gjør behandling med botulinumtoksin A (Botox) det lettere å gå for barn/unge med cerebral parese?

Fagetisk refleksjon -

Kunnskapsesenterets nye PPT-mal

CONSORT Consolidated Standards of Reporting Trials

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 25. august 2015 kl

Spinning - FSC / Terningen Arena

SJEKKLISTE FOR VURDERING AV EN FAGLIG RETNINGSLINJE

Introduksjon til Friskhjulet

Effekten af styrke- og balancetræning for personer med demens på plejehjem

Moralsk relativisme. Anders Strand, IFIKK, UiO Ex.Phil. Høstsemesteret 2012


Hvordan gjennomføre et tilbakemeldingsmøte i egen enhet? Kontakt informasjon tlf: sensus@sensus.no

Kunnskapsbasert praksis på Kunnskapsesenterets legemiddelområdet hvordan gjør vi nye PPT-mal det?

Veiledning og tilleggsoppgaver til kapittel 8 i Her bor vi 2

God tekst i stillingsannonser

Kunnskapssenteret - hva kan vi tilby psykisk helse feltet?

Page 1 EN DAG PÅ HELSESTASJONEN. Lises klassevenninnner. Formelen: Du har en hypotese om vanlig høyde

«Litterasitetsutvikling i en tospråklig kontekst»

Mestringsforventninger i matematikk. Learning Regions Karin Sørlie, Ingrid Syse & Göran Söderlund

Møteplass for mestring

6. Skal det alltid utarbeides plan og avholdes dialogmøte?

* Fra Lykketyvene. Hvordan overkomme depresjon, Torkil Berge og Arne Repål, Aschehoug 2013.

Ungdomstrinn- satsing

Utdrag fra Beate Børresen og Bo Malmhester: Filosofere i barnehagen, manus mars 2008.

nye PPT-mal bruk av legemidler i sykehjem Louise Forsetlund, Morten Christoph Eike, Elisabeth Gjerberg, Gunn Vist

VEDLEGG 3 SJEKKLISTE FOR Å VURDERE KVALITATIV FORSKNING

Samlet rapport fra evalueringen HEL907 høst 2015.

Grunnleggende statistikk. Eva Denison 25. Mai 2016

Kritisk refleksjon. Teorigrunnlag

Finne litteratur. Karin Torvik. Rådgiver Senter for Omsorgsforskning, Midt Norge Høgskolen i Nord Trøndelag

Sjekkliste for vurdering av en studie som tester en ny diagnostisk test

Forskjellige typer utvalg

Soloball. Steg 1: En roterende katt. Sjekkliste. Test prosjektet. Introduksjon. Vi begynner med å se på hvordan vi kan få kattefiguren til å rotere.

Fortelling 3 ER DU MIN VENN?

Å utvikle observasjonskompetanse

Kunnskapsbasert praksis det har vi ikke tid til! Hva er kunnskapsbasert praksis? Trinnene i kunnskapsbasert praksis

Evaluering av atferdsanalytisk behandling: Lettere sagt enn gjort?

Livet til det lykkelige paret Howie og Becca blir snudd på hodet når deres fire år gamle sønn dør i en ulykke.

Evaluering av kurs i «Mindfulness/oppmerksomt nærvær for pårørende» i PIO-senteret - høst 2011

Maskulinitet, behandling og omsorg Ullevål sykehus Marianne Inez Lien, stipendiat. Sosiolog. Universitetet i Agder.

Denne serien med plansjer viser foreløpige resultater for første halvår 2014 for koloskopier (kikkertundersøkelse av hele tykktarmen) som er

Før jeg begynner med råd, synes jeg det er greit å snakke litt om motivasjonen. Hvorfor skal dere egentlig bruke tid på populærvitenskaplig

Nyhetsbrev fra stiftelsen TO SKO Mai Salig er de som ikke ser, og likevel tror

«State of the art» knyttet til effektive tiltak innen fysisk aktivitet

Høringsnotat. Forskrift om farmakogenetiske undersøkelser

ter». Men det er et problem med denne påstanden, for hvis den er absolutt sann, så må den være absolutt usann.

Ben Goldacre er lege og forfatter. Hans første bok Kvakksalverne ble nummer én på den britiske sakprosalisten, solgte over eksemplarer bare i

Metoderapport (AGREE II, 2010-utgaven)

Nysgjerrigper. Forskningsrådets tilbud til barneskolen. Annette Iversen Aarflot Forskningsrådet, 13.november 2015 Nysgjerrigperkonferansen 2015.

HVORDAN KAN MÅLINGER BIDRA TIL FORBEDRING? ved Maria Fornes

Bygging av mestringstillit

Placebo effekten en nyttig tilleggseffekt i klinisk praksis?.

Arbeid med sosiometrisk undersøkelse.

Intravenøse infusjoner i PVK og SVK - METODERAPPORT

6.2 Signifikanstester

ARBEIDSKRAV 2A: Tekstanalyse. Simon Ryghseter

Aktiviteter elevrådet kan bruke

Etterarbeid til forestillingen «stor og LITEN»

Vaksine mot livmorhalskreft - så flott! Så hvorfor ikke udelt entusiasme?

Referat fra møte i Samordningsutvalget for praksis i grunnskolen

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Evaluering av sykling mot enveiskjøring i Sandefjord sentrum. Førundersøkelse

Oppsummering av forskning om tiltak Kunnskapsesenterets for å utjevne sosiale forskjeller nye PPT-mal i kosthold og fysisk aktivitet

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Kommunikasjonsstil. Andres vurdering. Navn på vurdert person: Ole Olsen. Utfylt dato:

Mer kunnskap om nytte av trening ved Huntington's sykdom

Bedømmelse av usikkerhet

LP-modellen (Læringsmiljø og pedagogisk analyse)

LIS. Torunn E Tjelle, FHI

Transkript:

Fysioterapeuten nr. 6/2000: Kritisk vurdering av studier, critical appraisal, er tema for denne artikkelen. Dette er femte artikkel i en serie om kunnskapsbasert fysioterapi. De fire første sto i FYSIOTERAPEUTEN nr. 1, 2, 3 og 5/2000. Kunnskapsbasert fysioterapi - kritisk vurdering av et randomisert kontrollert forsøk, RCT Gro Jamtvedt Gunvor Hilde Fysioterapi er et tiltaksrettet fag. Både brukere og samarbeidspartnere forventer at fysioterapeuter behandler og gir råd som har en ønsket effekt. Det randomiserte kontrollerte forsøk anses som det best egnede design for å evaluere virkningen av et tiltak og benyttes i økende grad for å evaluere tiltak også innen fysioterapi. Det er derfor viktig å tilegne seg kunnskap på området og ferdigheter til å vurdere publikasjoner med et slikt design. Hva er et randomisert kontrollert forsøk? Det randomiserte kontrollerte forsøk (the randomised controlled trial, RCT) kalles gjerne for gullstandarden når det gjelder å evaluere effekt eller virkning av et tiltak, det være seg forebygging, behandling eller rehabilitering (1, figur 1). Studiedesignet innebærer at man starter med en populasjon eller gruppe mennesker og foretar en tilfeldig fordeling, randomisering, av personene til to eller flere grupper. Den ene gruppen, ofte kalt intervensjonsgruppen, får et tiltak som skal prøves ut. Den andre gruppen, kontrollgruppen, får et kontrolltiltak eller ingen behandling. Man måler så utfall i begge gruppene, for eksempel smerte og funksjon før og etter at tiltaket er gitt. Det er viktig å ha en kontrollgruppe når effekten eller virkningen av et tiltak skal undersøkes. Uten kontrollgruppe kan vi ikke være sikre på om en observert endring skyldes tiltaket vi har gitt, eller om den bare er et resultat av sykdommens naturlige forløp. Tenk deg en undersøkelse som evaluerer effekten av fysioterapi for akutte ryggplager. Dersom studien ikke har kontrollgruppe, kan det tenkes at en observert effekt etter for eksempel seks uker skyldes det naturlige forløpet av sykdommen og ikke effekten av behandlingen. Figur 2 viser hvor lang tid det går før pasienter som er sykemeldt i over to uker på grunn av korsryggsmerter, er tilbake i jobb (2). Kurven viser at det ved seks uker er cirka 50 prosent som er tilbake på jobb, uavhengig av tiltak. Fysioterapi i denne fasen vil tilsynelatende ha god effekt, rett og slett fordi pasienten i alle tilfeller ville blitt bedre. Bare en kontrollert studie kan svare på om fysioterapi påvirker dette forløpet. Tilfeldig fordeling til intervensjons- og kontrollgruppe via randomisering er viktig for å få sammenlignbare grupper. Tilfeldig fordeling får vi i prinsippet ved å slå mynt og kron, men i praksis skjer det på andre måter, for eksempel via et dataprogram. To grupper som skal sammenlignes bør være så like som mulig med hensyn til alt som kan påvirke utfallet, både kjente faktorer og ikke minst ukjente faktorer som kan påvirke sykdomsforløpet. Disse faktorene kalles prognostiske faktorer. Hvis vi vil undersøke effekten av avspenning på kroniske smertepasienter, er det uheldig hvis de med sterkest smerter kommer i en gruppe og de med mer moderate smerter kommer i den andre. Omfatter gruppene tilstrekkelig mange personer, sørger randomiseringen for en balansering av slike faktorer. Ved bruk av RCT bør man kunne si at en observert forskjell mellom gruppene etter at tiltaket er gitt, skyldes selve tiltaket og ikke andre utenforliggende faktorer. En RCT kan bare klargjøre om et tiltak har, eller ikke har, effekt. Andre metoder, blant annet kvalitative studier eller laboratorieforskning, må brukes for å forklare hvorfor og hvordan noe virker. Sjekkliste for å vurdere en RCT Det er utviklet flere sjekklister med spørsmål til bruk ved kritisk vurdering av vitenskapelige artikler, blant annet ved vurdering av en RCT (3-8). The Cochrane Colloquium har egne retningslinjer for hvordan en skal vurdere denne typen studier, blant annet for systematiske oversikter (9). Utdanningsgruppa ved Seksjon for helsetjenesteforskning på Folkehelsa har på bakgrunn av eksisterende lister utviklet en norsk sjekkliste (figur 3, side 12). Sjekklisten er brukt i ulike utdanningsopplegg og benyttes da som regel etter en introduksjon. Introduksjonen forklarer prinsippene for en RCT og drøfter spørsmålene i sjekklisten slik vi gjør i denne artikkelen. Sjekklisten kan imidlertid også brukes uten denne introduksjonen og være et verktøy som kan stå alene for bruk i praksis og undervisning. De fleste spørsmål i sjekklisten skal besvares med «ja», «nei» eller «vet

ikke». To personer vil ofte vurdere en artikkel forskjellig. Dette gir grunnlag for interessante diskusjoner knyttet til kvalitet, resultater og overføringsverdi av resultatene. Hver person vil tilføre denne diskusjonen sine erfaringer og verdirammer. «Vi må enes om å være uenige fordi absolutte sannheter ikke finnes i litteraturen», sier redaktøren av et internasjonalt fysioterapitidsskrift i en leder (10). Tenk deg nå følgende situasjon: Du arbeider som fysioterapeut i privat praksis i en kommune med 20.000 innbyggere. Du og dine åtte kolleger vurderer å erstatte noe av den individuelle behandlingen med gruppetilbud. Kvinner med fibromylagi er en aktuell målgruppe. Før dere bestemmer dere, ønsker du å finne ut om det eksisterer forskning knyttet til nytten av gruppetrening hos denne pasientgruppen og i tilfelle hvilken dosering som er den mest hensiktsmessige. Du leter først etter systematiske oversikter innen feltet, men finner ingen. Via søk i Medline får du mange treff, men stopper opp ved følgende artikkel: Mengshoel AM, Komnæs HB, Førre Ø: The effect of 20 weeks of physical fitness training in female patients with fibromyalgia. Clinical and Experimental Rheumatology 1992, 10, 345-9. I studien ble 34 pasienter inkludert og randomisert til trenings- og kontrollgruppe. Treningsgruppen fikk et «low-impact» aerobic program to ganger per uke i 20 uker. Kontrollgruppen ble bedt om ikke å endre sine treningsvaner i denne perioden. Utfallsmål var blant annet utholdenhet, styrke, smerte, smertemestring og tretthet. Resultatene viste at treningsgruppen ikke fikk økning av smerter eller tretthet og den dynamiske muskelstyrken bedret seg. Du synes artikkelen virker relevant og bestiller den for å vurdere den grundigere. Sjekklisten for kritisk vurdering av en RCT finner du i figur 3. Den er inndelt i fire. Første del samsvarer med de to spørsmålene som ble omtalt i introduksjonsartikkelen til kritisk vurdering som ble publisert i FYSIOTERAPEUTEN 5/2000. Vi vil ikke vurdere artikkelen til Mengshoel med flere konkret fordi dere ikke har den foran dere, men tenkte problemstillinger knyttet til artikkelen vil presenteres underveis. Innledende spørsmål 1. Er hensikten/spørsmålet i studiet presist formulert? Er hensikten eller spørsmålet fokusert? Kommer det klart frem hvilke deltagere eller hvilken populasjon som studeres, hvilket tiltak som prøves ut, hva det eventuelt sammenlignes med, hvilke resultater eller utfallsmål, som for eksempel kondisjon, smerte eller mestring, man er opptatt av i studien? 2. Er et randomisert kontrollert forsøk et egnet design for å besvare spørsmålet? Handler spørsmålet om effekt eller virkning av et tiltak? Er det etisk riktig å gjennomføre et randomisert kontrollert forsøk? Kan du stole på resultatene? Ved hjelp av de sju spørsmålene i denne delen av sjekklisten, kan du foreta en vurdering av den interne validiteten av undersøkelsen. Intern validitet eller gyldighet, er knyttet til om det er sannsynlig at de rapporterte effektene faktisk skyldes tiltaket som evalueres (11). Man er her på utkikk etter systematiske feil, også kalt bias eller skjevheter, som vil kunne forfordele den ene av sammenligningsgruppene og gi en skjevhet eller forskyvning i resultatet. Vi sier at en studie har god metodisk kvalitet eller er valid hvis vi er rimelig sikre på at systematiske feil ikke foreligger. Hvis man raskt skal avgjøre om en artikkel har god kvalitet, kan man oftest gjøre det ved å vurdere metodeavsnittet. Her gis det meste av informasjonen man trenger for å vurdere om resultatene er til å stole på, det vil si hvorvidt studien er beheftet med systematiske feil. Er studien dårlig gjennomført, har det derfor liten verdi å gå videre til resultatdelen (5). 3. Ble utvalget fordelt til forsøk- og kontrollgruppe ved bruk av en tilfredsstillende randomiseringsprosedyre? Ved en god randomiseringsprosedyre skal hver deltager ha like stor mulighet til å komme i intervensjonsgruppen som kontrollgruppen. Randomiseringen er tilfredsstillende dersom den skjer skjult, via lukkede konvolutter, computer-baserte program, tabeller eller lignende. Slike prosedyrer gjør det umulig å påvirke fordelingen av deltagere til intervensjons- og kontrollgruppe. Hvis fordelingen skjer åpent kan det for eksempel være fristende å sende pasienten til kontrollgruppen, dersom man forstår at han er lite motivert for trening. Eksempler på en ikke skjult prosedyre for fordeling, er etter prinsippet «annenhver», bruk av fødselsdatoer eller journalnummer. Slike fordelingsprosedyrer kalles ofte «quasi randomisering». 4. Var gruppene like ved oppstart av studiet/var det like grupper ved baseline? Selv om en god randomiseringsprosedyre er benyttet, kan likevel viktige faktorer fordele seg ujevnt i gruppene som skal sammenlignes. Faren for en slik ujevn fordeling er særlig stor ved studier med små utvalg, det vil si få deltagere. Forfatterne bør derfor vise, i tekst eller tabeller, at gruppene var like etter randomisering. Spesielt

viktig er det at faktorer som kan påvirke utfallet, eksempelvis prognostiske faktorer som alder, smerte, kjønn og sosial klasse, er likt fordelt i de gruppene som sammenlignes. Ulik fordeling av prognostiske faktorer er uheldig, fordi en eventuelt observert forskjell mellom gruppene etter tiltaket er gitt kan skyldes disse forskjellene og ikke selve tiltaket. Dersom deltagerne i treningsgruppen i studien til Mengshoel med flere for eksempel var yngre eller hadde mer smerter enn kontrollgruppen, vil dette kunne ha påvirket resultatet. 5. Ble gruppene behandlet likt bortsett fra tiltaket som evalueres? Tenk deg hvis kvinnene i treningsgruppen i studien til Mengshoel med flere, i tillegg til treningsopplegget som skal evalueres, fikk råd om avspenning og stressmestring. I en slik situasjon er det umulig å vite om en effekt skyldes det ene, det andre, eller kombinasjonen av begge tiltakene. Tilleggstiltak bør unngås eller være like i gruppene som sammenlignes. Det er derfor viktig at studien har en strikt protokoll som beskriver tiltaket og eventuelt kontrolltiltaket. 6. Ble deltagere og behandlere/helsepersonell «blindet» med hensyn til forsøk- og kontrolltiltak? I medikamentutprøving er det mulig å gjennomføre undersøkelser, der hverken deltagere eller de som gir medikamentet vet hvem som får aktive piller og hvem som får narrepiller. Vi sier at deltagerne og behandlerne er «blindet». Slike studier kalles «dobbel-blind» studier. Det er viktig å «blinde» forsøkspersonene ellers kan placeboeffekten gjøre at de som vet at de får en ny og potensiell bedre behandling, føler seg bedre. Placeboeffekten er den terapeutiske effekten av hele behandlingssituasjonen (12), det vil si en effekt som ikke direkte kan tilskrives tiltaket, men en forventning om bedring. Hvis eksempelvis hodepinepasienter får uvirksomme legemidler, vil opptil 80 prosent av dem likevel respondere på behandlingen. Ved å blinde behandleren, ikke å la vedkommende få vite hvilken gruppe deltageren tilhører, unngår man at behandleren fristes til å gi intervensjonsgruppen mer oppmerksomhet, sympati eller grundigere undersøkelser enn kontrollgruppen. I de fleste fysioterapistudier er det umulig å skjule for deltagerne hvilken gruppe de tilhører, og det samme gjelder for behandlerne. I studier som for eksempel evaluerer effekten av elektroterapi eller ultralyd, er blinding imidlertid mulig og bør gjennomføres. Ved kritisk vurdering av et randomisert kontrollert forsøk bør man derfor vurdere om «blinding» var mulig, i så fall hvorvidt det var utført og hvordan man vurderer muligheten for at manglende blinding kan ha påvirket resultatene. 7. Er det gjort rede for frafall, og har man tatt hensyn til dette i analysen? Alle undersøkelser mister deltagere underveis. De kan trekke seg, bli syke, flytte eller utebli av andre årsaker. Eksempelvis kan deltagere bli borte fordi de ble verre av et tiltak eller ikke var motiverte til å fullføre en treningsintervensjon. Forfatterne bør derfor redegjøre for det antall som forsvinner fra studien og om mulig begrunne frafallet. Dette er viktig fordi deltagere som forsvinner kan skille seg fra de som ble igjen, og deres fravær vil kunne påvirke resultatene i studien. Man bør derfor se på antall personer (n) i intervensjons- og kontrollgruppene og se om antallet forandres ved de ulike analysetidspunktene. Man bør også se etter om frafallet er større eller mindre i en av gruppene. Dersom frafallet er ulikt i de gruppene man sammenligner, eller totalt sett er >20 prosent, bør forskerne ha foretatt justerende analyser for å undersøke hvorvidt frafallet påvirker resultatet. Dersom frafallet for eksempel var dobbelt så stort i treningsgruppen som i kontrollgruppen i studien til Mengshoel med flere hvordan skal man tolke det? 8. Ble alle deltagerne i studiet analysert i den gruppen de ble randomisert til («intention to treat» analyse)? Dette spørsmålet henger noe sammen med spørsmål sju, men handler om deltagere som av ulike grunner ikke mottar tiltaket eller behandlingen de er randomisert til. Dersom flere av kvinnene i kontrollgruppen til Mengshoel også hadde begynt å trene, eller flere kvinner i treningsgruppen faktisk ikke møtte til trening hvordan skulle man forholde seg til disse personene? Det kan være fristende å flytte disse deltagerne ut av gruppene de opprinnelig var randomisert til under analysen av data, men en slik manøver spolerer den opprinnelige randomiseringen. Det er altså viktig at deltagerne analyseres i den gruppen de opprinnelig ble fordelt til. Sjekk derfor alltid om forfatterne har gjennomført en slik analyse «intention to treat» analyse. 9. Var forskeren eller observatøren som utførte pre- og posttester blindet for hvem som var forsøks- og kontrollperson, og var tidsintervallet mellom pre- og posttester likt for forsøks- og kontrollgruppe?

I de fleste studier er det mulig å blinde den som foretar utfallsmålingene (outcome assessor). Det betyr at denne personen ikke vet hvilken gruppe deltageren som blir testet, tilhører. I en norsk studie som sammenlignet kirurgi med slyngebehandling for skulderpasienter ble for eksempel alle pasientene etterundersøkt med T-skjorte på for å unngå synlige operasjonsarr (13). Dersom den som tester utfall kjenner hvilken gruppe den enkelte deltager kommer fra, kan hun lett, bevisst eller ubevisst, påvirke utfallsmålet. Dette er særlig aktuelt ved subjektive målemetoder. Tidsintervallet mellom måletidspunkt bør være likt i gruppene som sammenlignes. Tid kan nemlig være en faktor som påvirker utfallet. Hvis du sammenfatter spørsmål seks og ni, som begge handler om blinding, hvordan kunne dette vært ivaretatt på beste måten i treningsstudien til Mengshoel med flere? Oppsummering av intern validitet: Kan du stole på resultatene? På bakgrunn av spørsmålene tre til ni kan du skaffe deg en formening om den interne validiteten eller metodiske kvaliteten på en studie. I internasjonale tidsskrifter pågår det diskusjoner, både innen medisin og fysioterapi, om hvordan man kan vurdere metodisk kvalitet på den beste måten (9, 14), spesielt når man foretar en sammenligning av studier i oversiktsartikler. For kritisk å vurdere en RCT i undervisningssammenheng og for faglig oppdatering i praksis, mener vi spørsmålene i denne sjekklisten er dekkende. Dersom man finner at en artikkel har tilfredsstillende kvalitet, er tiden inne til å se på resultatene. Hva forteller resultatene? 10. Hva er resultatet i denne studien? En studie bør med enkle ord formulere hva som er hovedresultatet. For eksempel at treningsgruppen i gjennomsnitt hadde 30 prosent økning i utholdenhet mot gjennomsnitt ti prosent økning i kontrollgruppen. I fysioterapistudier benyttes ofte utfallsmål som gir en sumscore eller verdi på en skala, for eksempel fra 0-100. Resultatet presenteres oftest som differansen mellom gjennomsnittsverdiene etter at tiltaket er gitt. For eksempel kan intervensjonsgruppen ha en funksjonsforbedring på 25 på skalen fra 0-100 (fra 50 75) sammenlignet med en forbedring på ti (fra 50-60) i kontrollgruppen. Man beregner via statistiske metoder om de to verdiene (60 og 75) er signifikant forskjellige. Det vil si at man beregner sannsynligheten for at de observerte forskjellene ikke skyldes tilfeldigheter. Som regel ønsker man at denne sannsynligheten for tilfeldigheter skal være under en viss verdi, oftest med en øvre grense på fem prosent (p< 0,05). Jo mindre p-verdi, jo større er sannsynligheten for at forskjellen ikke har oppstått ved en tilfeldighet, men skyldes en sann forskjell. Så kan forfatterne og leseren vurdere om den statistiske forskjellen er en klinisk viktig forskjell. For eksempel kan et treningsopplegg sammenlignet med et annet vise statistisk signifikant forbedring av gangavstand på ti meter hos pasienter med coxarthrose. Vi kan vurdere om dette resultatet i det hele tatt har klinisk eller praktisk betydning for pasienten, og om det på bakgrunn av resultatet er grunnlag for å anbefale det ene opplegget fremfor det andre. Effekten kan også oppgis som en andel eller ratio hvis utfallsmålet gis som et dikotomt (todelt) utfall, det vil si to gjensidig utelukkende kategorier, for eksempel «postoperative komplikasjoner» eller «ikke-postoperative komplikasjoner». Da beregner man andelen av komplikasjoner i intervensjonsgruppen og dividerer dette med andelen i kontrollgruppen og får en relativ risiko. Hvis denne tallverdien er under en, betyr det at tiltaket beskytter mot komplikasjoner. Hvis tallverdien er over en, gir tiltaket flere postoperative komplikasjoner. En p-verdi på under fem prosent betyr at den forskjellen vi ser mellom gruppene ikke skyldes tilfeldigheter. En relativ risiko lik en vil det si at det ikke er noe forskjell mellom gruppene (likt tall over og under brøkstreken). 11. Hvor presist er resultatet? Presisjonen forteller hvor stor usikkerhet det er knyttet til resultatet (effektstørrelsen). Dette kan gis som et spredningsmål for eksempel i form av standardavvik, SD, eller som et konfidensintervall, CI. De fleste mener at det å oppgi konfidensintervall er den beste måten å vise usikkerhet knyttet til effektstørrelsen. Konfidensintervallet er det området hvor man med en gitt sikkerhet, for eksempel 95 prosents sikkerhet, kan si at det virkelige resultatet foreligger. Jo bredere dette intervallet er, jo mer usikkerhet er det knyttet til effektmålet. Som regel vil utvalgsstørrelsen påvirke sikkerheten; jo større utvalg jo mer presis effektstørrelse. Kan resultatene overføres til praksis? Vi har nå vurdert intern validitet og resultatene i undersøkelsen. Den siste delen av sjekklisten er knyttet til anvendbarheten eller relevansen av resultatene. Dette kalles ofte ekstern validitet eller generaliserbarhet.

12. Kan resultatene overføres til den lokale befolkning/pasientgruppe? Tror du at de personene som er inkludert i studien er like de menneskene du møter i din egen praksis? Dersom studien til Mengshoel med flere var gjennomført blant kvinner bosatt i Oslo, er det da grunn til å tro at resultatene kan overføres til kvinner bosatt i en liten vestlandskommune? 13. Ble alle viktige utfalls-/resultatmål evaluert i dette studiet? Det er viktig at undersøkelsen har evaluert de resultatene du mener er viktige i forhold til tiltaket som er gitt. Tenk hvis undersøkelsen blant kvinnene med fibromyalgi bare hadde målt oksygenopptak og styrke, hva ville du savnet? Hvilken betydning kunne dette få for hvorvidt du ville benyttet resultatene fra denne undersøkelsen i din egen praksis? 14. Er tiltaket godt beskrevet og gjennomførbart i din praksis? Er for eksempel øvelsesutvalg og dosering så godt beskrevet at du kunne ta treningsopplegget i bruk i din praksis? Hvis dette er mangelfullt beskrevet har studien begrenset nytte for praksisfeltet. 15. Er nytten av tiltaket verdt kostnadene og eventuelle bivirkninger? I de fleste fysioterapistudier blir ikke dette evaluert. Slike betraktninger vil være aktuelle i tilfeller der intervensjonen sammenlignes med langt billigere intervensjoner, eller hvis tiltaket kan ha uheldige bivirkninger. 16. Sammenfaller resultatene i denne studien med resultatene i andre tilgjengelige studier? Kjenner du andre forskningsresultater innen samme felt? Dersom flere gode studier har resultater som peker i samme retning, styrker det troverdigheten av studien du har foran deg. Oppsummering På bakgrunn av spørsmålene i sjekklisten bør du kunne avgjøre om undersøkelsen er av god kvalitet og om den er nyttig for deg i undervisning eller praksis. Noen vil hevde at sjekklisten er for omfattende, mens andre igjen vil savne viktige tema. For eksempel kan noen savne spørsmål tilknyttet målemetodene som er benyttet, om de er valide (om testen måler det som skal måles), om de er reliable (om man får samme resultat hver gang), og om de er følsomme for endring. Det vil være meningsløst å vurdere et fysioterapitiltak med et randomisert kontrollert forsøk uten å benytte måleinstrumenter som kan fange opp det man ønsker å påvirke. Likevel innfrir ikke alle studier når det gjelder bruk av gode målemetoder, og for leseren er det ikke alltid enkelt å vurdere nettopp dette. Det krever at man kjenner til forsk-ning knyttet til den enkelte målemetoden. Dersom man ikke kjenner til kvaliteten på de målemetodene studiet har benyttet, så sjekk i alle fall om forfatterne har referanse på metodene. Sjekklisten som er presentert egner seg godt til bruk i undervisning og i smågrupper på arbeidsplassen. Kritisk vurdering av artikler representerer et trinn i utøvelsen av kunnskapsbasert fysioterapi og er en god start for å initiere interesse for forskningsresultater og kritisk refleksjon over praksis. Så hvorfor ikke bestille artikkelen til Mengshoel med flere og prøve ut sjekklisten på neste fagmøte?