Evaluering med kontrollerte design bedre enn sitt rykte? Evalueringskonferansen 2012 Evaluering: Læring styring kontroll? Clarion Hotel Ernst, Kristiansand Terje Ogden Atferdssenteret - Unirand 9/21/2012 The Norwegian Center for Child Behavioral Development Slide 1
Et kort historisk blikk på evalueringsforskningen 1900 1960 Forskningens bidrag til å løse samfunnsproblemer idealet om objektiv og nøytral forskningsbasert rådgivning, 1960 1970 Evalueringens gullalder: Felteksperimenter med randomiserte studier for å evaluere offentlige tjenester (bl.a. Head Start og War on poverty) (Campbell & Stanley, 1963: Experimental and quasi-experimental designs for research), 1970 1980 Positivismekritikken: det postmodernistiske oppgjøret med modernitetens tro på framskritt gjennom objektiv vitenskap. Avtagende evalueringsoptimisme: kontrollerte evalueringer viste ofte marginale eller negative resultater, økt behov blant politikere for raske resultater, 1980 1990: Et bredere evalueringsperspektiv med varierte design og kvalitative studier. 1990 2000: Metodestriden blusser opp igjen: RCT, meta-analyser, systematiske kunnskapsoversikter og evidenshierarkiet (Evidensbasert medisin, Cochrane & Campbell Collaboration Clearinghouses). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 2
Program evaluering og forskningsdesign Siden det ikke finnes ideelle evalueringsdesign, er fleksible valg å foretrekke, avhengig av hvilket utviklingstrinn programmet befinner seg på og hvilke spørsmål som skal besvares. Evaluatører gjør klokt i ikke å erklære preferanse for kvantitativmanipulativ-summativ-metodologi eller kvalitativ-naturalistiskdeskriptiv metodologi. Kontrollerte design innebærer kvantifisering, randomisering, sammenligning og måling for å evaluere hva som virker, hvor bra, for hvem, hvor og hvorfor. Cronbach,L. and associates (1980). Toward reform of program evaluation, New York, Jossey Bass Ogden,T. (1985). Prosjektevaluering, utfordringer og muligheter ved valg av strategi og metoder. Tidsskrift for Norsk Psykologforening
Kontrollerte design - hva er det? Det er særlig to typer forskning som gir gode forutsetninger for å trekke slutninger om tiltakseffekter; Randomiserte kontrollerte studier (RCT) Kvasi-eksperimentelle studier (matchede kontrollgrupper). Alternativer: Interrupted time-series design, Regression discontinuity design, Propensity score matching, Case-control studies. Men foreløpig foreligger det ikke noe alternativ til RCT som kan gi et like troverdig svar på spørsmålet: Virker intervensjonen? (Lipsey, 2000). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 4
9/21/2012 The Norwegian Center for Child Behavioral Development Side 5
Evaluering med kontrollerte design Sammenligner en intervensjonsgruppe med en ekvivalent gruppe som ikke får intervensjonen slik at eventuelle forskjeller i resultater kan tilbakeføres til intervensjonen og ikke til forskjeller mellom gruppene før tiltaket ble iverksatt. Kontrastgrupper kan bestå av individer som ikke får noen intervensjon (passiv kontroll) som får ordinær behandling, som får intervensjonen senere (venteliste kontroll) eller som får en annen intervensjon (aktiv kontroll), Målingene foregår før og etter at tiltaket er gjennomført, Målinger av at tiltaket gjennomføres som planlagt (integritet), og at selektivt frafall ikke påvirker resultatene (adherence, fidelity). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 6
Kritikk av RCT For stor vekt på den indre validiteten på bekostning av den ytre, dvs. mer vekt på kausale sammenhenger enn på generalisering, Kan teste om det er statistiske gruppeforskjeller, men i mindre grad størrelsen på disse og hvor praktisk signifikant forskjellene er, Forklarer ikke hvem intervensjonen egner seg for og hvem den ikke egner seg for, Analyserer ikke individuelle forskjeller i respons og utfall, Forklarer ikke hvorfor intervensjonen virker. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 7
Utviklingen av randomiserte kontrollerte design Ytre validitet har kommet mer i fokus når RCT gjennomføres i vanlig praksis (effectiveness studies), med større grupper og over lengre tid, Moderator analyser viser interaksjonseffekter og dermed hvilke individer, praktikere eller utprøvingssteder som kommer bedre eller dårligere ut enn gjennomsnittet, Implementering som moderator gir svar på hvordan en intervensjon virker når den tas i bruk av forskjellige individer som jobber under veldig forskjellige miljøbetingelser (variasjoner i praktikere og praksismiljøer), Mediator analyser bidra til å avdekke endringsmekanismer i randomiserte studier. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 8
Hva kontrollerte design ikke tar høyde for Kompensatorisk rivalisering: de som arbeider med kontrastgruppen kompenserer gjennom å gi mer intensive tjenester enn de vanligvis ville ha gjort, Program kontaminasjon eller diffusjon: deler av den planlagte intervensjonen lekker inn i sammenligningsgruppen, Individuelle variasjoner i hvordan tjenestene mottas og oppleves av målgruppen og hvordan den enkelte deltaker responderer.
RCT egner seg ikke når: Intervensjonen er inkonsekvent med hensyn til dosering, intensitet, varighet eller kvalitet, Når deltakerne varierer med hensyn hvor mye de deltar og hvordan de reagerer på intervensjonen, Når deltakere ikke møter eller slutter før tiltaket er gjennomført, Når forventede resultater er vanskelige å definere, måle og vurdere, Hvis det reises sterke praktiske eller etiske innvendinger mot forsøket, Når en allerede vet at intervensjonen er virksom eller når andre metoder enn randomiserte tester gir åpenbare korrekte estimater av tiltakseffekter.
RCT egner seg for: Nye intervensjoner, modeller, programmer eller metoder som en ikke kjenner virkningene av, Intervensjoner som er veldefinerte og tydelig beskrevet, og som ikke ansees å være et bevegelig mål, Undersøkelser der deltakere kan fordeles tilfeldig på betingelsene definert av den uavhengige variabelen og der en kan holde dem i disse gruppene til resultatdata er samlet inn, Undersøkelser der forskeren vet hvilke resultatvariabler som er viktige, hvordan de kan måles og vurderes.
Faser i utviklingen av intervensjoner Nye intervensjoner blir ofte evaluert umiddelbart etter at de har blitt tatt i bruk og fanger derfor ikke opp hvordan de virker etter en tid, Dette kan handle om å evaluere et bevegelig mål eller «evaluating interventions before they mature». Utvikling av intervensjoner forutsetter tid til justeringer og tilpasninger i organisasjonsstrukturer og prosesser, og at praktikere får tid til å lære seg og mestre nye ferdigheter, - her er det behov for metodemangfold, Men det er faser hvor intervensjoner har blitt så godt utviklet at evaluering med kontrollerte design er både relevant og viktig.
Når er motstanden mot RCT minst? Når intervensjonen ikke kan gis til alle i målgruppen, Når intervensjonen øker ressurstilgangen til utprøvingsstedet eller lokalmiljøet, og under forutsetning av at kontrollgruppen fortsatt får like gode tjenester som før, Når den nye intervensjonen er mindre restriktiv enn den som foreligger (for eksempel familiebehandling vs. institusjonsplassering), Når de som mottar intervensjonen ikke truer tryggheten i lokalmiljøet, Når intervensjonen ikke truer autonomien og autoriteten til henvisningsinstansene og de som leverer ordinære tjenester, Når det er en høy grad av hierarkisk kontroll i tjenestesystemet. Weisburd, 2000; Cunningham, 2002
RCT og evidensbasert praksis Kontrollerte evalueringsdesign har blitt koblet til evidensbasert praksis og dermed blitt en del av evidensdebatten og what works, Empirisk støttede programmer og andre evidensbaserte metoder har hatt RCT som gullstandarden, Randomiserte, kontrollerte studier er også en viktig del av evidenshierarkiet og inngår i meta-analyser, systematiske forskningsoversikter og kostnad-nytte studier. Dermed har kontrollerte evalueringsdesign også blitt en del av styrings-og kontrolldebatten i offentlige tjenester. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 14
Intervensjonsforskning og evalueringsforskning Planlegging, utforming og utvikling av tiltak og tjenester skiller intervensjonsforskningen fra evalueringsforskningen, Intervensjonsforskning inkluderer evaluering, men omfatter også utforming og forbedringer av intervensjoner, Den inneholder både en detaljert beskrivelse av et program eller en tjeneste og en evaluering av hvor virksomt programmet eller tjenesten er, Styrken av forskningen som støtter en intervensjon avhenger av styrken av forskningsdesignet som brukes i evalueringen. Fraser, Richman, Glainsky & Day 2009
9/21/2012 The Norwegian Center for Child Behavioral Development Side 16
Evidenskritikken Vektlegger styring og kontroll av praktikere enten fra byråkrater, forskere eller programutviklere, Uforenlig med prinsippet om faglig autonomi, metodefrihet og med praktisk/klinisk skjønn, Skadelig for etablering av arbeidsallianser (terapeutisk allianse) og samarbeids-relasjoner mellom tjenesteutøvere og brukere, Akademisering av praksis for å øke faglig legitimitet og innflytelse, Favoriserer visse former for kunnskap og forskning, Representerer positivisme, instrumentalisme, reduksjonisme og et mekanistisk menneskesyn, Tar ikke hensyn til kontekst og individuelle variasjoner blant brukere, Ensidig opptatt av hva som virker og ikke hvorfor ting virker, Tar ikke høyde for sammensatte og overlappende problemer (bl.a. komorbiditet). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 17
Hva er implementering? I vid forstand handler implementering om å få tiltak til å virke, det vil si å iverksette eller gjennomføre planer og beslutninger i praksis, I denne sammenhengen dreier det seg mest om å omsette forskningskunnskap til praksis, Når intervensjoner gir dårligere resultater enn forventet, kan det skyldes at tiltaket ikke var virksomt på grunn av feil eller mangler, eller at implementeringen var mislykket eller utilstrekkelig.
Implementeringsforskning Implementeringsforskning handler om å evaluere hvilke forhold som hemmer eller fremmer omsetting av forskningskunnskap til praksis, Program- og tiltaksintegritet kan evalueres som en uavhengig variabel eller som en moderator, Passiv spredning og formidling stilles opp mot implementering, («Diffusion of innovation» - Rogers, 1995),
Velferdsforskning og evaluering Norsk velferdspolitikk kjennetegnes av en lang rekke forsøk av ulike typer, og det eneste de har til felles er at de er designet slik at det i regelen ikke er mulig å generalisere erfaringene, Heller enn å bli satt opp som vitenskaplige eksperimenter med kontrollgrupper, drives de fram av ildsjeler, pressgrupper og politikere med markeringsbehov, Kontrollerte evalueringsstudier ville bety langt mer for velferdsforskningens vitenskaplige kvalitet enn den serien med forsøksevalueringsrapporter som i dag produseres. Men blant mange samfunnsvitere rår en nærmest fundamentalistisk motstand mot naturvitenskapene og å eksperimentere med mennesker. Velferdsforskningen kan framstå som langt mer relevant uten å måtte gå på akkord med sine vitenskaplige integritet, og den største hindringen for en slik utvikling ligger antagelig i forskningsmiljøene selv. Hagen, K. (2009). Er en politikkrelevant forskning egentlig mulig? I: Nuland, Tranøy & Christensen (red.). Hjernen er alene. Institusjonalisering, kvalitet og relevans i norsk velferdsforskning. Oslo, Universitetsforlaget, 2009. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 20
Evaluering med kontrollerte design bedre enn sitt rykte Strengere rapporteringskrav for å sikre transparent og fullstendig rapportering (CONSORT statement, Moher mfl., 2010), Reduserte forskjeller mellom testing av intervensjoner under ideelle og ordinære betingelser (efficacy vs. effectiveness), Hovedeffekter som signifikanstesting og som effektstørrelser, Praktisk signifikanstesting supplerer statistisk signifikanstesting, Analyserer modererende forhold som viser hva som forsterker eller svekker resultatene for målgruppen, blant annet implementeringskvalitet, Analyserer medierende forhold eller endringsmekanismer som forklarer hvorfor tiltak virker (fra programmer til prinsipper og mekanismer). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 21
9/21/2012 Takk, det var det hele! The Norwegian Center for Child Behavioral Development Side 22
Et prosjekteksempel
Inklusjonskriterier Inklusjonskriterier Gutter og jenter yngre enn 12 år som bor med minst én av de biologiske foreldrene Foreldre og lærervurderinger av CBCL/TRF med skårer høyere enn 0,5 standardavvik på delskala for eksternalisering, Eksklusjonskriterier Autistiske barn - Dokumenterte seksuelle overgrep Alvorlig psykisk utviklingshemning eller foreldre med alvorlig psykisk utviklingshemning, eller med alvorlig psykopatologi
Statistiske analyser De statistiske metodene bør redegjøres for sammen med eventuelle subgruppe-analyser : Test av behandlingseffekt med en serie ANCOVA analyser med dosering, inntaksskårer, alder og kjønn som kovariater, For hver gruppe bør en rapportere middelverdi, standardavvik, effekt-størrelse og konfidensintervall, Frafallet i hver av gruppene og på hvert instrument bør rapporteres. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 26
Intent-to-treat vs. Treatment-of-the-treated analyser Intent-to-treat analyser: sammenligninger av gruppene foretas i henhold til den opprinnelige fordelingen på grupper, Ideelt skal en kontrollere at fordelingen definert av den uavhengige variabelen opprettholdes til data om resultater er samlet inn, Treatment-of-the-treated analyser: sammenligner bare de som har fullført tiltaket eller gjennomgått behandlingen.
Hovedeffekter moderator/interaksjonseffekter Hovedeffekter måles på primære og sekundære resultatvariabler, En moderator er en variabel som påvirker styrken av sammenhengen mellom to variabler, og formidler hvilke undergrupper tiltaket er mer eller mindre virksomt for, Moderering er en interaksjon der forholdet mellom den uavhengige og den avhengige variabelen påvirkes av en tredje variabel, som alder, kjønn, sosio-økonomisk bakgrunn eller problembelastning ved inntak.
Klinisk eller praktisk signifikans Det er den relative effekten av en intervensjon som studeres i RCT, der en i tillegg til statistisk signfikans kan beregne: Cohens effektstørrelse, odds ratio, survival analysis, Prosentvis reduksjon av problemer, number needed to treat, Antall som flyttes fra det kliniske til området for normativ fungering, tilbakefall eller plasseringer utenfor hjemmet.
Mediator analyser Endringsmekanismer Behandlingsbetingelse (PMTO vs TAU) Grensesetting Familiesamhold Barnets atferd 9/21/2012 Side 30 The Norwegian Center for Child Behavioral Development