Evaluering med kontrollerte design bedre enn sitt rykte?



Like dokumenter
Implementering hvordan omsette kunnskap til praksis

Komplekse intervensjoner Metodiske utfordringer. Liv Wensaas PhD, RN, Leder for FOU enheten Helse og omsorg Asker kommune

Eksperimentelle design

STUDIEÅRET 2013/2014. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Fredag 25. april 2014 kl

Implementeringsforskning og konsekvenser for praksis - status og framtidsperspektiver.

Sjekkliste for vurdering av en randomisert kontrollert studie (RCT)

SJEKKLISTE FOR VURDERING AV EN RANDOMISERT KONTROLLERT STUDIE (RCT) Målgruppe: studenter og helsepersonell Hensikt: øvelse i kritisk vurdering

Implementering fra forskning til praksis

Tilbakemeldinger fra klienter kan gi bedre behandling

Tidlig innsats for barn i risiko (TIBIR): Positive effekter i barnehage og skole? John Kjøbli

Bokmelding. Terje Ogden Evidensbasert praksis i arbeidet med barn og unge Oslo: Gyldendal forlag

Kurs i kunnskapshåndtering å finne, vurdere, bruke og formidle forskningsbasert kunnskap i praksis. Hege Kornør og Ida-Kristin Ørjasæter Elvsaas

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Oppsummering & spørsmål 20. april Frode Svartdal

Kurs i legemiddeløkonomi 20. mai 2015

Hvordan implementere virksomme intervensjoner i praksis?

Hypotesetesting: Prinsipper. Frode Svartdal UiTø Januar 2014 Frode Svartdal

Regionsenter for barn og unges psykiske helse (RBUP Nord)

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 25. august 2015 kl

Virksomme tiltak ved antisosial atferd hos barn og ungdom

Kunnskapsesenterets Bruk og tolkning nye PPT-mal av meta-analyser. Jan Odgaard-Jensen, statistiker

Repeated Measures Anova.

Tilnærminger til og erfaringer fra forsknings- og utviklingsarbeid. Thomas Nordahl

Hvilke krav bør stilles til skolebaserte tiltak? Thomas Nordahl, NOVA

Hva er virksomme tiltak? Presentasjon av Ungsinns klassifiseringskriterier

Eksamensoppgave i PSYPRO4064 Klinisk psykologi II

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak

Eksamensoppgave i PSY1011/PSYPRO4111 Psykologiens metodologi

Evidensbasert brukermedvirkning. Andreas Høstmælingen Spesialist i klinisk psykologi Fagsjef, Norsk Psykologforening

Eksamen PSY1011/PSYPRO4111: Sensorveiledning

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

Utfordringer og kriterier for en

Eksamensoppgave i PSYPRO4064 Klinisk psykologi II

Hvordan forbedre pedagogisk praksis i barnehager og skoler? Thomas Nordahl

Veiledning og oppfølging av risikoutsatt ungdom

Varför tidiga insatser?

NSG seminar om forskningsfinansiering og fordelingsmekanismer innen medisinsk og helsefaglig forskning

6.2 Signifikanstester

Veien videre: hvordan utvikle og vedlikeholde kompetansen etter prosjektslutt? Karina Egeland, forsker II, prosjektleder NKVTS

Ledelsene betydning for familie-, barneog ungdomstjenester med høy kvalitet

Eksamensoppgave i PSY1011/4111 Psykologiens metodologi

Den kunnskapsbaserte og reflekterte læreren introduksjon til «Visible learning» Thomas Nordahl

Regional forskingskonferanse for Psykiatri og rusfeltet Vår Olav M. Linaker PH, St. Olavs Hospital/INM, NTNU

Verdens statistikk-dag.

PALS Positiv atferd, støttende læringsmiljø og samhandling i skolen. en innsats for barn og unge med atferdsproblemer

CONSORT Consolidated Standards of Reporting Trials

Tidlig innsats kan lønne seg

Diskusjonsoppgaver Hvilke fordeler oppnår man ved analytisk evaluering sammenliknet med andre tilnærminger?

Foreldrenes betydning for egne barns faglige og sosiale læring og utvikling i skolen. Thomas Nordahl

SCRIBE The Single-Case Reporting Guideline In BEhavioural Interventions

HVA, HVORFOR OG HVORDAN. Stig Harthug

Grunnleggende statistikk. Eva Denison 25. Mai 2016

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Mandag 13. april 2015 kl

SJEKKLISTE FOR VURDERING AV EN RANDOMISERT KONTROLLERT STUDIE (RCT)

Statistikk En måte å beskrive og analysere fenomener kvantitativt Eva Denison

VEDLEGG 3 SJEKKLISTE FOR Å VURDERE KVALITATIV FORSKNING

Forskningsopplegg og metoder. Pensum: Dag Ingvar Jacobsen (2005): Hvordan gjennomføre undersøkelser?, s

Hva må til for å få til en god evaluering?

Kunnskapshierarkiet- Hva betyr det for oss? Olav M. Linaker 2011

Forskningsmetoder i menneske-maskin interaksjon

Studieplan for Kunnskapsbasert praksis

Group-based parent-training programmes for improving emotional and behavioural adjustment in children from birth to three years old

Terje Ogden Atferdssenteret Unirand. The Norwegian Center for Child Behavioral Development. www,ogden.no

Hva er evidens? Eva Denison

«Realist evaluation» nyttig for forskning på pasientopplæring? Aslak Steinsbekk Institutt for Samfunnsmedisin, NTNU

Utdanning i samfunnsperspektiv Læringsmiljø og elevresultater. Thomas Nordahl

Bruk av kartleggingsresultater. Fra data til pedagogisk praksis. Thomas Nordahl

Hvordan få tiltak til å virke

Etterlyst: Evidensbasert politikk

Diagnoser. Andreas Høstmælingen Fagsjef Norsk psykologforening 24. april 2018

Forholdet mellom revisjon og veiledning Riksrevisjonens rolle. Tor Saglie Institutt for statsvitenskap, UiO Partnerforum

Kunnskapsesenterets Bruk og tolkning av meta-analyser. nye PPT-mal. Jan Odgaard-Jensen, statistiker

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Sjekkliste for vurdering av en kvalitativ studie

Vurdering av kvaliteten på evalueringsforskning ved hjelp av meta-analyse

Ulikheter og variasjoner. Professor Thomas Nordahl Senter for praksisrettet utdanningsforskning København,

Fra idemyldring til ferdig prosjekt forskningsprosessens ulike faser

KVANTITATIV METODE. Marit Schmid Psykologspesialist, PhD HVL

Registerdata som grunnlag for en kunnskapsbasert velferdspolitikk

Epidemiologi - en oppfriskning. Epidemiologi. Viktige begreper Deskriptiv beskrivende. Analytisk årsaksforklarende. Ikke skarpt skille

Oversikt over presentasjonen:

ME Metode og statistikk Candidate 2511

UTFYLLENDE BESTEMMELSER FOR DET OBLIGATORISKE PROGRAMMET I SPESIALITETEN SAMFUNNS- OG ALLMENNPSYKOLOGI

Kan vi stole på resultater fra «liten N»?

Hvordan Kunnskapsesenterets

UB-EGENEVALUERING SKOLEÅRET 2014/15 RESULTATER

STUDIEÅRET 2012/2013. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 27. august 2013 kl

Et kort innlegg om hvorfor, hvordan og av hvem: EVALUERING AV FOLKEHELSETILTAK

Hjemmeeksamen Gruppe. Formelle krav. Vedlegg 1: Tabell beskrivelse for del 2-4. Side 1 av 5

Psykisk helsearbeid som er og integrert med skolens kjerneoppgaver

KUNNSKAPSBASERT PRAKSIS

Kunnskapsbasert praksis på Kunnskapsesenterets legemiddelområdet hvordan gjør vi nye PPT-mal det?

Effekten av tidlig innsats- Virksomme tiltak (ungsinn.no) Monica Martinussen RKBU-Nord

Undersøkelse om justering av kommunegrensene på Austra

Evaluering av folkehelsearbeidet i kommunene. Telemark fylkeskommune

Foreldreopplæring i Pivotal Response Treatment. Marcus D. Hansen & Mari Østgaard

Innhold. Del 1 Grunnleggende begreper og prinsipper... 39

Systematiske oversikter Meta-analyser Cochrane collaboration Internettressurser

Forskningsbasert evaluering av ACT-team

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

Transkript:

Evaluering med kontrollerte design bedre enn sitt rykte? Evalueringskonferansen 2012 Evaluering: Læring styring kontroll? Clarion Hotel Ernst, Kristiansand Terje Ogden Atferdssenteret - Unirand 9/21/2012 The Norwegian Center for Child Behavioral Development Slide 1

Et kort historisk blikk på evalueringsforskningen 1900 1960 Forskningens bidrag til å løse samfunnsproblemer idealet om objektiv og nøytral forskningsbasert rådgivning, 1960 1970 Evalueringens gullalder: Felteksperimenter med randomiserte studier for å evaluere offentlige tjenester (bl.a. Head Start og War on poverty) (Campbell & Stanley, 1963: Experimental and quasi-experimental designs for research), 1970 1980 Positivismekritikken: det postmodernistiske oppgjøret med modernitetens tro på framskritt gjennom objektiv vitenskap. Avtagende evalueringsoptimisme: kontrollerte evalueringer viste ofte marginale eller negative resultater, økt behov blant politikere for raske resultater, 1980 1990: Et bredere evalueringsperspektiv med varierte design og kvalitative studier. 1990 2000: Metodestriden blusser opp igjen: RCT, meta-analyser, systematiske kunnskapsoversikter og evidenshierarkiet (Evidensbasert medisin, Cochrane & Campbell Collaboration Clearinghouses). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 2

Program evaluering og forskningsdesign Siden det ikke finnes ideelle evalueringsdesign, er fleksible valg å foretrekke, avhengig av hvilket utviklingstrinn programmet befinner seg på og hvilke spørsmål som skal besvares. Evaluatører gjør klokt i ikke å erklære preferanse for kvantitativmanipulativ-summativ-metodologi eller kvalitativ-naturalistiskdeskriptiv metodologi. Kontrollerte design innebærer kvantifisering, randomisering, sammenligning og måling for å evaluere hva som virker, hvor bra, for hvem, hvor og hvorfor. Cronbach,L. and associates (1980). Toward reform of program evaluation, New York, Jossey Bass Ogden,T. (1985). Prosjektevaluering, utfordringer og muligheter ved valg av strategi og metoder. Tidsskrift for Norsk Psykologforening

Kontrollerte design - hva er det? Det er særlig to typer forskning som gir gode forutsetninger for å trekke slutninger om tiltakseffekter; Randomiserte kontrollerte studier (RCT) Kvasi-eksperimentelle studier (matchede kontrollgrupper). Alternativer: Interrupted time-series design, Regression discontinuity design, Propensity score matching, Case-control studies. Men foreløpig foreligger det ikke noe alternativ til RCT som kan gi et like troverdig svar på spørsmålet: Virker intervensjonen? (Lipsey, 2000). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 4

9/21/2012 The Norwegian Center for Child Behavioral Development Side 5

Evaluering med kontrollerte design Sammenligner en intervensjonsgruppe med en ekvivalent gruppe som ikke får intervensjonen slik at eventuelle forskjeller i resultater kan tilbakeføres til intervensjonen og ikke til forskjeller mellom gruppene før tiltaket ble iverksatt. Kontrastgrupper kan bestå av individer som ikke får noen intervensjon (passiv kontroll) som får ordinær behandling, som får intervensjonen senere (venteliste kontroll) eller som får en annen intervensjon (aktiv kontroll), Målingene foregår før og etter at tiltaket er gjennomført, Målinger av at tiltaket gjennomføres som planlagt (integritet), og at selektivt frafall ikke påvirker resultatene (adherence, fidelity). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 6

Kritikk av RCT For stor vekt på den indre validiteten på bekostning av den ytre, dvs. mer vekt på kausale sammenhenger enn på generalisering, Kan teste om det er statistiske gruppeforskjeller, men i mindre grad størrelsen på disse og hvor praktisk signifikant forskjellene er, Forklarer ikke hvem intervensjonen egner seg for og hvem den ikke egner seg for, Analyserer ikke individuelle forskjeller i respons og utfall, Forklarer ikke hvorfor intervensjonen virker. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 7

Utviklingen av randomiserte kontrollerte design Ytre validitet har kommet mer i fokus når RCT gjennomføres i vanlig praksis (effectiveness studies), med større grupper og over lengre tid, Moderator analyser viser interaksjonseffekter og dermed hvilke individer, praktikere eller utprøvingssteder som kommer bedre eller dårligere ut enn gjennomsnittet, Implementering som moderator gir svar på hvordan en intervensjon virker når den tas i bruk av forskjellige individer som jobber under veldig forskjellige miljøbetingelser (variasjoner i praktikere og praksismiljøer), Mediator analyser bidra til å avdekke endringsmekanismer i randomiserte studier. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 8

Hva kontrollerte design ikke tar høyde for Kompensatorisk rivalisering: de som arbeider med kontrastgruppen kompenserer gjennom å gi mer intensive tjenester enn de vanligvis ville ha gjort, Program kontaminasjon eller diffusjon: deler av den planlagte intervensjonen lekker inn i sammenligningsgruppen, Individuelle variasjoner i hvordan tjenestene mottas og oppleves av målgruppen og hvordan den enkelte deltaker responderer.

RCT egner seg ikke når: Intervensjonen er inkonsekvent med hensyn til dosering, intensitet, varighet eller kvalitet, Når deltakerne varierer med hensyn hvor mye de deltar og hvordan de reagerer på intervensjonen, Når deltakere ikke møter eller slutter før tiltaket er gjennomført, Når forventede resultater er vanskelige å definere, måle og vurdere, Hvis det reises sterke praktiske eller etiske innvendinger mot forsøket, Når en allerede vet at intervensjonen er virksom eller når andre metoder enn randomiserte tester gir åpenbare korrekte estimater av tiltakseffekter.

RCT egner seg for: Nye intervensjoner, modeller, programmer eller metoder som en ikke kjenner virkningene av, Intervensjoner som er veldefinerte og tydelig beskrevet, og som ikke ansees å være et bevegelig mål, Undersøkelser der deltakere kan fordeles tilfeldig på betingelsene definert av den uavhengige variabelen og der en kan holde dem i disse gruppene til resultatdata er samlet inn, Undersøkelser der forskeren vet hvilke resultatvariabler som er viktige, hvordan de kan måles og vurderes.

Faser i utviklingen av intervensjoner Nye intervensjoner blir ofte evaluert umiddelbart etter at de har blitt tatt i bruk og fanger derfor ikke opp hvordan de virker etter en tid, Dette kan handle om å evaluere et bevegelig mål eller «evaluating interventions before they mature». Utvikling av intervensjoner forutsetter tid til justeringer og tilpasninger i organisasjonsstrukturer og prosesser, og at praktikere får tid til å lære seg og mestre nye ferdigheter, - her er det behov for metodemangfold, Men det er faser hvor intervensjoner har blitt så godt utviklet at evaluering med kontrollerte design er både relevant og viktig.

Når er motstanden mot RCT minst? Når intervensjonen ikke kan gis til alle i målgruppen, Når intervensjonen øker ressurstilgangen til utprøvingsstedet eller lokalmiljøet, og under forutsetning av at kontrollgruppen fortsatt får like gode tjenester som før, Når den nye intervensjonen er mindre restriktiv enn den som foreligger (for eksempel familiebehandling vs. institusjonsplassering), Når de som mottar intervensjonen ikke truer tryggheten i lokalmiljøet, Når intervensjonen ikke truer autonomien og autoriteten til henvisningsinstansene og de som leverer ordinære tjenester, Når det er en høy grad av hierarkisk kontroll i tjenestesystemet. Weisburd, 2000; Cunningham, 2002

RCT og evidensbasert praksis Kontrollerte evalueringsdesign har blitt koblet til evidensbasert praksis og dermed blitt en del av evidensdebatten og what works, Empirisk støttede programmer og andre evidensbaserte metoder har hatt RCT som gullstandarden, Randomiserte, kontrollerte studier er også en viktig del av evidenshierarkiet og inngår i meta-analyser, systematiske forskningsoversikter og kostnad-nytte studier. Dermed har kontrollerte evalueringsdesign også blitt en del av styrings-og kontrolldebatten i offentlige tjenester. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 14

Intervensjonsforskning og evalueringsforskning Planlegging, utforming og utvikling av tiltak og tjenester skiller intervensjonsforskningen fra evalueringsforskningen, Intervensjonsforskning inkluderer evaluering, men omfatter også utforming og forbedringer av intervensjoner, Den inneholder både en detaljert beskrivelse av et program eller en tjeneste og en evaluering av hvor virksomt programmet eller tjenesten er, Styrken av forskningen som støtter en intervensjon avhenger av styrken av forskningsdesignet som brukes i evalueringen. Fraser, Richman, Glainsky & Day 2009

9/21/2012 The Norwegian Center for Child Behavioral Development Side 16

Evidenskritikken Vektlegger styring og kontroll av praktikere enten fra byråkrater, forskere eller programutviklere, Uforenlig med prinsippet om faglig autonomi, metodefrihet og med praktisk/klinisk skjønn, Skadelig for etablering av arbeidsallianser (terapeutisk allianse) og samarbeids-relasjoner mellom tjenesteutøvere og brukere, Akademisering av praksis for å øke faglig legitimitet og innflytelse, Favoriserer visse former for kunnskap og forskning, Representerer positivisme, instrumentalisme, reduksjonisme og et mekanistisk menneskesyn, Tar ikke hensyn til kontekst og individuelle variasjoner blant brukere, Ensidig opptatt av hva som virker og ikke hvorfor ting virker, Tar ikke høyde for sammensatte og overlappende problemer (bl.a. komorbiditet). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 17

Hva er implementering? I vid forstand handler implementering om å få tiltak til å virke, det vil si å iverksette eller gjennomføre planer og beslutninger i praksis, I denne sammenhengen dreier det seg mest om å omsette forskningskunnskap til praksis, Når intervensjoner gir dårligere resultater enn forventet, kan det skyldes at tiltaket ikke var virksomt på grunn av feil eller mangler, eller at implementeringen var mislykket eller utilstrekkelig.

Implementeringsforskning Implementeringsforskning handler om å evaluere hvilke forhold som hemmer eller fremmer omsetting av forskningskunnskap til praksis, Program- og tiltaksintegritet kan evalueres som en uavhengig variabel eller som en moderator, Passiv spredning og formidling stilles opp mot implementering, («Diffusion of innovation» - Rogers, 1995),

Velferdsforskning og evaluering Norsk velferdspolitikk kjennetegnes av en lang rekke forsøk av ulike typer, og det eneste de har til felles er at de er designet slik at det i regelen ikke er mulig å generalisere erfaringene, Heller enn å bli satt opp som vitenskaplige eksperimenter med kontrollgrupper, drives de fram av ildsjeler, pressgrupper og politikere med markeringsbehov, Kontrollerte evalueringsstudier ville bety langt mer for velferdsforskningens vitenskaplige kvalitet enn den serien med forsøksevalueringsrapporter som i dag produseres. Men blant mange samfunnsvitere rår en nærmest fundamentalistisk motstand mot naturvitenskapene og å eksperimentere med mennesker. Velferdsforskningen kan framstå som langt mer relevant uten å måtte gå på akkord med sine vitenskaplige integritet, og den største hindringen for en slik utvikling ligger antagelig i forskningsmiljøene selv. Hagen, K. (2009). Er en politikkrelevant forskning egentlig mulig? I: Nuland, Tranøy & Christensen (red.). Hjernen er alene. Institusjonalisering, kvalitet og relevans i norsk velferdsforskning. Oslo, Universitetsforlaget, 2009. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 20

Evaluering med kontrollerte design bedre enn sitt rykte Strengere rapporteringskrav for å sikre transparent og fullstendig rapportering (CONSORT statement, Moher mfl., 2010), Reduserte forskjeller mellom testing av intervensjoner under ideelle og ordinære betingelser (efficacy vs. effectiveness), Hovedeffekter som signifikanstesting og som effektstørrelser, Praktisk signifikanstesting supplerer statistisk signifikanstesting, Analyserer modererende forhold som viser hva som forsterker eller svekker resultatene for målgruppen, blant annet implementeringskvalitet, Analyserer medierende forhold eller endringsmekanismer som forklarer hvorfor tiltak virker (fra programmer til prinsipper og mekanismer). 9/21/2012 The Norwegian Center for Child Behavioral Development Side 21

9/21/2012 Takk, det var det hele! The Norwegian Center for Child Behavioral Development Side 22

Et prosjekteksempel

Inklusjonskriterier Inklusjonskriterier Gutter og jenter yngre enn 12 år som bor med minst én av de biologiske foreldrene Foreldre og lærervurderinger av CBCL/TRF med skårer høyere enn 0,5 standardavvik på delskala for eksternalisering, Eksklusjonskriterier Autistiske barn - Dokumenterte seksuelle overgrep Alvorlig psykisk utviklingshemning eller foreldre med alvorlig psykisk utviklingshemning, eller med alvorlig psykopatologi

Statistiske analyser De statistiske metodene bør redegjøres for sammen med eventuelle subgruppe-analyser : Test av behandlingseffekt med en serie ANCOVA analyser med dosering, inntaksskårer, alder og kjønn som kovariater, For hver gruppe bør en rapportere middelverdi, standardavvik, effekt-størrelse og konfidensintervall, Frafallet i hver av gruppene og på hvert instrument bør rapporteres. 9/21/2012 The Norwegian Center for Child Behavioral Development Side 26

Intent-to-treat vs. Treatment-of-the-treated analyser Intent-to-treat analyser: sammenligninger av gruppene foretas i henhold til den opprinnelige fordelingen på grupper, Ideelt skal en kontrollere at fordelingen definert av den uavhengige variabelen opprettholdes til data om resultater er samlet inn, Treatment-of-the-treated analyser: sammenligner bare de som har fullført tiltaket eller gjennomgått behandlingen.

Hovedeffekter moderator/interaksjonseffekter Hovedeffekter måles på primære og sekundære resultatvariabler, En moderator er en variabel som påvirker styrken av sammenhengen mellom to variabler, og formidler hvilke undergrupper tiltaket er mer eller mindre virksomt for, Moderering er en interaksjon der forholdet mellom den uavhengige og den avhengige variabelen påvirkes av en tredje variabel, som alder, kjønn, sosio-økonomisk bakgrunn eller problembelastning ved inntak.

Klinisk eller praktisk signifikans Det er den relative effekten av en intervensjon som studeres i RCT, der en i tillegg til statistisk signfikans kan beregne: Cohens effektstørrelse, odds ratio, survival analysis, Prosentvis reduksjon av problemer, number needed to treat, Antall som flyttes fra det kliniske til området for normativ fungering, tilbakefall eller plasseringer utenfor hjemmet.

Mediator analyser Endringsmekanismer Behandlingsbetingelse (PMTO vs TAU) Grensesetting Familiesamhold Barnets atferd 9/21/2012 Side 30 The Norwegian Center for Child Behavioral Development