Forskningsmetoder med vektlegging av Eksperimentelle Design

Forskningsmetoder med vektlegging av Eksperimentelle Design Erik Arntzen HiAk

Tåkeprat Jeg vet at du tror du forstår hva du tror jeg sa, men jeg er ikke sikker på at du innser at det du hørte, ikke er hva jeg mente. Richard Nixon

Sentrale verdier for atferdsanalyse som er tatt fra naturvitenskapen 1) Experimental questions should be asked about the subject matter and the variables that influence it (rather than about theory). 2) Variability in the data is a measure of the degree of experimental control achieved. 3) The value of the data is directly related to the degree of experimental control achieved. 4) Generality emerges from understanding controlling variables. 5) Experimental methods must be adapted to the characteristics of the subject matter. (Johnston & Pennypacker, 1993, p. 10)

Hypotetisk deduktive vs. induktiv forskningsmetode Atferdsanalyse er atskilt fra mye av resten av eksperimentalpsykologien hvor den sistnevnte historisk sett har sine røtter i teoridrevne og hypotetisk-deduktive metoder (Chiesa, 1994). Allerede Thales, Pyuthagoras, Aristotle, og andre greske filosofer i perioden 600 til 300 BC beskrev deduktiv resonnering. Galileo Galilei og også Francis Bacon ansees for å være viktige personer når det gjaldt å innføre denne metoden.

Forts. I nyere tid så er det den østerrikske filosofen Karl Popper som har utviklet den hypotetiske deduktive vitenskapelige metode. I motsetning har vi den induktive metode hvor f.eks. Mach hevder at vitenskapens oppgave er å beskrive funksjonelle relasjoner mellom hendelser. Beskrivelser av disse funksjonelle relasjonene er en forklaring i seg selv og at det ikke er nødvendig å henvise årsaken til uobserverbare hendelser (Mach, 1893). Sidman skriver at en kan tenke seg en forskjell her hvor hypotesetester vil spørre Is this true (or approximately true)?, mens en som er opptatt av atferdsanalyse vil spørre I wonder what happen if (Sidman, 1960, s. 8).

Type I og Type II feil Type I feil. Feilaktig tilbakevise en korrekt null hypotese. I et eksperiment innebærer dette vanligvis at en konkluderer med at det er en effekt når det i virkeligheten ikke er en effekt. Type II feil. Avviser ikke en falsk null hypotese. I et eksperiment innbærer dette at man konkluderer at det ikke er noen effekt når det virkelig er en effekt.

Ulike forskningsmetoder Beskrivende forskningsmetoder Feltobservasjon Kasusstudier Systematisk observasjon Retrospektive undersøkelser Longitudinelle og kryss-seksjonelle metoder Arkivforskning Survey-undersøkelse» Intervju» Spørreskjema Psykologiske tester Eksperimentelle forskningsmetoder (Svartdal, 1998)

Formålet med forskningsdesign Atferdsanalytikere er ikke interessert i å studere en hvilken som helst atferd eller manipulere variabler helt tilfeldig som en kuriositet. Det er snakk om å utvikle og manipulere de variablene som vil resultere i en terapeutisk forandring for målpersonen og for å demonstrere at det er disse variablene som er ansvarlig for forandringene og ingen andre variabler.

Oppsummering av viktige dimensjoner ved anvendt atferdsanalyse, the field of applied behavior analysis stresses the study if socially important behavior that can be readily observed, and it uses research designs that demonstrate functional control, usually at the level of the individual performer. The procedures developed by this field must be replicable, and the extent of the resulting behavior change must have important practical significance for the social community. (Bailey, 2002, p. 17)

Ti steg for vellykket forskning Velg et vanlig område, finn en god setting og velg passende forsøkspersoner Avgrens problemstillingen din Bestem avhengige og uavhengige variabler Fastsett sosial validitet Lag ditt eget datainnsamlingssystem Gjør en pilottest med dine hovedvariabler Finn fram til en egnet forskningsdesign Foreta en etisk sjekk Gjennomfør forskningsprosjektet Analyser og framstill dataene dine grafisk (Bailey, 2002)

To Hovedtyper av Design 1) Gruppedesign 2) N=1 design

Gruppedesign Ved en gruppedesign er en gruppe personer eller dyr gjenstand for manipulasjoner og resultatene sammenlignes med en kontrollgruppe.

Single-subjects designs Skinner studied the behavior of the individual organism. Part of the rationale for doing this is that groups do not behave individuals do. (O Donahue & Ferguson, 2001)

The average no goes to the circus to see the average dog jump through a hoop significantly oftener than untrained dogs raised under the same circumstances. (Skinner, 1956, p. 228)

Ulike typer N=1 design Kasusstudier. Eksperimentelle design.

Ulike typer av eksperimentelle N=1 design 1) ABAB design 2) Multiple baseline design Ikke-eksperimentelle design: B-design. B-C design. 3) Multiple-treatment design 4) Changing criterion design

Kjennetegn ved vitenskapelig tekning Determinisme Objektivitet Styrt av data (Goodwin, 2005)

Determinisme 1 Tradisjonelle bruk av ordet determinisme innebærer helt enkelt at alle hendelser har årsaker. Noen snakker om sannsynlighet eller statistisk determinisme Determinisme er ofte kontrastert med fri vilje

Determinisme 2 Rudolph Carnap argued that free choice is meaningless unless true determinism is true, because choices should be made on some reasonable basis and there can be no such basis for choice unless the world is lawful to a degree. (Goodwin, 2005, p. 10)

Determinisme 3 causal regularity it is not possible to make a free choice at all. A choice involves a delibrate preference for one course of action over another. How could a choice be made if the consequences of alternative courses of action could not be foreseen? (Carnap, 1966, p. 220)

Objektivitet En objektiv observasjon er helt enkelt en observasjon som kan verifiseres av mer enn en observatør På den måten kan en studie repliseres. Direkte og systematisk replikasjon (Sidman, 1960)

Styrt av data

Pseudoscience Generelt kan man si at pseudoscience er anvendt på et hvert område og som utgir seg for å bruke vitenskapelige metoder, men er faktisk basert på inadekvate, uvitenskapelige metoder og bruker resultater som generelt er falske. (Goodwin, 2005)

Science vs. pseudosience

Franz Josef Gall Frenologi er da forholdet mellom personlighet og hjernestruktur, hvor (a) Ulik personlighet og ulike intellektuelle attributter (faculties) ble assosiert med ulike deler av hjernen (se figuren) (b) større slike attributter resulterte i større hjerneområder, (c) skallmål ga estimater av den relative styrken av disse attributtene.

Hos frenologen

I dag kan man besøke et mangfold av websider å bestille såkalt underbevissthets kassetter som lover å hjelpe med improve memory, lose weight, stop smoking, become a better sexual partner, improve self-esteem, become rich in the stock market, or even become a more proficient hunter of deer (www.buckblaster.com)

Målene ved forskning innen psykologi Beskrive atferd Identifisere mønstre av hendelser, inklusive både stimuli og miljømessige hendelser og responser. Predikere atferd Det at atferd følger lover innebærer at gjentatte og predikerbare forhold eksisterer mellom variabler. Forklare atferd Det å forklare atferd innebærer bl.a. å vite noe om hva var årsaken til at den forekom. Kontrollere atferd Kontroll refererer helt enkelt til ulike måter å anvende disse atferdsprinsippene. (Goodwin, 2005)

Skinner en av de mest framtredende i forrige århundre

My first extinction curve showed by accident. A rat was pressing the lever in an experiment on satiation when the pellet dispenser jammed. I was not there at the time, and when returned I found a beatiful curve. The rat had gone on pressing although no pellets were received The change was more orderly than extinction of a salivary reflex in Pavlov s setting, and I was terribly exited. It was a Friday afternoon and there and there was no one in the laboratory who I could tell. All the weekend I crossed streets with particular care and avoided all unecessary risks to protect my discovery from loss through accidental death. (Skinner, 1979, p. 95)

A case history in scientific method (Skinner,1956)... when you run into something interesting, drop everything else and study it (p. 363);... some ways of doing research are easier than others (p. 364);... some people are lucky (pp. 365-366);... apparatus sometimes breaks down (p. 367);... serendipity the art of finding one thing while looking for something else (p. 369).

Basic vs. applied Basic research Aktivitet hvor en beskriver, predikerer og forklarer grunnleggende prinsipper om atferd Applied research Aktivitet som har direkte og umiddelbar relevans for løsninger i virkelige problemer.

Ulike type data Kvantitativ forskning Kvalitativ forskning

Kjennetegn ved en sterk vitenskapelig teori Kunne forklare allerede eksisterende fenomener ( inclusiveness ) Kunne rettlede forskning ( fruitfulness ) Kunne gi et samlet bidrag for diverse fenomener ( generality )

Falsifisering og Kloke Hans

Reliabilitet og validitet Reliabilitet Pålitelighet Validitet Gyldighet En måling av atferd er reliabel dersom resultatene er repeterbare når målingene gjentas Valid dersom det måler hva det er designet for å måle

Eks. med reaksjonstidsdata

Reaction time data.16 s.15 s.19 s.17 s.19 s.11 s.21 s.19 s.08 s.33 s.23 s.26 s.21 s.22 s.24 s

Reliabilitet Test-retest reliabilitet Interitem reliabilitet Split-half procedure Interrater reliabilitet Frequency ratio Point-by-point agreement ratio Pearson product-moment correlation

To hovedkategorier av validitet Validitet av et måleinstrument Spesielt i forhold til tester innen det som betegnes som testpsykologi, psykometriske tester, men også for eksempel i forhold til et spørreskjema. Validitet av en prosedyre i en studie Aktuell inne for atferdsanalyse

Ulike typer validitet ved et Face validity Innholdsvaliditet Kriterievaliditet Nåværende Prediktiv måleinstrument: Teoretisk validitet, begrepsvaliditet og konstrukt validitet

Validitet ved en prosedyre Indre (intern) og ytre (ekstern) validitet er to forhold som må tas i betraktning når man skal vurdere årsak-virkning. Et funn er indre valid dersom den uavhengige variabel faktisk er årsaken til forandringer i den avhengige variabel. Et funn er ytre validitet dersom funnet kan generaliseres til andre typer av atferd, situasjoner eller behandlinger. Populasjonsvaliditet Økologisk validitet

Sosial validitet er knyttet til avgjørelser om hvorvidt den kliniske eller anvendte behandlingseffekten er viktig. Dette måm vurderes i forhold til minst tre nivåer: 1) En må spørre seg om hvorvidt målresponsen(e) som har vært fokus i behandlingstiltaket virkelig er de viktigste for klienten og samfunnet. 2) En må være opptatt av at klienten aksepterer prosedyrene som anvendes, særlig dersom alternative prosedyrer kan gi de samme resultatene. 3) En må sikre seg at konsumentene (klientene og/eller deres nærpersoner) er fornøyd med resultatene.

Forhold som kan true den interne validiteten: Historie Modning Reaktivitet Svikt i måleinstrumentet ( Instrumentation decay ) Statistisk regresjon

Statistisk regresjon Eksempel med baseball: En spiller har kastet flere hundre kast og han kaster i gjennomsnitt 90 meter. Så kaster han 115 meter. Hvor mange meter vil det neste kastet hans bli på: a) 115 meter b) 128 meter c) 100 meter

Målingsskalaer Nominelle skalaer Klassifisering av hendelser i en eller annen gruppe Ordinale skalaer Intervall skalaer Ratio skalaer

Problemer med skalaen?

Målingsskalaer Nominelle skalaer Klassifisering av hendelser i en eller annen gruppe Ordinale skalaer I hovedsak et sett av rangeringer Intervall skalaer Ratio skalaer

Målingsskalaer Nominelle skalaer Klassifisering av hendelser i en eller annen gruppe Ordinale skalaer I hovedsak et sett av rangeringer Intervall skalaer Intervall skalaer har en rangering hvor det er et likt intervall mellom de hendelsene som rangeres. Ratio skalaer

Målingsskalaer Nominelle skalaer Klassifisering av hendelser i en eller annen gruppe. Ordinale skalaer I hovedsak et sett av rangeringer. Intervall skalaer Intervall skalaer har en rangering hvor det er et likt intervall mellom de hendelsene som rangeres. Ratio skalaer Ratio skalaer har med seg rangeringen og like intervaller, men har i tillegg et absolutt nullpunkt.

Statistiske analyser Deskriptiv statistikk Målinger i forhold til sentral tendens, variabilitet, etc. mean, median, mode Slutningsstatistikk

16 18 19 19 18 19 15 21 14 16 15 17 17 20 17 15 18 17 18 18

Gjennomsnitt mean = gjennomstittet = sum av de enkelte skårene n = antall scorer i utvalget

Median Det er den scoren som er akkurat midt i ett sett scorer. Median location = (n +1)/2 14 15 15 15 16 16 17 17 17 17 18 18 18 18 18 19 19 19 20 21

Mode Det er den skåren som opptrer hyppigst i ett sett med skårer.

Definisjoner Målatferd er den atferd som gjøres til gjenstand for tiltak eller registrering Målbetingelse er den betingelse det er et mål at atferden skal forekomme under kontroll av.

Tre forhold ved definisjon av målatferd Objektivitet Definisjonen av responsen skal referere til observerbare former for atferd i klart spesifiserte situasjoner. Klarhet eller nøyaktighet Beskrivelse av responsen kan leses og bli nøyaktig gjengitt av en trent terapeut eller observatør. Fullstendighet Alle tilfeller av atferden skal være skilt fra alle ikkeforekomster.

Dimensjoner ved atferd Frekvens eller antall Rate = antall/tidsenhet Varighet Intensitet Latens eller reaksjonstid

Registreringsteknikker 1) Automatisk 2) Ved sluttprodukter 3) Ved direkte observasjon a) Hendelsesregistrering b) Frekvensregistrering c) Varighetsregistrering d) Intervallregistrering i. Kontinuerlig observasjon med intervall registrering ii. Tidsutvelgelse ( momentary time sampling )

Uavhengig og avhengig variabel Uavhengig variabel Det som blir endret i et eksperiment Avhengig variabel Det som blir målt i et eksperiment X-variabel Vanligvis kalt årsak Y-variabel Vanligvis kalt effekt I atferdsanalytiske eksperimenter er dette miljømessige forandringer Atferden til organismen

Baseline Det er den fasen av et eksperiment eller en intervensjon hvor atferden blir registrert i fravær av de eksperimentelle manipuleringene eller behandlingen.

Et minimum ved atferdsanalytiske behandlingsprogrammer En baselinefase En behandlingsfase En oppfølgingsfase

For å demonstrere generaliteten ved eksperimentelle funn brukes: Direkte replikasjon Systematisk replikasjon

Interobserver agreement:

Hvordan en grafisk framstilling skal se ut (#1):

To Hovedtyper av Design 1) Gruppedesign 2) N=1 design

Gruppedesign Ved en gruppedesign er en gruppe personer eller dyr gjenstand for manipulasjoner og resultatene sammenlignes med en kontrollgruppe.

Single-subjects designs Skinner studied the behavior of the individual organism. Part of the rationale for doing this is that groups do not behave individuals do. (O Donahue & Ferguson, 2001)

Ulike typer N=1 design Kasusstudier. Ikke-eksperimentelle design: B-design. B-C design. Eksperimentelle design.

Ulike typer av eksperimentelle N=1 design 1) ABAB design 2) Multiple baseline design 3) Multiple-treatment design 4) Changing criterion design

En ABAB design Inneholder A-fase (baseline) og B-fase (intervensjon/behandling/tiltak) Innebærer et minimum på en reversering Ved gjeninnføring av baselinelignende betingelser skal frekvensen av atferd vende tilbake til samme nivå som under første baselinebetingelse og på tilsvarende måte for gjeninnføring av tiltak sammenlignet med første gang tiltaket var virksomt

Begrensninger ved reverseringsdesign Manglende stabilitet Repliserbarhet av prosedyren og effekten Effekter av sekvens Det å produsere reverseringseffekter Etiske forhold

Multiple baseline design Over responser Over situasjoner Over personer

Multiple probe design En undergruppe av multiple baseline design Den ble beskrevet først av Horner og Baer (1978) En av hovedfordelene ved denne designen er at den kan hindre reaktivitet

Momenter som må bli tatt i betraktning vedrørende multiple baseline design Dersom to eller flere av responsene i designen samvarierer, så vil ikke denne designen kunne demonstrere tilstrekkelig eksperimentell kontroll. Ettersom verifiseringen må sluttes ut fra mangel på forandring i de andre responsene, så er multiple baseline design en svakere design enn reverseringsdesign mht. å vise eksperimentell kontroll mellom uavhengig variabel og en gitt atferd. Denne designen er en tidkrevende design. Cooper et al., 1987

Multiple-treatment design multi-element design (Ulman & Sulzer-Azaroff, 1975) alternating-treatment design (Barlow & Hayes, 1979) simultaneous-treatment design (Browning, 1967) concurrent schedule design (Hersen & Barlow, 1976) multiple-schedule design (Redd,

Multiple-treatment design Denne designen blir brukt for å sammenligne hvor effektive ulike intervensjoner eller betingelser som iverksettes i forhold til en målperson eller gruppe av målpersoner er. I designen blir effekten av de ulike intervensjonene vist ved å presentere hver av dem i enkeltvise intervensjonsfaser etter baseline. Måten disse forskjellige intervensjonene blir iverksatt på i løpet av intervensjonsfasen er grunnlaget for å skille mellom ulike multiple-treatment designs.

Multi-element design brukt i funksjonelle analyser Alene betingelse Presentasjon av oppmerksomhet Kontrollbetingelse (nonkontingent forsterkning) Flukt betingelse

Kontrollforhold ved funksjonelle analyser Kontrollforhold % av tilfellene Positiv forsterkning 26,3 Negativ forsterkning 38,1 Automatisk forsterkning 25,7 Multippel kontroll 5,3 Syklisk eller uforutsigbar 4,6

Alternating treatment design kjennetegnet ved en rask alternering mellom to eller maksimum tre forskjellige behandlinger, dvs. uavhengige variabler. alternering skjer uavhengig av nivået på atferd en bestemt stimulus er korrelert med hver behandling

Varianter av ATD ATD uten en innledende baselinefase ATD med en innledende baselinefase ATD med en innledende baselinefase og en etterfølgende fase hvor den beste behandlingen blir brukt

Tabell som viser oversikt over administreringen av to intervensjoner ( I1 og I2) balansert i forhold til to tidsperioder (T1 og T2) Rekkefølgen blir alternert annenhver dag i intervensjonsfasen Tidsperioder 1 2 3 4 5 6 n T1 I1 I2 I1 I2 I1 I2 T2 I2 I1 I2 I1 I2 I1 Rekkefølgen blir tilfeldig alternert i intervensjonsfasen Tidsperioder 1 2 3 4 5 6 n T1 I1 I2 I2 I1 I2 I1 T2 I2 I1 I1 I2 I1 I2

Fordeler ved bruk av multiple-treatment design : 1) Sammenlignet med ulike typer reversingsdesign er ingen reversering påkrevet. 2) Designen krever ikke at behandling/intervensjoner blir holdt tilbake, slik det er tilfellet i multiple baseline design hvor behandlingen/intervensjonen blir iverksatt i forhold til en atferd/person/situasjon ad gangen. 3) Baseline variasjoner er også mer akseptabelt både i forhold igangsetting og evaluering av behandlingseffektene. 4) Designen er egnet for å sammenligne ulike typer av behandling/intervensjoner innen en person over relativt kort periode.

Problemer ved bruk av multiple-treatment design : 1) Designen krever at det er raske forandringer av målatferd som en følge av intervensjonen. 2) Forekomst av målatferden kan være avgjørende for valg av denne designen. 3) Ettersom intervensjonene er iverksatt nært i tid, så er det viktig at intervensjonene er mulig å diskriminere mellom for målpersonen. 4) Varigheten av designen vil øke som en funksjon av antall intervensjoner og stimulus betingelser som blir anvendt. 5) Det at de ulike typene av behandling/intervensjoner som anvendes i designen kan interferere.

Changing criterion design Første gang beskrevet i litteraturen av Hartmann og Hall (1976). Noen ganger er også Weiss og Hall (1971) trukket fram som de første. Denne designen har visse likheter med alternating treatment design. Det skiller fra ATD ved at den framfor å alternere mellom ulike intervensjoner, så forandrer den en enkel intervensjon på en systematisk måte. Eksperimentell kontroll ved designen er vist dersom skrittvise forandringer i den avhengige variabelen samsvarer med skrittvise forandringer i intervensjonen.

CCD forts. Hver fase i designen vil fungere som baseline for neste fase. Når det kan vises innen designen at nivået ved responderingen ikke forandrer seg uten at kriterium forandres og ikke avhengig av lengden på fasene kan vi si at eksperimentell kontroll er tilstede. Cooper et al., 1987

Spesielle ting å merke seg ved bruk av CCD Primært brukes denne designen når atferden er endimensjonal og hvor intervensjonen involverer forandringer av noen kontingenser langs en dimensjon. Designen kan brukes bare dersom målresponsene er i repertoaret til målpersonen. Pass på at antall muligheter ikke samsvarer med kriterium for forsterkning. Designen er best egnet i forhold til kontingent forsterkning og eller straffeprosedyrer som er anvendt i forhold til en spesifisert rate, frekvens, eller utførelse. Trender i data er uheldig og det må være stabilitet innen hver fase. (Cooper et al., 1987)

Retningslinjer for å vurdere effekten av den uavhengige variabel (behandlingen) har hatt på den avhengige variabel: Antall ganger resultatet er replisert. Overlapp av datapunkter fra baseline og behandling. På hvilket tidspunkt effekten er observert etter at behandlingen er iverksatt. Størrelsen av effekten det er i forhold til baseline. Jo mer presist behandlingsprosedyrene er spesifisert. Jo mer reliable responsmålingene er. Jo mer konsistente dataene er med eksisterende data og akseptert atferdsteori.

Innvendinger mot N=1 design Den vanligste innvendingen mot N=1 design er manglende oppnåelse av ytre (ekstern) validitet.

Viktige momenter ved Prediksjon Verifisering Replikasjon analyser:

Systematisk relasjoner er demonstrert når: 1) atferd forandres mer over eksperimentelle betingelser enn innen betingelsene 2) disse forandringene kan repeteres innen en enkelt forsøksperson eller hos en ny forsøksperson.