Logiske feilslutninger i dyremodeller

Like dokumenter
Implikasjoner av rottemodeller for ADHD

Kontingensfeller og atferdsfeller To sider av samme sak eller radikalt forskjellige?

STUDIEÅRET 2013/2014. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Fredag 25. april 2014 kl

Forskerroller. Tine Nordgreen Førsteamanuensis, UiB Prosjektleder, Haukeland Universitetssykehus. Stipendiatsamling 17 mars 2017

Innhold. Del 1 Grunnleggende begreper og prinsipper... 39

Kapittel 1 Vitenskap: grunnleggende antakelser

Systematisk analyse av SHR modellen av ADHD

Psychology as the Behaviorist Views it. John B. Watson (1913).

STUDIEÅRET 2012/2013. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 27. august 2013 kl

Eksamen PSY1011/PSYPRO4111: Sensorveiledning

Good Behavior Board Game

STUDIEÅRET 2012/2013. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Onsdag 24. april 2013 kl

Barkley, R.A (1997). ADHD and the nature of self- control. The Guilford Press

Hegarty, Richardson, Montello, Lovelace, & Subbiah, 2002, Prestopnik & Roskos-Ewoldsen, 2000,, 1990, 1992

Arbeidsseminar som metode i opplæring av barnehagepersonell i Incidental Teaching. NAFO 5. mai 2007

Det er alltid feil i registreringer

Forskningsmetoder i menneske-maskin interaksjon

Foreldreopplæring i Pivotal Response Treatment. Marcus D. Hansen & Mari Østgaard

Kontiguitet og kontingens

EKSAMEN 4016/4016N VITENSKAPSTEORI OG NATURSYN. Tid : 1 time (9-10)

Hvordan hjelpe elever til å utvikle teoretisk kunnskap når de gjør praktisk arbeid i naturfag?

Habituering. Kristin Utgård Glenne regionale senter for autisme. Habituering- definisjon

Hva er evidens? Eva Denison

Newton Energirom, en læringsarena utenfor skolen

Kan vi stole på resultater fra «liten N»?

Eksamensoppgave i PSY1011/PSYPRO4111 Psykologiens metodologi

Standardsetting. Læringsstøttande prøvar i engelsk for VG1. Rapportering på skalaen til Det felles europeiske rammeverket for språk

Molare forsterkningsbetingelser

FORSKNINGSMETODE NOEN GRUNNLEGGENDE KONSEPTER

Slutninger fra data FRODE SVARTDAL UIT 2015

Hvilken BitBot går raskest gjennom labyrinten?

FASMED: Grafisk framstilling og misoppfatninger. Tirsdag 24.februar 2015 Bente Østigård

Barn beviser. Andrea Hofmann og Sigurd Hals Førsteamanuensis og Stipendiat Fakultet for Humaniora, Idrettsog Utdanningsvitenskap

Sammensatte Forsterkningsskjemaer

Hvordan kan IKT bidra til pedagogisk utvikling?

STUDIEÅRET 2014/2015. Utsatt individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Tirsdag 25. august 2015 kl

CONSORT Consolidated Standards of Reporting Trials

Hypotesetesting: Prinsipper. Frode Svartdal UiTø Januar 2014 Frode Svartdal

Oppgåver Oppgåvetype Vurdering Status. 1 DEL 1 Vitenskapsteori Skriveoppgave Manuell poengsum Levert

Om betydningen av offentlig informasjon om behandlingsbeslutninger.

Utvikling av kreativ og robust matematikklærerkompetanse

GIS og folkehelse. Ida Maria Saxebøl, Msc i folkehelsevitenskap

Cover Slide. Etisk seleksjon: Å inkludere både arbeidsgiver og arbeidstaker. Thor A. Eriksen Psykolog/Produktsjef Cut-e Nordic AS.

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Mandag 13. april 2015 kl

Marte Blikstad-Balas. Skolens nye literacy: tekstpraksiser i dagens videregående skole

5E-modellen og utforskende undervisning

Nasjonalt kvalifikasjonsrammeverk og læringsmål i forskerutdanningen

erfaringer fra bioceed

Etablering av imitasjon ved å forsterke promptede responser. Espen Kåsa (Lørenskog kommune) og Kim Liland (STI) NAFO 14.mai kl. 16:00 16:45.

S-TEAM/SUN Hvordan kan forskningsresultater herfra være til nytte for lærerutdanningene?

Rekruttering og utvelgelse Førsteamanuensis Ole I. Iversen (Dr. BA) Handelshøyskolen BI Institutt for ledelse og organisasjon

1 8-1: Oversikt : Grunnleggende hypotesetesting. 3 Section 8-3: Å teste påstander om andeler. 4 Section 8-5: Teste en påstand om gjennomsnittet

Førerkortvurderinger. Et kunnskapstranslasjonsprosjekt. Mildrid Ofstad

Mathematical Knowledge for and in Teaching

ME Metode og statistikk Candidate 2511

Ph.d-utdanningen. Harmonisering av krav i Norden

Måleegenskaper ved ADI-R og ABC. Marianne Halvorsen Psykologspesialist, PhD UNN Tromsø

Statistikk & dataanalyse: Et eksempel. Frode Svartdal UiT mars 2015

Diskusjonsoppgaver Hvilke fordeler oppnår man ved analytisk evaluering sammenliknet med andre tilnærminger?

Hvordan observere forståelse?

Arbeid og kontakt med husdyr for personer med psykiske lidelser

Språklæring og flerspråklighet

Motivasjon. Martin og Cathrine Olsson

Å lære av å se på andre

Kapittel 3: Studieopplegg

Dyremodeller for menneskelige tilstander innenfor atferdsanalyse

Sannsynlighet, frekvens, usikkerhet hvordan forstå og formidle risiko?

Statistikk & dataanalyse: Et eksempel. Frode Svartdal UiT april 2016

Geometriske begrepers doble natur. Frode RønningR Voss

Nominering av publiseringskanaler til nivå 2

Demokrati & medborgerskap i et tverrfaglig perspektiv Heidi Biseth, Ph.D. Førsteamanuensis

Eksperimentelle design

Forelesning basert på interteaching om grunnleggende forsterkningsskjemaer MALKA212

Forelesning basert på interteaching om grunnleggende forsterkningsskjemaer MALKA212

Vurdering av kvaliteten på evalueringsforskning ved hjelp av meta-analyse

Dokumentasjon av systematisk litteratursøk

Diverse tiltak i ordinær skole, rettet mot enkeltindivider, grupper og klasser

For studenter ved M.Sc. studiet i samfunnssikkerhet.

Foreldreopplæring i Pivotal Response Treatment. Mari Østgaard & Marcus D. Hansen

ESTIMERING I SMIDIGE PROSJEKTER

Hvordan utforske barns tanker om funksjonsnedsettelse? Torun M. Vatne Psykolog Phd Frambu

Krysstabellanalyse (forts.) SOS1120 Kvantitativ metode. 4. Statistisk generalisering. Forelesningsnotater 9. forelesning høsten 2005.

Kritikk: Hvordan kan adferdsanalyse trene alle ferdighetene som kreves for et funksjonelt hverdagsliv?

Lærere som lærer. Elaine Munthe. Professor / Dekan Universitetet i Stavanger uis.no

Tidlig og riktig innsats i praksis - forskerblikk på tidlig innsats

KVANTITATIV METODE. Marit Schmid Psykologspesialist, PhD HVL

Eksamensoppgave i PSY Forskningsdesign

Allmenndel opg 1 - Hermeneutikk som metode

CHAPTER 11 - JORUN BØRSTING, ANALYZING QUALITATIVE DATA

Tilbakemeldinger fra klienter kan gi bedre behandling

Dean Zollman, Kansas State University Mojgan Matloob-Haghanikar, Winona State University Sytil Murphy, Shepherd University

Regional forskingskonferanse for Psykiatri og rusfeltet Vår Olav M. Linaker PH, St. Olavs Hospital/INM, NTNU

SCRIBE The Single-Case Reporting Guideline In BEhavioural Interventions

BPS TESTING REPORT. December, 2009

Erfaringer med Lesson Study i GLU. GLU-konferansen, 19. mars 2015 Universitetet i Stavanger Professor Raymond Bjuland

TJORA: TIØ10 + TIØ11 FORELESNING 1 - HØSTEN 2003

SJEKKLISTE FOR VURDERING AV EN RANDOMISERT KONTROLLERT STUDIE (RCT) Målgruppe: studenter og helsepersonell Hensikt: øvelse i kritisk vurdering

Sammensatte Forsterkningsskjemaer

Hjemmeeksamen Gruppe. Formelle krav. Vedlegg 1: Tabell beskrivelse for del 2-4. Side 1 av 5

Transkript:

Logiske feilslutninger i dyremodeller ESPEN SJØBERG

Innhold Hva er en logisk feilslutning? Confirmation bias Face validity Signifikanstesting

Hva er en logisk feilslutning? En logisk feilslutning er en avgjørelse eller et argument som er basert på dårlig eller feil logikk. Et eksempel på dette er feilen affirming the consequent. Hvis A er sant, så observerer vi B. Vi observerer B. Konklusjon: A må være sant. Dette er en logisk feilslutning, fordi regelen sier A->B, men spesifiserer ikke B->A.

Hva er en logisk feilslutning? En lettere versjon er: Hvis jeg har influensa, så har jeg kraftig hoste. Jeg hoster kraftig. Konklusjon: Jeg har influensa. Regelen sier bare at influensa inkluderer hoste, men spesifiserer ikke at hoste KUN observeres i influensa. Å konkludere at man har influensa er dermed en logisk feilslutning. Vi skulle kanskje tro at forskere kan motstå slike tenkningsmønstre. Forskere er tross alt trent på logisk, vitenskapelig metode. Men mellom 25-33% av forskere faller for denne feilslutningen (Barnes, 1985; Kern et al., 1984).

Confirmation bias En logisk feilslutning i samme bane er confirmation bias. Dette innebærer å gjøre valg som bekrefter regelen, fremfor valg som avkrefter regelen. Innenfor forskning er dette svært aktuelt. Hvis en forsker aktivt leter etter funn som bekrefter egen hypotese, så er ikke dette objektivt. Innenfor statistiske analyser kan man f.eks. øke antall forsøkspersoner for å øke sannsynligheten for at man finner et signifikant resultat. Dette henger mye sammen med file drawer effect, hvor eksperimenter som ikke støtter en hypotese ikke blir publisert (e.g. Mahoney, 1977). Dette feilslutningen kan testes gjennom et paradigmet kjent som Wason Selection Task.

Confirmation bias 3 8 Hvert kort har et tall på én side, og en farge på den andre. Hypotese: Hvis et kort har et partall på en side, så har den rød farge på andre side. Hvilke kort må man snu for å teste denne hypotesen? Man må snu 8 og Blå. Snur man 8 og Rød forsøker man å bekrefte hypotesen, fremfor å falsifisere. Dette er logisk krevende å forstå, og omtrent 90% av forsøkspersoner vil ikke klare denne oppgaven (Evans, 1993; Wason, 1977).

Confirmation bias Er forskere forskjellig? Ja, men vi gjør fremdeles denne feilen. Profesjon: % feil (snitt): Baseline:.78% Atferdsanalytikere: 91% Historikere: 81% Ingeniører: 80% Sosiologer: 75% IT teknikere: 70% Fysikere: 63% Matematikere: 52% Psykologer: 49% Biologer: 25% Hvorvidt man tester studenter, PhD kandidater, eller professorer, har liten vesentlig effekt. Men generelt sett er studenter mindre kritiske. Kilde: Inglis & Simpson (2004); Jackson & Griggs (1988); Kern et al. (1983); Mahoney (1976)

Confirmation bias i dyremodeller Dyreforskere har ikke blitt testet direkte, men en artikkel fant at omtrent 1/3 av dyreforsøk om aggresjon ikke brukte en double-blind prosedyre, og disse var mer sannsynlige til å finne resultater som støttet hypotesen (Wilgenbrug & Elgar, 2013). 73% hvis ikke-blind, 21% hvis blind. Det første steget når man utfører forskning generelt er å være klar over egne begrensninger. Den logiske feilslutningen confirmation bias kan reduseres om man gjør double-blind prosedyrer: I dyreforsøk vil det innebære at: Forskeren ikke er klar over hypotesen. Forskeren ikke kan skille mellom eksperimentell gruppe og kontroll. Dyrene vet ikke hvilken gruppe de er i (ganske lett med dyr)

Confirmation bias i dyremodeller Men en ting er teori, og en annen er praksis. Double-blind prosedyrer er ikke alltid mulig å utføre: 1. Forskere i dyreforsøk må ha kvalifikasjoner til å håndtere dyr Det er dermed logistisk krevende, og dyrt, å ha assistenter over tid som er blinde til hypotesen 2. Dyr kan har karakteristikk som skiller seg ut fra kontroll Om eksperimentell gruppe er hyperaktive, og kontroll rolige, så blir det fort åpenbart hvilke dyr som er i hvilken gruppe. 3. Tidligere forskning kan ha vist at double-blind prosedyrer er uvesentlig eller upraktisk. 4. Dyrene er alltid blinde til hypotesen, så påvirkning kan være minimal. Dermed kan det være upraktisk å kontrollere for confirmation bias. Men det skader aldri å være klar over egne begrensninger.

Validering av en dyremodell For å etablere en dyremodell må den først valideres. Dette involverer forskjellige typer validitet. En av disse er face validity (ansiktsvaliditet). Face validity er hvorvidt det ser ut som man måler konseptet man ønsker å måle. I dyremodeller er det snakk om hvorvidt dyrene ser ut til å representere målgruppen. F.eks., la oss si vi har en dyremodell på depresjon, hvor vi bruker rotter. Observasjon: Depressive personer er mindre aktive enn kontroll. Observasjon: Rotter i modellen for depresjon er mindre aktive enn kontroll. Face validity Gruppene ser altså ut til å gi like resultater.

Face validity Dette gjør oss skadelige for en logisk feilslutning som heter argument from analogy. Dette innebærer å trekke konklusjoner om en gruppe basert på observasjoner i en annen gruppe. F.eks. I dyremodellen for depresjon observerer vi at rottene sover mer. Konklusjon: depressive mennesker sover mer. Dette er en logisk feilslutning fordi vi kan ikke med sikkerhet at dette er tilfellet.

Face validity Til tross for denne usikkerheten har allikevel dyremodellen flere styrker her: 1. Den åpner for muligheten for en ny hypotese. Selv om vi ikke kan være helt sikre på søvnhypotesen vår før vi har testet mennesker, så har vi etablert muligheter for ny forskning, og nye forklaringer på menneskelige depresjon. Dette oppsto gjennom dyremodeller. 2. Det som er viktig å huske er at vi gjør en logisk feilslutning om vi trekker konklusjoner om mennesker basert på dyremodeller, men det betyr ikke at en slik konklusjon for gitt er feil. Styrken til dyremodellen, straks den er etablert som pålitelig, er altså at man finne ny kunnskap om mennesker, uten at forskning på mennesker er nødvendig. I tillegg har dyre eksperimenter ofte større eksperimentell kontroll enn menneskestudier.

P-verdier og familywise error Når man analyserer data er det viktig at man utfører korrekt statistisk analyse. Dette er ikke nødvendigvis åpenbart, spesielt fordi det vil ofte finnes flere fremgangsmåter på dette. Her kan mangel på forståelse av statistiske analyser skape flere problemer. Og statistisk kunnskap varierer fra disiplin til disiplin.

Signifikanstesting Null hypotese signifikans testing (NHST) er den vanligste metoden på å analysere data statistisk. I atferdsanalyse er det mer vanlig å bruke visuelle grafiske analyser, uten signifikanstesting. I Norsk Tidsskrift i Atferdsanalyse finnes det kun 3 artikler som bruker signifikanstesting (Olaff et al., 2013; Strømgren & Sørheim, 2015; Strømgren et al., 2013) En annen artikkel bruker statistiske analyser, men uten signifikansnivå (Bech & Ottersen, 2006). Dette tilsvarer 5.2% av alle forskningsartikler i NTA. I Journal of Experimental Analysis of Behavior er dette tallet noe høyere (Zimmerman et al., 2015): Det ligger på ca. 50%. Og det har økt gradvis fra 1960-tallet (hvor det var ca. 10%).

Signifikanstesting: illustrasjon La oss si vi har følgende resultat etter et eksperiment: Er det en forskjell mellom betingelsene? Visuell analyse: Ja Sammenligning av gjennomsnitt: Ja Statistisk sammenligning: Nei d = 0.52 Mål Betingelse 1 Betingelse 2 Gjennomsnitt 30 40 Standardavik 20 18 Statistisk sammenligning (t-test): t (28) = 1.4, p = 0.16 Altså ingen forskjell mellom gruppene. Betingelse 1 Betingelse 2 N = 15 N = 15

Signifikanstesting: illustrasjon Mål Betingelse 1 Betingelse 2 Gjennomsnitt 30 40 Standardavik 20 18 Statistisk sammenligning (t-test): t (28) = 1.4, p = 0.16 Altså ingen forskjell mellom gruppene. For at det skal være et signifikant resultat må p-verdien være lavere enn 0.05. I dette tilfellet er det da ikke noen statistisk signifikant forskjell mellom de to betingelsene. Men hva betyr egentlig denne p-verdien? De fleste forskere kjenner til dette konseptet, men vet de faktisk hva det innebærer?

P-verdi Hva betyr det at p = 0.05? 1. Ved en replikasjon har vi 95% sjanse for å finne et resultat av lik eller større effekt, og bekrefte den alternative hypotesen. 2. Vi kan konkludere at vi har observert en ekte effekt. Denne effekten hadde vært større om p- verdien var lavere. 3. Der en 5% sannsynlighet for at vi observerer et resultat av lik eller større effekt som vi faktisk observerte, hvis vi antar at null hypotesen er sann. 4. Vi har en 5% sjanse for at resultatet er feil, og at i realiteten null hypotesen er sann. 5. Det er 5% sannsynlig at resultatet oppsto tilfeldig, hvis vi antar at den alternative hypotesen er sann. Lignende forsøk tyder på at oppimot 55-97% av psykologer misforstår p-verdien, med mindre de underviser metode (ca. 30-80% - Badenes-Ribera et al., 2015; Haller & Krauss, 2002; Oakes et al., 1986).

P-verdi og familywise error En ting man må ta i betraktning er familywise error. Dette innebærer at sannsynligheten for tilfeldige resultater økes samtidig som antall sammenligninger økes. At signifikansnivået er p = 0.05 betyr at vår sannsynlighet for et signifikant resultat når null hypotesen er sann er 1/20. Så hva om vi gjør 20 sammenligninger? Da ville vi jo forvente at minst 1 av disse er signifikante helt tilfeldig!

Tendency to be impulsive P-verdi og familywise error La oss si vi ser på forskjellen i impulsivitet i forhold til forsterker forsinkelse. Effect of delay on impulsivity Vi kan selvsagt sammenligne gjennomsnittlige forskjeller mellom gruppene i hele eksperimentet. Men hva med de individuelle betingelsene? Her må vi da gjøre 10 sammenligninger. 100 90 80 70 60 ADHD Kontroll 50 Sannsynligheten for at minst én av disse er signifikante er: P = 1 (1-0.05) 10 = 0.4012 = 40% 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 Delay of large reinforcer (seconds)

Tendency to be impulsive P-verdi og familywise error Det betyr at vi må kontrollere for antall sammenligninger: Effect of delay on impulsivity 0.05/10 = 0.005 nytt signifikansnivå 100 90 80 ADHD Kontroll I grove trekk: Dette betyr at p = 0.05 ikke lenger er signifikant Men p = 0.005 er det. I atferdsanalyse er det ofte sammenligninger mellom flere betingelser: delay, baseline, extinction, ratio of reinforcement osv osv. Derfor er det viktig å huske at dette kontrolleres for. I dette tilfellet bruk Bonferroni eller Tukey test 70 60 50 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 Delay of large reinforcer (seconds)

Oppsummering Dyremodeller gir oss muligheten til å generere nye hypoteser. Disse har applikasjoner for en menneskelig målgruppe. De tillater eksperimentasjon uten menneskelige konsekvenser. Studier har generelt større eksperimentell kontroll. Men for å unngå logiske feilslutninger innen dyreforskning, må man: Validere dyremodellen, hvor reliabilitet (replikasjon) er svært viktig. Man må redusere confirmation bias hvor mulig. Unngå konklusjoner om mennesker basert kun på face validity. Gjør beste forsøk på å utføre korrekt statistisk analyse.

Referanser: Badenes-Ribera, L., Frias-Navarro, D., Monterde-i-Bort, H., ^ Pascual-Soler, M. (2015). Interpretation of the p value: A national survey study in academic psychologists from Spain. Psicothema, 27 (3), 290-295. Barnes B (1985). About Science. New York: Basil Blackwell Inc. Bech, H., & Ottersen, K.-O. (2006). Kartlegging av preferanser hos en ungdom med autisme. Samsvar mellom resultater fra ulike metoder. Norsk Tiddskrift for Atferdsanalyse, 4, 205-213. Evans, J., Newstead, S.E., Byrne, R.M.J. (1993). Human Reasoning: The Psychology of Deduction. Hove: Lawrence Erlbaum Associates Ltd. Haller, H. & Kraus, S. (2002). Misinterpretations of Significance: A Problem Students Share with Their Teachers? Methods of Psychological Research Online, 7(1), 1-20. Inglis, M. & Simpson, A. (2004). Mathematicians and the Selection task. Proceedings of the 28 th Conference of the International Group for the Psychology of Mathematics Education, 3, 89-96. Jackson, S. & Griggs, R. (1988). Education and the selection task. Bulletin of the Psychonomic Society, 26 (4), 327-330. Kern, L.H., Mirels, H.L., Hinshaw, V.G. (1983). Scientists' Understanding of Propositional Logic: An Experimental Investigation. Social Studies of Science, 13, 131-46. Oakes, M. (1986). Statistical inference: A commentary for the social and behavioural sciences. Chichester: Wiley.

Referanser: Olaff, H. S., Larsen, K., & Klintwall, L. (2013). Manglende Generalisering av Trenerferdigheter på tvers av situasjoner etter Workshop om Incidental Teaching. Norsk Tiddskrift for Atferdsanalyse, 40(1), 39-46. Mahoney, M.J. (1976). Scientist as Subject: The Psychological Imperative. Ballinger: Massachusetts. Mahoney, M. J. (1977). Publication Prejudices: An Experimental Study of Confirmatory Bias in the Peer Review System. Cognitive Therapy and Research, 1 (2), 161-175. Sagvolden T. (2000). Behavioral validation of the spontaneously hypertensive rat (SHR) as an animal model of attentiondeficit/hyperactivity disorder (AD/HD). Neuroscience & Biobehavioral Reviews, 24, 31-9. Strømgren, B., Berg, T., Gajic, K. K., Hansen, T., & Tellefsen, F. H. (2013). Kartlegging av systemintervensjoner i skole: effekt på klassemiljø og prososial atferd. Norsk Tiddskrift for Atferdsanalyse, 40(1), 47-59. Strømgren, B., & Sørheim, D. G. (2015). Evaluering av the Good Behavior Board Game, en variant av the Good Behavior Game. Norsk Tiddskrift for Atferdsanalyse, 42(1), 1-19. Wason, P.C. (1977). Self-contradictions. In P. N. Jonhson-Laird & P.C. Watson s (Eds.) Thinking: Readings in cognitive science (pp. 114-128). Cambridge: Cambridge University Press. Wilgenburg, E. & Elgar, M.A. (2013) Confirmation bias in studies of nestmate recognition: a cautionary note for research into the behaviour of animals. PloS One, 8 (1), e53548. Zimmerman, Z. J., Watkins, E.E., & Poling, A. (2015). JEAB Research Over Time: Species Used, Experimental Designs, Statistical Analyses, and Sex of Subjects. Behavior Analyst, 38, 203-218.