Logiske feilslutninger i dyremodeller ESPEN SJØBERG
Innhold Hva er en logisk feilslutning? Confirmation bias Face validity Signifikanstesting
Hva er en logisk feilslutning? En logisk feilslutning er en avgjørelse eller et argument som er basert på dårlig eller feil logikk. Et eksempel på dette er feilen affirming the consequent. Hvis A er sant, så observerer vi B. Vi observerer B. Konklusjon: A må være sant. Dette er en logisk feilslutning, fordi regelen sier A->B, men spesifiserer ikke B->A.
Hva er en logisk feilslutning? En lettere versjon er: Hvis jeg har influensa, så har jeg kraftig hoste. Jeg hoster kraftig. Konklusjon: Jeg har influensa. Regelen sier bare at influensa inkluderer hoste, men spesifiserer ikke at hoste KUN observeres i influensa. Å konkludere at man har influensa er dermed en logisk feilslutning. Vi skulle kanskje tro at forskere kan motstå slike tenkningsmønstre. Forskere er tross alt trent på logisk, vitenskapelig metode. Men mellom 25-33% av forskere faller for denne feilslutningen (Barnes, 1985; Kern et al., 1984).
Confirmation bias En logisk feilslutning i samme bane er confirmation bias. Dette innebærer å gjøre valg som bekrefter regelen, fremfor valg som avkrefter regelen. Innenfor forskning er dette svært aktuelt. Hvis en forsker aktivt leter etter funn som bekrefter egen hypotese, så er ikke dette objektivt. Innenfor statistiske analyser kan man f.eks. øke antall forsøkspersoner for å øke sannsynligheten for at man finner et signifikant resultat. Dette henger mye sammen med file drawer effect, hvor eksperimenter som ikke støtter en hypotese ikke blir publisert (e.g. Mahoney, 1977). Dette feilslutningen kan testes gjennom et paradigmet kjent som Wason Selection Task.
Confirmation bias 3 8 Hvert kort har et tall på én side, og en farge på den andre. Hypotese: Hvis et kort har et partall på en side, så har den rød farge på andre side. Hvilke kort må man snu for å teste denne hypotesen? Man må snu 8 og Blå. Snur man 8 og Rød forsøker man å bekrefte hypotesen, fremfor å falsifisere. Dette er logisk krevende å forstå, og omtrent 90% av forsøkspersoner vil ikke klare denne oppgaven (Evans, 1993; Wason, 1977).
Confirmation bias Er forskere forskjellig? Ja, men vi gjør fremdeles denne feilen. Profesjon: % feil (snitt): Baseline:.78% Atferdsanalytikere: 91% Historikere: 81% Ingeniører: 80% Sosiologer: 75% IT teknikere: 70% Fysikere: 63% Matematikere: 52% Psykologer: 49% Biologer: 25% Hvorvidt man tester studenter, PhD kandidater, eller professorer, har liten vesentlig effekt. Men generelt sett er studenter mindre kritiske. Kilde: Inglis & Simpson (2004); Jackson & Griggs (1988); Kern et al. (1983); Mahoney (1976)
Confirmation bias i dyremodeller Dyreforskere har ikke blitt testet direkte, men en artikkel fant at omtrent 1/3 av dyreforsøk om aggresjon ikke brukte en double-blind prosedyre, og disse var mer sannsynlige til å finne resultater som støttet hypotesen (Wilgenbrug & Elgar, 2013). 73% hvis ikke-blind, 21% hvis blind. Det første steget når man utfører forskning generelt er å være klar over egne begrensninger. Den logiske feilslutningen confirmation bias kan reduseres om man gjør double-blind prosedyrer: I dyreforsøk vil det innebære at: Forskeren ikke er klar over hypotesen. Forskeren ikke kan skille mellom eksperimentell gruppe og kontroll. Dyrene vet ikke hvilken gruppe de er i (ganske lett med dyr)
Confirmation bias i dyremodeller Men en ting er teori, og en annen er praksis. Double-blind prosedyrer er ikke alltid mulig å utføre: 1. Forskere i dyreforsøk må ha kvalifikasjoner til å håndtere dyr Det er dermed logistisk krevende, og dyrt, å ha assistenter over tid som er blinde til hypotesen 2. Dyr kan har karakteristikk som skiller seg ut fra kontroll Om eksperimentell gruppe er hyperaktive, og kontroll rolige, så blir det fort åpenbart hvilke dyr som er i hvilken gruppe. 3. Tidligere forskning kan ha vist at double-blind prosedyrer er uvesentlig eller upraktisk. 4. Dyrene er alltid blinde til hypotesen, så påvirkning kan være minimal. Dermed kan det være upraktisk å kontrollere for confirmation bias. Men det skader aldri å være klar over egne begrensninger.
Validering av en dyremodell For å etablere en dyremodell må den først valideres. Dette involverer forskjellige typer validitet. En av disse er face validity (ansiktsvaliditet). Face validity er hvorvidt det ser ut som man måler konseptet man ønsker å måle. I dyremodeller er det snakk om hvorvidt dyrene ser ut til å representere målgruppen. F.eks., la oss si vi har en dyremodell på depresjon, hvor vi bruker rotter. Observasjon: Depressive personer er mindre aktive enn kontroll. Observasjon: Rotter i modellen for depresjon er mindre aktive enn kontroll. Face validity Gruppene ser altså ut til å gi like resultater.
Face validity Dette gjør oss skadelige for en logisk feilslutning som heter argument from analogy. Dette innebærer å trekke konklusjoner om en gruppe basert på observasjoner i en annen gruppe. F.eks. I dyremodellen for depresjon observerer vi at rottene sover mer. Konklusjon: depressive mennesker sover mer. Dette er en logisk feilslutning fordi vi kan ikke med sikkerhet at dette er tilfellet.
Face validity Til tross for denne usikkerheten har allikevel dyremodellen flere styrker her: 1. Den åpner for muligheten for en ny hypotese. Selv om vi ikke kan være helt sikre på søvnhypotesen vår før vi har testet mennesker, så har vi etablert muligheter for ny forskning, og nye forklaringer på menneskelige depresjon. Dette oppsto gjennom dyremodeller. 2. Det som er viktig å huske er at vi gjør en logisk feilslutning om vi trekker konklusjoner om mennesker basert på dyremodeller, men det betyr ikke at en slik konklusjon for gitt er feil. Styrken til dyremodellen, straks den er etablert som pålitelig, er altså at man finne ny kunnskap om mennesker, uten at forskning på mennesker er nødvendig. I tillegg har dyre eksperimenter ofte større eksperimentell kontroll enn menneskestudier.
P-verdier og familywise error Når man analyserer data er det viktig at man utfører korrekt statistisk analyse. Dette er ikke nødvendigvis åpenbart, spesielt fordi det vil ofte finnes flere fremgangsmåter på dette. Her kan mangel på forståelse av statistiske analyser skape flere problemer. Og statistisk kunnskap varierer fra disiplin til disiplin.
Signifikanstesting Null hypotese signifikans testing (NHST) er den vanligste metoden på å analysere data statistisk. I atferdsanalyse er det mer vanlig å bruke visuelle grafiske analyser, uten signifikanstesting. I Norsk Tidsskrift i Atferdsanalyse finnes det kun 3 artikler som bruker signifikanstesting (Olaff et al., 2013; Strømgren & Sørheim, 2015; Strømgren et al., 2013) En annen artikkel bruker statistiske analyser, men uten signifikansnivå (Bech & Ottersen, 2006). Dette tilsvarer 5.2% av alle forskningsartikler i NTA. I Journal of Experimental Analysis of Behavior er dette tallet noe høyere (Zimmerman et al., 2015): Det ligger på ca. 50%. Og det har økt gradvis fra 1960-tallet (hvor det var ca. 10%).
Signifikanstesting: illustrasjon La oss si vi har følgende resultat etter et eksperiment: Er det en forskjell mellom betingelsene? Visuell analyse: Ja Sammenligning av gjennomsnitt: Ja Statistisk sammenligning: Nei d = 0.52 Mål Betingelse 1 Betingelse 2 Gjennomsnitt 30 40 Standardavik 20 18 Statistisk sammenligning (t-test): t (28) = 1.4, p = 0.16 Altså ingen forskjell mellom gruppene. Betingelse 1 Betingelse 2 N = 15 N = 15
Signifikanstesting: illustrasjon Mål Betingelse 1 Betingelse 2 Gjennomsnitt 30 40 Standardavik 20 18 Statistisk sammenligning (t-test): t (28) = 1.4, p = 0.16 Altså ingen forskjell mellom gruppene. For at det skal være et signifikant resultat må p-verdien være lavere enn 0.05. I dette tilfellet er det da ikke noen statistisk signifikant forskjell mellom de to betingelsene. Men hva betyr egentlig denne p-verdien? De fleste forskere kjenner til dette konseptet, men vet de faktisk hva det innebærer?
P-verdi Hva betyr det at p = 0.05? 1. Ved en replikasjon har vi 95% sjanse for å finne et resultat av lik eller større effekt, og bekrefte den alternative hypotesen. 2. Vi kan konkludere at vi har observert en ekte effekt. Denne effekten hadde vært større om p- verdien var lavere. 3. Der en 5% sannsynlighet for at vi observerer et resultat av lik eller større effekt som vi faktisk observerte, hvis vi antar at null hypotesen er sann. 4. Vi har en 5% sjanse for at resultatet er feil, og at i realiteten null hypotesen er sann. 5. Det er 5% sannsynlig at resultatet oppsto tilfeldig, hvis vi antar at den alternative hypotesen er sann. Lignende forsøk tyder på at oppimot 55-97% av psykologer misforstår p-verdien, med mindre de underviser metode (ca. 30-80% - Badenes-Ribera et al., 2015; Haller & Krauss, 2002; Oakes et al., 1986).
P-verdi og familywise error En ting man må ta i betraktning er familywise error. Dette innebærer at sannsynligheten for tilfeldige resultater økes samtidig som antall sammenligninger økes. At signifikansnivået er p = 0.05 betyr at vår sannsynlighet for et signifikant resultat når null hypotesen er sann er 1/20. Så hva om vi gjør 20 sammenligninger? Da ville vi jo forvente at minst 1 av disse er signifikante helt tilfeldig!
Tendency to be impulsive P-verdi og familywise error La oss si vi ser på forskjellen i impulsivitet i forhold til forsterker forsinkelse. Effect of delay on impulsivity Vi kan selvsagt sammenligne gjennomsnittlige forskjeller mellom gruppene i hele eksperimentet. Men hva med de individuelle betingelsene? Her må vi da gjøre 10 sammenligninger. 100 90 80 70 60 ADHD Kontroll 50 Sannsynligheten for at minst én av disse er signifikante er: P = 1 (1-0.05) 10 = 0.4012 = 40% 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 Delay of large reinforcer (seconds)
Tendency to be impulsive P-verdi og familywise error Det betyr at vi må kontrollere for antall sammenligninger: Effect of delay on impulsivity 0.05/10 = 0.005 nytt signifikansnivå 100 90 80 ADHD Kontroll I grove trekk: Dette betyr at p = 0.05 ikke lenger er signifikant Men p = 0.005 er det. I atferdsanalyse er det ofte sammenligninger mellom flere betingelser: delay, baseline, extinction, ratio of reinforcement osv osv. Derfor er det viktig å huske at dette kontrolleres for. I dette tilfellet bruk Bonferroni eller Tukey test 70 60 50 40 30 20 10 0 0 2 4 6 8 10 12 14 16 18 Delay of large reinforcer (seconds)
Oppsummering Dyremodeller gir oss muligheten til å generere nye hypoteser. Disse har applikasjoner for en menneskelig målgruppe. De tillater eksperimentasjon uten menneskelige konsekvenser. Studier har generelt større eksperimentell kontroll. Men for å unngå logiske feilslutninger innen dyreforskning, må man: Validere dyremodellen, hvor reliabilitet (replikasjon) er svært viktig. Man må redusere confirmation bias hvor mulig. Unngå konklusjoner om mennesker basert kun på face validity. Gjør beste forsøk på å utføre korrekt statistisk analyse.
Referanser: Badenes-Ribera, L., Frias-Navarro, D., Monterde-i-Bort, H., ^ Pascual-Soler, M. (2015). Interpretation of the p value: A national survey study in academic psychologists from Spain. Psicothema, 27 (3), 290-295. Barnes B (1985). About Science. New York: Basil Blackwell Inc. Bech, H., & Ottersen, K.-O. (2006). Kartlegging av preferanser hos en ungdom med autisme. Samsvar mellom resultater fra ulike metoder. Norsk Tiddskrift for Atferdsanalyse, 4, 205-213. Evans, J., Newstead, S.E., Byrne, R.M.J. (1993). Human Reasoning: The Psychology of Deduction. Hove: Lawrence Erlbaum Associates Ltd. Haller, H. & Kraus, S. (2002). Misinterpretations of Significance: A Problem Students Share with Their Teachers? Methods of Psychological Research Online, 7(1), 1-20. Inglis, M. & Simpson, A. (2004). Mathematicians and the Selection task. Proceedings of the 28 th Conference of the International Group for the Psychology of Mathematics Education, 3, 89-96. Jackson, S. & Griggs, R. (1988). Education and the selection task. Bulletin of the Psychonomic Society, 26 (4), 327-330. Kern, L.H., Mirels, H.L., Hinshaw, V.G. (1983). Scientists' Understanding of Propositional Logic: An Experimental Investigation. Social Studies of Science, 13, 131-46. Oakes, M. (1986). Statistical inference: A commentary for the social and behavioural sciences. Chichester: Wiley.
Referanser: Olaff, H. S., Larsen, K., & Klintwall, L. (2013). Manglende Generalisering av Trenerferdigheter på tvers av situasjoner etter Workshop om Incidental Teaching. Norsk Tiddskrift for Atferdsanalyse, 40(1), 39-46. Mahoney, M.J. (1976). Scientist as Subject: The Psychological Imperative. Ballinger: Massachusetts. Mahoney, M. J. (1977). Publication Prejudices: An Experimental Study of Confirmatory Bias in the Peer Review System. Cognitive Therapy and Research, 1 (2), 161-175. Sagvolden T. (2000). Behavioral validation of the spontaneously hypertensive rat (SHR) as an animal model of attentiondeficit/hyperactivity disorder (AD/HD). Neuroscience & Biobehavioral Reviews, 24, 31-9. Strømgren, B., Berg, T., Gajic, K. K., Hansen, T., & Tellefsen, F. H. (2013). Kartlegging av systemintervensjoner i skole: effekt på klassemiljø og prososial atferd. Norsk Tiddskrift for Atferdsanalyse, 40(1), 47-59. Strømgren, B., & Sørheim, D. G. (2015). Evaluering av the Good Behavior Board Game, en variant av the Good Behavior Game. Norsk Tiddskrift for Atferdsanalyse, 42(1), 1-19. Wason, P.C. (1977). Self-contradictions. In P. N. Jonhson-Laird & P.C. Watson s (Eds.) Thinking: Readings in cognitive science (pp. 114-128). Cambridge: Cambridge University Press. Wilgenburg, E. & Elgar, M.A. (2013) Confirmation bias in studies of nestmate recognition: a cautionary note for research into the behaviour of animals. PloS One, 8 (1), e53548. Zimmerman, Z. J., Watkins, E.E., & Poling, A. (2015). JEAB Research Over Time: Species Used, Experimental Designs, Statistical Analyses, and Sex of Subjects. Behavior Analyst, 38, 203-218.