Hypotesetesting: Prinsipper Frode Svartdal UiTø Januar 2014 Frode Svartdal
Alt dette er mat for hypotesetesting! Utgangspunkt En antakelse begrunnet i teori Dissonansteori: Hvis, så. En vanlig oppfatning Belønning øker prestasjon Noe vi tror er feil Læring kan bare skje hvis vi forstår læringsbetingelsene Motstridende funn a) Forventning om belønning øker motivasjon vs. b) Forventning om belønning reduserer motivasjon
Utgangspunkt II Ikke veldig interessant. Alle vet dette! Hypotesen må ha interesse! Belønning øker motivasjon Noen ganger vil belønning redusere motivasjon Interessant!
Hypotesetesting: Generelt Hvordan testes hypoteser? Formulere en testbar påstand (f.eks. en implikasjon fra en teori) Gjennomføre en relevant undersøkelse (eksperiment, observasjon, ) Avgjøre om resultatet støtter hypotesen Statistisk Innholdsmessig
Eksempel: Dissonansteori (Festinger) Dissonans = ubehagelig aktivering som følge av konflikt Eksempel: Jeg røyker Jeg vet at det er farlig å røyke Dissonans
Dissonansteori: Festinger A Lesson In Cognitive Dissonance
Eksempel: Dissonansteori Festinger & Carlsmith, 1959 Utfører kjedelig oppgave i en time Får betalt lite vs. mye Sier til nestemann at oppgaven var artig (dvs. lyve) Mening om oppgaven måles
Eksempel: Dissonansteori Festinger & Carlsmith, 1958 Dissonans-betingelse: (a) Du utfører kjedelig oppgave i en time (b) Du får lite betalt Dissonans (c) Din mening om jobben måles Hypotese?
Eksempel: Dissonansteori Festinger & Carlsmith, 1958 Dissonans-betingelse: (a) Du utfører kjedelig oppgave i en time (b) Du får bra betalt (c) Din mening om jobben måles Hypotese? Ikke dissonans
Festinger & Carlsmith, 1958 Oppfatning av oppgaven Ikke dissonans Dissonans Oppfatning av oppgaven korrigert for effekten av dissonans
Hypotesetesting Design og prosedyre OK: Fp-er er tilfeldig fordelt i gruppene (dvs. variasjon mellom fp-er er ikke systematisk relatert til manipulasjonen) eksperimentsituasjonen er den samme for alle prosedyren er den samme for alle
Hypotesetesting: Statistisk R HØY-gruppe LAV-gruppe Uavhengig variabel Høy betaling: FP mottar 100 kr Lav betaling: FP mottar 10 kr Avhengig variabel Vurdering av oppgaven (-5 - +5): -0,1 Vurdering av oppgaven (-5 - +5): 1,4
Hypotesetesting: Statistisk Uavhengig variabel Avhengig variabel Eksperimentgruppe Høy betaling Snittskåre: -0,1 R Kontrollgruppe Lav betaling Snittskåre: 1,4 Ingen forskjell Tid Ingen forskjell?
Hypotesetesting: Statistisk Eksempel: Eksperiment med to grupper Nullhypotesen: Utvalgene kommer fra samme populasjon. Vi sjekker: Hvor sannsynlig er det at den observerte forskjellen mellom utvalgene kan oppstå, gitt at utvalgene kommer fra samme populasjon? Forskningshypotesen: Utvalgene kommer ikke fra samme populasjon.
Hypotesetesting: Statistisk Hvis den observerte forskjellen er svært usannsynlig, forkaster vi 0-hypotesen Grense: 5 av 100 tilfeller (0,05) Avvisning av 0-hypotesen innebærer en indirekte aksept av forskningshypotesen Forskningshypotesen bevises IKKE
Hypotesetesting: Statistisk Statistisk konklusjons-validitet: Er konklusjonen vi trekker fra utvalget holdbar? Trusler: Lav power: Vi oppdager ikke en mulig effekt. Typisk årsak: for få deltakere Brudd på statistiske forutsetninger Fisking i data: Vi leter etter effekter Lite reliable mål Lite reliable prosedyrer
Hypotesetesting: Statistisk Eksperimentgr. mean = -0,1 Kontrollgr. mean = 1,4 Hvordan kan man avgjøre om den observerte forskjellen, er så stor at vi må forkaste 0-hypotesen? Statistisk test som sammenligner to gruppegjennomsnitt t-test: Hvor stor er variasjonen mellom gruppene (gruppeforskjell)? Hvor stor er variasjonen innen gruppene? Hvor mange deltakere har vi i hver gruppe?
Hypotesetesting: Statistisk Populasjon Randomisert utvelgelse Generalisering YTRE VALIDITET Utvalg Randomisert fordeling Eksp.gr. Kontr.gr. Resultat INDRE VALIDITET Funn
Hypotesetesting: Innholdsmessig Er hypotesen rimelig? Er operasjonaliseringene av variablene rimelige? Høy = 100 kr Lav = 10 kr Er oppgaven som blir utført faktisk kjedelig? Er undersøkelsen gjennomført på en betryggende måte (design)? Er det nok med bare 2 nivåer av UV (100 vs. 10)? Hva med en kontrollgruppe som ikke får betalt? Foreligger det trusler mot vår slutning om effekt (confounding variabler)? Viktig!! Har vi kontroll over relevante variabler? Er deltakere tilfeldig fordelt til grupper (randomisering)? Kritisk for eksperimenter!!! Finnes det alternative fortolkninger av funnet????
Hypotesetesting Mao: Selv om vi får støtte for vår hypotese statistisk, betyr ikke dette automatisk at hypotesen støttes teoretisk Statistisk hypotesetesting: Mekanisk prosess Teoretisk hypotesetesting: Kompleks slutning
Dataanalyse Beskrive en variabel (et sett av skårer) Eksempel: Gjennomsnitt Beskrive relasjoner mellom to variabler Eksempel: Korrelasjon (r) Beskrive relasjoner mellom flere sett av skårer (konsistens) Cronbachs alfa Bestemme om to gruppegjennomsnitt er signifikant forskjellige Eksempel: T-test Bestemme om flere gruppegjennomsnitt er signifikant forskjellige Eksempel: Variansanalyse
Hypotesetesting: p og effektstørrelse To viktige aspekter ved et funn: Signifikans: Hvor reliabelt er funnet? Hvis vi gjentar undersøkelsen, vil vi få samme utfall? Effektstørrelse: Hvor stor effekt snakker vi om? Er (et signifikant) utfall praktisk/teoretisk interessant?
Hypotesetesting: p og effektstørrelse Signifikans Hvor reliabelt er funnet? Jo svakere et funn er, desto flere deltakere trengs for å påvise det som signifikant Ikke nødvendigvis noen styrke ved en undersøkelse at man har mange deltakere Aspirin redusert risiko for hjerteinfarkt 10000 deltakere trengs for å påvise effekten Mørketid vinterdepresjon 2-4000 deltakere
Hypotesetesting: p og effektstørrelse Effektstørrelse Cohen: The degree to which a phenomenon exists. Hvor sterkt slår effekten ut? Hvor sterk er sammenhengen? Signifikans (p) sier ikke nødvendigvis så mye om styrke Samme effektstørrelse kan bety ulike ting i ulike kontekster: Redusert fart: Nesten null betydning for den enkelte; 15 menneskeliv spart i løpet av et år i Norge
Hypotesetesting: Falsifikasjon To utfall mulig: Vi aksepterer 0-hypotesen ( gruppene kommer fra samme populasjon ) forskningshypotesen forkastes Vi forkaster 0-hypotesen ( gruppene kommer ikke fra samme populasjon ) forskningshypotesen støttes
Hypotesetesting Wason (1977): Falsifiserende vs. bekreftende strategi i hypotesetesting Bekreftende evidens er forenlig med et stort antall hypoteser eller teorier Falsifiserende evidens vil utelukke i alle fall noen hypoteser Dvs.: Falsifiserende evidens er ofte mer informativ om verden enn bekreftende evidens
Hypotesetesting Faktisk Vår beslutning Aktivering fører til bedre læring Aktivering fører ikke til bedre læring Aktivering fører faktisk ikke til bedre læring Type 1-feil Vi forkaster 0-hypotesen når vi egentlig skulle beholdt den OK Aktivering fører faktisk til bedre læring OK Type 2-feil Vi aksepterer 0-hypotesen når vi egentlig skulle forkastet den
Hypotesetesting Type 1-feil Vi har vært for snille akseptert noe vi egentlig skulle forkastet Løsning: Skjerp kravet til hva som aksepteres (p = 0.05 0.01). Alfanivå Problem: Vi kan bli for strenge, slik at vi øker sjansen for Type 2-feil
Hypotesetesting Type 2-feil Vi har vært for strenge forkastet noe vi egentlig skulle akseptert Løsning: Øk power i undersøkelsen gjør det mer sannsynlig at vi vil oppdage en effekt hvis den er der (i praksis: øk antall deltakere)
Hypotesetesting i praksis Faktisk Dommeren: Uskyldig Skyldig Tiltalte er skyldig Type 1-feil Forkaster 0-hypotesen når hun egentlig skulle beholdt den JUSTISMORD Tiltalte er ikke skyldig OK Type 2-feil Aksepterer 0-hypotesen når hun egentlig skulle forkastet den OK
Hypotesetesting i praksis Faktisk Frisk Kreft Legen: Du har kreft Du er frisk Type 1-feil Forkaster 0-hypotesen når hun egentlig skulle beholdt den IKKE SÅ FARLIG OK OK Type 2-feil Aksepterer 0-hypotesen når hun egentlig skulle forkastet den KATASTROFE