RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens?

Like dokumenter
Eksamen PSYC2104 Kvantitativ metode A Vår 2019

Høsten Skriftlig skoleeksamen, 23. Oktober, kl. 09:00 (3 timer). Sensur etter tre uker.

Fra spørreskjema til skalaer og indekser

Repeated Measures Anova.

Oppgåver Oppgåvetype Vurdering Status. 1 DEL 1 Vitenskapsteori Skriveoppgave Manuell poengsum Levert

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

ME Vitenskapsteori og kvantitativ metode

Noen Statistiske utfordringer ved analyse av PROM

Kapittel 1 Vitenskap: grunnleggende antakelser

Gjør gjerne analysene under her selv, så blir dere mer fortrolige med utskriften fra Spss. Her har jeg sakset og klippet litt.

Innhold. Del 1 Grunnleggende begreper og prinsipper... 39

Løsningsforslag til obligatorisk oppgave i ECON 2130

Eksamensoppgave i PSY3100 Forskningsmetode kvantitativ

Eksamen PSYC3101 Kvantitativ metode II Vår 2015

Eksamensoppgave i PSY3100 Forskningsmetode - kvantitativ

ME Vitenskapsteori og kvantitativ metode

6.2 Signifikanstester

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

KVANTITATIV METODE. Marit Schmid Psykologspesialist, PhD HVL

Eksamensoppgave i PSY1011/PSYPRO4111 Psykologiens metodologi

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

1. De fleste blir mer vennlige av å drikke alkohol Mange blir mer aggressive av å drikke alkohol

Eksamen PSYC3101 Kvantitativ metode II Høsten 2013

Eksamen PSYC3101 Kvantitativ metode II Våren 2014

Verdens statistikk-dag.

PSY2012 Forskningsmetodologi III: Statistisk analyse, design og måling Eksamen vår 2014

10.1 Enkel lineær regresjon Multippel regresjon

EKSAMEN I PSY3100 FORSKNINGSMETODE KVANTITATIV HØSTEN 2012

Definisjoner av begreper Eks.: interesse for politikk

Eksamensoppgave i PSY2017/PSYPRO4317 Statistikk og kvantitative forskningsmetoder

PSYC 3101 KVANTITATIV METODE II Eksamen høst 2008

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 3 Diskrete tilfeldige variable. Diskrete tilfeldige variable, varians (kp. 3.

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

CHAPTER 11 - JORUN BØRSTING, ANALYZING QUALITATIVE DATA

Her ser vi på noen egenskaper ved denne metoden som kan være nyttig for oss psykologer.

Eksamensoppgave i PSY1011/PSYPRO4111 Psykologiens metodologi

Eksamensoppgave i PSY3100 forskningsmetoder kvantitativ

Eksamensoppgave i PSY1011/PSYPRO4111 Psykologiens metodologi

Noen momenter ved vurdering av eksamen PSY1010 PSYC1100 høsten 2018.

Endring over tid. Endringsskårer eller Ancova? Data brukt i eksemplene finner dere som anova-4-1.sav, anova-4-2.sav og likelonn.sav.

Forskningsmetoder. Data: Måling og målefeil. Frode Svartdal. UiTø FRODE SVARTDAL 1 V Frode Svartdal

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

Psykososiale målemetoder og psykometri.

Kap. 6.1: Fordelingen til en observator og stok. simulering

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Forskningsmetoder. Måling, målefeil. Frode Svartdal. UiTø V Frode Svartdal FRODE SVARTDAL 1

Eksplorerende faktor-analyse.

Eksamen STK2400, 6/ Løsningsforslag

Prøveeksamen i STK3100/4100 høsten 2011.

Ove Edvard Hatlevik, dr polit UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

Diskusjonsoppgaver Hvilke fordeler oppnår man ved analytisk evaluering sammenliknet med andre tilnærminger?

Hypotesetesting: Prinsipper. Frode Svartdal UiTø Januar 2014 Frode Svartdal

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

FORSKNINGSMETODE NOEN GRUNNLEGGENDE KONSEPTER

Kræsjkurs i STAT101. Noen anbefalinger Regn mange(5-10) oppgavesett til eksamen:

Tilfeldige variabler. MAT0100V Sannsynlighetsregning og kombinatorikk

ÅMA110 Sannsynlighetsregning med statistikk, våren

Kort overblikk over kurset sålangt

Eksamensoppgave i PSY1011/PSYPRO4111 Psykologiens metodologi

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

MAT1030 Diskret Matematikk

Forelesning 29: Kompleksitetsteori

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Måling av medarbeidere som immaterielle verdier: Hvorfor, hva og hvordan?

Gjør kort rede for seks av de åtte begrepene. Bruk inntil ½ side på hvert begrep.

Institutt for økonomi og administrasjon

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Kp. 9.8 Forskjell mellom to forventninger

Seminar 7: Måling og datainnsamling i samfunnsvitenskap. Forelesning om temaet, 2 timer Studentpresentasjoner, 1 time

Statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

statistikk, våren 2011

Veiledning for utarbeidelsen av økonomiske analyser som fremlegges for Konkurransetilsynet

Eksamen PSYC3101 Kvantitativ metode II Høsten 2014

168291/S20: Transport av farlig gods på veg, sjø og bane. Jørn Vatn Prosjektleder SINTEF

Løsningsforslag Til Statlab 5

Veiledning Tittel: Veiledning for utarbeiding av økonomiske analyser Dok.nr: RL065

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

EKSAMEN I PSY1001/PSY1011/PSYPRO4111/ PSYKOLOGIENS METODOLOGI HØSTEN 2012 BOKMÅL

Eksamensoppgave i ST0103 Brukerkurs i statistikk

EKSAMENSOPPGAVER STAT100 Vår 2011

Appendiks 5 Forutsetninger for lineær regresjonsanalyse

Løsningsforslag. n X. n X 1 i=1 (X i X) 2 og SY 2 = 1 ny S 2 X + S2 Y

Statistisk analyse av observasjonspunktene i ALLE MED

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Medarbeiderundersøkelsen 2014

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

Oppgavesett nr. 5. MAT110 Statistikk 1, Et transportfirma har et varemottak for lastebiler med spesialgods, se figur 1.

I dette undervisningsopplegget skal elevene bruke forhold og kunnskap om geometriske figurer til å innrede en vegg med plakater og ei dartskive.

Digitaltesten 2 - en diagnostisk test. Ellen Gard

Kapittel 4.4: Forventning og varians til stokastiske variable

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

Transkript:

RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens? I dagligtale og i ulike fremstillinger også innenfor psykologisk forskningsmetode, brukes slike begreper og reliabilitet ofte litt om hverandre. I tillegg vil man finne en rekke ulike definisjoner og fortolkninger av begrepet reliabilitet også innenfor test/målings tradisjonen. Vi kan ikke her gå inn på hele den diskusjonen, og holder oss til en definisjon som er forenelig med den oftest anvendte definisjonen innenfor klassisk test-teori.

Reliabilitet er den variasjonen i en måling (observert indikator, observerte skårer ) som kan forklares ved variasjon i et latent, ikke observerbart, fenomen ( sanne skårer ). Perfekt reliabilitet Ikke perfekt reliabilitet

Her kunne vi beregnet reliabiliteten ved en enkel lineær regresjonsanalyse: x = a + b*f + u R 2 fra den analysen ville være reliabiliteten til x! Men siden fenomenet (F) ikke er observerbart, kan selvsagt heller ikke reliabiliteten beregnes den må estimeres. Dersom vi tar utgangspunk t i at dersom vi har tre variabler: x, y og z som forholder seg slik til hverandre: Hvor u ene er uavhengige, tilfeldige feil, så vil r x,z være: r y,x * r y,z

Reliabilitetsmodellen: Hvor Ra og Rb er reliabiliteten til måling a og b. Dersom vi nå gjør et drastisk forutsetning kan vi løse estimeringsproblemet. Vi forutsetter at målingene a og b er like gode dvs. at de har samme reliabilitet (Ra=Rb). Denne antagelsen kalles parallel test antagelsen innen målingsteorien. Siden Ra og Rb er forklart varians kan vi selvsagt finne de tilsvarende korrelasjonene slik: r a = Ra og r b = Rb Vi vet fra forrige side at r a,b = r a * r b. Men siden vi nå har antatt at r a og r b er like, kunne vi like gjerne skrevet dette som: r a,b = r a * r a = Ra eller: r a,b = r b * r b = Rb. Korrelasjonen mellom målingene er altså et direkte estimat av reliabiliteten til måling a eller måling b! Så for å estimere reliabiliteten til en måling må vi skaffe oss en like god måling av samme fenomen.

Parallelle tester ( equivalent forms ): Vi lager gjerne et mål på F ved å summere responser på flere items og vi er interesserte i reliabiliteten til summen av disse. Vi kan konstruere en ny test som er like god som (parallell med) den første: Vi har da en sum av leddene fra første test (x) og av leddene fra andre test (y).

Og som vi har sett kan vi da estimere reliabiliteten til hver av de to testene (x og y) ved å korrelere summene x og y med hverandre. Dette er selvsagt en tidkrevende og kostbar metode for reliabilitetsestimering. Ille nok å lage en god test om en ikke skal lage to like gode.. Man fant imidlertid fort ut at her kunne man lage en tilnærming.

Split-half tilnærmingen. I stedet for å lage to komplette tester, kan man ta den ene testen man har og dele den i to halvdeler. Vi kan nå lage oss en sum x=x1+x3+x5 og en sum y=x2+x4+x6. Og estimere reliabiliteten til x eller y ved å korrelere x og y. Merk at ved denne tilnærmingen får man et estimat av reliabiliteten til en test som er halvparten så lang som den vi egentlig ønsker å bruke! Vi kan korrigere for dette ved å benytte Spearman-Brown s prophecy formula : Spearman-Brown's prophecy formula Hvor N ved split-half er 2 og ρ xx er reliabiliteten til en halv test (estimert ved split-half korrelasjonen). Et problem ved split-half strategien er at en test kan deles i to halvdeler på mange måter (fra en test med 20 items kan man for eksempel trekke ut ca. 185000 ulike utvalg av størrelse n=10), og vi vil få litt ulike reliabilitetsestimater avhengig av hvordan vi deler testen i to.

Cronbach s Alpha. Frem til begynnelsen av 1950-tallet var split-half strategien nærmest enerådende som strategi for estimering av reliabilitet innen testutvikling. I 1951 kom imidlertid Cronbach s artikkel: Coefficient Alpha and the internal structure of tests. Denne finner dere i fullversjon over hele internett. Bare å google. Litt også her: Cronbach's alpha Idag er denne strategien like dominerende som split-half var tidligere, men det tok litt tid. Som vi skal se krever beregning av Cronbach s Alpha tilgang til en computer dersom man ikke har svært få test-ledd da. Før vi ser på beregningen av Cronbach s Alpha ser vi på en liten simulering av målingsideen. Her så vi på en konkret simulering av reliabiliteten til en sum av parallelle målinger.

Cronbach s Alpha: Hvor K er antall testledd ( items ) og mr er reliabiliteten til det enkelte testledd estimert ved gjennomsnittskorrelasjonen mellom alle testledd. Ser dere på formelen for Spearman-Brown korreksjonen, ser dere at alpha er identisk med denne, men hvor antall splitter (typisk to) er erstattet med antall ledd i testen og reliabiliteten til den enkelte split er erstattet med reliabiliteten til det enkelte ledd. Cronbach viste da også at alpha er det estimat av reliabiliteten man vil få dersom man beregnet gjennomsnittet av alle de reliabilitetsestimater man kunne få ved å splitte en test i alle mulig halvdeler. I vårt konkrete tilfelle fra simuleringen: I formelen for alpha over har jeg benyttet standardisert alpha. Da er alle testledd standardisert med varians=1 (z-skårer). Benytter vi ustandariserte testledd vil vi måtte ta hensyn til at de kan ha ulik varians, og da bruker vi gjennomsnittlig varians og kovarians i stedet for korrelasjoner: Reliabiliteten til en måling sammensatt av flere testledd avhenger altså av: Reliabiliteten til det enkelte testledd (her estimert ved gjennomsnittkorrelasjonen mellom alle ledd) og Antall testledd

Sammenhengen mellom alpha, reliabiliteten til det enkelte ledd og antall ledd. Vi kan få høy reliabilitet enten ved å summere få ledd med høy reliabilitet eller mange ledd med lav reliabilitet. Som det fremgår av figuren vil vi kunne få høy reliabilitet selv om det enkelte ledd har en reliabilitet så lav som.10 dersom vi bare summerer 30 ledd. På den annen side: har det enkelte ledd en reliabilitet på.96 så trenger vi vel strengt tatt bare ett men minst to for å få estimert reliabiliteten

En avgjørende forutsetning ved estimering av reliabilitet ved alpha, er at man kan anta at leddene måler samme latente fenomen. Selv om dette ikke er tilfelle kan vi får en høy alpha. Vi ser på en simulering hvor vi vet at leddene er mål på to helt ukorrelerte latente fenomener: Som vi ser av simuleringen vil alpha bli helt tilfredsstillende selv med så lite som 10 ledd og hvor disse måler to helt ukorrelerte fenomener, siden gjennomsnittskorrelasjonen tross alt blir relativt høy. En høy alpha er altså ingen dokumentasjon av en-dimensjonalitet! Bruk av alpha som estimat av reliabiliteten til en sum av ledd forutsetter en-dimensjonalitet. Hvorvidt denne forutsetningen er rimelig bør alltid undersøkes. Et opplagt verktøy er da faktor-analysen. Pål vil komme tilbake til dette senere! Det finnes metoder for estimering av reliabilitet for mål som er en sum av mer eller mindre uavhengige forhold ( flerdimensjonale ), men det går vi ikke inn på her..

Ønsker vi alltid høy alpha? I enkelte fremstillinger kan dere finne argumenter for at alpha ikke bør bli for høy. Dette er grunnet i at ledd i et måleinstrument alltid kan betraktes som et utvalg av ledd fra et univers av mulige ledd som alle er indikatorer på fenomenet. Dersom vi velger for homogene ledd risikerer vi å måle et begrep ( fenomen ) som er langt smalere definert enn vi egentlig ønsket. Å løse dette ved lavere alpha er jo imidlertid helt uforståelig. Det er jo det samme som å si at vi ønsker lavere reliabilitet. Det vi noen ganger ønsker er ikke lavere reliabilitet, men lavere homogenitet (eller indre konsistens dersom man definerer konsistens slik). Det vil gi lavere gjennomsnittskorrelasjon mellom leddene, men da bør vi også øke antall ledd slik at vi beholder en rimelig reliabilitet. Cronbach har diskutert også dette for eksempel i tilknytning til bandwidth-fidelity diskusjonen (for de som liker å google). Så svaret er vel egentlig JA vi ønsker alltid målinger med rimelig høy reliabilitet (og dermed høy alpha).

Er denne reliabilitetsmodellen egnet for alle måleinstrumenter? Her er svaret et definitivt NEI! Hele begrunnelsen for estimering av reliabilitet ved parallelle tester - og dermed nødløsningen split-half og Cronbach s alpha, er at vi kan anta at et latent, ikkeobserverbart fenomen reflekteres i observerbare indikatorer. Dette kalles en refleksiv modell. I noen situasjoner vil det være mer naturlig å tenke at vi definerer et fenomen som en sum av flere forhold ( symptomindekser vil ofte kunne forstås slik). Dette kalles en formativ modell. For slike vil parallelle tester ideen, og dermed estimering av reliabilitet ved split-half eller Cronbach s alpha ikke ha noen begrunnelse. Ved en definisjon av reliabilitet mer i retning av stabilitet eller reproduserbarhet vil estimering av reliabilitet ved test-retest kunne forsvares.

Andre reliabilitetsdesign: Test-retest. Stabilitet. Dersom dette skal være et estimat av reliabilitet forutsetter det at all manglende samvariasjon mellom test og retest skyldes tilfeldige målingsfeil. Er det en rimelig antagelse? Inter-skårer. Enighet. Dersom dette skal være et estimat av reliabilitet forutsetter det at all manglende samvariasjon mellom to eller flere skårere skyldes tilfeldige målingsfeil. Er det en rimelig antagelse?

Forholdet mellom reliabilitet og validitet. Vi har hele veien diskutert reliabilitet som forklart varians i indikatorer ( i) ved variasjon i latente fenomener F, og strengt tatt forenklet dette litt i overkant. Når vi har tilfredsstillende reliabilitet vet vi strengt tatt bare at vi har målt et eller annet på en tilfredsstillende måte. Vi vet fortsatt ikke hva vi egentlig har målt. Litt mer presist ville egentlig situasjonen se slik ut: