RELIABILITET : Pålitelighet? Troverdighet? Reproduserbarhet? Stabilitet? Konsistens? I dagligtale og i ulike fremstillinger også innenfor psykologisk forskningsmetode, brukes slike begreper og reliabilitet ofte litt om hverandre. I tillegg vil man finne en rekke ulike definisjoner og fortolkninger av begrepet reliabilitet også innenfor test/målings tradisjonen. Vi kan ikke her gå inn på hele den diskusjonen, og holder oss til en definisjon som er forenelig med den oftest anvendte definisjonen innenfor klassisk test-teori.
Reliabilitet er den variasjonen i en måling (observert indikator, observerte skårer ) som kan forklares ved variasjon i et latent, ikke observerbart, fenomen ( sanne skårer ). Perfekt reliabilitet Ikke perfekt reliabilitet
Her kunne vi beregnet reliabiliteten ved en enkel lineær regresjonsanalyse: x = a + b*f + u R 2 fra den analysen ville være reliabiliteten til x! Men siden fenomenet (F) ikke er observerbart, kan selvsagt heller ikke reliabiliteten beregnes den må estimeres. Dersom vi tar utgangspunk t i at dersom vi har tre variabler: x, y og z som forholder seg slik til hverandre: Hvor u ene er uavhengige, tilfeldige feil, så vil r x,z være: r y,x * r y,z
Reliabilitetsmodellen: Hvor Ra og Rb er reliabiliteten til måling a og b. Dersom vi nå gjør et drastisk forutsetning kan vi løse estimeringsproblemet. Vi forutsetter at målingene a og b er like gode dvs. at de har samme reliabilitet (Ra=Rb). Denne antagelsen kalles parallel test antagelsen innen målingsteorien. Siden Ra og Rb er forklart varians kan vi selvsagt finne de tilsvarende korrelasjonene slik: r a = Ra og r b = Rb Vi vet fra forrige side at r a,b = r a * r b. Men siden vi nå har antatt at r a og r b er like, kunne vi like gjerne skrevet dette som: r a,b = r a * r a = Ra eller: r a,b = r b * r b = Rb. Korrelasjonen mellom målingene er altså et direkte estimat av reliabiliteten til måling a eller måling b! Så for å estimere reliabiliteten til en måling må vi skaffe oss en like god måling av samme fenomen.
Parallelle tester ( equivalent forms ): Vi lager gjerne et mål på F ved å summere responser på flere items og vi er interesserte i reliabiliteten til summen av disse. Vi kan konstruere en ny test som er like god som (parallell med) den første: Vi har da en sum av leddene fra første test (x) og av leddene fra andre test (y).
Og som vi har sett kan vi da estimere reliabiliteten til hver av de to testene (x og y) ved å korrelere summene x og y med hverandre. Dette er selvsagt en tidkrevende og kostbar metode for reliabilitetsestimering. Ille nok å lage en god test om en ikke skal lage to like gode.. Man fant imidlertid fort ut at her kunne man lage en tilnærming.
Split-half tilnærmingen. I stedet for å lage to komplette tester, kan man ta den ene testen man har og dele den i to halvdeler. Vi kan nå lage oss en sum x=x1+x3+x5 og en sum y=x2+x4+x6. Og estimere reliabiliteten til x eller y ved å korrelere x og y. Merk at ved denne tilnærmingen får man et estimat av reliabiliteten til en test som er halvparten så lang som den vi egentlig ønsker å bruke! Vi kan korrigere for dette ved å benytte Spearman-Brown s prophecy formula : Spearman-Brown's prophecy formula Hvor N ved split-half er 2 og ρ xx er reliabiliteten til en halv test (estimert ved split-half korrelasjonen). Et problem ved split-half strategien er at en test kan deles i to halvdeler på mange måter (fra en test med 20 items kan man for eksempel trekke ut ca. 185000 ulike utvalg av størrelse n=10), og vi vil få litt ulike reliabilitetsestimater avhengig av hvordan vi deler testen i to.
Cronbach s Alpha. Frem til begynnelsen av 1950-tallet var split-half strategien nærmest enerådende som strategi for estimering av reliabilitet innen testutvikling. I 1951 kom imidlertid Cronbach s artikkel: Coefficient Alpha and the internal structure of tests. Denne finner dere i fullversjon over hele internett. Bare å google. Litt også her: Cronbach's alpha Idag er denne strategien like dominerende som split-half var tidligere, men det tok litt tid. Som vi skal se krever beregning av Cronbach s Alpha tilgang til en computer dersom man ikke har svært få test-ledd da. Før vi ser på beregningen av Cronbach s Alpha ser vi på en liten simulering av målingsideen. Her så vi på en konkret simulering av reliabiliteten til en sum av parallelle målinger.
Cronbach s Alpha: Hvor K er antall testledd ( items ) og mr er reliabiliteten til det enkelte testledd estimert ved gjennomsnittskorrelasjonen mellom alle testledd. Ser dere på formelen for Spearman-Brown korreksjonen, ser dere at alpha er identisk med denne, men hvor antall splitter (typisk to) er erstattet med antall ledd i testen og reliabiliteten til den enkelte split er erstattet med reliabiliteten til det enkelte ledd. Cronbach viste da også at alpha er det estimat av reliabiliteten man vil få dersom man beregnet gjennomsnittet av alle de reliabilitetsestimater man kunne få ved å splitte en test i alle mulig halvdeler. I vårt konkrete tilfelle fra simuleringen: I formelen for alpha over har jeg benyttet standardisert alpha. Da er alle testledd standardisert med varians=1 (z-skårer). Benytter vi ustandariserte testledd vil vi måtte ta hensyn til at de kan ha ulik varians, og da bruker vi gjennomsnittlig varians og kovarians i stedet for korrelasjoner: Reliabiliteten til en måling sammensatt av flere testledd avhenger altså av: Reliabiliteten til det enkelte testledd (her estimert ved gjennomsnittkorrelasjonen mellom alle ledd) og Antall testledd
Sammenhengen mellom alpha, reliabiliteten til det enkelte ledd og antall ledd. Vi kan få høy reliabilitet enten ved å summere få ledd med høy reliabilitet eller mange ledd med lav reliabilitet. Som det fremgår av figuren vil vi kunne få høy reliabilitet selv om det enkelte ledd har en reliabilitet så lav som.10 dersom vi bare summerer 30 ledd. På den annen side: har det enkelte ledd en reliabilitet på.96 så trenger vi vel strengt tatt bare ett men minst to for å få estimert reliabiliteten
En avgjørende forutsetning ved estimering av reliabilitet ved alpha, er at man kan anta at leddene måler samme latente fenomen. Selv om dette ikke er tilfelle kan vi får en høy alpha. Vi ser på en simulering hvor vi vet at leddene er mål på to helt ukorrelerte latente fenomener: Som vi ser av simuleringen vil alpha bli helt tilfredsstillende selv med så lite som 10 ledd og hvor disse måler to helt ukorrelerte fenomener, siden gjennomsnittskorrelasjonen tross alt blir relativt høy. En høy alpha er altså ingen dokumentasjon av en-dimensjonalitet! Bruk av alpha som estimat av reliabiliteten til en sum av ledd forutsetter en-dimensjonalitet. Hvorvidt denne forutsetningen er rimelig bør alltid undersøkes. Et opplagt verktøy er da faktor-analysen. Pål vil komme tilbake til dette senere! Det finnes metoder for estimering av reliabilitet for mål som er en sum av mer eller mindre uavhengige forhold ( flerdimensjonale ), men det går vi ikke inn på her..
Ønsker vi alltid høy alpha? I enkelte fremstillinger kan dere finne argumenter for at alpha ikke bør bli for høy. Dette er grunnet i at ledd i et måleinstrument alltid kan betraktes som et utvalg av ledd fra et univers av mulige ledd som alle er indikatorer på fenomenet. Dersom vi velger for homogene ledd risikerer vi å måle et begrep ( fenomen ) som er langt smalere definert enn vi egentlig ønsket. Å løse dette ved lavere alpha er jo imidlertid helt uforståelig. Det er jo det samme som å si at vi ønsker lavere reliabilitet. Det vi noen ganger ønsker er ikke lavere reliabilitet, men lavere homogenitet (eller indre konsistens dersom man definerer konsistens slik). Det vil gi lavere gjennomsnittskorrelasjon mellom leddene, men da bør vi også øke antall ledd slik at vi beholder en rimelig reliabilitet. Cronbach har diskutert også dette for eksempel i tilknytning til bandwidth-fidelity diskusjonen (for de som liker å google). Så svaret er vel egentlig JA vi ønsker alltid målinger med rimelig høy reliabilitet (og dermed høy alpha).
Er denne reliabilitetsmodellen egnet for alle måleinstrumenter? Her er svaret et definitivt NEI! Hele begrunnelsen for estimering av reliabilitet ved parallelle tester - og dermed nødløsningen split-half og Cronbach s alpha, er at vi kan anta at et latent, ikkeobserverbart fenomen reflekteres i observerbare indikatorer. Dette kalles en refleksiv modell. I noen situasjoner vil det være mer naturlig å tenke at vi definerer et fenomen som en sum av flere forhold ( symptomindekser vil ofte kunne forstås slik). Dette kalles en formativ modell. For slike vil parallelle tester ideen, og dermed estimering av reliabilitet ved split-half eller Cronbach s alpha ikke ha noen begrunnelse. Ved en definisjon av reliabilitet mer i retning av stabilitet eller reproduserbarhet vil estimering av reliabilitet ved test-retest kunne forsvares.
Andre reliabilitetsdesign: Test-retest. Stabilitet. Dersom dette skal være et estimat av reliabilitet forutsetter det at all manglende samvariasjon mellom test og retest skyldes tilfeldige målingsfeil. Er det en rimelig antagelse? Inter-skårer. Enighet. Dersom dette skal være et estimat av reliabilitet forutsetter det at all manglende samvariasjon mellom to eller flere skårere skyldes tilfeldige målingsfeil. Er det en rimelig antagelse?
Forholdet mellom reliabilitet og validitet. Vi har hele veien diskutert reliabilitet som forklart varians i indikatorer ( i) ved variasjon i latente fenomener F, og strengt tatt forenklet dette litt i overkant. Når vi har tilfredsstillende reliabilitet vet vi strengt tatt bare at vi har målt et eller annet på en tilfredsstillende måte. Vi vet fortsatt ikke hva vi egentlig har målt. Litt mer presist ville egentlig situasjonen se slik ut: