En eller to sensorer? Et eksperiment

Utkast (09.05.08) En eller to sensorer? Et eksperiment Bjørn Erik Rasch Sara Kristine Eriksen *) Institutt for statsvitenskap Universitetet i Oslo SAMMENDRAG I dette notatet undersøkes to forhold knyttet til den senere tids diskusjon av ulike sensorordninger. Vi gjennomfører et eksperiment der sensorer til dels med betydelig erfaring fra eksamenssensur bedømmer en eksamensbesvarelse fra et innføringsemne i statsvitenskap. Eksperimentet indikerer at det er en ikke ubetydelig spredning i sensorenes vurderinger, men at spredningen er mindre blant sensorer med relevant spesialkompetanse og sensurerfaring. Dette resultatet har interesse i forbindelse med vurderingen av om ordninger med en sensor er forsvarlig. For å kaste lys over den sosiale interaksjonen i eksamenskommisjoner med to medlemmer, formuleres en hypotese om sosial påvirkning med utgangspunkt i noen klassiske, sosialpsykologiske eksperimenter. Eksperimentet indikerer at feilvurderinger den sensor som redegjør for sin karakter først, ikke nødvendigvis vil bli rettet opp gjennom samhandlingen med den andre sensoren. Dette resultatet har særlig interesse i forbindelse med vurderingen av ordninger med to sensorer. *) En stor takk til studiekonsulent Dagfinn Hagen. Hans innsats har vært helt avgjørende for den praktiske gjennomføringen av eksperimentet, og han har deltatt i diskusjonen av alle sider ved opplegget. Professor i psykologi Pål Kraft ga svært nyttige innspill i en innledende fase. Takk til Jon Hovi, Vidar Gynnild, Hans-Kristian Hernes, Arild Raaheim, Anne Julie Semb, Bjørn Stensaker og Jarle Weigård for kommentarer. Vi står imidlertid alene ansvarlig for innholdet. 1

Innledning Kvalitetsreformen har ført til en rekke pedagogiske endringer. Fagtilbudene er blitt modulisert (noen vil si fragmentert), det er innført flere eksamener, prøver, kvalifiseringsoppgaver og obligatoriske innleveringer, studentene får mer regelmessig oppfølging med hyppigere tilbakemeldinger og vurderingsformene er blitt langt mer varierte (Dysthe 2007; Dysthe et al. 2006). Mange av endringene er svært arbeids- og ressurskrevende, og har ledet til et press i retning av å utvikle enklere former for sensur enn det som var vanlig tidligere. Hovedbildet ved landets universiteter og høyskoler er imidlertid stor grad av variasjon når det gjelder sensorordninger (Solum 2005). Det benyttes ordninger med en eller to sensorer, og varierende innslag av eksterne sensorer eller kontrollører. 1 Der det brukes en (intern) sensor, er det utviklet en eller annen form for tilsynssensorordning med ekstern deltakelse, og gjerne elementer av stikkprøvekontroll, krysslesing, eller lignende. Det synes å være en tendens i retning av mer utstrakt bruk av intern sensur i fag som har et stort antall bedømmelser per student, dvs. der det er mange deleksamener og innleveringer (Solum 2005: 4). Spørsmålet om en eller to sensorer har vært gjenstand for offentlige debatt, med ganske steile fronter. Det er et tema som også har vært fremme i rektorvalgkamper, for eksempel ved universitetene i Bergen og Oslo. 2 Det er imidlertid lite forskning på området, og vi har ikke vært i stand til å finne analyser fra Norge eller andre land som kaster lys over egenskaper og konsekvenser sensorordninger med henholdsvis en og to sensorer har. Ofte er også ordningene så ulike forskjellige land imellom at det er begrenset hvilke lærdommer en kan trekke av sammenligninger (se f.eks. Brandt og Stensaker 2005 for ordninger i Sverige, Danmark og England). Vi har gjennomført en undersøkelse hvor noe av formålet er å få en bedre forståelse av i hvilken grad antall sensorer i eksamenskommisjoner betyr noe for karakterfordelingen. Er det slik at karaktersettingen påvirkes av om det er en eller to sensorer som foretar bedømmelsen? I så fall, på hvilken måte påvirkes karakterene. For å etablere et første, prøvende forsøk på å besvare disse spørsmålene, har vi gjennomfør et eksperiment der en større gruppe sensorer har deltatt i vurderingen av en eksmensbesvarelse på et innføringsemne (bachelor) i statsvitenskap. Det bør understrekes at vi kun tar opp noen få 1 Lov om universiteter og høyskoler (2005-04-01-15, spesielt 3-9) har ikke noe generelt krav om to sensorer eller bruk av ekstern sensor på annet enn ved bedømmelse av større, selvstendige arbeider innenfor høyere grad (masteroppgaver). I 3-9 pkt 1 sies det: Universiteter og høyskoler skal sørge for at studentenes kunnskaper og ferdigheter blir prøvet og vurdert på en upartisk og faglig betryggende måte. Vurderingen skal også sikre det faglige nivå ved vedkommende studium. Det skal være ekstern evaluering av vurderingen eller vurderingsordningene. 2 Vi må ha en rettferdig og kvalitetsfremmende sensorordning og gjøre bruk av to sensorer der det trengs, het det i plattformen rektoratet i Oslo ble valgt på høsten 2005, men uten noen form for presisering av i hvilke tilfeller det trengs to sensorer. 2

sider ved sensorordninger, og det er flere viktige forhold vi lar ligge. Videre legger vi ikke opp til en normativ diskusjon, og tar ikke stilling til hvilken sensorordning som alt i alt er best; vårt anliggende er utelukkende empirisk. Artikkelen er disponert på den måten at vi først diskuterer hvilke forskjeller vi forventer å finne mellom ordninger med en og to sensorer. Deretter redegjør vi for eksperimentdesignet som er valgt. Neste trinn er å presentere resultatene fra eksperimentet, og drøfte deres relevant i forhold til spørsmålet om antall personer i eksamenskommisjoner. Hypoteser om karaktersetting I denne delen av artikkelen formulerer vi noen hypoteser vi vil teste eksperimentelt. Hypotesene har delvis bakgrunn i alminnelige oppfatninger som gjør seg gjeldende i fagmiljøet (særlig den første), og delvis bakgrunn i sosialpsykologisk teori. Vår kompetanse innenfor det sistnevnte fagfeltet er sterkt begrenset, og vi har selvsagt ingen pretensjoner om å bidra til teoriutviklingen på feltet. Vår formål har kun vært å bruke tidligere forskning for å danne oss noen begrunnede forventninger om utvalgte sider ved interaksjonen mellom sensorer i eksamenskommisjoner (med to medlemmer). Faglig skjønn og likeartede vurderinger Mange som deltar i eksamenskommisjoner med flere medlemmer har en følelse av stor grad av samsvar i vurderingene. I en av kommentarene vi i etterkant har fått fra deltakere i eksperimentet som beskrives nedenfor, sies det: Jeg har faktisk aldri opplevd (siden bokstavinnføringen ble innført) å være to karakterer uenig med kollega i kommisjon! Vi kunne vise til mange tilsvarende utsagn og erfaringer, men annet enn anekdotisk belegg av denne typen til støtte for høyt samsvar mellom sensorer kjenner vi ikke til. 3 3 En undersøkelse i regi av Nasjonalt fagråd i statsvitenskap høsten 2007 kan muligens sies å trekke i motsatt retning. Her ble 10 masteroppgaver fra hele landet gjennomgått i detalj av en gruppe på 7 sensorer. Alle statsvitenskapelige miljøer som har masterutdanning i faget var representert både med oppgaver og sensorer. Oppgavene var trukket ut tilfeldig blant alle som våren 2007 hadde oppnådd å få karakteren B. Sensorgruppen konkluderte med at bare to av de 10 B-oppgavene etter deres mening var sikre B-er. En av oppgavene satte et flertall av sensorene til D, men D-en ble trukket frem av enkelte sensorer (ikke alltid de samme) i 4 av de 10 tilfellene. Det var en viss spredning i sensorenes vurderinger på den måten at det ikke ble foreslått samme karakter av alle sensorene på noen av de 10 masteroppgavene til vurdering. Likevel var det ikke i noe tilfelle mer enn to karaktertrinn som ble foreslått på en og samme oppgave, men det er godt mulig at spredningen ville blitt noe større dersom sensorene hadde jobbet helt uavhengig av hverandre. Hovedkonklusjonen fra arbeidet var at det foreløpig ikke kan sies å være utviklet en felles nasjonal standard for vurdering av masteroppgaver. Se http://folk.uio.no/berasch/nfrst-karakterrapport-2007.pdf. Et par studier som indikerer andre typer av ulikheter i bruken av karakterskalaen er Møen og Tjelta (2005) og Gjølberg og Christoffersen (2008). 3

Det å sette karakter på en eksamensbesvarelse er en form for beslutning. Hvor kompleks og utfordrende denne beslutningssituasjonen er, vil i høy grad avhenge av eksamensoppgavens art og hvor sterke signaler og føringer sensorene opplever å få. Det vil typisk være vanskeligere å vurdere en hjemmeoppgave med fritt valg av tema, hvor et eksplisitt sett av vurderingskriterier ikke finnes, enn en eksamensbesvarelse på et område der det kan lages en fasit med riktige svar. Likedan må sensors kyndighet (ekspertise) og erfaring innenfor det fagfeltet eksamensarbeidet omhandler forventes å spille inn. Ekspertise er nødvendig for å foreta et sikkert faglig skjønn; gjennom erfaring sosialiseres sensor, tilegner seg de faglige kvalitetsnormene som ofte kan være både uskrevne og uuttalte og tilpasser seg bevisst eller ubevist standarder og vurderinger som andre i fagmiljøet over tid observeres å legge til grunn. De oppgavene som studenter stilles overfor i eksamenssammenheng varierer voldsomt. Det vi har i tankene i denne studien er først og fremst fag og eksamener der det er tale om relativt åpne og generelle spørsmål som inviterer til drøftinger, og som kan angriper og løses på flere måter. Det betyr at det ikke er mulig å lage en fasit i streng forstand, bare veiledninger i hvordan oppgaven bør angripes og hva det vil legges vekt på ved bedømmelsen. Det er mange fag som benytter slike oppgaver. Rommet for skjønn ved vurderingen vil derfor i utgangspunktet være stort, men det vil for eksempel kunne innsnevres ved bruk av detaljerte sensorveiledninger (jf. Baird et al. 2004). Med utgangspunkt i disse betraktningene kan vi formulere følgende hypotese: HYPOTESE 1. Det er liten spredning i karaktersettingen mellom ulike sensorer med spesialkompetanse på et fagområde eller innenfor en underdisiplin. Hvis denne hypotesen er riktig, vil det være et moment å ha med seg ved vurdering av ordninger med en og to sensorer. Dersom sensorer tenker veldig likt, og stort sett kommer frem til samme karakter ved bedømmelser, er gevinsten av å ha flere sensorer på samme eksamensarbeid relativt begrenset. Det foreligger imidlertid noen tidligere studier av eksamenssensur på grunnfaget i psykologi som trekker i en annen retning enn hypotesen ovenfor (Raaheim 2000; Teigen 1986). Undersøkelsene er gjennomført før innføring av bokstavkarakterer, som innebar en dramatisk reduksjon av antallet karaktertrinn, og er derfor ikke direkte sammenlignbare. Raaheim (2000) viser at det er til dels svært dårlig samsvar mellom sensorenes vurderinger (7 stykker) av de 50 besvarelsene som inngikk i hans analyse (lav inter-bedømmer reliabilitet). I tillegg til at karakterskalaen var annerledes, forelå det ikke sensorveiledning eller andre tilsvarende hjelpemidler for sensorene. I tillegg var oppgavetekstene svært åpne. Teigen (1986) tegner et bilde med mye mindre avvik mellom sensorer som leser samme besvarelse. Noen spredte analyser fra andre land tyder også på stor spredning ved bedømmelse av mange typer studentarbeider (Brown og Glasner 1999; Rowntree 1987). 4

Tabell 1. Statistiske opplysninger for de to sensorgruppene A og B. Minimum Maksimum Gjennomsnitt Standardavvik Antall Gruppe A 1 (E) 4 (B) 2,47 (D) 0,90 N=19 Gruppe B 2 (D) 4 (B) 3,27 (C) 0,67 N=18 Avvik (t-verdi) 0,80 (3,04) 21

Uavhengig variabel Avhengige variable Gruppe A Kontrollgruppe Snittkarakter Spredning Gruppe B Eksperimentgruppe Medsensor: Foreslår for god karakter Høyere snittkarakter Lavere spredning Informasjon Normering Sosial press Figur 1. Oversikt over det eksperimentelle designet. 22

Figur 2. Fordelingen av karakterer i henholdsvis gruppe A (N=19), gruppe B (N=18) og en gruppe studenter (N=51) på samme emne som eksamensbesvarelsen tidligere var levert på. Det var ingen i sensorgruppene som satte karakteren A, og ingen i gruppe B som satte karakteren E. I studentgruppen ble alle karaktertrinnene foreslått. 23

Figur 3. Forskjeller i gjennomsnittskarakter innenfor hver eksperimentgruppe, avhengig av om sensoren er ekstern eller ikke, universitetsansatt eller ikke, professor eller ikke, stipendiat eller ikke, KP spesialist eller ikke og emneerfaring fra STV1300 eller ikke. (T-verdier i parentes på de største avvikene.) Negative tall betyr strengere bedømmelse i gjennomsnitt (for eksempel har sensorer med KP som spesialitet en tendens til strengere bedømmelse), mens positive tall innebærer mildere bedømmelse i gjennomsnitt (for eksempel er det en tendens til at eksterne sensorer gir bedre karakterer). 24