En eller to sensorer? Et eksperiment



Like dokumenter
Tilsynssensors Årsrapport. Bachelorprogrammet i Kultur og Kommunikasjon (Kulkom) Universitetet i Oslo

Bokstavkarakterer på masternivå

RETNINGSLINJER FOR BRUK AV SENSOR

RETNINGSLINJER FOR BRUK AV SENSOR

En eller to sensorer?

Nasjonale retningslinjer for bedømmelse av masteroppgaver i statsvitenskap

Retningslinjer for oppnevning og bruk av sensorer

Tilsynssensors Årsrapport Bachelorprogrammet i Kultur og Kommunikasjon (Kulkom) Universitetet i Oslo

Læringsutbytte og vurderingskriterier

FAGSPESIFIKKE RETNINGSLINJER FOR KARAKTERSETTING VED INNFØRING AV ECTS KARAKTERSKALA VED SAMTLIGE LÆRESTEDER FOR HØYERE PSYKOLOGUTDANNING I NORGE

VEILEDER FOR BEHANDLING AV DÅRLIG AKADEMISK ARBEID/MINDRE FORSEELSER SOM IKKE ER FUSK

DELEGASJON TIL Å FASTSETTE SENSURORDNINGER, EVALUERINGSORDNINGER OG OPPNEVNING AV SENSORER VED MUSIKKONSERVATORIET

Automatiske begrunnelser og sensorveiledning ved ILS

Dokumenter: a) Saksframlegg b) Vedlegg 1. Eksamensforskriftens kapittel 9: Sensorer og sensur (revidert utgave)

Tilsynssensorrapport for bachelorprogrammet Demokrati og rettigheter i informasjonssamfunnet, og masterprogram i Forvaltningsinformatikk

Tilsynssensorrapport for 2011 fra Inger Hanssen-Bauer

Rapport om sensurordningene innen høyere utdanning - høring

Hjemmeeksamen Gruppe. Formelle krav. Vedlegg 1: Tabell beskrivelse for del 2-4. Side 1 av 5

Rapport fra karakterpanel for matematikk om bruk av det nye karaktersystemet

Programplan for studium i veiledning av helsefagstudenter

Institutt for lærerutdanning og skoleforskning Det utdanningsvitenskapelige fakultet

Tilsynssensorrapport samfunnsgeografi

Eksamensformer og prestasjoner

Bokstavkarakterskalaen rapport for Innlegg på UHR-konferanse v/analysegruppen

Del 1: Prosedyre for planlegging og gjennomføring av eksamener og sensur

Tilsynssensorrapport for bachelorprogrammet Demokrati og rettigheter i informasjonssamfunnet, og masterprogram i Forvaltningsinformatikk

Tilsynssensors årsrapport for bachelorprogrammet i utviklingsstudier, UiO

Retningslinjer for kvalitetssikring av eksamen, sensur, sensurordninger og oppnevning av sensorer ved NHH

Retningslinjer for eksamen i modul 2, blokk 1, 2 og 3 (OD2100/OD2200)

Høringssvar fra Universitetet i Bergen: Vurdering av sensorordningene innen høyere utdanning

VURDERINGSORDNINGEN OG BRUK AV SENSOR - RETNINGSLINJER FOR SIVILINGENIØRFAKULTETENE

Tenk deg at du skal gjøre en undersøkelse av bruken av databehandleravtaler (jf. PVF art. 28) i en liten norsk kommune:

Oppgaver og løsningsforslag i undervisning. av matematikk for ingeniører

Tilsynssensorrapport samfunnsgeografi

Reviderte retningslinjer for kvalitetssikring av eksamen, sensur, sensurordninger og oppnevning av sensorer ved NHH

SGO 1001 Innføring i Samfunnsgeografi. Dette er et obligatorisk emne i 1. semester

RETNINGSLINJER FOR KARAKTERSETTING AV: GEOG3950 MASTEROPPGAVE I ENTREPRENØRSKAP, INNOVASJON OG SAMFUNN GEOGRAFISK INSTITUTT, NTNU (19.05.

En A er ikke alltid en A

SKRIFTLIG EKSAMEN I K06 FORM OG INNHOLD. ERFARINGER FRA SENSUREN VÅR 08. Sonja Skjær 1 Hellerud vgs

Videreutdanning i veiledning tverrprofesjonell tilnærming på individ- og gruppenivå

Eksamensinformasjon OADM1001 høsten 2011

Sak 10/10: Seminarundervisningen på samfunnsgeografi

Det norske karaktersystemet. land. Innlegg på UHR karakterkonferanse 2012 Grete Lysfjord, prorektor ved UiN

Rapport fra nasjonal kommisjon for vurdering av karaktersetting på masteroppgaver i statsvitenskap, avgitt 10. desember 2007

PRAKTISK PRØVE FOR Å OPPNÅ RETT TIL Å PRAKTISERE SOM REGISTRERT ELLER STATSAUTORISERT REVISOR

NOKUTs oppsummeringer Nasjonal deleksamen i årsregnskap 2018

Bruken av nasjonale prøver en evaluering

Referat - Programrådsmøte tirsdag 24. januar 2017 kl rom 487

RETNINGSLINJER FOR KARAKTERSETTING AV: GEOG MASTEROPPGAVE I GEOGRAFI INSTITUTT FOR GEOGRAFI, NTNU ( )

Karakterfordeling A B C D E F gjennomsnittskarakter C

Tilsynssensorrapport samfunnsgeografi

RETNINGSLINJER FOR KARAKTERSETTING AV: GEOG MASTEROPPGAVE I GEOGRAFI GEOGRAFISK INSTITUTT, NTNU ( )

Karakterbruk og kvalitet i høyere utdanning. Bjarne Strøm, SØF/NTNU UHR s karaktersamling 24. oktober 2013

Vedlegg 1 til Reglement for utdanning i Forsvaret (RUF) Mal for. Ramme-, fag-, studie- og emneplan i Forsvaret

Fagdag matematikk, grunnskole Hamar,

SKJEMA FOR PERIODISK SLUTTEVALUERING AV EMNER VED IPED

SENSORVEILEDNING til bruk ved bedømming av masteroppgaver ved

6.2 Signifikanstester

RETNINGSLINJER LOKALT GITT MUNTLIG EKSAMEN

Emneevaluering består i all hovedsak av to evalueringsmåter, underveisevaluering og periodisk/grundig evaluering.

Fagskolen i Troms, Avdeling Tromsø. Gjelder fra:

Sensorveiledning: SFS20307 Semesteroppgave

Årsrapport fra programsensor

Retningslinjer. for lokalt gitt eksamen. for grunnskolene. i RSK Vest Finnmark. (Alta, Hammerfest, Hasvik, Kvalsund, Loppa, Måsøy, Nordkapp)

Generelle karakterbeskrivelser og nasjonalt kvalifikasjonsrammeverk: sammenheng eller motsetning?

ORDINÆR EKSAMEN - gruppe

Studentenes erfaring med veiledning. Semesteroppgaver for bedring av sluttkarakterer i MNF 115.

2 Utforming av arbeidet

Rapport fra karakterpanel for Master i realfag

Sensorveiledning for eksamen i TIK4001, høst 2018

Eksamensoppgave i PSYPRO4064 Klinisk psykologi II

Alternativ slutt- og eksternvurderingsformer

KARAKTERRAPPORT FOR 2013 OG OM KARAKTERSYSTEMET. Karakterkonferansen Per Manne

Hva er mappevurdering?

NOTAT EKSAMENSAVVIKLING VED MNF - NYE RUTINER FRA VÅREN 2008

Juridisk Fagråd 24. februar 26. februar Krakow, Polen

Eksamensoppgave i PSY2016/PSYPRO4316 Personlighetspsykologi II

Evalueringsrapport, masterprogram i geovitenskap

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Høgskoleni østfold EKSAMEN. Samfunnsvitenskapelig forskningsmetode. Eksamenssettet består av seks ark (inkludert denne forsiden).

Veiledning og vurdering av Bacheloroppgave for Informasjonsbehandling

Emne PROPSY309 - emnerapport 2014 Høst

STUDIEÅRET 2014/2015. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Mandag 13. april 2015 kl

Har du sagt A, så må du si B og C og D og noen ganger til og med E og F

2. Kommentarer knyttet til enkelte punkter i forskriften

2 Utforming av arbeidet

Transkript:

Utkast (09.05.08) En eller to sensorer? Et eksperiment Bjørn Erik Rasch Sara Kristine Eriksen *) Institutt for statsvitenskap Universitetet i Oslo SAMMENDRAG I dette notatet undersøkes to forhold knyttet til den senere tids diskusjon av ulike sensorordninger. Vi gjennomfører et eksperiment der sensorer til dels med betydelig erfaring fra eksamenssensur bedømmer en eksamensbesvarelse fra et innføringsemne i statsvitenskap. Eksperimentet indikerer at det er en ikke ubetydelig spredning i sensorenes vurderinger, men at spredningen er mindre blant sensorer med relevant spesialkompetanse og sensurerfaring. Dette resultatet har interesse i forbindelse med vurderingen av om ordninger med en sensor er forsvarlig. For å kaste lys over den sosiale interaksjonen i eksamenskommisjoner med to medlemmer, formuleres en hypotese om sosial påvirkning med utgangspunkt i noen klassiske, sosialpsykologiske eksperimenter. Eksperimentet indikerer at feilvurderinger den sensor som redegjør for sin karakter først, ikke nødvendigvis vil bli rettet opp gjennom samhandlingen med den andre sensoren. Dette resultatet har særlig interesse i forbindelse med vurderingen av ordninger med to sensorer. *) En stor takk til studiekonsulent Dagfinn Hagen. Hans innsats har vært helt avgjørende for den praktiske gjennomføringen av eksperimentet, og han har deltatt i diskusjonen av alle sider ved opplegget. Professor i psykologi Pål Kraft ga svært nyttige innspill i en innledende fase. Takk til Jon Hovi, Vidar Gynnild, Hans-Kristian Hernes, Arild Raaheim, Anne Julie Semb, Bjørn Stensaker og Jarle Weigård for kommentarer. Vi står imidlertid alene ansvarlig for innholdet. 1

Innledning Kvalitetsreformen har ført til en rekke pedagogiske endringer. Fagtilbudene er blitt modulisert (noen vil si fragmentert), det er innført flere eksamener, prøver, kvalifiseringsoppgaver og obligatoriske innleveringer, studentene får mer regelmessig oppfølging med hyppigere tilbakemeldinger og vurderingsformene er blitt langt mer varierte (Dysthe 2007; Dysthe et al. 2006). Mange av endringene er svært arbeids- og ressurskrevende, og har ledet til et press i retning av å utvikle enklere former for sensur enn det som var vanlig tidligere. Hovedbildet ved landets universiteter og høyskoler er imidlertid stor grad av variasjon når det gjelder sensorordninger (Solum 2005). Det benyttes ordninger med en eller to sensorer, og varierende innslag av eksterne sensorer eller kontrollører. 1 Der det brukes en (intern) sensor, er det utviklet en eller annen form for tilsynssensorordning med ekstern deltakelse, og gjerne elementer av stikkprøvekontroll, krysslesing, eller lignende. Det synes å være en tendens i retning av mer utstrakt bruk av intern sensur i fag som har et stort antall bedømmelser per student, dvs. der det er mange deleksamener og innleveringer (Solum 2005: 4). Spørsmålet om en eller to sensorer har vært gjenstand for offentlige debatt, med ganske steile fronter. Det er et tema som også har vært fremme i rektorvalgkamper, for eksempel ved universitetene i Bergen og Oslo. 2 Det er imidlertid lite forskning på området, og vi har ikke vært i stand til å finne analyser fra Norge eller andre land som kaster lys over egenskaper og konsekvenser sensorordninger med henholdsvis en og to sensorer har. Ofte er også ordningene så ulike forskjellige land imellom at det er begrenset hvilke lærdommer en kan trekke av sammenligninger (se f.eks. Brandt og Stensaker 2005 for ordninger i Sverige, Danmark og England). Vi har gjennomført en undersøkelse hvor noe av formålet er å få en bedre forståelse av i hvilken grad antall sensorer i eksamenskommisjoner betyr noe for karakterfordelingen. Er det slik at karaktersettingen påvirkes av om det er en eller to sensorer som foretar bedømmelsen? I så fall, på hvilken måte påvirkes karakterene. For å etablere et første, prøvende forsøk på å besvare disse spørsmålene, har vi gjennomfør et eksperiment der en større gruppe sensorer har deltatt i vurderingen av en eksmensbesvarelse på et innføringsemne (bachelor) i statsvitenskap. Det bør understrekes at vi kun tar opp noen få 1 Lov om universiteter og høyskoler (2005-04-01-15, spesielt 3-9) har ikke noe generelt krav om to sensorer eller bruk av ekstern sensor på annet enn ved bedømmelse av større, selvstendige arbeider innenfor høyere grad (masteroppgaver). I 3-9 pkt 1 sies det: Universiteter og høyskoler skal sørge for at studentenes kunnskaper og ferdigheter blir prøvet og vurdert på en upartisk og faglig betryggende måte. Vurderingen skal også sikre det faglige nivå ved vedkommende studium. Det skal være ekstern evaluering av vurderingen eller vurderingsordningene. 2 Vi må ha en rettferdig og kvalitetsfremmende sensorordning og gjøre bruk av to sensorer der det trengs, het det i plattformen rektoratet i Oslo ble valgt på høsten 2005, men uten noen form for presisering av i hvilke tilfeller det trengs to sensorer. 2

sider ved sensorordninger, og det er flere viktige forhold vi lar ligge. Videre legger vi ikke opp til en normativ diskusjon, og tar ikke stilling til hvilken sensorordning som alt i alt er best; vårt anliggende er utelukkende empirisk. Artikkelen er disponert på den måten at vi først diskuterer hvilke forskjeller vi forventer å finne mellom ordninger med en og to sensorer. Deretter redegjør vi for eksperimentdesignet som er valgt. Neste trinn er å presentere resultatene fra eksperimentet, og drøfte deres relevant i forhold til spørsmålet om antall personer i eksamenskommisjoner. Hypoteser om karaktersetting I denne delen av artikkelen formulerer vi noen hypoteser vi vil teste eksperimentelt. Hypotesene har delvis bakgrunn i alminnelige oppfatninger som gjør seg gjeldende i fagmiljøet (særlig den første), og delvis bakgrunn i sosialpsykologisk teori. Vår kompetanse innenfor det sistnevnte fagfeltet er sterkt begrenset, og vi har selvsagt ingen pretensjoner om å bidra til teoriutviklingen på feltet. Vår formål har kun vært å bruke tidligere forskning for å danne oss noen begrunnede forventninger om utvalgte sider ved interaksjonen mellom sensorer i eksamenskommisjoner (med to medlemmer). Faglig skjønn og likeartede vurderinger Mange som deltar i eksamenskommisjoner med flere medlemmer har en følelse av stor grad av samsvar i vurderingene. I en av kommentarene vi i etterkant har fått fra deltakere i eksperimentet som beskrives nedenfor, sies det: Jeg har faktisk aldri opplevd (siden bokstavinnføringen ble innført) å være to karakterer uenig med kollega i kommisjon! Vi kunne vise til mange tilsvarende utsagn og erfaringer, men annet enn anekdotisk belegg av denne typen til støtte for høyt samsvar mellom sensorer kjenner vi ikke til. 3 3 En undersøkelse i regi av Nasjonalt fagråd i statsvitenskap høsten 2007 kan muligens sies å trekke i motsatt retning. Her ble 10 masteroppgaver fra hele landet gjennomgått i detalj av en gruppe på 7 sensorer. Alle statsvitenskapelige miljøer som har masterutdanning i faget var representert både med oppgaver og sensorer. Oppgavene var trukket ut tilfeldig blant alle som våren 2007 hadde oppnådd å få karakteren B. Sensorgruppen konkluderte med at bare to av de 10 B-oppgavene etter deres mening var sikre B-er. En av oppgavene satte et flertall av sensorene til D, men D-en ble trukket frem av enkelte sensorer (ikke alltid de samme) i 4 av de 10 tilfellene. Det var en viss spredning i sensorenes vurderinger på den måten at det ikke ble foreslått samme karakter av alle sensorene på noen av de 10 masteroppgavene til vurdering. Likevel var det ikke i noe tilfelle mer enn to karaktertrinn som ble foreslått på en og samme oppgave, men det er godt mulig at spredningen ville blitt noe større dersom sensorene hadde jobbet helt uavhengig av hverandre. Hovedkonklusjonen fra arbeidet var at det foreløpig ikke kan sies å være utviklet en felles nasjonal standard for vurdering av masteroppgaver. Se http://folk.uio.no/berasch/nfrst-karakterrapport-2007.pdf. Et par studier som indikerer andre typer av ulikheter i bruken av karakterskalaen er Møen og Tjelta (2005) og Gjølberg og Christoffersen (2008). 3

Det å sette karakter på en eksamensbesvarelse er en form for beslutning. Hvor kompleks og utfordrende denne beslutningssituasjonen er, vil i høy grad avhenge av eksamensoppgavens art og hvor sterke signaler og føringer sensorene opplever å få. Det vil typisk være vanskeligere å vurdere en hjemmeoppgave med fritt valg av tema, hvor et eksplisitt sett av vurderingskriterier ikke finnes, enn en eksamensbesvarelse på et område der det kan lages en fasit med riktige svar. Likedan må sensors kyndighet (ekspertise) og erfaring innenfor det fagfeltet eksamensarbeidet omhandler forventes å spille inn. Ekspertise er nødvendig for å foreta et sikkert faglig skjønn; gjennom erfaring sosialiseres sensor, tilegner seg de faglige kvalitetsnormene som ofte kan være både uskrevne og uuttalte og tilpasser seg bevisst eller ubevist standarder og vurderinger som andre i fagmiljøet over tid observeres å legge til grunn. De oppgavene som studenter stilles overfor i eksamenssammenheng varierer voldsomt. Det vi har i tankene i denne studien er først og fremst fag og eksamener der det er tale om relativt åpne og generelle spørsmål som inviterer til drøftinger, og som kan angriper og løses på flere måter. Det betyr at det ikke er mulig å lage en fasit i streng forstand, bare veiledninger i hvordan oppgaven bør angripes og hva det vil legges vekt på ved bedømmelsen. Det er mange fag som benytter slike oppgaver. Rommet for skjønn ved vurderingen vil derfor i utgangspunktet være stort, men det vil for eksempel kunne innsnevres ved bruk av detaljerte sensorveiledninger (jf. Baird et al. 2004). Med utgangspunkt i disse betraktningene kan vi formulere følgende hypotese: HYPOTESE 1. Det er liten spredning i karaktersettingen mellom ulike sensorer med spesialkompetanse på et fagområde eller innenfor en underdisiplin. Hvis denne hypotesen er riktig, vil det være et moment å ha med seg ved vurdering av ordninger med en og to sensorer. Dersom sensorer tenker veldig likt, og stort sett kommer frem til samme karakter ved bedømmelser, er gevinsten av å ha flere sensorer på samme eksamensarbeid relativt begrenset. Det foreligger imidlertid noen tidligere studier av eksamenssensur på grunnfaget i psykologi som trekker i en annen retning enn hypotesen ovenfor (Raaheim 2000; Teigen 1986). Undersøkelsene er gjennomført før innføring av bokstavkarakterer, som innebar en dramatisk reduksjon av antallet karaktertrinn, og er derfor ikke direkte sammenlignbare. Raaheim (2000) viser at det er til dels svært dårlig samsvar mellom sensorenes vurderinger (7 stykker) av de 50 besvarelsene som inngikk i hans analyse (lav inter-bedømmer reliabilitet). I tillegg til at karakterskalaen var annerledes, forelå det ikke sensorveiledning eller andre tilsvarende hjelpemidler for sensorene. I tillegg var oppgavetekstene svært åpne. Teigen (1986) tegner et bilde med mye mindre avvik mellom sensorer som leser samme besvarelse. Noen spredte analyser fra andre land tyder også på stor spredning ved bedømmelse av mange typer studentarbeider (Brown og Glasner 1999; Rowntree 1987). 4

Tabell 1. Statistiske opplysninger for de to sensorgruppene A og B. Minimum Maksimum Gjennomsnitt Standardavvik Antall Gruppe A 1 (E) 4 (B) 2,47 (D) 0,90 N=19 Gruppe B 2 (D) 4 (B) 3,27 (C) 0,67 N=18 Avvik (t-verdi) 0,80 (3,04) 21

Uavhengig variabel Avhengige variable Gruppe A Kontrollgruppe Snittkarakter Spredning Gruppe B Eksperimentgruppe Medsensor: Foreslår for god karakter Høyere snittkarakter Lavere spredning Informasjon Normering Sosial press Figur 1. Oversikt over det eksperimentelle designet. 22

Figur 2. Fordelingen av karakterer i henholdsvis gruppe A (N=19), gruppe B (N=18) og en gruppe studenter (N=51) på samme emne som eksamensbesvarelsen tidligere var levert på. Det var ingen i sensorgruppene som satte karakteren A, og ingen i gruppe B som satte karakteren E. I studentgruppen ble alle karaktertrinnene foreslått. 23

Figur 3. Forskjeller i gjennomsnittskarakter innenfor hver eksperimentgruppe, avhengig av om sensoren er ekstern eller ikke, universitetsansatt eller ikke, professor eller ikke, stipendiat eller ikke, KP spesialist eller ikke og emneerfaring fra STV1300 eller ikke. (T-verdier i parentes på de største avvikene.) Negative tall betyr strengere bedømmelse i gjennomsnitt (for eksempel har sensorer med KP som spesialitet en tendens til strengere bedømmelse), mens positive tall innebærer mildere bedømmelse i gjennomsnitt (for eksempel er det en tendens til at eksterne sensorer gir bedre karakterer). 24