Digital eksamen Et pedagogisk prosjekt Per Grøttum Seksjon for medisinsk informatikk
Disposisjon Validitet og Reliabilitet Spørmålstyper og skrivekunst Digital eksamen fra ide til gjennomføring
Validitet Måler testen det den er ment å måle
Validitet Faglig bredde
Validitet Kognitiv dybde Faglig bredde
Validitet Skape Kognitiv dybde Evaluere Analysere Anvende Forstå Huske Faglig bredde
Validitet Skape Kognitiv dybde Læringsmål Evaluere Analysere Anvende Forstå Faglig bredde Huske
Validitet Dårlig løsning: tradisjonell essay-eksamen Skape Kognitiv dybde Læringsmål Evaluere Analysere Anvende Forstå Faglig bredde Huske
Validitet Dårlig løsning: faglig ensidig Skape Kognitiv dybde Læringsmål Evaluere Analysere Anvende Forstå Faglig bredde Huske
Validitet Dårlig løsning: kognitivt ensidig Skape Kognitiv dybde Læringsmål Evaluere Analysere Anvende Forstå Faglig bredde Huske
Validitet Dårlig løsning: utenfor læringsmål Skape Kognitiv dybde Læringsmål Evaluere Analysere Anvende Forstå Faglig bredde Huske
Validitet Frittstående spørsmål Skape Kognitiv dybde Læringsmål Evaluere Analysere Anvende Forstå Faglig bredde Huske
Validitet Kognitiv dybde Stier/sekvenser Læringsmål Faglig bredde Pasienten er en 73 år gammel kvinne som kommer til kontroll fordi hun har fått langtids oksygenbehandling de siste årene... Hva tror du kan være de viktigste forklaringene på de reduserte spirometriverdiene Du føler at du ikke kommer til bunns i diagnostikken av denne pasienten. Derfor undersøker du... Hvilke andre tilstander kan være forklaringen på respirasjonssvikten
Validitet Omfang en tredje dimensjon ( blue-printing ) Omfang Faglig bredde
Validitet Klinisk kompetanse multidimensjonal validitet Millers pyramide
Reliabilitet Er resultatet (fortolkingen) stabilt og konsistent
Feilkilder - essay Spørsmål ε q Kandidat fortolker ε k Svar Sensor fortolker ε s Karakter Forfatter fortolker ε f Sensurveiledning
Reliabilitet - sensur Spørsmål ε q Kandidat fortolker ε k Svar 2 sensorer fortolker ε s Karakter Forfatter fortolker ε f Sensurveiledning Denne differansen i sensur fordrer rekalibrering av sensor A s nivåkrav. Inter-rater bias: Eksternsensor - LærerA = 13.3% Eksternsensor - LærerB = 3.3% Eksternsensor - LærerC = -1.7%
Feilkilder - avkryssingsspørsmål Spørsmål ε q Kandidat fortolker ε k Svar Karakter Forfatter fortolker ε f Svaralternativ
Reliabilitet - avkryssingsspørsmål Spørsmål ε q Kandidat fortolker ε k Svar Karakter Forfatter fortolker ε f Svaralternativ Delspørsmål 2: 0 1 2 3 4 5 6 Er denne pasientens CHA 2 DS 2 score 5 (2 for hjerneslag, 1 for alder, 1 for kvinne, 1 for karsykdom) Ja/Nei 100 90 80 70 60 50 40 30 20 10 Item analysis:
Spørsmålstyper og skrivekunst
Spørsmålstyper Essay (fritekst) Multiple choice (ett svar) Multiple response (flere svar) Pull down (system av multiple choice)
Spørsmålstyper Personlig oppfatning usubstansiert: Det meste kan spørres om med alle spørsmålstyper. Unntaket er de mer samfunnsvitenskapelige fagene som ofte trenger essay. Eksempel: atferdsfag når det er sagt eller skrevet, er det åpenbart. Utrenete forfattere finner det lettest å bruke essay til spørsmål på høyere kognitive nivå. Multiple choice er logistisk mest fordelaktig når det gjelder gjenbruk og retting.
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) Hvilken diagnose er mest sannsynlig må ligge på samme kontinuum Hvilken av de følgende påstander er sann om pseudogikt A. Det forekommer hyppig hos kvinner. B. Det er sjelden assosiert med akutte leddsmerter C. Det kan knyttes til kondrokalsinose D. Det er klart arvelig i de fleste tilfelle E. Det responderer godt på behandling med allopurinol Beh E Galt Kjønn A Sammenheng Arv D Sant
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) Hvilken diagnose er mest sannsynlig må ha rimelig distanse mellom det riktige alternativet og de andre (distraktorene): B A C D F Minst sannsynlig Mest sannsynlig
Skrivekunst Svaralternativene ved multiple choice rangeringsspørsmål (single best answer) Hvilken diagnose er mest sannsynlig må ha rimelig distanse mellom det riktige alternativet og de andre (distraktorene): B A C D F Minst sannsynlig Mest sannsynlig Åpenbart feil svar: Hva er viktigst for god prognose... Under Sydenturen postoperativt må han nyte spesielt gode rødviner
Skrivekunst Unngå Spørsmål av typen Hvilke av de følgende utsagn er IKKE riktig. Alternativene er sjelden langs samme dimensjon. Sant/galt spørsmål. Vurderingsspørsmål som ligger høyt på den taxonomiske skala og som vi ønsker mye av - har sjelden så klare utfall. Sant/galt spørsmål degenerer ofte til rene faktaspørsmål for at de skal bli entydige.
Skrivekunst Forståelse av relative begrep
Skrivekunst Relative begrep i Multiple response spørsmål må kvantifiseres: Hva er de viktigste mulige diagnoser hos denne pasienten A B C D E B A C D E Minst viktig Mest viktig
Skrivekunst Relative begrep i Multiple response spørsmål må kvantifiseres: Hva er de 2 viktigste mulige diagnoser hos denne pasienten A B C D E B A C D E Minst viktig Mest viktig
Skrivekunst Svaret på ett spørsmål ligger implisitt i teksten til påfølgende spørsmål: Spørsmål 4 Hva slags behandling vil du foreslå Spørsmål 5 Hva består den operative behandlingen i
Digital eksamen på med.fak. Fra ide til gjennomføring
Hva var galt med den gamle eksamenen Ekstern evaluering av medisinstudiet ved Det medisinske fakultet, Universitetet i Oslo. Knut Aspegren Kjartan Koi Torstein Vik København, Oslo, Trondheim. 12.05. 2008
5. semester skriftlig eksamen Vår 2007 Høst 2007
5. semester skriftlig eksamen =3% Vår 2007 Høst 2007 =0%
5. semester skriftlig eksamen Vår 2007 =50% Høst 2007 =25%
5. semester skriftlig eksamen Vår 2007 =35% Høst 2007 =50%
Funn og anbefalinger Lav reliabilitet på sensur (stor variasjon mellom sensorer) Mer presise spørsmål og sensurveiledning Evalueringsskjema med poengskala ( rating scale ) for muntlige prøver Lav content (face) validity (mangelfull dekning av læringsmål) Større antall spørsmål Lav sampling validity (ujevn tematisk fordeling) Blueprinting (mal) av temafordeling Overvekt av faktaspørsmål Forskyve spørsmålene mot høyere nivå i Blooms taksonomi
Fakultetets reaksjon stor revisjon av eksamen OSCE (Objective Structured Clinical Examination) Samlebånd med strukturerte, praktiske oppgaver MiniCEX varierte kliniske eksamener Digital skriftlig eksamen
Modell for digitale oppgaver Kognitiv dybde Læringsmål Hybrid: Kasuistikker er bærebjelken i oppgavene. Frittstående spørsmål fyller ut målområdet. Faglig bredde
Modell for digitale oppgaver Kognitiv dybde Læringsmål Hybrid: Kasuistikker er bærebjelken i oppgavene. Frittstående spørsmål fyller ut målområdet. Faglig bredde
Klinisk beslutningstaking = beslutningstre = sekvensielle oppgaver Opplysninger Spørsmål Opplysninger Spørsmål Opplysninger Spørsmål = = Opplysninger Spørsmål Følgefeil! Følgefeil!
Digitalisering vår pedagogiske nøtteknekker Opplysninger Spørsmål Fasit Fasit Opplysninger Spørsmål Fasit
I praksis ser det slik ut: 1 nivå i treet = 1 deloppgave = 1 innlevering akkumulert sykehistorie fasit og nye opplysninger miniessay spørsmål multiple response spørsmål multiple choice spørsmål
Typisk eksamenssett 4-12 oppgaver hver oppgave har 2 8 deler hver del har 1 15 spørsmål i alt ca 100 spørsmål på 4 timer
Praktisk gjennomføring av digital eksamen Første digitale eksamen ved UiO i juni 2011 Web-basert eksamen 200 dedikerte bærbare maskiner med minimert Windows OS Dedikert trådløst eksamensnett i 6 lesesaler Nå: Ca 1000 studenter / 100 000 eksamenssvar hvert semester Skreddersydd informasjon til studentene
Kvalitetssikring I
Kvalitetssikring - medisinsk Forfatterteam...... Eksamenskommisjon... Kollegaer...... Seniorstudenter
Kvalitetssikring - pedagogisk Kongruens med læringsmål. Blueprinting (innhold/fag, taxonomisk nivå, basal/avansert kunnskap). Spørsmålsteknisk konstruksjon. Manual fra National Board of Medical Examiners. http://www.nbme.org/pdf/itemwriting_2003/2003iwg whole.pdf
Kvalitetssikring teknisk/administrativ Studieadministrasjonen: etablert egen gruppe for digital eksamen Leder koordinering, teknisk kvalitetskontroll, setter opp alle eksamener, supervisjon, fagutvikling, rådgiving Spesialiserte studiekonsulenter arbeider fortløpende med eksamenskommisjonene bygger spørsmåls- og oppgavebanker IT senioringeniør ansvarlig for utstyr teknisk gjennomføring av eksamen brukerstøtte under eksamen
Digital sensur
Digital sensur Etter eksamen Under eksamen - simultan sensurering ved OSCE-eksamen Til dels svært komplisert karakterberegning og fordeling av sensur-arbeidet.
Sensur den ultimate utfordring Basalfag Paraklinisk fag Klinisk fag Spørsmålsbanker Sensor A basalfag- spørsmålene fra alle stud. Oppgaver Besvarelser Sensurering Sensor B parakliniske og kliniske spørsmålene fra alle stud. Sensor C alt!
Digital sensur På web Flervalgssvar rettes automatisk Essaysvar rettes manuelt
Sensur online, real-time Simultan digital sensur på avsluttende eksamen i medisin Kontinuerlig monitorering av resultatene under eksamen
Teknologi Web-basert eksamen 200 13.3 HP laptop 802.11a Minimal Win7 IE Windows Questionmark Perception IIS Oracle Web-basert administrasjon Ruby Ruby on Rails sensursystem FS Web-basert sensur Apache Passenger Oracle Oracle Linux
Kvalitetssikring II
Psykometrisk analyse Inter-rater analyse (sensorer) Item analyse (spørsmål) Klassisk test teori IRT Rasch
Inter-rater bias: Eksternsensor - LærerA = 13.3% Eksternsensor - LærerB = 3.3% Eksternsensor - LærerC = -1.7% Denne differansen i sensur fordrer rekalibrering av sensor A s nivåkrav.
Spørsmål med item facility < 0.15: 0.13: Hvilket område i medulla oblongata gir opphav til aktivitet i perifere sympatiske nerver Så lav item facility (gjennomsnittskarakter) er fakultetets problem, ikke studentenes: enten er spørsmålet utenfor læringsmålene, eller så er det undervist for dårlig, eller så er det et feil/for avansert læringsmål.
Spørsmål med item facility >= 0.95: 0.99: Hvilken funksjon har purkinjefibre i hjertet Høy item facility (gjennomsnittskarakter) er OK hvis spørsmålet er kjernepensum som studentene da viser at de faktisk kan meget godt. Hvis det ikke er kjernepensum, er spørsmålet for lett.
Høy kvalitet gjenbruk innsynsbegrensning Oppgaver som skal gjenbrukes, kan unntas offentliggjøring Retten til innsyn i besvarelser må opprettholdes, men innsyn kan skje i kontrollerte former Offentliggjøring begrenset fra høsten 2015 Ca 20% av eksamensoppgavene offentliggjøres = treningsoppgaver Ca 80% går inn i gjenbruksbank etter revisjon Kommentert utdrag av de psykometriske analysene offentliggjøres Eget datasystem for kontrollert innsyn er utviklet
Forskning & Utvikling
Forskning 2 Postdoc: Stefan Schauber, Muirne Paap - psykometriske metoder - content validity et feedbacksystem - karaktersetting (A-F) - kobling formativ og summativ testing - adaptiv læring Medfak Helsevitenskapelig Utdanningssenter
Utvikling I Digital strukturert scoring på OSCE-eksamener Samlebånd: 12 stasjoner à 7 minutter
Utvikling I Digital strukturert scoring på OSCE-eksamener ipad
Utvikling II Automatisert håndtering av oppgaveoversettelser UiO Translatør xliff
Utvikling III Kobling formativ - summativ digital testing Samme system Samme spørsmål og oppgaver I elæringsprogrammene våre: Virtuelle pasienter (klinisk beslutningstaking) Quizzer
Det er mest et spørsmål om entusiasme og pedagogisk nytenking Tiden er inne!