Om lenking av prøver:

Like dokumenter
Om lenkefeil og ekvivaleringsmetoder på nasjonale prøver: Evaluering av endring over tid 1

Analyse av nasjonale prøver i engelsk, lesing og regning på 5. trinn 2014

Høsten 2018 gjennomførte ca elever på 5. trinn nasjonale prøver i lesing, regning og engelsk.

Nasjonale prøver i lesing, regning og engelsk på ungdomstrinnet 2015

Analyse av nasjonale prøver i lesing, regning og engelsk på ungdomstrinnet 2015

Metodegrunnlag for nasjonale prøver

Nasjonale prøver i lesing, regning og engelsk på 5. trinn 2015

Analyse av nasjonale prøver i engelsk, lesing og regning på 5. trinn 2016

Analyse av nasjonale prøver i lesing, regning og engelsk på ungdomstrinnet 2014

Analyse av nasjonale prøver i lesing, regning og engelsk på 8. og 9. trinn 2016

Analyse av nasjonale prøver i engelsk, lesing og regning på 5. trinn 2015

Sammendrag av analyserapporter fra nasjonale prøver i 2012

Bedre resultater i Nord-Trøndelag

Utdanningskonferansen, HUM, UiS 2015

ENDRINGER I NASJONALE PRØVER

ENDRINGER I NASJONALE PRØVER

Mål 1 barn og unge skal få bedre kompetanse i realfag

ENDRINGER I NASJONALE PRØVER

Deres ref: Vår ref: Saksbeh: Arkivkode: Dato: 2015/ Bo Nielsen, B60/&

Analysene er gjort i forhold til kvalitetskriterier som er fastsatt i rammeverk for nasjonale prøver.

Rammeverk for nasjonale prøver

Mål 2 færre barn og unge på lavt nivå i realfag

Prøver er ett vurderingsverktøy blant flere

ENDRINGER I NASJONALE PRØVER

ENDRINGER I NASJONALE PRØVER

Denne analysen handler om nasjonale, fylkesvise og kommunale resultater for nasjonale prøver i lesing på 5., 8. på 9. trinn for 2012.

Analyse av nasjonale prøver i regning,

ENDRINGER I NASJONALE PRØVER

Mål 3 flere barn og unge på høyt nivå i realfag

ENDRINGER I NASJONALE PRØVER

TIMSS 2019 del 2. Institutt for lærerutdanning og skoleforskning (ILS)

PISA i et internationalt perspektiv hvad der er idegrundlaget og hvad kan den bruges til? Júlíus K. Björnsson November 2012

ENDRINGER I NASJONALE PRØVER

Analyse av nasjonale prøver i lesing, regning og engelsk pa ungdomstrinnet 2015 for Telemark

Mål 3 flere barn og unge på høyt nivå i realfag

Nasjonale prøver 2014

Denne analysen handler om nasjonale, fylkesvise og kommunale resultater for nasjonale prøver i regning på 5., 8. og 9. trinn i 2012.

Analyse av nasjonale prøver i lesing 2011

ENDRINGER I NASJONALE PRØVER

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Analyse av nasjonale prøver i engelsk 2013

Vestby kommune Skole-, oppvekst- og kulturutvalget

Arbeidsnotat. Foreløpige analyser av nasjonale prøver 2007

Deres ref: Vår ref: Saksbeh: Arkivkode: Dato: 2015/ Bo Nielsen, B60/&

Saksfremlegg. Hovedutvalg for Barn- og unge tar orienteringen til etteretning

Dokumentasjon beregning av value added- indikatorer for Oslo kommune

Fagseminar om regning som grunnleggende ferdighet i alle fag Naturfag

ENDRINGER I NASJONALE PRØVER

I denne analysen ser vi på nasjonale, fylkesvise og kommunale resultat på nasjonale prøver i lesing i 2013.

BÆRUM KOMMUNE GRUNNSKOLEADMINISTRASJONEN

Da går vi i gang! Litt innramming av oppdraget-her fra generell del av læreplanen Ny overordnet del ble vedtatt i september, men det er ikke bestemt

SAKSFREMLEGG. Saksnummer: 15/91-1. Saksbehandler: Tove Kristensen Knudsen Sakstittel: RESULTATER NASJONALE PRØVER 2014

Til lærere Hvordan bruke nasjonale prøver som redskap for læring?

Sted: Universitetet i Oslo på Blindern, Auditorium U35 i Helga Engs hus (Det utdanningsvitenskapelige fakultet).

Til lærere. Hvordan bruke nasjonale prøver som redskap for læring? _Nasjonale_prøver_Lærere_A5_bokmål.indd :49

Til lærere. Hvordan bruke nasjonale prøver som redskap for læring?

TIMSS 2003 med få ord

Nasjonale prøver et skoleeierperspektiv. Øystein Neegaard,

Andre måter å oppdage og avdekke språkvansker

Analyse av nasjonale prøver i regning 2013

Vi har hatt en fantastisk fin høst med elevene på Herre skole. Det er så mye positivt og bra som skjer hos oss.

ENDRINGER I NASJONALE PRØVER

Hva er PIRLS, PISA og nasjonale prøver?

SKRIFTLIG VURDERING PÅ BARNETRINNET

Analyse av nasjonale prøver i engelsk 2012

Nasjonale prøver GODESET SKOLE skoleåret

Utdanningsforbundet Østfold. Innledning ved Harald Skulberg 5. Desember 2013

Nasjonale prøver

Om kvalitetsrapporten...2 Fakta om Hellen skole...2 Læringsmiljø elevundersøkelsen...3

TIMSS 2007 et forskningsprosjekt

TIMSS Advanced 2008 et forskningsprosjekt

Nasjonale prøver

Rammeverk for kartleggingsprøver på trinn. Innhold ARTIKKEL SIST ENDRET:

Nasjonale prøver. Siden 2007 er det i Norge gjennomført nasjonale prøver i grunnleggende regne- og leseferdigheter

TIMSS 2007 et forskningsprosjekt

1 HVA I ALL VERDEN HAR

Mestringsbeskrivelser for nasjonale prøver i lesing

Påvirker ulike styringssystem elevenes skoleprestasjoner? Oslo mars Liv Bente Hannevik Friestad Førsteamanuensis. dr.

1 HOVEDFUNN OG TRENDER I TIMSS 2007

TILSTANDSRAPPORT FOR NORDBYTUN UNGDOMSSKOLE 2016

Effektevaluering av Ny GIV - foreløpige resultater

Nasjonale prøver

TIMSS Advanced 2008 et forskningsprosjekt

SKRIFTLIG VURDERING PÅ BARNETRINNET

Karakterstatistikk for grunnskolen

Hovedresultater fra TIMSS Advanced 2015

PISA-undersøkelsen 2018 Presentasjon av undersøkelsen og informasjon om gjennomføring. Institutt for lærerutdanning og skoleforskning (ILS)

Kvalitet i grunnskolen

Fortsatt grunn til bekymring for norske gutters lesing?

OM KVALITETSRAPPORTEN...2 FAKTA OM KJØKKELVIK SKOLE...2 LÆRINGSMILJØ ELEVUNDERSØKELSEN...3 RESULTATER KARAKTERER 10. TRINN...29 GRUNNSKOLEPOENG...

Tall fra Grunnskolens informasjonssystem (GSI)

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Om kvalitetsrapporten...2 Fakta om Sandgotna skole...2 Læringsmiljø elevundersøkelsen...3

Statistikk 2P, Prøve 1 løsning

Oslo kommune Utdanningsetaten. Strategisk plan Bekkelaget skole

Nasjonale prøver 2012

Hovedresultater fra PISA 2015

Bruken av nasjonale prøver en evaluering

Analyser karakterstatistikk for grunnskolen

Rekruttering til realfag. Bente Solbakken Høgskolen i Nesna

Transkript:

Julius K. Björnsson Om lenking av prøver: Hvordan sikrer vi at samme tall fra nasjonale prøver betyr samme ferdighet hvert år

Å måle endring over tid Fra 2014 måler nasjonale prøver måle endring over tid for grunnskolen. (regning og engelsk-lesing fra 2016) For å få det til, brukes et NEAT («Non-Equivalent groups with Anchor Test») ankerdesign, hvor ankeroppgaver administreres til et lite (>6%) utvalg av alle de elevene som tar hver prøve. I både engelsk og regning er ankeroppgavene omtrent 20% av hele prøven og i lesing er de like mange som en hel prøve. Dette er nødvendig fordi to (eller flere) helt like prøver måler aldri nøyaktig det samme. skalaen blir ikke den samme. Selv om de er laget på samme måte, av samme personer, basert på samme prøvespesifikasjon. Prøvene fra forskjellige år må derfor ekvivaleres lenkes. Innenfor IRT snakker man vanligvis om lenking, som da også er en ekvivalering.

NP trenger et ankerdesign: Nasjonale prøver bruker en IRT kalibrering av alle oppgaver. Elevenes prestasjon er basert på en estimering av hele svarmønstret til hver elev (EAP). Denne estimeringen leverer en Theta skåre som så er transformert til en skalert skåre, såkalte skalapoeng med gjennomsnitt 50 og standardavvik 10 (det første året). NP bruker en såkalt 2PL modell for dikotome oppgaver hvor vanskegrad og diskriminering bestemmes for hver oppgave og en «graded response» modell for polytome oppgaver. Men det er ikke nok å standardisere tallene fra forskjellige år for å gjøre dem sammenliknbare, de må ekvivaleres/lenkes slik at samme ferdighet ligger bak samme tall. Dvs. skalaen begge årene må være den samme.

Metoden i NP og vedlikehold av ankeret:

Hvorfor det er viktig å estimere lenkefeilen Ingen ekvivalering/lenking er helt feilfri. Ankeroppgaver kan «drifte», blir ofte lettere over tid. Sammenhengen oppgavene er i er viktig og de er brukt hvert år sammen med nye kohortoppgaver som kan ha en effekt. Prøvedesign hvor ankeret IKKE endres over tid, finnes ikke og når en gjennomsnittsendring over tid skal evalueres må ikke bare usikkerheten til gjennomsnittene tas med i beregningen men også usikkerheten i lenkingen. LSA bruker disse metodene for å få fram endring over tid/trend. Alle storskala undersøkelser og prøvesystemer som er ment å produsere trender, bruker lenking basert på en IRT analyse av alle oppgaver. Metodene kan være litt forskjellige men i grunnen baseres de på det samme.

Forskningsspørsmål 1. Hvordan fungerer den ekvivaleringsmetoden som nasjonale prøver bruker? 2. Hvilke ekvivaleringsmetoder fungerer best med nasjonale prøver? 3. Hvor stor er lenkefeilen fra år til år? 4. Gir dagens metoder for å beregne lenkingen systematiske feil som kan reduseres?

Datagrunnlag Resultater fra alle nasjonale prøver i regning og engelsk for 5. og 8. trinn, fra 2014, 2015 og 2016. Omtrent 60.000 elever hvert år på hver prøve Rundt 120.000 elever for hvert fag, sammenlagt omtrent 240.000 elever hvert år. Sammenlagt rundt 720.000 elever og 12 prøvegjennomføringer. Lesing ikke med, dersom leseprøvene har et annet design, men analyse av dem kommer senere. Analyse utført med tillatelse fra Utdanningsdirektoratet.

Ankringsmetoden i NP Er basert på IRT Både vanskegrad og diskriminering (b- og a-parameterne) blir beregnet i en prosess hvor både ankerprøven og kohortprøven for det samme året inngår samtidig i beregningene. På denne måten får man verdier for a- og b-parameterne for ankeroppgavene som man oppfatter som kjente for senere års prøver. Det neste året beregnes derfor ikke disse på nytt for ankeroppgavene, men inngår som forhåndsbestemte verdier i analysen av neste års resultater. (Men det blir grundig sjekket om parametrene har endret seg vesentlig) Denne metoden kalles FCIP (Fixed Common Item Parameters) og setter to år på samme skala.

Lenkefeil fra ankerparametre Finnes mange forskjellige metoder for å estimere lenkefeilen: En vanlig metode som bygger på kun ankerparametrene fra to gjennomføringer er:

Lenkefeil Antall ankeroppgaver 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 5 10 15 20 25 30 35 40 45 Antall ankeroppgaver

Lenkefeil Effekt av forskjeller mellom gjennomføringer 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 Sum c

Hvordan beregne endring over tid? For eksempel for to gjennomsnitt Da må standardfeilen for hvert gjennomsnitt finnes. Og følgende formel brukes hvor lenkefeilen er inkludert: Dette gir standardfeil for forskjellen mellom år 1 og år 2 og brukes for å estimere om endringen er signifikant eller ikke. Og det sier seg selv at hvis lenkefeilen er betydelig, da spiller den en stor rolle og vi trenger en større forskjell for å få signifikante endringer mellom år.

Endringer i ankeret- regning 2014 og 2016

Lenkefeil i skalapoeng med FCIP-metoden Mange metoder for ble prøv ut, eldre metoder basert på endringer i selve ankeret og nyere metoder som inkluderer hele datasettet. Det viste seg at enten FCIP metoden eller en samkalibrering hvor alle oppgaver og alle elver ble inkludert, leverte de mest stabile resultatene og heldigvis også den laveste lenkefeilen.

Er forskjeller mellom år signifikante?

Hvor mye må endres for at endringen blir signifikant Endring over tid på NP domineres av lenkefeilen som er omtrent 10 ganger større enn standardfeilen på selve gjennomsnittene for nasjonalt nivå. En enkel beregning viser at en endring må være på nesten 2 skalapoeng for å være signifikant, nasjonalt. Derfor er det overordnet viktig å holde lenkefeilen så lav som mulig.

Avvik i skalapoeng Har lenkingen noen BIAS? 1,50 1,00,50,00 -,50 Bias-FCIP 0,07071349 Bias-MM 0,81271847 Bias-MS -0,02122878-1,00-1,50 20 30 40 50 60 70 80 Skalapoeng Bias-FCIP Bias-MM Bias-MS

BIAS - Konsekvenser Høyest Bias på øverste og nederste nivå Avrunning til hele tall fjerner dette stort sett

Konklusjoner Lenkefeilen bør inkluderes i alle beregninger av trendsignifikans-ellers er det fare for feil konklusjoner. Lenkefeilen er relativt stor sammenliknet med PISA og TIMSS, men FCIP metoden gir resultater tilsvarende en samkalibrering. FCIP overvurderer de svakeste og undervurderer de flinkeste, men dette er ganske lite ( 1 skalapoeng). Metoder som anvender hele datasettet (Samkalibrering- FCIP) gir bedre og mer stabile resultater enn eldre metoder som er basert kun på endringer i ankerparametre. Ankeroppgavene må passes på, men også fornyes over tid. Ankeret i engelsk og regning bør kanskje være større, det ville sannsynligvis redusere lenkefeilen, men fører med seg andre problemer. Utvalget elever som tar ankerprøven må også muligens bli større, men det fører også med seg problemer.

Basert på: 1. Björnsson, J. K. (2016). Metodegrunnlag for nasjonale prøver. Oslo: Utdanningsdirektoratet. https://www.udir.no/globalassets/filer/vurdering/nasjonalepr over/metodegrunnlag-for-nasjonale-prover-august-2018.pdf 2. Bjørnsson, J.K. (2018). Om lenkefeil og ekvivaleringsmetoder på nasjonale prøver:evaluering av endring over tid. Acta Didactica Norge, 12,4.