Samordna opptak og omregningstabeller

Like dokumenter
Falske positive i lusetellinger?

Følsomme lusetellinger ved forslag til ny forskrift. Anders Løland

Rekrutteringsfunksjoner for sild, torsk og lodde

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

Kvalitetssikring av rapport om GTT-gjennomgang i norske sykehus. Hanne Rognebakke

Det er dokumentert spesielle forhold som kan gi grunnlag for særskilt vurdering.

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Karakterstatistikk for viderega ende opplæring skolea ret 2013/2014

Skoleeksamen i SOS Kvantitativ metode

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Notat 3 - ST februar 2005

Det norske karaktersystemet. land. Innlegg på UHR karakterkonferanse 2012 Grete Lysfjord, prorektor ved UiN

2P kapittel 3 Statistikk Utvalgte løsninger oppgavesamlingen

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Karakterstatistikk for viderega ende opplæring skolea ret

Et lite notat om og rundt normalfordelingen.

TMA4245 Statistikk Eksamen desember 2016

Forelesning 23 og 24 Wilcoxon test, Bivariate Normal fordeling

Karakterstatistikk for grunnskolen

Notasjon og Tabell 8. ST0202 Statistikk for samfunnsvitere

Seksjon 1.3 Tetthetskurver og normalfordelingen

Analyser karakterstatistikk for grunnskolen 2009

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

Verdens statistikk-dag.

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

ST0202 Statistikk for samfunnsvitere

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Karakterstatistikk for grunnskolen 2012/13

Konsekvenser av innføring av nye karakterkrav ved opptak til sykepleierutdanninger

Statistikk og dataanalyse

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

UNIVERSITETET I OSLO

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Bokstavkarakterskalaen rapport for Innlegg på UHR-konferanse v/analysegruppen

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Et lite notat om og rundt normalfordelingen.

Møtedato: Saksbehandler: Knut Nicholas Figenschou, Marta Ranestad, Ellen Helstad & Jone Trovåg

ST0202 Statistikk for samfunnsvitere

EKSAMENSOPPGAVER STAT100 Vår 2011

2P-Y eksamen våren 2018 løsningsforslag

UNIVERSITETET I OSLO

1. Forord Innholdsfortegnelse innledning Funksjonelle egenskaper og krav Spesifikke krav av delsystemer...

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Fra første forelesning:

ECON2130 Kommentarer til oblig

i x i

Denne uken: kap : Introduksjon til statistisk inferens. - Konfidensintervall - Hypotesetesting - P-verdier - Statistisk signifikans

Analyser karakterstatistikk for grunnskolen

Sannsynlighetsregning og Statistikk.

Bootstrapping og simulering Tilleggslitteratur for STK1100

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Effektevaluering av Ny GIV - foreløpige resultater

Sentralmål og spredningsmål

Løsningsforslag til obligatorisk oppgave i ECON 2130

EKSAMEN I FAG TMA4255 FORSØKSPLANLEGGING OG ANVENDTE STATISTISKE METODER

Karakterstatistikk for viderega ende opplæring skolea ret 2012/13

Tidligere skoleprestasjoner og rekruttering til og gjennomføring av allmennlærerutdanning

6.2 Signifikanstester

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

Karakterstatistikk for videregående opplæring skoleåret

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

Tilsynssensorrapport for 2011 fra Inger Hanssen-Bauer

ST0202 Statistikk for samfunnsvitere

Veiledning Tittel: Veiledning for utarbeiding av økonomiske analyser Dok.nr: RL065

ST0202 Statistikk for samfunnsvitere

Konvertering fra døgn- til timemiddelbaserte varslingsklasser for svevestøv i Bedre byluft Sam-Erik Walker

NOKUTs oppsummeringer Nasjonal deleksamen i årsregnskap 2018

Formelsamling i medisinsk statistikk

Godkjenning av utdanning fra Nord-Amerika

Karakterstatistikk for grunnskolen 2013/14

Kapittel 8: Tilfeldige utvalg, databeskrivelse og fordeling til observatorar, Kapittel 9: Estimering

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Opptaksreglement for enkeltemner ved Det teknisk-naturvitenskapelige

UNIVERSITETET I OSLO

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Skolebidragsindikatorer i videregående skole analyse

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Utprøving av metoder for deteksjon av veier i laserdata foreløpige resultater

MATEMATIKK (MAT1005) Sentralmål / Spredningsmål

UNIVERSITETET I OSLO

Analyse av data relatert til friksjonsmålinger og ulykkesfrekvens ved to veistrekninger i Oslo i perioden

Statistisk behandling av kalibreringsresultatene Del 1. v/ Rune Øverland, Trainor Elsikkerhet AS

Transkript:

Samordna opptak og omregningstabeller Notatnr Forfattere Dato SAMBA// Ingunn Fride Tvete Anders Løland. mai

Norsk Regnesentral Norsk Regnesentral (NR) er en privat, uavhengig stiftelse som utfører oppdragsforskning for bedrifter og det offentlige i det norske og internasjonale markedet. NR ble etablert i 9 og har kontorer i Kristen Nygaards hus ved Universitetet i Oslo. NR er et av Europas største miljøer innen anvendt statistisk-matematisk modellering og har et senter for forskningsdrevet innovasjon, Statistics for Innovation (sfi), med finansiering fra Norges forskningsråd. Det jobbes med et bredt spekter av problemstillinger, for eksempel finansiell risiko, jordobservasjon, estimering av fiskebestander og beskrivelse av geologien i petroleumsreservoarer. NR er ledende i Norge innen utvalgte deler av informasjons- og kommunikasjonsteknologi. Innen IKT-området har NR innsatsområdene e-inkludering, informasjonssikkerhet og smarte informasjonssystemer. NRs visjon er forskningsresultater som brukes og synes.

Tittel Forfattere Samordna opptak og omregningstabeller Ingunn Fride Tvete <Ingunn.Fride.Tvete> Anders Løland <Anders.Loland@nr.no> Dato. mai Publikasjonsnummer SAMBA// Sammendrag Samordna opptak ønsker en vurdering av metodene som nå benyttes for å oversette utenlandske karaktersnitt til norske. I denne rapporten oppsummerer Norsk Regnesentrals dette arbeidet. Basert på simuleringsstudier og vårt faglige skjønn anbefaler vi følgende endringer: Å dele inn i -prosentiler istedenfor å dele inn i -prosentiler som i dagens metode. Å interpolere lineært mellom utenlandsk og norsk karakterskala ved færre enn tilgjengelige utenlandske karaktersnitt, fremfor ved færre enn tilgjengelige karaktersnitt i dagens metode. I noen tilfeller har en stor andel av søkerne fra et annet land toppkarakteren. Heller enn å ta gjennomsnittet av nedre og øvre karaktersnitt i den tilhørende prosentilgruppen, anbefaler vi å bruke midtpunktet/medianen for det aktuelle karakterområdet som oversatt karaktersnitt. Emneord Målgruppe Tilgjengelighet Prosjekt Karaktersnitt, Lineær interpolasjon, Nasjonal vitnemålsdatabase, Omregningsmetode, Prosentil Samordna opptak Konfidensiell Samordna opptak Prosjektnummer 67 Satsningsområde Teknologi, industri og forvaltning Antall sider Copyright Norsk Regnesentral

Innhold Innledning........................... Bakgrunnsdata......................... 6 Forutsetninger......................... 8 Vurdering av dagens praksis................... 9. Notasjon......................... 9. SOs omregningsmetode................... 9. Alternative metoder..................... 9. Standardfeil......................... Når andelen som får topp eller bunn-karaktersnittet avviker sterkt fra tilsvarende andeler i Norge.................. 6 Oppsummering og anbefalinger.................. 9. Anbefalt metode...................... 9. Grense for lineær interpolering................ 9. Høy andel personer på ekstremverdiene............ 9 Samordna opptak og omregningstabeller

Innledning Samordna opptak (SO) bestemmer hvordan karakterer gitt i andre land skal omregnes til norske. SO har ansvaret for driften av Nasjonal vitnemålsdatabase (NVB) som inneholder vitnemål med karakterdata for de fleste som fullfører og består norsk -årig videregående opplæring. Denne databasen omfatter nå omtrent 6 vitnemål (NVB-statistikk). SO har tilgang til tilsvarende offisiell karakterstatistikk for mange andre land. For noen land, som for eksempel Tyskland, har man god informasjon, mens man for noen land vet mindre. Man skiller mellom land med offisiell karakterstatistikk og land uten offisiell karakterstatistikk men der man har informasjon om mer enn personers karakterer og land uten offisiell karakterstatistikk, men der man har informasjon om eller færre personers karakterer En oversettelse gjøres for en persons karaktersnitt og ikke enkeltkarakterer. Oversettelsen av karaktersnittene gjøres primært ved å dele NVB-statistikken i prosentiler og matche denne med tilsvarende prosentiler for utenlandske karakterer, og deretter gjøre en stykkevis lineær interpolering. Det gjøres justeringer hvis man i andre land har en mye større andel topp (eller bunn) karakterer. Uten offisiell karakterstatistikk og uten informasjon om flere enn personers karaktersnitt gjøres en lineær omregning mellom den norske og den utenlandske karakterskalaen. SO ønsker en vurdering av metodene som nå benyttes for å oversette utenlandske karaktersnitt til norske. Denne rapporten tar for seg følgende: En vurdering av nåværende metoder. Vi tar utgangspunkt i NVB-statistikken. Vi vurderer antallet prosentiler og måten man interpolerer på. Vi sammenligner alternativ(er) med nåværende praksis. Vi fokuserer spesielt på tilfellene der andelen med ekstremkaraktersnitt avviker fra tilsvarende andel i NVB. I forbindelse med manglende tilgang til utenlandsk offisiell karakterstatistikk ser vi på hvordan det å bruke egenprodusert statistikk slår ut i forhold til en lineær (standard) omregning, sett i lys av antallet snittkarakterer man har til rådighet. Vi foreslår en grense for når en lineær omregning kan brukes. Vi oppsummerer våre funn og gir forslag til fremgangsmåter som kan gi utenlandske søkere en rettferdig oversettelse av sine karaktersnitt. Samordna opptak og omregningstabeller

Tabell. Antall med ulike karaktersnitt i NVB-statistikken for søkere med vitnemål som gir generell studiekompetanse, totalt 6 7 personer. Karakter Antall Karakter Antall Karakter Antall, 7, 7, 969,6 776 66, 7,7 8,,,8 96, 86, 68,9 66, 76,, 8,,6 6 8978,6 6,7 6, 896,7 77,8 966, 8,8,9 9, 68,9 6, 977, 77 6, 978,6 8, 96,7 7,,8 6,,9 877 Bakgrunnsdata SO har skaffet til veie en oversikt over antall med ulike karaktersnitt i NVB-statistikken for søkere med vitnemål som gir generell studiekompetanse, totalt 6 personer. Karaktersnittene spenner fra, til 6,, i alt karaktersnitt. Disse tallene er vist i tabell. Alle utenlandske søkere får sitt karaktersnitt konvertert i henhold til den norske karakterskalaen. Det antas at alle lands (kvalifiserende) videregående opplæring har samme nivå og kvalitet, og at alle elever som fullfører og består denne utdannelsen har lik fordeling av kunnskaper og ferdigheter. Et land der vi vet mye om karaktersnittene er Tyskland. Der er karaktersnittet, best og karaktersnittet, dårligst. I figur ser vi hvordan de norske og tyske karakterene fordeler seg. Fordelingene ser noe forskjellige ut. Vi ser spesielt at det er langt flere gode tyske karaktersnitt enn norske. Vi legger også merke til at for den norske karakterfordelingen er det relativt få med karakter, 9,, 9 og, 9. Andre land kan ha fordelinger av karaktersnitt som ser annerledes ut enn de norske og tyske. I Ukraina har for eksempel.% toppkarakteren. Når det gjelder fordelingen av karaktersnittene i en del andre land, som for eksempel Brasil og ikke minst Etiopia, har vi ikke en detaljert offisiell karakterstatistikk som den tyske å forholde oss til. Samordna opptak og omregningstabeller 6

F o rd e lin g o v e r n o rs k e k a ra k te rs n it K a ra k te rs n it Antall,,,,,6,7,8,9,,,,,6,7,8,9,,,,,6,7,8,9,,,,,6,7,8,9 6 F o rd e lin g o v e r ty s k e k a ra k te rs n it K a ra k te rs n it Antall,9,8,7,6,,,,,9,8,7,6,,,,,9,8,7,6,,,, Figur. Fordelingen av norske og tyske gjennomsnittskarakterer. Samordna opptak og omregningstabeller 7

Forutsetninger I litteraturen skiller man gjerne mellom to statistiske rammeverk for å studere utfordringer knyttet til ulike måleskalaer: Classical testing theory (CCT) og Item response theory (IRT). Vi vil i dette notatet se bort fra sistnevnte, da det innebærer en mer omfattende analyse utenfor oppdragets rammer. Innenfor CCT skiller man mellom gjennomsnittlig, lineær og ekviprosentil-metoder, der sistnevnte er vanlig og i hovedsak brukt av SO. Det er derfor spesielt sistnevnte metode, og utfordringer og begrensninger rundt denne vi vil ta for oss. Når man skal oversette utenlandske karaktersnitt vil det oppstå estimeringsfeil. Et mål er å ha så lite estimeringsfeil som mulig. Man skiller gjerne mellom systematisk feil, som oppstår da antagelsene som legges til grunn ikke nødvendigvis er helt korrekte, og tilfeldig feil, som oppstår da man kun har et begrenset antall karaktersnitt og ikke hele populasjonen. Alle utenlandske søkere får sitt karaktersnitt konvertert i henhold til den norske karakterskalaen. Det antas at alle lands (kvalifiserende) videregående opplæring har samme nivå og kvalitet, og at alle elever som fullfører og består denne utdannelsen har lik fordeling av kunnskaper og ferdigheter. Dette innebærer at forskjeller i karakterfordeling utover at det kan brukes ulike skalaer skal skyldes ulik bruk av karakterskalaene. Dette er forutsetninger som antas som gitt og som vi i dette notatet ikke skal ta stilling til om er rimelige eller ikke. Det vil alltid oppstå estimeringsfeil, men den kan reduseres ved å endre utvalgsstørrelsen eller selve omregningsmetoden. Typisk vil feilen være mindre midt på karakterskalaen, der man har flest observasjoner, og større i øvre og nedre del av karakterskalaen der det er færre observasjoner. Vi vil gi anslag på størrelsen av denne i lys av antall karaktersnitt tilgjengelig og valg av omregningsmetode. Da det først og fremst er i den øverste delen av karakterskalaen det er viktig å oversette riktigst mulig, vil vi spesielt fokusere på disse. Vi vil i analysene ta for oss tysk og ukrainsk karakterstatistikk for å belyse problemstillingene.. M. J. Kolen og R. L. Brennan. Test Equating, Scaling and Linking., Springer Samordna opptak og omregningstabeller 8

Vurdering av dagens praksis Vi vil se på omregningsmetoden SO i dag praktiserer som hovedregel, og vurdere alternativer. For disse alternativene vil vi studere standardfeilen.. Notasjon Vi lar Y angi de norske karaktersnittene, y =,,..., y = 6, (best). Videre lar vi g(y) og G(y) angi henholdsvis Y s tetthetsfunksjon og kumulative tetthetsfunksjon. Q(y) angir prosentilene. Y, g(y) og G(y) er vist i tabell. Videre lar vi X angi utenlandske karaktersnitt, for eksempel tyske: x =,,..., x =, (best). Disse har tetthetsfunksjon f(x) og kumulativ tetthetsfunksjon F (x). P (x) angir prosentilene. X, f(x) og F (x) er presentert i tabell for de tyske dataene. Det er flere måter å regne prosentiler på. Så lenge ikke noe annet er presisert vil vi definere prosentilene Q(y) og P (x) på samme måte som SO har gjort i sine beregninger.. SOs omregningsmetode Metoden SO som hovedregel benytter er å dele både de norske og utenlandske dataene i -prosentil-intervaller, og så interpolere lineært mellom disse intervallene. En oversikt er vist i tabell. La oss for eksempel si at vi er interessert i et utenlandsk karaktersnitt x sin korresponderende norske y-verdi, der x ligger mellom to -prosentiler P L (X L (x)) og P U (X U (x)). Her er P L (X L (x)) største -prosentil, slik at x L (x) x og P U (X U (x)) er minste -prosentil, slik at x U (x) > x. De korresponderende prosentilene på y-skalaen er Q L (y L (x)) og Q U (y U (x)). Da har vi at estimert y gitt x, e y (x), er gitt ved e y (x) = y U (x) + (y U (x) y L (x)) x x U (x) x U (x) x L (x). () For et tysk karaktersnitt på,9 er nærmeste -prosentil P L (x L (, 9)) = % for x L (x =, 9) = og P U (x U (, 9)) = % for x U (x =, 9) =,. Tilsvarende norske prosentiler får vi for y L (x =, 9) =, og y U (x =, 9) =,, noe som gir e y (x =, 9) =, + (, ),9,, =, 8. Et tysk gjennomsnitt på, 9 svarer altså til et norsk gjennomsnitt på, 8. Nåværende alternativ til å ikke bruke denne ekviprosentilmetoden er direkte lineær interpolering, og dette gjøres i dag når man ikke har andre lands offisielle karakterstatistikk og ikke informasjon om mer enn personers karaktersnitt. Skulle vi gjort dette på de tyske data ville vi bruke ligning () til å oversette et tysk karaktersnitt x til et norsk e Y (x) der y U (x) = 6, y L (x) =, x U (x) = og x L (x) =.. Alternative metoder Et alternativ til dagens praksis er å dele datene inn i flere prosentiler, for eksempel - prosentiler, - prosentiler og -prosentiler. Opplegget blir altså som beskrevet for ligning (), men med flere prosentil-intevaller å interpolere mellom. Et annet alternativ kunne være å se på hele fordelingen til Y og ikke bare -prosentilen. For en gitt x vil man da finne F (x) og så videre beregne e Y (x). Ved å la G L (y L (x)) og Samordna opptak og omregningstabeller 9

Tabell. Norske og tyske karaktergjennomsnitt for -prosentilene. Norske karaktersnitt Tyske karaktersnitt -prosentiler,,,,,6,8,8,6,, 6,, 7,6 8,9,7 9 6,, G U (y U (x)) angi henholdsvis største G(y) mindre eller lik F (x) og minste G(y) større eller lik F (x), der y L (x) og y U (x) er korresponderende y-verdier, får vi at e y (x) = y L (x) + (y U (x) y L (x)) F (x) G L (y L (x)) G U (y U (x)) G L (y L (x)) angir estimert karaktersnitt y for et gitt karaktersnitt x som vi ønsker å oversette. () For et tysk karaktersitt på, 9 får vi nå at tilhørende F (x =, 9) =,, slik at P (x =, 9) =, %. For den norske skalaen er G(y =, ) =,, slik at det korresponderende norske karaktersnittet blir,. Med et tysk karaktersitt på, 9 får vi at F (x =, 9) =, 7, slik at P (x =, 9) =, 7%. På den norske skalaen er G(y =, 6) =, og G(y =, 7) =, 6, noe som gir e y (x =, 9) =, 6+(, 7, 6),7,6 =, 6. Dette kan synes som en fornuftig ide, men med et lite datasett som skal oversettes (men også for datasett over ) får man problemer. I et slikt tilfelle vil en få en F (x) som spesielt ved små og store verdier av x vil avvike fra fordelingen til G(y), med det resultat at ekstremkarakterer vil bli dårlig oversatt.. Standardfeil Vi ønsker å si noe om størrelsen på standardfeilen omregningsmetodene genererer i lys av antall tilgjengelige observasjoner. En naturlig tilnærming kunne være å trekke et tilfeldig utvalg, på for eksempel karaktersnitt, fra den tyske populasjonen av karakterer, og så bruke omregningsmetoden til å oversette disse til korresponderende norske karaktersnitt. Ved å gjøre dette mange ganger slik kan man for hvert tyske gjennomsnitt estimere standardfeilen. Størrelsen på standardfeilen for en gitt utvalgsstørrelse vil da avhenge av omregningsmetoden, men også av de forutsetninger om den tyske populasjonen som kanskje ikke er tilfredsstilt (gjerne det man kaller en systematiske feil). Vi benytter følgende såkalte bootstrap-prosedyre:. Trekker S tyske karaktersnitt tilfeldig, med tilbakelegging, som gir oss de trukne karaktersnittene x,..., x S. Da det svært sjelden trekkes et topp- og bunn-karaktersnitt Samordna opptak og omregningstabeller

(sannsynligheten for å trekke et snitt på, er 67/77 87 og sannsynligheten for å trekke et snitt på, er 8/77 87) legger vi disse to til det trukne settet S. Vi beregner antall prosentiler i henhold til valgt omregningsmetode og interpolerer mellom disse. Vi interpolerer videre karaktersnittene som vi ikke har trukket med omregningsmetoden. Totalt blir altså alle de tyske karaktersnittene oversatt til norske karaktersnitt.. Bruker så omregningsmetoden for å finne koresponderende norske kraraktersnitt e Y (x ),..., e Y (x ) i henhold til ligning ().. Gjentar. og. B ganger og får {e Y (x ),..., e Y (x )},..., {e Y (x B ),..., e Y (x B )}.. Vi er interessert i variasjonen i de oversatte karaktersnittene. I dette punktet, og bare i dette, vil vi avvike fra hvordan vi så langt har beregnet prosentilene, og heller ta utgangspunkt i de kumulative fordelingene G(y) og F (x). En alternativ definisjon av prosentiler er Q (y) = G(y) og tilsvarende P (x) = F (x), der G(y) og F (x) er gitt i tabell og. For alle de tyske karakterene sine prosentiler kan vi finne de tilhørende norske prosentilene. Det gir oss tilhørende norske karaktersnitt. For eksempel vil et tyskt karaktersnitt på x =, 8 svare til en prosentil på P (x =, 8) =, %. Ser vi på den norske fordelingen svarer dette til et norsk karaktersnitt på, (nærmeste prosentil ovenfra er på, %, se tabell ). Vi kaller de tilhørende norske karaktersnittene y (x). Vi ønsker for hvert tyske karaktersnitt x å beregne B sd(x) = (y (x) e y (x)). B Vi gjentar denne prosedyren for forskjellig antall trukne karaktersnitt; S =, 7,, og, og for ulik grad av prosentilindeling; -prosentiler (nåværende praksis), -prosentiler, -prosentiler og -prosentiler. Bootstrap-rutinen gjentas B = ganger. For å gjøre beregningene beskrevet ovenfor har vi benyttet programmet R. Når vi bruker den beskrevne ekviprosentil-metoden vil vi som tidligere nevnt beregne prosentilene på samme måte som SO gjør i dag. Det er flere måter å regne prosentiler på, og disse kan gi noe forskjellig svar. Standard-metoden i R gir samme prosentilfordeling for de norske og tyske karaktersnittene som den SO har. I figurene og har vi plottet resultatene fra simuleringsprosedyren beskrevet ovenfor for henholdsvis og trukne karaktersett. Hovedtendensen er at feilen blir større med grovere prosentilindeling. Dette gjelder spesielt for de beste karaktersnittene. For disse overestimeres det tilsvarende norske karaktersnittet. Siden den tyske karakterskalaen er mer topp-tung enn den norske vil x L (x =, ) gjennomgående bli for stor, slik at e y (x =, ) overestimeres. Dette resulterer i den store toppen til høyre i figurene og. Denne feilen blir mindre med et større utvalg. Hvor uttalt dette problemet er avhenger av selve fordelingen til karakterpopulasjonen som skal oversettes. Er fordelingen enda mer topp-tung enn den tyske, vil den estimerte feilen bli enda større. For karaktersnitt midt på treet har, som forventet, ikke valgt omregningsmetode så mye å si for størrelsen på feilen. Samordna opptak og omregningstabeller

Standardfeil fra tilfeldige utvalg på karaktersnitt il fe rd a d n ta S,,, -prosentiler -prosentiler -prosentiler -prosentiler,,,,,,,,, Tyske karaktersnitt Figur. Estimert standardfeil for karaktersnitt, boostrapestimater for s=,, 7,, og karaktersnitt. Vi ser i gur, for -prosentilmetoden, hvordan standardfeilen som funksjon av karaktersnittet varierer med antallet karaktersnitt vi tar utgangspunkt i. Som forventet går standardfeilennednårmanøker antalletkaraktersnitt. Nåværende alternativ tildenne ekviprosentilmetoden er som tidligerebeskrevetdirekte lineær interpolering. Vi brukerda ligning () for å oversette et tysk karaktersnitt x til et norsk e Y (x). Vi beregner videre absolutt avvikmellom e Y (x) og y (x) gitt ved e y (x) y (x) foralle tyskekaraktersnitt. Resultateneervist i gur. Dettegiretmålpåabsolutt feil (det er ingenusikkerhether). Samordnaopptakogomregningstabeller

Standardfeil fra tilfeldige utvalg på karaktersnitt il fe rd a d n ta S,,, -prosentiler -prosentiler -prosentiler -prosentiler,,,,,,,,, Tyske karaktersnitt Figur. Estimert standardfeil for karaktersnitt, boostrapestimater for s=,, 7,, og karaktersnitt. Samordnaopptakog omregningstabeller

Standardfeil med -prosentil fra tilfeldige utvalg av ulik størrelse, karaktersnitt karaktersnitt karaktersnitt 7 karaktersnitt karaktersnitt il fe rd a d n ta S,,,,,,,,, Tyske karaktersnitt Figur. Absolutt feil for lineær interpolering fra tyske til norske karaktersnitt. Samordnaopptakog omregningstabeller

Feil ved lineær konvertering fra tyske til norske karakterer r te k ra a k tig rik g o t e n g re e b m lo e m ik v ta lu o s b A,,,,,,,,,, Tyske karaktersnitt Figur. Absolutt feil for lineær interpolering fra tyske til norske karaktersnitt. Samordnaopptakog omregningstabeller

Fordeling over de % beste norske karaktersnitt l ta n A.6.7.8.9......6.7.8.9 6 Karaktersnitt Figur 6. Fordeling av de % beste norske karaktersnittene. Blå vertikal strek angir medianen i intervalletog rød vertikal strekangir verdien som gis søkeremed toppkarakter fra Ukraina i dag.. Når andelen som får topp eller bunn-karaktersnittet avviker sterkt fra tilsvarende andeler i Norge I noen land er det en ganske stor andel som får toppkarakter. I for eksempel Ukraina får, % toppkaraktersnittet,. Den nåværende prosedyren med lineær omregning innebærer atman nnerdetkorresponderende norske karaktersnittetdenne prosentilen tilsvarerog lardisse søkernefågjennomsnittetavdenneog toppkaraktersnittet. I tilfellet 6+,6 med toppkaraktersnittet på, fra Ukraina blir den norske karakteren =, når man tarutgangspunkt i 8-prosentilen. Denne fremgangsmåten vil være riktighvis fordelingenmellom karaktersnittene i NVB-statistikken er symmetrisk fordelt. Det er ikke tilfellet. Figur 6 viser et histogram over alle de norske karaktersnittene som ligger på 8-prosentilenogover. Vi serathovedtyngdenavkarakterene er inedredelavkarakterskalaen. Detvilleværemer fornuftigåbrukemidtpunktetmellomkaraktergrensene. Vi nneralle norskekaraktersnittpå, 6 (tilsvarer8-prosentilen) ogover. Medianen idettedatasettet vil etterdenne regelen angidetoversatteukrainske toppkaraktersnittet. Den er, 9. Fra omregningstabellen for Ukraina nner vi at det er 79,-prosentilen som angir grensen for toppkarakter. Det er ingen grunn til at man ikke kan ta utgangspunkt i 79,- prosentilen i stedet for 8-prosentilen. Samordnaopptakog omregningstabeller 6

Tabell. Antall og kumulativt antall med ulike karaktersnitt i NVB-statistikken for søkere med vitnemål som gir generell studiekompetanse, totalt 6 7 personer, sammen med fordelingene g(y) og G(y). g(y) og G(y) er avrundet til fire desimaler. Karakter Antall Antall kum. g(y) G(y), 7 7 8 e- e-, 7 e- e-, 89 9e-, 68 69 9,, 9,9,7,6 6 89,6,7 6 8,,8 966 96 7,7,9 9 8789 9,, 977 86,69,789 978 86,7 9, 96 9, 67,7 76, 78,96 6, 7 96,8,69,6 776,9,7 8 6,6,8 96 9,,77,9 66 676,7,6, 8 8986,6, 8978 88,,78, 896 78,,6, 8 8,99,68, 68 66,8,76, 77 799,7,776,6 8 97,,87,7 7 799,66,8,8 6 8,7,889,9 877 86,9,988, 969 8,67,9 66 6 8,96, 98,968, 86 67 7,9788, 76 69,76,986, 86,6,99,6 6 9968,8,996,7 77 67,998,8 678,9996,9 6 69 e- 6, 6 Samordna opptak og omregningstabeller 7

Tabell. Antall og kumulativt antall med ulike tyske karaktersnitt, totalt 77 87 personer, sammen med fordelingene f(y) og F (y). f(y) og F (y) er avrundet til fire desimaler. Karakter Antall Antall kum. f(y) F (y), 8 8 e- e-,9 6 e- e-,8 6 8,,7 878,67,89,6 8 76,, 68 76,,79, 876 69,,8, 96 7, 8, 77 9766,7 69 9 668, 9, 86 7,,78,9 8966,6,7,8 878 9,69,8,7 99 87,7,,6 9 87,6,97, 7 89,,, 969 8,6, 8986 77,,6, 787 8,8,78 7,,79, 86 8,,788,9 77 77,77,8,8 968 99,,876,7 78 9,9,888,6 7 86,6,96, 98 9,,97, 6 7,96, 89 98 9,969, 68 66,98 777 798,8,9887, 67 7787 Samordna opptak og omregningstabeller 8

Oppsummering og anbefalinger Når man skal oversette utenlandske karaktersnitt til norske vil det oppstå estimeringsfeil. Valg av omregningsmetode og selve utvalgsstørrelsen vil påvirke størrelsen på feilen. Vi har i dette notatet studert feilen i lys av omregningsmetode og antall karaktersnitt som skal oversettes. Vi har sammenholdt dette med den absolutte feilen man får ved direkte lineær interpolasjon. Vi valgte å gjøre dette for det tyske datasettet, hvor den offisielle karakterstatistikken er tilgjengelig. Hadde vi valgt karakterstatistikk fra et annet land, ville størrelsen på feilen sett annerledes ut, men momentene i diskusjonen ville vært de samme.. Anbefalt metode Av vår simuleringsstudie fant vi at det er spesielt for gode karaktersnitt at feilen blir stor. Å dele inn i -prosentiler gir stort sett lavere feil enn å dele inn i -prosentiler, spesielt i det øvre karaktersjiktet. For denne metoden vil området å interpolere mellom bli mindre og det er en tendens til at avviket fra korrekte norske karaktersnittet blir lavere. Med karakterfordelinger som har andre topp- og bunnhale-sannsynligheter enn de norske vil vi kunne se denne forskjellen. Vi vil derfor anbefale å bruke en finere prosentilinndeling enn -prosentiler, og basert på vårt eksperiment anbefaler vi -prosentiler.. Grense for lineær interpolering Når det gjelder grensen for når man skal bruke direkte lineær interpolasjon i stedet for ekviprosentilmetoden, er det en klar forbedring når man går fra en utvalgsstørrelse på 7 til, og ikke minst fra til karaktersnitt. Dette gjelder særlig for de gode karaktersnittene. Fra til karaktersnitt er forbedringen mindre. Sammenholdt med alternativet, direkte lineær interpolasjon, kan synes å være i grenselandet til å være det foretrukne alternativet. Hvor grensen skal settes vil avhenge av hvor mye den (ukjente!) utenlandske karakterfordelingen avviker fra den norske. Svært topptunge karakterfordelinger, som for eksempel den ukrainske, bør rutinemessig bli håndtert på en særskilt måte. Vi vil allikevel anbefale å heve denne grensen til, basert på følgende argumenter: Andre lands karakterfordeling kan avvike mer fra den norske enn den tyske gjør. Vår simuleringsstudie er basert på et tilfeldig utvalg av karaktersnitt. I praksis vil trolig utenlandske søkere til norske studiesteder ikke utgjøre et representativt utvalg av alle landets studenter. I et større prosjekt ville vi kunne ha studert dette i større grad, med oversettelse av flere lands karakterpopulasjoner der disse har ulik grad av haletunghet.. Høy andel personer på ekstremverdiene Når det gjelder svært topptunge karakterfordelinger som den ukrainske anbefaler vi å endre dagens prosedyre. Den norske karaktersnittfordelingen for den øvre -prosentilgruppen Samordna opptak og omregningstabeller 9

er asymmetrisk; skjev med en lang høyre hale. Heller enn å ta gjennomsnittet av nedre og øvre karaktersnitt i denne prosentilgruppen, anbefaler vi å bruke midtpunktet/medianen for det aktuelle toppområdet som oversatt karaktersnitt. Tilsvarende kan denne metoden benyttes dersom en stor andel av personene har laveste karakter. Samordna opptak og omregningstabeller