Notater. Torill Vangen. Nasjonal utdanningsdatabase NUDB Dokumentasjonsrapport. Datavarehus for utdanningsdata, 1970-2006 2007/54.



Like dokumenter
Statens lånekasse for utdanning. Brukerhåndbok Arbeidsflate for lærestedene

Behovene for god fagskolerapportering Rita Aanerud, Statistisk sentralbyrå (SSB)

Årsrapport BOLYST

1 Bakgrunn og formål med forvaltningsrevisjon Om planlegging av forvaltningsrevisjon... 2

Innkalling til møte 1. juni Forberedelse og prosess ved etablering av ny Database for statistikk om fagskoleutdanning

UNIVERSITETET l OSLO Det matematisk-naturvitenskapelige fakultet

Rapport fra kompetansenettverket Opplæring av ungdom med kort botid

Torgeir Eidem og Jorunn Lajord

Retningslinjer for søknad om og tildeling av klinisk korttidsstipend 2014

Telefoner er gått til kommunens sentralbord. Her har innringer fått svar på sine spørsmål.

Introduksjon til Retrievers nye analyseverktøy

Norges Svømmeforbund. Informasjon om diverse saker & ting

Kompetanseutviklingsplan Juli -09

RAPPORT FRA PROSJEKTET RUS OG PSYKIATRI I HJEMMEBASERTE TJENESTER I HAUGESUND KOMMUNE 2012

behovetfor vil være på 430 per år. Vedlegg

ORIENTERINGSSAK - STATUSSRAPPORT OM ØKONOMISK RÅD OG VEILEDNING

Universitetet i Oslo Institutt for statsvitenskap

Bilag til SSA-T/SSA-V/SSA-D. Bilag 4. Prosjekt- og fremdriftsplan. Anskaffelse av analyse- og informasjonsplattform /345746

Plan for utarbeidelse av gevinstrealiseringsplan for Nordre Follo

FREE Focus on Renewable Energy and Enviroment. Energi og miljøprosjekter ved Risør videregående skole.

ENDELIG TILSYNSRAPPORT

Boligpolitisk handlingsplan Leirfjord kommune

RUTINE 1 INFORMASJONSSIKKERHET I APOTEK

INNHOLDSFORTEGNELSE: ØSTMOJORDET BARNEHAGE... 3 HVITVEISEN..3 BLÅKLOKKA OG SMØRBLOMSTEN 4 LEK GIR LÆRING ET UTVIKLINGSARBEID 4 LEKEGRUPPER.

Vedlegg 3 Høringsnotat om endringer i læreplan i naturfag og læreplan i naturfag samisk i grunnskolen og videregående opplæring

Veileder til arbeid med årsplanen

1 Om forvaltningsrevisjon

Hele sektoren og forholdet til private ideelle institusjoner

Obligatorisk oppgave INF3221/4221

UTDANNINGSVALG V E L K O M M E N TIL UTPRØVING AV UTDANNINGSPROGRAM I DE VIDEREGÅENDE SKOLENE I SØR-TROMS

Administrerende direktørs orientering styremøte 21. juni 2010

Forslag til rutiner PLANLEGGING, TILRETTELEGGING OG OPPFØLGING VED IKKE BESTÅTTE PRØVER I AFR

Forberedende kurs for. VG3 eksamen. Energioperatør

Software Faults and Failure Testing Issues 8.1 / 8.2

Delavtale mellom Sørlandets sykehus HF og Lund kommune

NOKUTs erfaringer med falske dokumenter. Linda Jamtvedt Børresen, juridisk rådgiver NOKUT

Vår dato: Vår referanse: 2011/118. SRY - møte

Farsund kommune. Rullering av kommuneplanens arealdel for Farsund - Lista. Planprogram Høringsforslag

Gjennomføringsindikatorene i Gjennomføringsbarometeret Innhold

Vurderingskriterier: Se Forskrift om opptak, studier og eksamen, 31 Sensur: Se Forskrift om opptak, studier og eksamen, 30

Innledning. Oppvekstsenteret arbeider etter de 5 verdiene: Trygghet Trivsel Mestring Læring Respekt

Vurderingskriterier: Se Forskrift om opptak, studier og eksamen, 31 Sensur: Se Forskrift om opptak, studier og eksamen, 30

Evaluering av tiltak i skjermet virksomhet. AB-tiltaket

BARNEHAGE- OG UTDANNINGSAVDELINGEN VEILEDNING

BRUKERVEILEDNING - P360 VED NMBU. 1 Skjerming og tilgangsgrupper Versjon/dato for revisjon:

Til bruker som har fylt 16 år: Spørsmål om deltakelse i Barnefedmeregisteret i Vestfold

Beregnet til Halden kommune. Dokument type Notat. Dato Juni 2012 HALDEN KOMMUNE BRUKERUNDERSØKELSE PERSONER MED REDUSERT FUNKSJONSEVNE

Arbeidsrutiner for klassekontakter Vedtatt i FAU-møte den...

SAMISK HØGSKOLES KVALITETSSIKRINGSSYSTEM

Forslag til organisering av arbeidet med gjennomgangen av tilbudsstrukturen

RUTINE 1 INFORMASJONSSIKKERHET I APOTEK

Sikkerhets- og samhandlingsarkitektur ved intern samhandling

Turbovurdering av utenlandsk høyere utdanning. Avdelingsdirektør Stig Arne Skjerven Rådgiver Helen Eckersberg NOKUT

Høringssvar Mulighetsstudie fra Klinikk for Lunge- og arbeidsmedisin, Medisinsk avd. Orkdal

Regional planlegging og nytten av et godt planprogram. Linda Duffy, Østfold fylkeskommune Nasjonal vannmiljøkonferanse, 27.

VEILEDER FOR EXTRANET

Saksprotokoll i Råd for mennesker med nedsatt funksjonsevne Behandling:

IKT-Strategi og handlingsplan For felles IKT-satsning i Gjøvikregionen

Krav til pilot Magasinmodul. MUSIT Ny IT-arkitektur, planleggingsfasen

Høring NOU 2011:11 Innovasjon i omsorg. Høring fra Trondheim Helseklynge

Hobøl Drill Søknad om deltakelse pa drillkonkurranser i 2015

STUDIEPLAN. Årsstudium i landmåling (07/08)

Studenten har kunnskap om det spesialpedagogiske feltet innenfor følgende temaer:

Det er et krav at dere gjennom prosjektet demonstrerer en beherskelse av:

- Under Detaljer kan du finne eller redigere diverse informasjoner. Blant annet:

Notat om foranalysene. Fellestrekk og refleksjonsspørsmål

Dagens situasjon... 1 Hano Systemet inneholder følgende funksjonalitet: Problemer:... 4 Fixit... 4

Rutiner for ansvar og kontroll ifb. bidrags og oppdragsfinansiert aktivitet (BOA), IME fakultetet, 20. september 2011

Håndtering av tragedien på Utøya og i Oslo den 22. juli 2011 ved skolestart

Sluttrapport. Prosjekt Samhandlingsreform for ROR v/hege-beate Edvardsen Prosjektleder/koordinator ROR

REFERAT fra MØTE FOR PROSJEKTGRUPPE 3 Utvikling av plan- og styringssystemer

Ny arbeidstaker-organisasjon

Videreutdanningsbehov blant lærere i grunnopplæringen Læreres og rektorers vurdering av behovet

Agenda: mars2019_program.pdf

Miljørapport fra Norsk Skogsertifisering

Veileder for Extranet. Juni 2013

Unntatt offentlighet jfr forvaltningsloven 13

Endelig TILSYNSRAPPORT

Deres ref. Vår ref. Arkivkode Dato 05/1743 SL EGJ/Tiz

1. Til første økt Utfordringer mulighet i arbeidsliv ved Marfans syndrom

FOKUS-virksomhetenes arbeid med flerspråklige barn og ungdommer

Sportslig satsning 2015:

Fagkurs for inkludering av innvandrere i arbeidslivet. Læreplan Fagkurs for assistenter i barnehage 2015

Friskolenes Kontaktforum(FK)

NOKUT Godkjenning av utenlandsk fag- og yrkesopplæring. Joachim Gümüs Kallevig Seksjonssjef NOKUT Nasjonalt organ for kvalitet i utdanningen

Parkeringstillatelse for forflytningshemmede - søknad

PLAN FOR FORVALTNINGSREVISJON Skaun kommmune. Vedtatt i sak 23/15

Internrevisjon. Dokumentflyt i pasientarbeidet Henvisningsrutiner. Sykehuset i Vestfold HF

Referat fra møte i koordineringsgruppen i Osloregionen

Yrkeskvalifikasjonsdirektivet 2005/36/EF med endringer 2013/55/EU. Linda Jamtvedt Børresen, seniorrådgiver NOKUT

Nedsatt funksjonsevne i et kulturelt lys

STYRING OPPFØLGING AV LOVKRAV OG ØVRIGE MYNDIGHETSKRAV

Universitetet i Oslo Avdeling for fagstøtte

Nytt fra NOKUT. Avdelingsdirektør Stig Arne Skjerven. NOKUTs utlandskonferanse, Lillestrøm,

VELKOMMEN TIL INSTALLATØRMØTE 2014.

Masteravtale i fag og yrkesdidaktikk

INTEGRASJON MOT KOMTEK RENOVASJON FOR EKSTERNE SYSTEMER - OVERORDNET

Til alle ansatte og studenter ved Kunsthøgskolen I Oslo.

Transkript:

2007/54 Ntater Trill Vangen Ntater Nasjnal utdanningsdatabase NUDB Dkumentasjnsrapprt Datavarehus fr utdanningsdata, 1970-2006 Avdeling fr persnstatistikk/seksjn fr utdanningsstatistikk

Frrd Dette ntatet dkumenterer frløpsdatabasen Nasjnal utdanningsdatabase (heretter kalt NUDB). I tillegg til at dette ntatet beskriver hvilke data sm inngår i NUDB, innehlder det gså en dkumentasjn av de arbeidsmetder sm er benyttet g den statistikkfaglige vurderingen sm er lagt til grunn fr å mfrme g tilrettelegge disse data fr innlasting i NUDB. Mye arbeid har vært lagt ned i å gjøre dataene sammenlignbare ver tid slik at det skal være mulig å ta sammenhengende frløpsdata ut av NUDB, gså der hvr det på grunnlagsfilene er benyttet frskjellige kdelister ver tid. Fr brukere av data fra NUDB vil kap.8. Feil g mangler i dataene. Endringer i prinsipper, definisjner g avgrensing av ppulasjnen, gi viktig infrmasjn. Dkumentasjnen i dette ntatet mhandler bl.a. data fra filene fr høyeste fullførte utdanning, igangværende/avsluttet utdanning pluss diverse beflkningsfiler. Filene innehlder utdanningspplysninger fr hele beflkningen fr årene fra g med 1970 g fram til i dag. I arbeidet med å tilrettelegge data fr NUDB er det mange persner sm har bistått prsjektgruppa med faglig råd g veiledning. Vi nytter her anledningen til å takke medlemmene i referansegruppa fr NUDB. Disse er Per Olaf Aamdt fra Nrsk institutt fr studier av frskning g utdanning(nifu), Oddbjørn Raaum fra Frischsenteret, Jnny Einarsen fra Læringssenteret g Mrten Nrdlie, Odd Larsen, Mads Gravås, Dankert Vedeler, Erik Dahl g Marie Arneberg fra Utdannings- g frskningsdepartementet. En spesiell takk går gså til Jrunn Lajrd fr verdifull bistand i frbindelse med spesifikasjn av data. Ntatet er blitt til ved å samle dkumentasjn sm er skrevet underveis av de ulike medlemmene av prsjektgruppen, samt dkumentasjn sm grunnlag fr kap. 8 fra Tr Jørgensen. Trill Vangen har hatt redigeringsansvaret fr ntatet. Dkumentasjn av dataene i NUDB, med variabler g kdelister finnes på http://www.ssb.n/mikrdata/ 1

Innhld 1. Intrduksjn til NUDB... 7 1.1. Bakgrunn fr mdellvalg... 7 1.2. Definisjn av en frløpsdatabase... 7 1.2.1. Hva er en frløpsdatabase?... 7 1.2.2. Revisjn av frløpsdata... 8 1.3. Frdeler g ulemper ved den valgte mdellen... 8 1.4. Resultat... 8 1.5. Arbeidsflyten i NUDB prsjektet... 9 2. Tilrettelegging av grunnlagsregistrene... 11 2.1. Beskrivelse av grunnlagsregistre... 11 2.1.1. Filidenter... 11 2.1.1.1. Igangværende utdanning per 1.kt.:... 11 2.1.1.2. Avslutta utdanning i "skle"-året... 12 2.1.1.3. Beflkningens høyeste utdanning (BHU) per 1.kt... 12 2.1.2. Filbeskrivelser fr grunnlagsregistrene... 13 2.1.2.1. Igangværende utdanning per 1.kt. g avslutta utdanning i løpet av året13 2.1.2.2. Beflkningens høyeste utdanning per 1.ktber... 18 2.2. Krreksjner g kntrller... 22 2.2.1. Fødselsnummerkntrll... 22 2.2.2. Dublettkntrller... 22 2.2.2.1. Igangværendefilene:... 22 2.2.2.2. Avsluttafilene:... 22 2.2.2.3. BHU-filene:... 23 2.2.3. Datkntrll... 23 2.2.3.1. Igangværende- g avsluttafilene:... 23 2.2.3.2. BHU-filene:... 24 2.2.4. Endring g krreksjn på variabler... 25 2.2.4.1. Igangværendefilene:... 25 2.2.4.2. Avsluttafilene:... 28 2.2.4.3. BHU-filene:... 28 3. Tiltrettelegging av miniregistrene... 32 3.1. Variable på miniregistre... 32 3.1.1. Igangværende- g avslutta utdanning... 32 3.1.2. BHU... 34 3.2. Krreksjner g kntrller... 36 3.2.1. Kntrller på filene fr igangværende utdanning per 1.kt. hvert år... 36 3.2.2. Kntrller på filene fr avslutta utdanning i skleåret.... 41 3.2.3. Kntrller på filer fr beflkningens høyeste utdanning, per 1.kt. hvert år... 49 3.3. Avvik fra tidligere BHU-publisering... 54 4. Diagrammer fr miniregisterrutiner... 55 5. Tilrettelegging av frløp i NUDB... 69 5.1. Kursfilen. Frløp. (F_UTD_KURS)... 69 5.2. Viktigste kurs. Persnnivået. Frløp. (F_UTD_PERSON)... 69 5.2.1. Generelt... 69 5.2.2. STUDIEKODE på persnnivået... 70 5.2.3. Regelverk fr valg av viktigste kurs... 72 2

5.2.4. Regler fr telling av "antall semester innen studiet" ved fullføring av utdanning/grad... 73 5.2.5. Regler fr å telle nrmert tid fr de sm har fullført en utdanning... 73 5.2.5.1. Videregående utdanning:... 73 5.2.5.2. Høyere utdanning:... 73 5.3. Demgrafitabellen, daterte variable, årlig datering... 76 5.3.1. Høyeste fullførte utdanning(bhu)... 76 5.3.2. BU. Ny gruppering av beflkningens utdanningsnivå... 78 6. Tabellene i NUDB med variabelversikter... 81 6.1. Demgrafitabellen. Demgrafiske pplysninger samt høyeste fullførte utdanning(bhu g BU, gammel g ny definisjn). Frløp med årlig datering per 1. ktber... 81 6.2. Kurstabellen. Frløp med månedlig datering... 81 6.3. Viktigste kurs. Frløp med månedlig datering... 83 6.4. Persntabellen, faste variable på persnnivå. (ikke frløp)... 83 6.5. Karakterer fr avsluttet grunnskle... 85 6.6. Vitnemål fra videregående utdanning. Data fra Nasjnal vitnemålsdatabase(nvb)... 86 6.7. Fag fra videregående utdanning. Data fra Nasjnal vitnemålsdatabase(nvb)... 87 6.8. Andre filer ifm NUDB... 88 7. Statistikk- g IT-faglige vurderinger... 89 7.1. Mulige knsekvenser av påføring av vekttall på eldre filer... 89 7.2. Freldrenes høyeste utdanning/ssial bakgrunn... 90 7.2.1. Freldrenes utdanning settes en gang... 90 7.2.2. Gruppering av freldrenes utdanningsnivå... 91 7.2.3. Bstedskmmune... 91 7.2.4. Bstedskmmune ved 16-års alder eller "hjemstedskmmune"... 92 7.3. Hved (hvedgruppe)... 92 7.4. Statsbrgerskap... 92 7.5. Skleslag... 92 7.5.1. SSLAG... 92 7.5.2. UTD... 93 7.6. Skleidentifikasjn... 94 7.7. "Manglende vårsemester"... 94 7.8. Ktrinn (Klassetrinn gruppert. Gjelder utdanninger under Opplæringslven/Lv m videregående pplæring/lv m fagskler)... 94 7.9. Nrmert tid i utdanning... 95 7.9.1. Telling av antall semester i NUDB... 96 7.10. Definisjn av semester... 97 7.11. Gjennmstrømningsvariable i NUDB... 97 7.11.1. Gjennmstrømningsvariable sm settes en gang/ved 1. gangs hendelse. (TAB_UTD_PERSON))... 97 7.11.2. Gjennmstrømningsvariable sm det dannes frløp på. (I F_UTD_PERSON)... 98 7.12. Valg av identifiserende nøkkel i NUDB... 98 7.12.1. Oversikt ver nøkkelalternativene... 98 7.12.1.1. Fødselsnummer... 98 7.12.1.2. Snr (statistikknummer)... 99 7.12.2. Valg av løsning... 99 7.12.2.1. Snr-katalgen... 99 3

7.12.2.2. BEBAS... 99 7.12.2.3. Fil med link mellm Dnr. g Fnr.... 99 7.12.2.4. Linkmuligheter i de frskjellige katalger/databaser:... 100 7.12.3. Implementering av nøklene i NUDB... 101 7.12.3.1. Benytte BEBAS/LINK-filen ved uttak... 101 7.12.3.2. Benytte Snr-katalgen ved uttak... 101 7.12.3.3. Løpende endring av Fnr i NUDB, g ved uttak.... 101 7.12.3.4. Benytte Snr sm identifiserende id fr persner i NUDB... 102 7.12.4. Ugyldige fødselsnummer g Dnr... 102 7.13. Studieretning 13 g 15... 102 8. Feil g mangler i dataene. Endringer i prinsipper, definisjner g avgrensing av massen 103 8.1. Innledning... 103 8.2. Feil g mangler... 103 8.2.1. Generelt... 103 8.2.2. 1970-1979... 105 8.2.3. 1980-1989... 106 8.2.4. 1990-1998... 107 8.2.5. 1999-... 107 8.3. Prinsipper, definisjner g avgrensing av massen... 109 8.3.1. Generelt... 109 8.3.2. 1970-1979... 110 8.3.3. 1980-1989... 112 8.3.4. 1990-1998... 113 8.3.5. 1999-... 115 Vedlegg Prsjektskriv...120 Prsjektskriv fase 2.......123 Begrepsfrklaringer...126 En statistikkfaglig utredning av dubletter på fnr/snr i NUDB...132 En IT-faglig utredning av dubletter på fnr/snr i NUDB...134 4

Innledning NUDB er et datavarehus bygd pp vha. utdanningsdata fra Seksjn fr utdanningsstatistikk fr årene fra g med 1970 g fram til i dag. NUDB er bygd pp etter samme mdell sm er benyttet av FD-Trygd i Statistisk sentralbyrå, slik at data fra NUDB frhldsvis enkelt vil kunne sammenstilles med data fra FD-Trygd. En annen mye brukt benevnelse i SSB på datavarehus av denne typen er frløpsdatabaser. I denne typen databaser vil alle hendelser sm inntreffer på valgte variabler, dateres til når hendelsen fant sted. I tillegg til uttak av data fr analyse av gjennmstrømninger, så muliggjør denne transfrmasjnen av data at en i tillegg kan ta ut tverrsnitt fr ethvert tidspunkt (ptimalisert fr uttak per 1.kt. fr hvert år ) i datavarehusets gyldige tidsperide. NUDB innehlder per nvember 2007 pplysninger fr hele beflkningen fr periden fra g med 1970 g fram til g med 2006, g vil bli ppdatert med nye årganger med beflknings- g utdanningsdata frtløpende i årene sm kmmer. Målet er at NUDB skal benyttes sm den primære kilden fr prduksjn av fremtidig utdanningsstatistikk g fr utlevering av utdanningsdata i ppdragssammenheng til frskningsfrmål etc. Persn g persnens kurs er statistisk analyseenhet fr alle pplysningene i NUDB. Alle recrds i databasen har påkblet SNR (kalt SNR_NUDB i NUDB) slik at det er mulig å knytte sammen infrmasjn fra NUDB med andre dataregistre, databaser g/eller data fra FD-Trygd. Dataene i NUDB vil være spesielt velegnet til analyse av mange aktuelle prblemstillinger innen utdanningsfrløp, men vil gså kunne gi grunnlag fr studier av vergangen mellm f.eks. utdanning g arbeid. Styringsgruppen fr NUDB har bestått av seksjnssjef fr s360 Seksjn fr utdanningsstatistikk, Elisabetta Vassenden, kntrsjef fr s303 It-seksjnen ved avd. fr persnstatistikk Kristian Lønø/Tm Hansen, fra s360 Lise Styrk Hansen, Terje Risberg g Kjetil Digre. Det daglige arbeidet med å tilrettelegge data fr NUDB samt pprettelsen av frløpsdatabasen har vært utført av prsjektgruppa ved Avdeling fr persnstatistikk, SSB. Prsjektgruppa har bestått av persner fra både statistikkfaglig- (seksjn 360) g IT-faglig side (kntr fr IT, 303). Trill Vangen på seksjn fr beflknings- g utdanningsstatistikk er prsjektleder, mens Jhnny Jhansen fra Kntr fr IT (303) har hatt det IT-tekniske ansvaret fram til mars 2002, da Anders Akselsen vertk. Prsjektgruppa har ellers bestått av: fra s303 Knut Inge Bøe, Carina Nrdseth, Sheila Derakhshanfar g fra s360: Lise Styrk Hansen, Arild Rgnan, Astri Halsan Høiskar g Anne Marie Hlseter. I første del av prsjektet deltk gså Jrun Lajrd fra seksjn 350 Levekårsstatistikk. Prsjektet har hatt både en ekstern g en intern referansegruppe. Den interne referansegruppa hadde medlemmer fra ulike seksjner i SSB. Den eksterne referansegruppa bestd av representanter fra Utdannings- g frskningsdepartementet, Læringssenteret, Nrsk institutt fr studier av frskning g utdanning(nifu) g Frisch-senteret. Prsjektgruppen har valgt å tillegge dkumentasjnen av prsjektet str vekt. Dette gjelder dkumentasjn av dataene sm inngår i NUDB så vel sm dkumentasjn av aktivitetetene sm har vært frbundet med å bygge pp frløpsdatabasen. I dette ntatet er det dkumentert det arbeid sm er utført fr å spesifisere g bearbeide de ulike pplysningene m utdanningsperider samt arbeidet med å bygge pp frløpsdatabasen NUDB etter disse spesifikasjnene. Det har vært behv fr å bygge pp ett eget begrepsapparat (se vedlegg) rundt den mdellen sm er benyttet fr å sikre lik frståelse av de prblemstillingene g frslag til løsninger sm har blitt skissert underveis i prsjektet. Nedenfr følger en krt leseveiledning fr resten av dette ntatet: Kapittel 1 er en intrduksjn til hva NUDB er g hvrdan frløpsmdellen sm ligger bak fungerer. Her vil det i tillegg bli gitt en krt frklaring til de arbeidsprsesser sm har inngått i NUDB. 5

Arbeidsprsessene sm er beskrevet er allmenngyldige fr alle statistikkmråder sm benytter FDtrygds frløpsmdell. Kapittelet kan g bør leses av alle sm har tenkt å freta uttak av data fra NUDB, samt persner sm vurderer mdellen fr bruk i andre prsjekter under andre statistikkmråder. Persner fra Kntr fr IT (303) kan på frespørsel være behjelpelig med mer utdypende frklaringer ved behv. Kapittel 2 beskriver grunnlagsregistrene sm har vært benyttet sm input til NUDB, samt arbeidet med å knsistenssjekke data innad på filene, samt filene seg imellm. Kapittel 3 mhandler arbeidet med å tilrettelegge temprære arbeidsfiler sm har vært benyttet sm mellmsteg i arbeidet med å bygge pp NUDB. I dette ntatet g ellers i all dkumentasjn sm mhandler FD-Trygd-mdellen er det benyttet benevnelsen 'miniregister' m disse temprære arbeidsfilene. Det gis en gjennmgang av alle variabler fra grunnlagsregistrene sm tas med videre inn i NUDB, g beskrivelse av de kntrller sm er blitt utført på hver enkelt variabel i denne prsessen. Videre gis det en beskrivelse av alle mkdingsprsesser sm er gjennmført på de ulike kdelistene sm tilhører hver enkelt variabel. Kapittelet kan leses av alle sm ønsker å se på hvilke kntrller sm er utført på variablene, resultatene av disse g hvrdan mkdingen av eldre kdelister til nye har fregått. Kapittel 4 innehlder diagrammer med flytskjemaer fr de ulike prsessene i arbeidet med å bygge pp miniregistrene sm er mtalt i kapittel 3. Kan leses sm et suplement til kapittel 3. Kapittel 5 er en faglig beskrivelse av frløpstabellene i NUDB Kapittel 6 gir en versikt ver alle tabellene i NUDB, både frløpstabellene g andre tabeller. Alle variablene er linket mt definisjn g kdelister, sm gså er tilgjengelig på http://www.ssb.n/mikrdata/ Kapittel 7 er samling av ulike statistikkfaglige spørsmål sm er gjennmgått ved pprettelsen av NUDB. Oversikten gir detaljerte statistikk- g IT-faglige vurderinger sm ligger bak de valg sm er fretatt mht. valg av variabler, kdelister, identifiserende nøkler etc.. Kapittel 8 gir en beskrivelse av dataene, både med hensyn til endringer i utdanningssystemet, endringer i innhentingssystemet fr utdanningsdataene g en versikt ver kjente feil g mangler i dataene. Bør leses av alle sm ønsker å vite ne m datagrunnlaget i NUDB. 6

1. Intrduksjn til NUDB 1.1. Bakgrunn fr mdellvalg Mdellen sm er benyttet i NUDB g tankegangen sm ligger bak design g implementering av denne er hentet fra prsjektet FD-Trygd. I FD-trygd har det siden 1996 vært utviklet g arbeidet med en frløpsmdell sm har resultert i en str g mfattende frløpsdatabase fr persndata. Eier av FD- Trygd er Seksjn fr levekårsstatistikk (350). FD-trygd prduserer i dag frløpsdata fr en rekke temaer innenfr mrådet trygdeytelser. I tillegg innehlder FD-Trygd mange andre typer persndata sm demgrafi-, inntekts- g frmues-, arbeidssøker- g utdanningsdata. Når det gjelder implementasjnen av utdanningsdata i FD-Trygd så har det vært et nært samarbeid mellm seksjn 360 g prsjektgruppen fr FD-Trygd. Frut fr NUDB hadde det fra Seksjn 360's side vært et uttalt ønske m å samle sine utdanningsdata i en felles database sm muligjrde enkle uttak av frløps- g tverrsnittsdata fr prduksjn av statistikk. I tilleg skulle databasen enkelt kunne benyttes fr utlevering av filer med gjennmstrømningsvariabler fr frskningsfrmål. Erfaringene fra, - g resultatene av samarbeidet med FD-Trygd var så psitive at det ble vedtatt å bygge pp NUDB etter samme mdell sm FD-Trygd. Vi vil i dette kapittellet frsøke å gi en krt innføring i mdellen sm er mtalt samt hvilke prinsipper sm ligger bak den. Arbeidet med å bygge pp et datavarehus sm NUDB kan grv deles inn i tre hvedaktiviteter: 1. Tilrettelegging av grunnlagsregistrene (se kapittel 2). 2. Tilrettelegging av miniregistrene (se kapittel 3). 3. Danning av frløp i datavarehuset (se kapittel 5). Punkt 1 g 2 er utført på fagsiden, mens punkt 3 er utført på IT-siden. Arbeidet med å bygge pp NUDB må likevel sees på sm en iterativ prsess hvr fag- g IT-siden i felleskap har løst de ulike prblemene sm har dukket pp underveis. 1.2. Definisjn av en frløpsdatabase 1.2.1. Hva er en frløpsdatabase? En frløpsdatabase (g et datavarehus) er egentlig ikke ne mer enn en lgisk sammensetting av data sm er hentet fra allerede eksisterende perasjnelle systemer (les: grunnlagsfiler fr ffisiell statistikk), der data er strukturert g tilrettelagt fr analyse av sammenhenger mellm frtiden, nåtiden g fremtiden. Det essensielle i en frløpsdatabase er dateringen av hendelser. Med hendelser menes her endringer sm skjer innenfr hver enkelt variabel, samt verganger mellm viktige grupperingsvariabler (sk. hvedgrupper). En hvedgruppe kan f.eks. innehlde sklenivåene: grunnskle, videregående utdanning g høyere utdanning. I et slikt tilfelle vil vi datere verganger mellm f.eks. videregående utdanning g høyere utdanning fr hvert enkelt tilfelle. I tillegg dateres alle tilganger g avganger fr hvert enkelt tilfelle (sm ftest persn). Nye data sm tilføres/lastes inn i en frløpsdatabase, bygger på allerede "løpende" data i basen. Dvs. at nye data sammenliknes med de sist registrerte data i databasen. Regler sm er bestemt på frhånd avgjør hvrvidt nye data innehlder ny g interessant infrmasjn fr frløpsdatabasen eller ikke. Dersm det ved en slik sammenligning av datasett viser seg at det har vært endring av verdier i ett eller flere variabler så vil det genereres en ny recrd (i tillegg til allerede eksisterende recrds i databasen). På 7

denne nye recrden dateres både selve recrden sm en enhet, samt de av variablene sm har endret verdi. Dette er et viktig prinsipp sm gjør ss i stand til å finne ut hvilke endringer sm skjedde når. 1.2.2. Revisjn av frløpsdata I mer rdinære transaksjnsdatabaser vil innhldet i databasen bli endret (eldre pplysninger blir ppdatert med nye pplysninger) etter hvert sm tiden går. F.eks. innhldet i variabelen 'adresse' endre seg fr en persn sm flytter. I frløpsdatabaser er det viktig å ta vare på de gamle verdiene (f.eks. alle tidligere registrerte adresser) på det aktuelle tidspunktet de ble registrert. Dette fr å kunne "gjenskape" ethvert tidspunkt i bakver i tid. Hva med revisjn av data i databasen da? Enkelt sagt kan en si at i tradisjnelle databaser er det lett å ppdatere/endre på eksisterende data, men ne vanskeligere å endre struktur på mdellen "n the fly". Fr frløpsdatabaser er det mtsatt; det er vanskelig/uheldig å ppdatere data i basen etter at data er lagt inn, mens det er frhldsvis enkelt å endre struktur/legge til nye variabler etc. Dette gjør at det er ekstremt viktig å legge ned mye resurser i tilpasningen g tilretteleggingen av data før de lastes inn i frløpsdatabasen. Et eksempel: Etter at grunnlagsregister fr år YYYY er lastet inn i basen, så er data fra registeret fr YYYY-1 (g data fr alle tidligere innlagte register) låst i databasen fr "alltid". Dette siden neste kjøring (innlegging av data i frløpsdatabasen) alltid bygger videre på frrige kjøring. 1.3. Frdeler g ulemper ved den valgte mdellen Frdeler: Ved uttak av tverrsnittsdata fr en hvilken sm helst årgang benyttes ett prgram mt hver av maksimalt fire tabeller (KURS-, PERSON-, DEMOGRAFI- g/eller ppslagstabellen med bakgrunnspplysninger). Uttak kan utføres like enkelt fra Oracle sm fra SAS (PROC SQL). Svært mange ulike register ver en lang tidsperide er gjrt tilgjengelig fra nen få tabeller i en database, hvr variablene kan tas ut med betydelig mindre innsats enn tilfellet har vært fram til i dag. Det er enkelt å utføre ad-hc spørringer mt et hvilket sm helst tidspunkt i datamaterialet. Uttak av data til tabeller/studier av gjennmstrømning i utdanningssystemet er enklere å lage. Ulemper: Fr persner fra den statistikkfaglige siden av prsjektet kan de IT-tekniske løsningene sm mdellen støtter seg på, være ne vanskelig "å få tak på" til å begynne med. Det vil være en str utfrdring fr deltagerne fra IT-siden i prsjektet å gjøre mdellen g tankegangen bak mer frståelig fr deltagere fra andre fagmråder. Det er viktig å arbeide med å senke terskelen fr å sikre at dialgen mellm den statistikkfaglige- g den IT-faglige siden i prsjektet fregår på et så høyt faglig plan sm mulig. Uten et uttakssystem vil uttak av data fra et slikt datavarehus kreve dybdefrståelse av mdellen fr å sikre at riktige data tas ut til enhver tid. Et uttakssystem kan i sin enkleste frm være et prgrambiblitek med ferdigskrevet kde fr de mest vanlige uttakene slik sm uttak av data fr løpende statistikk etc. 1.4. Resultat Denne måten å rganisere data på kan ved første øyekast virke svært så plasskrevende. Det genereres trss alt nye rerds til databasen fr hver eneste hendelse sm skjer i datamaterialet! I praksis er det sm regel det mtsatte sm er tilfelle; at datamaterialet kmprimeres. Årsaken til dette er at nye data fte 8

ikke gir ss ny infrmasjn (i grunnlagsregistrene er det fte slik at nye recrds kun er rene gjentagelser av fregående recrds). I slike tilfeller registreres det ikke nen nye pplysninger i NUDB (det er ingen nye pplysninger å registrere). Samlet fører dette til at vi sm regel ppnår en betydelig kmprimeringsgevinst (typisk i frhldet 2:1-3:1) i frhld til tradisjnelle databaser g flate filer. Da grunnlagsfilene fr utdanningsdata er rganisert sm årsfiler med betydelige endringer mellm hver årsfil er ikke kmprimeringsgevinsten blitt sm på en del andre statistikkmråder i FD-Trygd. Bruk av mdellen har likevel gitt en frmidabel kmprimeringsgevinst mhp. antall recrds: Fr årene 1970 g fram til i dag (når er "i dag") har det vært benyttet ca. 115 milliner recrds fra ver 80 unike register fr å bygge pp datavarehuset NUDB. Ved en tilsvarende pptelling i NUDB finner vi igjen kun 75 milliner recrds frdelt på tre frløpstabeller g en ppslagstabell. Resultat fr NUDB En reduksjn på 40 milliner recrds fra de pprinnelige grunnlagsfilene Alle utdanningsdata fr periden 1970 g fram til i dag er gjrt sammenlignbare g enkelt tilgjengelig fr uttak av tverrsnitt g gjennmstrømning Det er nå mulig med ad-hc-spørringer mt alle årganger med utdanningsdata Alle tverrsnitt kan gjenskapes; fr hele periden fra 1970 g fram til i dag Alle utdanninger er kdet med NUS2000-kder; fr hele periden fra 1970 g fram til i dag Det er mulig (g fhv. enkelt) å kble utdanningsdata sammens med f.eks. arbeidssøker- g sysselsettingsdata fr frløpsanalyse av gjennmstrømninger mellm utdanning g arbeid. 1.5. Arbeidsflyten i NUDB prsjektet NUDB er bygd pp av ver 80 unike grunnlagsfiler (igangværende- g avsluttafiler, filer fr beflkningens høyeste utdanning, demgrafi-filer etc.) Det har vært lagt ned et betydelig arbeid i å spesifisere g hente ut data fr de variablene sm nå inngår i NUDB. Grunnlagsfilene sm inngår i NUDB har vært rganisert sm årsfiler med pplysninger knyttet til et bestemt tidspunkt. Under arbeidet med å tilrettelegge g kntrllere årsfilene slik at de blir sammenlignbare ver tid, er det laget et nytt sett med filer (heretter kalt miniregistre) fr de dataene sm hentes ut fra de ulike årsfilene. Miniregistrene er så blitt benyttet sm input til databasen hvr datatene bl.a. har vært igjennm nye knsistenskntrller i arbeidet med kvalitetssikre det arbeidet sm har vært utført på miniregistrene (arbeidet med knsistenskntrller av dataene pågår kntinuerlig, gså etter at dataene er lagt inn i frløpsdatabasen). Etter at dataene i miniregistrene fr hver enkelt årsfil er spesifisert g kntrllert har prsjektgruppas arbeid bestått i å mdellere dataene. Dette betyr krt frtalt å freta en mrganisering av dataene, f. eks. fra data per tidspunkt, til frløpsdata. Omrganiseringen til frløpsdata krever en nøye gjennmgang av mulig g relevant datering av pplysningene i miniregistrene g i de pprinnelige årsfilene fr utdanningsdata, slik at hendelser (sm beskrevet ver) blir ivaretatt g registrert på best mulig måte i frløpsdatabasen. I NUDB er slike hendelser registrert ved hjelp av egne datvariabler med frmat år, måned (YYYYMM). Etter at datamdelleringen er avsluttet har prsjektgruppas arbeid bestått i å prgrammere g utvikle rutiner fr danning av frløp g ilegg av data i databasen. På neste side er et diagram sm viser dataflyten sm er beskrevet venfr: 9

Grunnlagsfiler 1970 - Bearbeidingsrutiner (SAS) Miniregistre 1970 - Bearbeidingsrutiner (Oracle) Datavarehuset NUDB 10

2. Tilrettelegging av grunnlagsregistrene Det er tre hvedtyper av utdanningspplysninger sm er benyttet i NUDB;. data ver hvilken utdanning et individ til enhver tid er/har vært i gang med (igangværende), data ver hvilken type utdanning et individ har fullført ved ulike tidspunkt (avslutta), g til slutt data ver individets til enhver tids høyeste fullførte utdanning (BHU). I tillegg er det benyttet pplysninger fra diverse beflkningsfiler fr å bygge pp demgrafiske bakgrunnspplysninger. I arbeidet med å transfrmere data fra grunnlagsregistre, -sm er tverrsnittsfiler (årfiler), til frløpsdata har vi benyttet et mellmsteg hvr vi har dannet sk. miniregistre. Dette er flate filer sm danner grunnlaget fr hva sm er lagt inn i NUDB g disse innehlder transfrmerte- g tilrettelagte data fr de variablene sm nå inngår i NUDB. I kapittlene sm følger, er det en gjennmgang av hvilke spesifikasjner sm har vært lagt til grunn fr utarbeidelsen av miniregistrene fr de tre nevnte hvedtypene av utdanningspplysninger. I gjennmgangen har det gså vært aktuelt å mtale variable sm ikke er inkludert i NUDB, men sm fr eksempel nyttes til kntrllfrmål, eller ppbygging av andre (nye) variabler. 2.1. Beskrivelse av grunnlagsregistre Grunnlagsregistrene er årgangsfiler sm danner utgangspunkt fr dannelse av miniregistrene. Grunnlagsregistrene har ulik struktur g innhld. En årsak er at det stadig har tilkmmet, men gså frsvunnet variabler sm innhentes fra utdanningsinstitusjnene. Fr å lette innlastingen/danning av frløp i NUDB er det laget et sett identiske filer hva angår filbeskrivelse, - selv m ikke alle årgangsfilene innehlder de aktuelle variablene. I tillegg til at årgangsfilene behandles på denne måten, gjennmgår de gså ulike kntrller fr å sørge fr at pplysningene sm lastes inn i NUDB er så krrekt sm mulig. Det blir gså kblet på en del nye variabler på årgangsfilene. Ut i fra allerede eksisterende variabler på årgangsfilene knstrueres det gså nye variabler sm skal benyttes i NUDB. Nedenfr følger en gjennmgang av grunnlagsregistrene før bearbeiding til miniregistre. 2.1.1. Filidenter Samtlige filer er langtidslagret sm flate filer på Unix, g er dkumentert i DataDk. De ulike årgangene har imidlertid ne frskjellig filbeskrivelse. 2.1.1.1. Igangværende utdanning per 1.kt.: Årgangene 1974-1986 har samme filbeskrivelse (se DataDk fr filbeskrivelse), g har følgende sti på UNIX: Årgang Filident UNIX 1974 $UTD/aargang/arkiv/igang_brutt/g1974.dat 1975 $UTD/aargang/arkiv/igang_brutt/g1975.dat...... 1986 $UTD/aargang/arkiv/igang_brutt/g1975.dat Årgangene fra 1987 g fremver har ne varierende filbeskrivelser (se DataDk fr filbeskrivelser), g har følgende sti på UNIX: Årgang Filident UNIX 1987 $UTD/aargang/arkiv/igang_nett/g1987.dat 1988 $UTD/aargang/arkiv/igang_nett/g1987.dat 1989 $UTD/aargang/arkiv/igang_nett_nus2000/g1989.dat 1990 $UTD/aargang/arkiv/igang_nett_nus2000/g1990.dat...... 1999 $UTD/aargang/arkiv/igang_nett_nus2000/g1999.dat 11

2.1.1.2. Avslutta utdanning i "skle"-året Årgangene 1974-75 til g med 1985-86 har samme filbeskrivelse (se DataDk fr filbeskrivelse), g ligger har følgende sti på UNIX: Årgang Filident UNIX 1974/75 $UTD/aargang/arkiv/avslutta_nus73/g1974g1975.dat 1975/76 $UTD/aargang/arkiv/avslutta_nus73/g1975g1976.dat...... 1985/86 $UTD/aargang/arkiv/avslutta_nus73/g1985g1986.dat Årgangene 1986-87 til g med 1998-99 har ulik filbeskrivelse (se DataDk fr filbeskrivelser). Nen av årgangene har imidlertid samme filbeskrivelse. Filene ligger på følgende sti på UNIX: Årgang Filident UNIX 1986/87 $UTD/aargang/arkiv/avslutta_nus2000/g1986g1987.dat 1987/88 $UTD/aargang/arkiv/avslutta_nus2000/g1987g1988.dat...... 1998/99 $UTD/aargang/arkiv/avslutta_nus2000/g1998g1999.dat 2.1.1.3. Beflkningens høyeste utdanning (BHU) per 1.kt. Årgangen 1970 har egen filbeskrivelse, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1970 $UTD/utdnivaa/arkiv/nus2000/g1970.dat Årgangen 1980 har gså egen filbeskrivelser, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1980 $UTD/utdnivaa/arkiv/nus2000/g1980.dat Årgangene 1985-1997 har lik filbeskrivelse, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1985 $UTD/utdnivaa/arkiv/nus2000/g1985.dat 1986 $UTD/utdnivaa/arkiv/nus2000/g1986.dat...... 1997 $UTD/utdnivaa/arkiv/nus2000/g1997.dat Årgangen 1998 har gså egen filbeskrivelser, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1998 $UTD/utdnivaa/arkiv/nus2000/g1998.dat Årgangene 1999-2000 har lik filbeskrivelse, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1999 $UTD/utdnivaa/arkiv/nus2000/g1999.dat 2000 $UTD/utdnivaa/arkiv/nus2000/g2000.dat 12

2.1.2. Filbeskrivelser fr grunnlagsregistrene I de neste kapitlene følger en gjennmgang av variabler på grunnlagsregistrene sm er benyttet fr ppbygging av NUDB. Gjennmgangen tar fr seg variablenes navn g beskrivelse av denne. Fr en mer detaljert beskrivelse av variablenes psisjn på filene, lengde, datatype sv. henvises det til DataDk. Nedenfr har vi listet pp hvilke variabler grunnlagsregistrene innehlder g hvilke variabler vi tar ut fra de ulike filene, samt frklaring på nen av variablene. Variabler sm ikke inngår i miniregistrene blir ikke mtalt nærmere. 2.1.2.1. Igangværende utdanning per 1.kt. g avslutta utdanning i løpet av året Igangværendefilene mfatter alle persner sm er i gang med en utdanning ut ver rdinær grunnskle per 1.kt. (SSB har ikke individdata fr igangværende utdanning på rdinær grunnskle.) Årgangene 1974-1986 fr igangværende utdanning var i utgangspunktet "bruttfiler". Det vil si at et individ kan være registrert med å være i gang med flere enn et kurs/enkeltutdanninger per 1.kt.. Disse filene er gjrt m til "nettfiler" i bearbeidingen til dannelse av miniregister. Det vil si at kun en av utdanningene et individ er registrert igangværende med, er tatt med videre inn i miniregisteret, g derfra videre inn i databasen. De andre igangværende-årgangene er nettfiler. Seleksjnen av hvilket kurs/enkeltutdanning sm tas med videre er gjrt på følgende måte: Først velges den utdanningen sm er registrert sm heltid. Dersm det er flere utdanninger fr et individ sm er registrert sm heltid, blir det kurset/enkeltutdanningen sm hadde det høyeste klassetrinnet valgt ut, g tatt med videre til databasen. Dersm det ennå er flere kurs/enkeltutdanninger registrert sm igangværende fr samme individ, blir det kurset sm har det høyeste utdanningsnivået av disse valgt ut, g tatt med videre inn i basen. Utdanningsnivået bestemmes av første siffer i NUS73. NUS73 er utdanningsstandarden sm ble benyttet på disse årgangene. Dess høyere siffer, dess høyere utdanningsnivå. Denne utvelgelsesstrategien viser seg å fjerne samtlige "dubletter", slik at vi sitter igjen med bare et igangværende kurs/enkeltutdanning per individ. Filårgangene fra 1987 til nyeste fil er nettfiler, g utvelgingen av hvilken utdanning sm skal være med er allerede fretatt før tilretteleggingen av filene til miniregistrene. Avsluttafilene mfatter alle persner sm avslutter grunnsklen, eller avslutter/avbryter videregående skle eller høyere utdanning. Avsluttafilene fr år t innehlder pplysninger m avsluttet utdanning i periden 1.kt. år t-1 til 30.sept. år t. Vi starter med pplysningene fra avsluttafil 1974/75. Avsluttafilene er bruttfiler. Det vil si at alle kurs/enkeltutdanninger sm en persn avslutter (fullfører eller avbryter) i løpet av et år blir registrert i fila. Nedenfr følger en gjennmgang av hvilke variabler sm finnes på årgangsfilene: Utdanningens art Denne variabelen tilsvarer variabelen utdanningens art (mkdet) i filen fr høyeste fullførte utdanning. Kdene følger "Standard fr utdanningsgruppering (NUS)". NUS finnes i flere utgaver, g det varierer hvilken utgave sm ligger på filene. Disse har NUS73. På grunn av dette må filene gjennm en mkdingsprsess, da vi kun skal ha med kdene fra de t siste utdanningsstandardene NUS89 g NUS2000. NUS73 kdes først m til NUS89, g deretter fra NUS89 til NUS2000 Klassetrinn Fr studenter ved universitetene har fagseksjnen et eget prgram fr ppjustering av klassetrinn. Fr videregående skler g høyskler settes klassetrinn av sklen med utgangspunkt i kurset eleven/studenten går på. Hvis studenten skifter mellm høyskle g universitet, eller endrer studiemål, kan klassetrinn derimt være mindre representativ fr den faktiske prgresjnen studenten har. I 13

NUS2000 er klassetrinnene annerledes enn i tidligere versjner av NUS. Miniregistrene vil derfr pålegges disse klassetrinnene m de ikke skulle finnes på grunnlagsregistrene. Filene 1974-1986 har klassetrinn sm krrespnderer med NUS73. Variabelen kdes derfr m i bearbeidingen. Dette gjøres ved å først kde m NUS73 klassetrinnene til NUS89 klassetrinn. Deretter kdes disse m til NUS2000 klassetrinn. Heltid/deltid Dette er en variabel sm i utgangspunktet blir satt av sklen ut i fra m kurset er ment å utgjøre et fulltidsstudium. På Avsluttafilene blir alle studenter ved universitetet kdet sm heltidsstudenter. På igangværendefilene blir imidlertid universitetsstudentene registrert på heltid/deltid etter gitte kriterier - f.eks. frventet studieprgresjn. Kursets påbegynningstidspunkt (Mnd/år) Tas med dersm det ikke finnes pplysninger m starttidspunkt på kjennemerket 'Elevens påbegynningstidspunkt' Kursets avslutningstidspunkt (Mnd./år) Tas med dersm det ikke finnes pplysninger m sluttidspunkt på kjennemerket 'Elevens avslutningstidspunkt' SSBs sklenummer Denne variabelen endrer navn til 'inr' i miniregistrene. Klassebetegnelse Ikke i NUDB Vksenpplæring Variabelen viser m kurset er en utdanning sm går inn under lv m vksenpplæring. Variabelen er ikke med i dataene fra 2000 Variabelen har kdene: Vksenpplæring = 1 Ikke vksenpplæring = 2 Hjelpenummer fr RVO-kde ikke i NUDB Linjenummer ikke i NUDB Fødselsnummer Elevens-/studentens fødselsnummer. Utfall Variabelen viser m persnen har avbrutt eller fullført kurset. Hvedregelen er at utdanning regnes sm fullført når vitnemål utstedes. Fr nen kurs blir det imidlertid ikke utstedt vitnemål. Disse blir gså registrert sm fullført. Kdene fr variabelen er: Ikke fullført/avbrutt = 2 Fullført = 8 På igangværendefilene 1974-1986 settes utfall til blank. Utfall detaljert Variabelen er mer detaljert enn Utfall g varierer mellm ulike skleslag. Variabelen er blank før 1995, g bare delvis utfylt senere. Kdene fr variabelen er: A = Annen vurdering.har fullført kurs særskilt tilrettelagt innenfr læreplanverket. Fullført individuelt pplegg. Utfall=2. Kilde 20 B = fullført med vitnemål/årskursbevis, bestått. Utfall 8. Kilde20 C = Ikke sensurert. Utfall=2. Kilde 40,41 14

D = Ikke bestått. Utfall=2. Kilde 40,41 F = Bestått fagprøve. Utfall = 8. Kilde 21 G = Meget bra bestått fagprøve. Utfall = 8. Kilde 21 I = Fullført med vitnemål/årskursbevis,ikke bestått. Utfall =8 i Refrm94, utfall=2 tidligere. Kilde20. (i ettertid endret i NUDB til utfall 2, avbrutt, gså fr R94) M = Mangler vitnemål/årskursbevis. Har fullført uten vurdering i ett eller flere fag, f.eks. ved strt fravær. Utfall=2. Kilde20 N = Ikke bestått fagprøve. Utfall = 2. Kilde 21 O = Alternativ VKII i skle. Utfall = 2. Kilde 20 P = Bestått: Utfall=8. Kilde 40,41 S = Sluttet/avbrutt i løpet av året. Utfall2. Kilde20 X = Ikke utfylt fra skle. Utfall = 8. Kilde 20 2 = Ikke fullført. Utfall=2. Kilde 10,21,22,23,24 g 42-46 8 = Fullført. Utfall=8. Kilde 10,21,22,23,24 g 42-47 Elevens påbegynningstidspunkt mmåå Gir pplysninger m når eleven påbegynte gjeldende utdanning Elevens avslutningstidspunkt mmåå Gir pplysninger m når eleven avsluttet gjeldende utdanning Sklekmmune Gir pplysninger m hvilken kmmune sklen befinner seg i Næringskde Denne variabelen endrer navn i miniregistrene. Fr årganger fra 1974-1977 kalles den fr 'SN72'. Fr årganger fra 1978-1993 kalles den 'SN78', g fra årgangen 1994 g fremver kalles den 'SN94'. Sklegruppe har samme innhld sm i variabelen i avsnittet ver Denne variabelen endrer gså navn i miniregistrene. Fr årganger fra 1974-1977 kalles den fr 'SN72'. Fr årganger fra 1978-1993 kalles den 'SN78', g fra årgangen 1994 g fremver kalles den 'SN94'. Eierfrhld, umkdet Bstedskmmune Gir pplysninger m i hvilken kmmune eleven br i. Dette kan være frskjellig fra sklekmmune. Kjønn Alder Mann = 1 Kvinne = 2 Alder1, mkdet Alder2, mkdet Påbegynnelsestidspunkt Danner kjennemerket 'startd' fr årgangene 1974-1986 Avslutningstidspunkt Danner kjennemerket 'sluttd' fr årgangene 1974 1986 15

Elevstatus Bsted kntra sklekmmune Studieretningskde Variabelen benyttes til å lage nye variabler på miniregistrene ('Studretn', 'Kurstrin'). 'Studretn' lages av de t første sifrene i kden, mens 'Kurstrin' lages av det femte sifferet. Utdanningens art, ny inndeling katalg Variabelen benyttes til å lage nye variabler på miniregistrene ('Studretn', 'Kurstrin'). 'Studretn' lages av de t første sifrene i kden, mens 'Kurstrin' lages av det femte sifferet. Eierfrhld, mkdet Gir pplysninger m sklen er statlig, fylkeskmmunal/kmmunal eller privat: Sklekmmunetype Bstedskmmunetype Elever, påbegynt, mkdet Elever, avsluttet, mkdet Omkdet sklegruppe Skleslag, mkdet Gir pplysninger m hvilken skle det her er tale m; grunnskle, videregående-skle, eller universitet/høgskle. Grunnskle = 1 Videregående-skle = 2 Universitet/høgskle = 3 ISCED Dette er den gamle ISCED-kden (1976) Fødeland Statsbrgerskap Frdyp Frdypningsfag NUS2000 NUS2000-kden Kltrinn2000 Klassetrinn etter NUS2000-kden Kdetype Gir pplysninger m dette er en samlekde eller en enkeltutdanning i NUS2000 Samlekde =1 Enkeltutdanning = 2 16

Uhg2000 Gruppering av universitets- g høgskleutdanning. Variabelen skifter navn til 'Uhgruppe' i miniregisteret Det ser ut sm nen variable er listet pp 2 ganger - se ISCED på frrige side I97ISCED Den internasjnale utdanningskden ISCED97 I97destn ISCED97, tilleggsdimensjnen 'Destinatin' I97rien ISCED97, tilleggsdimensjnen 'Orientatin' I97varig ISCED97, tilleggsdimensjnen 'Varighet' I97grads ISCED97, tilleggsdimensjnen 'Gradsstruktur' Naering Næringskde 1994 Hgskle Gir pplysninger m hvilket høgsklesentra utdanningen er tatt ved Innvkat Landbak Hskde Gir pplysninger m hvilken høgskle studiet er tatt på Kmpetanse i videregående Gir pplysninger m hvilken kmpetanse eleven har fått etter sin utdanning. Gjelder videregående utdanning g kan kun benyttes fr data fra g med 2000. Utd Gruppering av skleslag. Gir pplysninger m hvilken type skle utdanningen er tatt ved. Studretn Studieretning. Gir pplysninger m hvilken studieretning på videregående skle gjeldende utdanning er tatt ved Kurstrin Kurstrinnskde. Gir pplysninger m hvilket kurstrinn utdanningen er tatt på Et av frmålene med NUDB er å finne den periden en persn er under utdanning. Vi har derfr tatt med ss både elevens/studentens g kursets start- g sluttdat, men har bare benyttet kursets start- g sluttdat dersm elevens/studentens dater ligger med blank. Det vil si at det bare er én start, g én sluttdat sm er tatt med videre. På igangværendefilene har vi kun benyttet startdaten fra filene. Vi har kun vært interessert i å finne ut når eleven/studenten påbegynte utdanningen sin på disse filene. Variabelen 'Sklegruppe' eller 'Næringskde' angir "skletype" g tar utgangspunkt i sklen, ikke hvilke kurs studentene leser. Variabelen har t sifre, g dette tilsvarer de t siste sifrene i den femsifrede kden i Standard fr næringsgruppering (fr undervisningssektren) sm gjaldt til g med 1992. Denne 17

variabelen skal benyttes til å finne ut hvilke studenter sm studerer ved universitetene. Dette har betydning fr å kde hvedgruppevariabelen. Vi lager gså en variabel på miniregistrene, kalt 'Univ' sm markerer fr de sm studerer på universitetene. 2.1.2.2. Beflkningens høyeste utdanning per 1.ktber Registeret ver beflkningens høyeste utdanning mfatter persner registrert bsatt i Nrge per 1.kt., sm per 31/12 er 16 år g ver. I tillegg registreres 15-åringer sm har fullført grunnsklen eller sm er i gang med en utdanning utver grunnsklenivå. Opplysningene m høyeste fullførte utdanning blir ppdatert hvert år med pplysninger fra individfilene ver avsluttet utdanning. Fra g med filen per 1.kt. 1993 blir filen gså ppdatert med pplysninger m utdanning fullført i utlandet (pplysninger fra Statens lånekasse fr utdanning). Opplysningene m utenlands-utdanning dekker utdanning fullført i utlandet, av lånekassens kunder, fra g med skleåret 86/87. Våren 1991 ble det hentet inn på skjema pplysninger m eksamen avlagt i utlandet av utenlandsfødte persner sm hadde innvandret til Nrge fr første gang mellm 1/11 1980 g 31/12 1990, g sm var 16 år g ver ved utgangen av første innvandringsåret. Denne undersøkelsen het "Utdanning fullført i utlandet", g en tilsvarende undersøkelse ble gså gjennmført i 1999. Respndentene i den siste undersøkelsen var alle med utenlandsk bakgrunn sm var registrert bsatt i Nrge g sm st med uppgitt utdanning i registeret ver beflkningens høyeste utdanning. Også frafallsgruppen i undersøkelsen fra 1991 var inkludert. I tillegg ble nrdmenn sm bdde i utlandet da BHU ble pprettet i 1970 sm st med uppgitt BHU tatt med i undersøkelsen i 1999. Det har ikke vært mulig å utarbeide BHU-status fr 1981, 82, 83 g 84. Dette skyldes tekniske prblemer knyttet til mleggingen av Det sentrale persnregisteret. SSB har derimt utarbeidet BHUstatus hvert år siden 1985, basert på bearbeiding av filene fr avsluttet utdanning. Dagens register tillater en løpende ajurføring. BHU-filene er nettfiler i det persner er enhet. Persner sm har fullført mer enn en utdanning, er bare registrert med den høyeste av utdanningene. Det vil si at den utdanningen sm har det høyeste nivået, er registrert. Hvis en persn har fullført flere utdanninger på samme nivå, er det den utdanningen med høyeste fullføringstidspunkt sm er registrert. Alle utdanninger i SSBs utdanningsstatistikk har fått sekssifrede utdanningskder etter den nrske standarden fr utdanningsgruppering (NUS). Dette gjelder gså BHU. Utdanningsstandarden ble første gang utarbeidet i 1970, g deretter revidert i 1973, 1989 g nå sist i 2000 (NUS2000). Ved publisering av SSBs statistikk ver BHU benyttes det t alternative utdanningsvariabler fr å beskrive fullført utdanning. Dette har sin bakgrunn i vergangen fra sjuårig flkeskle til niårig grunnskle. I den umkdede utdanningsvariabelen er grunnleggende ettårig fagutdanning avlagt før 1972-73 basert på sjuårig flkeskle g ett års framhaldsskle plassert på grunnsklenivå. I den mkdede utdanningsvariabelen er tilsvarende utdanning plassert på videregående sklenivå. Hvis man vil belyse utdanningsnivå etter utdanningens kmpetanse, bør den mkdede variablene benyttes. Vi har valgt å kun legge inn mkdet utdanningsvariabler inn i Nasjnal utdanningsdatabase (NUDB). I tillegg til NUS registreres gså den internasjnale standarden fr utdanningsgruppering Internatinal Standard Classificatin f Educatin (ISCED), sm ble utarbeidet av UNESCO på 1970-tallet g ble sist revidert i 1997 (ISCED97). I frbindelse med revisjnen av den nrske standarden fr utdanningsgruppering er det utarbeidet en nøkkel mellm den g ISCED97, der hver NUS-kde har en henvisning til en internasjnal kde med tilhørende tilleggesdimensjner. Et kryss indikerer at variabelen tas med inn i miniregisterene fr BHU. 18

Filbeskrivelse av BHU-1970 g hvilke variabler sm tas med inn i miniregisteret BHU-70 Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune kjenn Kjønn. 1 = mann, 2 = kvinne NUS73u NUS73 umkdet kltr73 Klassetrinn73 x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen x uhgruppe_ Universitets g høgsklegruppering, skifter navn til 'uhgruppe' i NUDB x I97ISCED ISCED97-kde, mkdet x I97destn ISCED97, tilleggesdimensjnen destinatin, mkdet x I97rien ISCED97, tilleggesdimensjnen rientatin, mkdet x I97varig ISCED97, tilleggesdimensjnen varighet, mkdet x I97grads ISCED97, tilleggesdimensjnen gradsstruktur, mkdet Filbeskrivelse av BHU-1980 g hvilke variabler sm tas med inn i miniregisteret BHU-80 Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune flyttdat Dat fr flytting alderu Alder ved utgangen av året kjnn Kjønn. 1 = mann, 2 = kvinne pphld Dat fr første pphld i Nrge x statbrg Statsbrgerskap. NB er blank i denne årgangen fdeland Fødeland x nusukd NUS89 umkdet kltrinnu Klassetrinn NUS89 umkdet x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet fulland Fullføringsland fulldat Fullføringstidspunkt (YYYYMM) isced ISCED-kde x pedsem Fullført praktisk-pedaggisk utdanning nusigang Utdanningens art NUS89, igangværende utdanning kltrtinn Klassetrinn igangværende utdanning, NUS89 heldel Heltid/deltid. 1 = heltid, 2 = deltid sklekm Sklekmmune start Påbegynningstidspunkt x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen NUS2000u NUS2000 umkdet x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen nus2000i NUS2000, igangværende utdanning kltrinn2000i Klassetrinn NUS2000 igangværende utdanning x uhgruppe_ Universitets g høgsklegruppering, mkdet. Skifter navn til 'uhgruppe' i NUDB uhgruppe_i Universitets g høgsklegruppering, igangværende utdanning x I97isced ISCED97-kde, mkdet 19

BHU-80 Variabelnavn Variabelbeskrivelse x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97varig ISCED97, varighet, mkdet x I97grads ISCED97, gradsstruktur, mkdet Filbeskrivelse av BHU-1985-97 g hvilke variabler sm tas med inn i miniregisteret BHU-85-97 Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune flyttdat Dat fr flytting alderu Alder ved utgangen av året kjnn Kjønn. 1 = mann, 2 = kvinne pphld Dat fr første pphld i Nrge x statbrg Statsbrgerskap. Er blank i 1985, g er kblet på årgangene fra 1986 til 1989. Opprinnelig på filene fra 1990 til 1998. fdelad Fødeland nusukd NUS89 umkdet kltrinnu Klassetrinn NUS89 umkdet x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet fulland Fullføringsland fulldat Fullføringstidspunkt isced ISCED-kde, knyttet til 'nusmkd' x pedsem Fullført praktisk-pedaggisk utdanning nusigang Utdanningens art NUS89, igangværende utdanning kltrtinn Klassetrinn igangværende utdanning, NUS89 heldel Heltid/deltid. 1 = heltid, 2 = deltid sklekm Sklekmmune start Påbegynningstidspunkt x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen NUS2000u NUS2000 umkdet x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen nus2000i NUS2000, igangværende utdanning kltrinn2000i Klassetrinn NUS2000 igangværende utdanning x uhgruppe_ Universitets g høgsklegruppering, mkdet. Skifter navn til 'uhgruppe' i NUDB uhgruppe_i Universitets g høgsklegruppering, igangværende utdanning x I97isced ISCED97-kde, mkdet x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97varig ISCED97, varighet, mkdet x I97grads ISCED97, gradsstruktur, mkdet Filbeskrivelse av BHU-1998 g hvilke variabler sm tas med inn i miniregisteret BHU-98 Variabelnavn Tekst x fnr Fødselsnummer x kmmnr Bstedskmmune flyttdat Dat fr flytting alderu Alder ved utgangen av året 20

BHU-98 Variabelnavn Tekst kjnn Kjønn. 1 = mann, 2 = kvinne pphld Dat fr første pphld i Nrge x statbrg Statsbrgerskap. Er blank i 1985, g er kblet på årgangene fra 1986 til 1989. Opprinnelig på filene fra 1990 til 1998. fdelad Fødeland nusukd NUS89 umkdet kltrinnu Klassetrinn NUS89 umkdet x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet fulland Fullføringsland fulldat Fullføringstidspunkt isced ISCED-kde, knyttet til 'nusmkd' x pedsem Fullført praktisk-pedaggisk utdanning nusigang Utdanningens art NUS89, igangværende utdanning kltrtinn Klassetrinn igangværende utdanning, NUS89 heldel Heltid/deltid. 1 = heltid, 2 = deltid sklekm Sklekmmune start Påbegynningstidspunkt x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen NUS2000u NUS2000 umkdet x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen nus2000i NUS2000, igangværende utdanning kltrinn2000i Klassetrinn NUS2000 igangværende utdanning x uhgruppe_ Universitets g høgsklegruppering, mkdet. Skifter navn til 'uhgruppe' i NUDB uhgruppe_i Universitets g høgsklegruppering, igangværende utdanning x I97isced ISCED97-kde, mkdet x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97grads ISCED97, gradsstruktur, mkdet x I97varig ISCED97, varighet, mkdet Filbeskrivelse av BHU-1999 g hvilke variabler sm tas med inn i miniregisteret BHU99 Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune alder Alder ved utgangen av året kjenn Kjønn. 1 = mann, 2 = kvinne fdat Dat fr første pphld i Nrge x statbrg Statsbrgerskap fdeland Fødeland invkat Innvandringskategri landbak Landbakgrunn NUS2000u NUS2000 umkdet kltrinn2000u Klassetrinn NUS2000 umkdet x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen x fulland Fullføringsland x fulldat Fullføringstidspunkt (YYYYMM) x pedsem Fullført praktisk-pedaggisk utdanning 21

BHU99 Variabelnavn Variabelbeskrivelse x kildebhu Kilde fr BHU-pplysning x I97isced ISCED97-kde, mkdet x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97varig ISCED97, varighet, mkdet x I97grads ISCED97, gradsstruktur, mkdet x uhgruppe Universitets g høgsklegruppering NUS2000_i Utdanningens art NUS2000, igangværende utdanning kltrtinn_i Klassetrinn igangværende utdanning, NUS2000 heldel_i Heltid/deltid, igangværende utdanning rgnr_i Organisasjnsnummer, igangværende utdanning sklekm_i Sklekmmune, igangværende utdanning Ikke alle BHU-filer har alle variablene det er krysset av fr. Imidlertid får de "kblet på" variabelen i miniregisteret med pplysninger der vi har kunnet framskaffe dem, g er blank der pplysningene mangler fr hele årgangen. Fra g med årgang 2000 blir BHU-filene ikke lastet inn i basen, frdi fra g med dette året vil alle data sm er benyttet til å ppdatere Bhu gså ligge på årgangsfilen fr avsluttet utdanning. 2.2. Krreksjner g kntrller 2.2.1. Fødselsnummerkntrll Det er kjørt samme type fødselsnummerkntrll fr hele NUDB. Prgrammet fr dette ligger på: $UTD/nudb/prg/sas/mrk_fnr.sas. Siden avsluttafila innehlder dubletter mht. FNR, så kjøres fødselsnummerkntrllen fr disse data på en litt annen måte (se neste punkt). Prgrammet fjerner dubletter kun på grunnlag av fødselsnummer g behlder den første recrden av de like fødselsnummerene. I tillegg markerer prgrammet ugyldige fødselsnummer med variabelen 'mrk_fnr'. Kdelisten fr mrk_fnr ser slik ut: 0 = Gyldig fødselsnummer 1 = Gyldig d-nummer 2 = Ugyldig fødselsnummer sm består av blankt persnnummer 3 = Ugyldig fødselsnummer sm ikke mfattes av 1 g 2 2.2.2. Dublettkntrller Utføres på filene fr å luke ut uønskede dubletter. Nedenfr er beskrivelser av de algritmer sm er benyttet på de frskjellige filene fr å løse prblemene med uønskede dubletter. 2.2.2.1. Igangværendefilene: På igangværendefilene skal det ikke frekmme dubletter i fødselsnummer. Dublettene her defineres derfr bare ved fødselsnummer alene, g fjernes derfr i fødselsnummerkntrllen. 2.2.2.2. Avsluttafilene: Registrene fr avslutta utdanning er bruttfiler, g har derfr fødselsnummerdubletter. Det skal ikke frekmme t like kurs (lik NUS-kde) sm løper samtidig i NUDB. Like kurs sm er verlappende i tid slås sammen. Det vil si at vi tar startdat fra det kurset sm har startet først, g sluttdat fra det kurset sm er avsluttet sist. Srteringen sm er benyttet til å kntrllere recrds mt hverandre er: 22