Notater. Torill Vangen. Nasjonal utdanningsdatabase NUDB Dokumentasjonsrapport. Datavarehus for utdanningsdata, /54.

Størrelse: px
Begynne med side:

Download "Notater. Torill Vangen. Nasjonal utdanningsdatabase NUDB Dokumentasjonsrapport. Datavarehus for utdanningsdata, 1970-2006 2007/54."

Transkript

1 2007/54 Ntater Trill Vangen Ntater Nasjnal utdanningsdatabase NUDB Dkumentasjnsrapprt Datavarehus fr utdanningsdata, Avdeling fr persnstatistikk/seksjn fr utdanningsstatistikk

2

3 Frrd Dette ntatet dkumenterer frløpsdatabasen Nasjnal utdanningsdatabase (heretter kalt NUDB). I tillegg til at dette ntatet beskriver hvilke data sm inngår i NUDB, innehlder det gså en dkumentasjn av de arbeidsmetder sm er benyttet g den statistikkfaglige vurderingen sm er lagt til grunn fr å mfrme g tilrettelegge disse data fr innlasting i NUDB. Mye arbeid har vært lagt ned i å gjøre dataene sammenlignbare ver tid slik at det skal være mulig å ta sammenhengende frløpsdata ut av NUDB, gså der hvr det på grunnlagsfilene er benyttet frskjellige kdelister ver tid. Fr brukere av data fra NUDB vil kap.8. Feil g mangler i dataene. Endringer i prinsipper, definisjner g avgrensing av ppulasjnen, gi viktig infrmasjn. Dkumentasjnen i dette ntatet mhandler bl.a. data fra filene fr høyeste fullførte utdanning, igangværende/avsluttet utdanning pluss diverse beflkningsfiler. Filene innehlder utdanningspplysninger fr hele beflkningen fr årene fra g med 1970 g fram til i dag. I arbeidet med å tilrettelegge data fr NUDB er det mange persner sm har bistått prsjektgruppa med faglig råd g veiledning. Vi nytter her anledningen til å takke medlemmene i referansegruppa fr NUDB. Disse er Per Olaf Aamdt fra Nrsk institutt fr studier av frskning g utdanning(nifu), Oddbjørn Raaum fra Frischsenteret, Jnny Einarsen fra Læringssenteret g Mrten Nrdlie, Odd Larsen, Mads Gravås, Dankert Vedeler, Erik Dahl g Marie Arneberg fra Utdannings- g frskningsdepartementet. En spesiell takk går gså til Jrunn Lajrd fr verdifull bistand i frbindelse med spesifikasjn av data. Ntatet er blitt til ved å samle dkumentasjn sm er skrevet underveis av de ulike medlemmene av prsjektgruppen, samt dkumentasjn sm grunnlag fr kap. 8 fra Tr Jørgensen. Trill Vangen har hatt redigeringsansvaret fr ntatet. Dkumentasjn av dataene i NUDB, med variabler g kdelister finnes på 1

4 Innhld 1. Intrduksjn til NUDB Bakgrunn fr mdellvalg Definisjn av en frløpsdatabase Hva er en frløpsdatabase? Revisjn av frløpsdata Frdeler g ulemper ved den valgte mdellen Resultat Arbeidsflyten i NUDB prsjektet Tilrettelegging av grunnlagsregistrene Beskrivelse av grunnlagsregistre Filidenter Igangværende utdanning per 1.kt.: Avslutta utdanning i "skle"-året Beflkningens høyeste utdanning (BHU) per 1.kt Filbeskrivelser fr grunnlagsregistrene Igangværende utdanning per 1.kt. g avslutta utdanning i løpet av året Beflkningens høyeste utdanning per 1.ktber Krreksjner g kntrller Fødselsnummerkntrll Dublettkntrller Igangværendefilene: Avsluttafilene: BHU-filene: Datkntrll Igangværende- g avsluttafilene: BHU-filene: Endring g krreksjn på variabler Igangværendefilene: Avsluttafilene: BHU-filene: Tiltrettelegging av miniregistrene Variable på miniregistre Igangværende- g avslutta utdanning BHU Krreksjner g kntrller Kntrller på filene fr igangværende utdanning per 1.kt. hvert år Kntrller på filene fr avslutta utdanning i skleåret Kntrller på filer fr beflkningens høyeste utdanning, per 1.kt. hvert år Avvik fra tidligere BHU-publisering Diagrammer fr miniregisterrutiner Tilrettelegging av frløp i NUDB Kursfilen. Frløp. (F_UTD_KURS) Viktigste kurs. Persnnivået. Frløp. (F_UTD_PERSON) Generelt STUDIEKODE på persnnivået Regelverk fr valg av viktigste kurs

5 Regler fr telling av "antall semester innen studiet" ved fullføring av utdanning/grad Regler fr å telle nrmert tid fr de sm har fullført en utdanning Videregående utdanning: Høyere utdanning: Demgrafitabellen, daterte variable, årlig datering Høyeste fullførte utdanning(bhu) BU. Ny gruppering av beflkningens utdanningsnivå Tabellene i NUDB med variabelversikter Demgrafitabellen. Demgrafiske pplysninger samt høyeste fullførte utdanning(bhu g BU, gammel g ny definisjn). Frløp med årlig datering per 1. ktber Kurstabellen. Frløp med månedlig datering Viktigste kurs. Frløp med månedlig datering Persntabellen, faste variable på persnnivå. (ikke frløp) Karakterer fr avsluttet grunnskle Vitnemål fra videregående utdanning. Data fra Nasjnal vitnemålsdatabase(nvb) Fag fra videregående utdanning. Data fra Nasjnal vitnemålsdatabase(nvb) Andre filer ifm NUDB Statistikk- g IT-faglige vurderinger Mulige knsekvenser av påføring av vekttall på eldre filer Freldrenes høyeste utdanning/ssial bakgrunn Freldrenes utdanning settes en gang Gruppering av freldrenes utdanningsnivå Bstedskmmune Bstedskmmune ved 16-års alder eller "hjemstedskmmune" Hved (hvedgruppe) Statsbrgerskap Skleslag SSLAG UTD Skleidentifikasjn "Manglende vårsemester" Ktrinn (Klassetrinn gruppert. Gjelder utdanninger under Opplæringslven/Lv m videregående pplæring/lv m fagskler) Nrmert tid i utdanning Telling av antall semester i NUDB Definisjn av semester Gjennmstrømningsvariable i NUDB Gjennmstrømningsvariable sm settes en gang/ved 1. gangs hendelse. (TAB_UTD_PERSON)) Gjennmstrømningsvariable sm det dannes frløp på. (I F_UTD_PERSON) Valg av identifiserende nøkkel i NUDB Oversikt ver nøkkelalternativene Fødselsnummer Snr (statistikknummer) Valg av løsning Snr-katalgen

6 BEBAS Fil med link mellm Dnr. g Fnr Linkmuligheter i de frskjellige katalger/databaser: Implementering av nøklene i NUDB Benytte BEBAS/LINK-filen ved uttak Benytte Snr-katalgen ved uttak Løpende endring av Fnr i NUDB, g ved uttak Benytte Snr sm identifiserende id fr persner i NUDB Ugyldige fødselsnummer g Dnr Studieretning 13 g Feil g mangler i dataene. Endringer i prinsipper, definisjner g avgrensing av massen Innledning Feil g mangler Generelt Prinsipper, definisjner g avgrensing av massen Generelt Vedlegg Prsjektskriv Prsjektskriv fase Begrepsfrklaringer En statistikkfaglig utredning av dubletter på fnr/snr i NUDB En IT-faglig utredning av dubletter på fnr/snr i NUDB

7 Innledning NUDB er et datavarehus bygd pp vha. utdanningsdata fra Seksjn fr utdanningsstatistikk fr årene fra g med 1970 g fram til i dag. NUDB er bygd pp etter samme mdell sm er benyttet av FD-Trygd i Statistisk sentralbyrå, slik at data fra NUDB frhldsvis enkelt vil kunne sammenstilles med data fra FD-Trygd. En annen mye brukt benevnelse i SSB på datavarehus av denne typen er frløpsdatabaser. I denne typen databaser vil alle hendelser sm inntreffer på valgte variabler, dateres til når hendelsen fant sted. I tillegg til uttak av data fr analyse av gjennmstrømninger, så muliggjør denne transfrmasjnen av data at en i tillegg kan ta ut tverrsnitt fr ethvert tidspunkt (ptimalisert fr uttak per 1.kt. fr hvert år ) i datavarehusets gyldige tidsperide. NUDB innehlder per nvember 2007 pplysninger fr hele beflkningen fr periden fra g med 1970 g fram til g med 2006, g vil bli ppdatert med nye årganger med beflknings- g utdanningsdata frtløpende i årene sm kmmer. Målet er at NUDB skal benyttes sm den primære kilden fr prduksjn av fremtidig utdanningsstatistikk g fr utlevering av utdanningsdata i ppdragssammenheng til frskningsfrmål etc. Persn g persnens kurs er statistisk analyseenhet fr alle pplysningene i NUDB. Alle recrds i databasen har påkblet SNR (kalt SNR_NUDB i NUDB) slik at det er mulig å knytte sammen infrmasjn fra NUDB med andre dataregistre, databaser g/eller data fra FD-Trygd. Dataene i NUDB vil være spesielt velegnet til analyse av mange aktuelle prblemstillinger innen utdanningsfrløp, men vil gså kunne gi grunnlag fr studier av vergangen mellm f.eks. utdanning g arbeid. Styringsgruppen fr NUDB har bestått av seksjnssjef fr s360 Seksjn fr utdanningsstatistikk, Elisabetta Vassenden, kntrsjef fr s303 It-seksjnen ved avd. fr persnstatistikk Kristian Lønø/Tm Hansen, fra s360 Lise Styrk Hansen, Terje Risberg g Kjetil Digre. Det daglige arbeidet med å tilrettelegge data fr NUDB samt pprettelsen av frløpsdatabasen har vært utført av prsjektgruppa ved Avdeling fr persnstatistikk, SSB. Prsjektgruppa har bestått av persner fra både statistikkfaglig- (seksjn 360) g IT-faglig side (kntr fr IT, 303). Trill Vangen på seksjn fr beflknings- g utdanningsstatistikk er prsjektleder, mens Jhnny Jhansen fra Kntr fr IT (303) har hatt det IT-tekniske ansvaret fram til mars 2002, da Anders Akselsen vertk. Prsjektgruppa har ellers bestått av: fra s303 Knut Inge Bøe, Carina Nrdseth, Sheila Derakhshanfar g fra s360: Lise Styrk Hansen, Arild Rgnan, Astri Halsan Høiskar g Anne Marie Hlseter. I første del av prsjektet deltk gså Jrun Lajrd fra seksjn 350 Levekårsstatistikk. Prsjektet har hatt både en ekstern g en intern referansegruppe. Den interne referansegruppa hadde medlemmer fra ulike seksjner i SSB. Den eksterne referansegruppa bestd av representanter fra Utdannings- g frskningsdepartementet, Læringssenteret, Nrsk institutt fr studier av frskning g utdanning(nifu) g Frisch-senteret. Prsjektgruppen har valgt å tillegge dkumentasjnen av prsjektet str vekt. Dette gjelder dkumentasjn av dataene sm inngår i NUDB så vel sm dkumentasjn av aktivitetetene sm har vært frbundet med å bygge pp frløpsdatabasen. I dette ntatet er det dkumentert det arbeid sm er utført fr å spesifisere g bearbeide de ulike pplysningene m utdanningsperider samt arbeidet med å bygge pp frløpsdatabasen NUDB etter disse spesifikasjnene. Det har vært behv fr å bygge pp ett eget begrepsapparat (se vedlegg) rundt den mdellen sm er benyttet fr å sikre lik frståelse av de prblemstillingene g frslag til løsninger sm har blitt skissert underveis i prsjektet. Nedenfr følger en krt leseveiledning fr resten av dette ntatet: Kapittel 1 er en intrduksjn til hva NUDB er g hvrdan frløpsmdellen sm ligger bak fungerer. Her vil det i tillegg bli gitt en krt frklaring til de arbeidsprsesser sm har inngått i NUDB. 5

8 Arbeidsprsessene sm er beskrevet er allmenngyldige fr alle statistikkmråder sm benytter FDtrygds frløpsmdell. Kapittelet kan g bør leses av alle sm har tenkt å freta uttak av data fra NUDB, samt persner sm vurderer mdellen fr bruk i andre prsjekter under andre statistikkmråder. Persner fra Kntr fr IT (303) kan på frespørsel være behjelpelig med mer utdypende frklaringer ved behv. Kapittel 2 beskriver grunnlagsregistrene sm har vært benyttet sm input til NUDB, samt arbeidet med å knsistenssjekke data innad på filene, samt filene seg imellm. Kapittel 3 mhandler arbeidet med å tilrettelegge temprære arbeidsfiler sm har vært benyttet sm mellmsteg i arbeidet med å bygge pp NUDB. I dette ntatet g ellers i all dkumentasjn sm mhandler FD-Trygd-mdellen er det benyttet benevnelsen 'miniregister' m disse temprære arbeidsfilene. Det gis en gjennmgang av alle variabler fra grunnlagsregistrene sm tas med videre inn i NUDB, g beskrivelse av de kntrller sm er blitt utført på hver enkelt variabel i denne prsessen. Videre gis det en beskrivelse av alle mkdingsprsesser sm er gjennmført på de ulike kdelistene sm tilhører hver enkelt variabel. Kapittelet kan leses av alle sm ønsker å se på hvilke kntrller sm er utført på variablene, resultatene av disse g hvrdan mkdingen av eldre kdelister til nye har fregått. Kapittel 4 innehlder diagrammer med flytskjemaer fr de ulike prsessene i arbeidet med å bygge pp miniregistrene sm er mtalt i kapittel 3. Kan leses sm et suplement til kapittel 3. Kapittel 5 er en faglig beskrivelse av frløpstabellene i NUDB Kapittel 6 gir en versikt ver alle tabellene i NUDB, både frløpstabellene g andre tabeller. Alle variablene er linket mt definisjn g kdelister, sm gså er tilgjengelig på Kapittel 7 er samling av ulike statistikkfaglige spørsmål sm er gjennmgått ved pprettelsen av NUDB. Oversikten gir detaljerte statistikk- g IT-faglige vurderinger sm ligger bak de valg sm er fretatt mht. valg av variabler, kdelister, identifiserende nøkler etc.. Kapittel 8 gir en beskrivelse av dataene, både med hensyn til endringer i utdanningssystemet, endringer i innhentingssystemet fr utdanningsdataene g en versikt ver kjente feil g mangler i dataene. Bør leses av alle sm ønsker å vite ne m datagrunnlaget i NUDB. 6

9 1. Intrduksjn til NUDB 1.1. Bakgrunn fr mdellvalg Mdellen sm er benyttet i NUDB g tankegangen sm ligger bak design g implementering av denne er hentet fra prsjektet FD-Trygd. I FD-trygd har det siden 1996 vært utviklet g arbeidet med en frløpsmdell sm har resultert i en str g mfattende frløpsdatabase fr persndata. Eier av FD- Trygd er Seksjn fr levekårsstatistikk (350). FD-trygd prduserer i dag frløpsdata fr en rekke temaer innenfr mrådet trygdeytelser. I tillegg innehlder FD-Trygd mange andre typer persndata sm demgrafi-, inntekts- g frmues-, arbeidssøker- g utdanningsdata. Når det gjelder implementasjnen av utdanningsdata i FD-Trygd så har det vært et nært samarbeid mellm seksjn 360 g prsjektgruppen fr FD-Trygd. Frut fr NUDB hadde det fra Seksjn 360's side vært et uttalt ønske m å samle sine utdanningsdata i en felles database sm muligjrde enkle uttak av frløps- g tverrsnittsdata fr prduksjn av statistikk. I tilleg skulle databasen enkelt kunne benyttes fr utlevering av filer med gjennmstrømningsvariabler fr frskningsfrmål. Erfaringene fra, - g resultatene av samarbeidet med FD-Trygd var så psitive at det ble vedtatt å bygge pp NUDB etter samme mdell sm FD-Trygd. Vi vil i dette kapittellet frsøke å gi en krt innføring i mdellen sm er mtalt samt hvilke prinsipper sm ligger bak den. Arbeidet med å bygge pp et datavarehus sm NUDB kan grv deles inn i tre hvedaktiviteter: 1. Tilrettelegging av grunnlagsregistrene (se kapittel 2). 2. Tilrettelegging av miniregistrene (se kapittel 3). 3. Danning av frløp i datavarehuset (se kapittel 5). Punkt 1 g 2 er utført på fagsiden, mens punkt 3 er utført på IT-siden. Arbeidet med å bygge pp NUDB må likevel sees på sm en iterativ prsess hvr fag- g IT-siden i felleskap har løst de ulike prblemene sm har dukket pp underveis Definisjn av en frløpsdatabase Hva er en frløpsdatabase? En frløpsdatabase (g et datavarehus) er egentlig ikke ne mer enn en lgisk sammensetting av data sm er hentet fra allerede eksisterende perasjnelle systemer (les: grunnlagsfiler fr ffisiell statistikk), der data er strukturert g tilrettelagt fr analyse av sammenhenger mellm frtiden, nåtiden g fremtiden. Det essensielle i en frløpsdatabase er dateringen av hendelser. Med hendelser menes her endringer sm skjer innenfr hver enkelt variabel, samt verganger mellm viktige grupperingsvariabler (sk. hvedgrupper). En hvedgruppe kan f.eks. innehlde sklenivåene: grunnskle, videregående utdanning g høyere utdanning. I et slikt tilfelle vil vi datere verganger mellm f.eks. videregående utdanning g høyere utdanning fr hvert enkelt tilfelle. I tillegg dateres alle tilganger g avganger fr hvert enkelt tilfelle (sm ftest persn). Nye data sm tilføres/lastes inn i en frløpsdatabase, bygger på allerede "løpende" data i basen. Dvs. at nye data sammenliknes med de sist registrerte data i databasen. Regler sm er bestemt på frhånd avgjør hvrvidt nye data innehlder ny g interessant infrmasjn fr frløpsdatabasen eller ikke. Dersm det ved en slik sammenligning av datasett viser seg at det har vært endring av verdier i ett eller flere variabler så vil det genereres en ny recrd (i tillegg til allerede eksisterende recrds i databasen). På 7

10 denne nye recrden dateres både selve recrden sm en enhet, samt de av variablene sm har endret verdi. Dette er et viktig prinsipp sm gjør ss i stand til å finne ut hvilke endringer sm skjedde når Revisjn av frløpsdata I mer rdinære transaksjnsdatabaser vil innhldet i databasen bli endret (eldre pplysninger blir ppdatert med nye pplysninger) etter hvert sm tiden går. F.eks. innhldet i variabelen 'adresse' endre seg fr en persn sm flytter. I frløpsdatabaser er det viktig å ta vare på de gamle verdiene (f.eks. alle tidligere registrerte adresser) på det aktuelle tidspunktet de ble registrert. Dette fr å kunne "gjenskape" ethvert tidspunkt i bakver i tid. Hva med revisjn av data i databasen da? Enkelt sagt kan en si at i tradisjnelle databaser er det lett å ppdatere/endre på eksisterende data, men ne vanskeligere å endre struktur på mdellen "n the fly". Fr frløpsdatabaser er det mtsatt; det er vanskelig/uheldig å ppdatere data i basen etter at data er lagt inn, mens det er frhldsvis enkelt å endre struktur/legge til nye variabler etc. Dette gjør at det er ekstremt viktig å legge ned mye resurser i tilpasningen g tilretteleggingen av data før de lastes inn i frløpsdatabasen. Et eksempel: Etter at grunnlagsregister fr år YYYY er lastet inn i basen, så er data fra registeret fr YYYY-1 (g data fr alle tidligere innlagte register) låst i databasen fr "alltid". Dette siden neste kjøring (innlegging av data i frløpsdatabasen) alltid bygger videre på frrige kjøring Frdeler g ulemper ved den valgte mdellen Frdeler: Ved uttak av tverrsnittsdata fr en hvilken sm helst årgang benyttes ett prgram mt hver av maksimalt fire tabeller (KURS-, PERSON-, DEMOGRAFI- g/eller ppslagstabellen med bakgrunnspplysninger). Uttak kan utføres like enkelt fra Oracle sm fra SAS (PROC SQL). Svært mange ulike register ver en lang tidsperide er gjrt tilgjengelig fra nen få tabeller i en database, hvr variablene kan tas ut med betydelig mindre innsats enn tilfellet har vært fram til i dag. Det er enkelt å utføre ad-hc spørringer mt et hvilket sm helst tidspunkt i datamaterialet. Uttak av data til tabeller/studier av gjennmstrømning i utdanningssystemet er enklere å lage. Ulemper: Fr persner fra den statistikkfaglige siden av prsjektet kan de IT-tekniske løsningene sm mdellen støtter seg på, være ne vanskelig "å få tak på" til å begynne med. Det vil være en str utfrdring fr deltagerne fra IT-siden i prsjektet å gjøre mdellen g tankegangen bak mer frståelig fr deltagere fra andre fagmråder. Det er viktig å arbeide med å senke terskelen fr å sikre at dialgen mellm den statistikkfaglige- g den IT-faglige siden i prsjektet fregår på et så høyt faglig plan sm mulig. Uten et uttakssystem vil uttak av data fra et slikt datavarehus kreve dybdefrståelse av mdellen fr å sikre at riktige data tas ut til enhver tid. Et uttakssystem kan i sin enkleste frm være et prgrambiblitek med ferdigskrevet kde fr de mest vanlige uttakene slik sm uttak av data fr løpende statistikk etc Resultat Denne måten å rganisere data på kan ved første øyekast virke svært så plasskrevende. Det genereres trss alt nye rerds til databasen fr hver eneste hendelse sm skjer i datamaterialet! I praksis er det sm regel det mtsatte sm er tilfelle; at datamaterialet kmprimeres. Årsaken til dette er at nye data fte 8

11 ikke gir ss ny infrmasjn (i grunnlagsregistrene er det fte slik at nye recrds kun er rene gjentagelser av fregående recrds). I slike tilfeller registreres det ikke nen nye pplysninger i NUDB (det er ingen nye pplysninger å registrere). Samlet fører dette til at vi sm regel ppnår en betydelig kmprimeringsgevinst (typisk i frhldet 2:1-3:1) i frhld til tradisjnelle databaser g flate filer. Da grunnlagsfilene fr utdanningsdata er rganisert sm årsfiler med betydelige endringer mellm hver årsfil er ikke kmprimeringsgevinsten blitt sm på en del andre statistikkmråder i FD-Trygd. Bruk av mdellen har likevel gitt en frmidabel kmprimeringsgevinst mhp. antall recrds: Fr årene 1970 g fram til i dag (når er "i dag") har det vært benyttet ca. 115 milliner recrds fra ver 80 unike register fr å bygge pp datavarehuset NUDB. Ved en tilsvarende pptelling i NUDB finner vi igjen kun 75 milliner recrds frdelt på tre frløpstabeller g en ppslagstabell. Resultat fr NUDB En reduksjn på 40 milliner recrds fra de pprinnelige grunnlagsfilene Alle utdanningsdata fr periden 1970 g fram til i dag er gjrt sammenlignbare g enkelt tilgjengelig fr uttak av tverrsnitt g gjennmstrømning Det er nå mulig med ad-hc-spørringer mt alle årganger med utdanningsdata Alle tverrsnitt kan gjenskapes; fr hele periden fra 1970 g fram til i dag Alle utdanninger er kdet med NUS2000-kder; fr hele periden fra 1970 g fram til i dag Det er mulig (g fhv. enkelt) å kble utdanningsdata sammens med f.eks. arbeidssøker- g sysselsettingsdata fr frløpsanalyse av gjennmstrømninger mellm utdanning g arbeid Arbeidsflyten i NUDB prsjektet NUDB er bygd pp av ver 80 unike grunnlagsfiler (igangværende- g avsluttafiler, filer fr beflkningens høyeste utdanning, demgrafi-filer etc.) Det har vært lagt ned et betydelig arbeid i å spesifisere g hente ut data fr de variablene sm nå inngår i NUDB. Grunnlagsfilene sm inngår i NUDB har vært rganisert sm årsfiler med pplysninger knyttet til et bestemt tidspunkt. Under arbeidet med å tilrettelegge g kntrllere årsfilene slik at de blir sammenlignbare ver tid, er det laget et nytt sett med filer (heretter kalt miniregistre) fr de dataene sm hentes ut fra de ulike årsfilene. Miniregistrene er så blitt benyttet sm input til databasen hvr datatene bl.a. har vært igjennm nye knsistenskntrller i arbeidet med kvalitetssikre det arbeidet sm har vært utført på miniregistrene (arbeidet med knsistenskntrller av dataene pågår kntinuerlig, gså etter at dataene er lagt inn i frløpsdatabasen). Etter at dataene i miniregistrene fr hver enkelt årsfil er spesifisert g kntrllert har prsjektgruppas arbeid bestått i å mdellere dataene. Dette betyr krt frtalt å freta en mrganisering av dataene, f. eks. fra data per tidspunkt, til frløpsdata. Omrganiseringen til frløpsdata krever en nøye gjennmgang av mulig g relevant datering av pplysningene i miniregistrene g i de pprinnelige årsfilene fr utdanningsdata, slik at hendelser (sm beskrevet ver) blir ivaretatt g registrert på best mulig måte i frløpsdatabasen. I NUDB er slike hendelser registrert ved hjelp av egne datvariabler med frmat år, måned (YYYYMM). Etter at datamdelleringen er avsluttet har prsjektgruppas arbeid bestått i å prgrammere g utvikle rutiner fr danning av frløp g ilegg av data i databasen. På neste side er et diagram sm viser dataflyten sm er beskrevet venfr: 9

12 Grunnlagsfiler Bearbeidingsrutiner (SAS) Miniregistre Bearbeidingsrutiner (Oracle) Datavarehuset NUDB 10

13 2. Tilrettelegging av grunnlagsregistrene Det er tre hvedtyper av utdanningspplysninger sm er benyttet i NUDB;. data ver hvilken utdanning et individ til enhver tid er/har vært i gang med (igangværende), data ver hvilken type utdanning et individ har fullført ved ulike tidspunkt (avslutta), g til slutt data ver individets til enhver tids høyeste fullførte utdanning (BHU). I tillegg er det benyttet pplysninger fra diverse beflkningsfiler fr å bygge pp demgrafiske bakgrunnspplysninger. I arbeidet med å transfrmere data fra grunnlagsregistre, -sm er tverrsnittsfiler (årfiler), til frløpsdata har vi benyttet et mellmsteg hvr vi har dannet sk. miniregistre. Dette er flate filer sm danner grunnlaget fr hva sm er lagt inn i NUDB g disse innehlder transfrmerte- g tilrettelagte data fr de variablene sm nå inngår i NUDB. I kapittlene sm følger, er det en gjennmgang av hvilke spesifikasjner sm har vært lagt til grunn fr utarbeidelsen av miniregistrene fr de tre nevnte hvedtypene av utdanningspplysninger. I gjennmgangen har det gså vært aktuelt å mtale variable sm ikke er inkludert i NUDB, men sm fr eksempel nyttes til kntrllfrmål, eller ppbygging av andre (nye) variabler Beskrivelse av grunnlagsregistre Grunnlagsregistrene er årgangsfiler sm danner utgangspunkt fr dannelse av miniregistrene. Grunnlagsregistrene har ulik struktur g innhld. En årsak er at det stadig har tilkmmet, men gså frsvunnet variabler sm innhentes fra utdanningsinstitusjnene. Fr å lette innlastingen/danning av frløp i NUDB er det laget et sett identiske filer hva angår filbeskrivelse, - selv m ikke alle årgangsfilene innehlder de aktuelle variablene. I tillegg til at årgangsfilene behandles på denne måten, gjennmgår de gså ulike kntrller fr å sørge fr at pplysningene sm lastes inn i NUDB er så krrekt sm mulig. Det blir gså kblet på en del nye variabler på årgangsfilene. Ut i fra allerede eksisterende variabler på årgangsfilene knstrueres det gså nye variabler sm skal benyttes i NUDB. Nedenfr følger en gjennmgang av grunnlagsregistrene før bearbeiding til miniregistre Filidenter Samtlige filer er langtidslagret sm flate filer på Unix, g er dkumentert i DataDk. De ulike årgangene har imidlertid ne frskjellig filbeskrivelse Igangværende utdanning per 1.kt.: Årgangene har samme filbeskrivelse (se DataDk fr filbeskrivelse), g har følgende sti på UNIX: Årgang Filident UNIX 1974 $UTD/aargang/arkiv/igang_brutt/g1974.dat 1975 $UTD/aargang/arkiv/igang_brutt/g1975.dat $UTD/aargang/arkiv/igang_brutt/g1975.dat Årgangene fra 1987 g fremver har ne varierende filbeskrivelser (se DataDk fr filbeskrivelser), g har følgende sti på UNIX: Årgang Filident UNIX 1987 $UTD/aargang/arkiv/igang_nett/g1987.dat 1988 $UTD/aargang/arkiv/igang_nett/g1987.dat 1989 $UTD/aargang/arkiv/igang_nett_nus2000/g1989.dat 1990 $UTD/aargang/arkiv/igang_nett_nus2000/g1990.dat $UTD/aargang/arkiv/igang_nett_nus2000/g1999.dat 11

14 Avslutta utdanning i "skle"-året Årgangene til g med har samme filbeskrivelse (se DataDk fr filbeskrivelse), g ligger har følgende sti på UNIX: Årgang Filident UNIX 1974/75 $UTD/aargang/arkiv/avslutta_nus73/g1974g1975.dat 1975/76 $UTD/aargang/arkiv/avslutta_nus73/g1975g1976.dat /86 $UTD/aargang/arkiv/avslutta_nus73/g1985g1986.dat Årgangene til g med har ulik filbeskrivelse (se DataDk fr filbeskrivelser). Nen av årgangene har imidlertid samme filbeskrivelse. Filene ligger på følgende sti på UNIX: Årgang Filident UNIX 1986/87 $UTD/aargang/arkiv/avslutta_nus2000/g1986g1987.dat 1987/88 $UTD/aargang/arkiv/avslutta_nus2000/g1987g1988.dat /99 $UTD/aargang/arkiv/avslutta_nus2000/g1998g1999.dat Beflkningens høyeste utdanning (BHU) per 1.kt. Årgangen 1970 har egen filbeskrivelse, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1970 $UTD/utdnivaa/arkiv/nus2000/g1970.dat Årgangen 1980 har gså egen filbeskrivelser, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1980 $UTD/utdnivaa/arkiv/nus2000/g1980.dat Årgangene har lik filbeskrivelse, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1985 $UTD/utdnivaa/arkiv/nus2000/g1985.dat 1986 $UTD/utdnivaa/arkiv/nus2000/g1986.dat $UTD/utdnivaa/arkiv/nus2000/g1997.dat Årgangen 1998 har gså egen filbeskrivelser, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1998 $UTD/utdnivaa/arkiv/nus2000/g1998.dat Årgangene har lik filbeskrivelse, g ligger på følgende sti på UNIX: Årgang Filident UNIX 1999 $UTD/utdnivaa/arkiv/nus2000/g1999.dat 2000 $UTD/utdnivaa/arkiv/nus2000/g2000.dat 12

15 Filbeskrivelser fr grunnlagsregistrene I de neste kapitlene følger en gjennmgang av variabler på grunnlagsregistrene sm er benyttet fr ppbygging av NUDB. Gjennmgangen tar fr seg variablenes navn g beskrivelse av denne. Fr en mer detaljert beskrivelse av variablenes psisjn på filene, lengde, datatype sv. henvises det til DataDk. Nedenfr har vi listet pp hvilke variabler grunnlagsregistrene innehlder g hvilke variabler vi tar ut fra de ulike filene, samt frklaring på nen av variablene. Variabler sm ikke inngår i miniregistrene blir ikke mtalt nærmere Igangværende utdanning per 1.kt. g avslutta utdanning i løpet av året Igangværendefilene mfatter alle persner sm er i gang med en utdanning ut ver rdinær grunnskle per 1.kt. (SSB har ikke individdata fr igangværende utdanning på rdinær grunnskle.) Årgangene fr igangværende utdanning var i utgangspunktet "bruttfiler". Det vil si at et individ kan være registrert med å være i gang med flere enn et kurs/enkeltutdanninger per 1.kt.. Disse filene er gjrt m til "nettfiler" i bearbeidingen til dannelse av miniregister. Det vil si at kun en av utdanningene et individ er registrert igangværende med, er tatt med videre inn i miniregisteret, g derfra videre inn i databasen. De andre igangværende-årgangene er nettfiler. Seleksjnen av hvilket kurs/enkeltutdanning sm tas med videre er gjrt på følgende måte: Først velges den utdanningen sm er registrert sm heltid. Dersm det er flere utdanninger fr et individ sm er registrert sm heltid, blir det kurset/enkeltutdanningen sm hadde det høyeste klassetrinnet valgt ut, g tatt med videre til databasen. Dersm det ennå er flere kurs/enkeltutdanninger registrert sm igangværende fr samme individ, blir det kurset sm har det høyeste utdanningsnivået av disse valgt ut, g tatt med videre inn i basen. Utdanningsnivået bestemmes av første siffer i NUS73. NUS73 er utdanningsstandarden sm ble benyttet på disse årgangene. Dess høyere siffer, dess høyere utdanningsnivå. Denne utvelgelsesstrategien viser seg å fjerne samtlige "dubletter", slik at vi sitter igjen med bare et igangværende kurs/enkeltutdanning per individ. Filårgangene fra 1987 til nyeste fil er nettfiler, g utvelgingen av hvilken utdanning sm skal være med er allerede fretatt før tilretteleggingen av filene til miniregistrene. Avsluttafilene mfatter alle persner sm avslutter grunnsklen, eller avslutter/avbryter videregående skle eller høyere utdanning. Avsluttafilene fr år t innehlder pplysninger m avsluttet utdanning i periden 1.kt. år t-1 til 30.sept. år t. Vi starter med pplysningene fra avsluttafil 1974/75. Avsluttafilene er bruttfiler. Det vil si at alle kurs/enkeltutdanninger sm en persn avslutter (fullfører eller avbryter) i løpet av et år blir registrert i fila. Nedenfr følger en gjennmgang av hvilke variabler sm finnes på årgangsfilene: Utdanningens art Denne variabelen tilsvarer variabelen utdanningens art (mkdet) i filen fr høyeste fullførte utdanning. Kdene følger "Standard fr utdanningsgruppering (NUS)". NUS finnes i flere utgaver, g det varierer hvilken utgave sm ligger på filene. Disse har NUS73. På grunn av dette må filene gjennm en mkdingsprsess, da vi kun skal ha med kdene fra de t siste utdanningsstandardene NUS89 g NUS2000. NUS73 kdes først m til NUS89, g deretter fra NUS89 til NUS2000 Klassetrinn Fr studenter ved universitetene har fagseksjnen et eget prgram fr ppjustering av klassetrinn. Fr videregående skler g høyskler settes klassetrinn av sklen med utgangspunkt i kurset eleven/studenten går på. Hvis studenten skifter mellm høyskle g universitet, eller endrer studiemål, kan klassetrinn derimt være mindre representativ fr den faktiske prgresjnen studenten har. I 13

16 NUS2000 er klassetrinnene annerledes enn i tidligere versjner av NUS. Miniregistrene vil derfr pålegges disse klassetrinnene m de ikke skulle finnes på grunnlagsregistrene. Filene har klassetrinn sm krrespnderer med NUS73. Variabelen kdes derfr m i bearbeidingen. Dette gjøres ved å først kde m NUS73 klassetrinnene til NUS89 klassetrinn. Deretter kdes disse m til NUS2000 klassetrinn. Heltid/deltid Dette er en variabel sm i utgangspunktet blir satt av sklen ut i fra m kurset er ment å utgjøre et fulltidsstudium. På Avsluttafilene blir alle studenter ved universitetet kdet sm heltidsstudenter. På igangværendefilene blir imidlertid universitetsstudentene registrert på heltid/deltid etter gitte kriterier - f.eks. frventet studieprgresjn. Kursets påbegynningstidspunkt (Mnd/år) Tas med dersm det ikke finnes pplysninger m starttidspunkt på kjennemerket 'Elevens påbegynningstidspunkt' Kursets avslutningstidspunkt (Mnd./år) Tas med dersm det ikke finnes pplysninger m sluttidspunkt på kjennemerket 'Elevens avslutningstidspunkt' SSBs sklenummer Denne variabelen endrer navn til 'inr' i miniregistrene. Klassebetegnelse Ikke i NUDB Vksenpplæring Variabelen viser m kurset er en utdanning sm går inn under lv m vksenpplæring. Variabelen er ikke med i dataene fra 2000 Variabelen har kdene: Vksenpplæring = 1 Ikke vksenpplæring = 2 Hjelpenummer fr RVO-kde ikke i NUDB Linjenummer ikke i NUDB Fødselsnummer Elevens-/studentens fødselsnummer. Utfall Variabelen viser m persnen har avbrutt eller fullført kurset. Hvedregelen er at utdanning regnes sm fullført når vitnemål utstedes. Fr nen kurs blir det imidlertid ikke utstedt vitnemål. Disse blir gså registrert sm fullført. Kdene fr variabelen er: Ikke fullført/avbrutt = 2 Fullført = 8 På igangværendefilene settes utfall til blank. Utfall detaljert Variabelen er mer detaljert enn Utfall g varierer mellm ulike skleslag. Variabelen er blank før 1995, g bare delvis utfylt senere. Kdene fr variabelen er: A = Annen vurdering.har fullført kurs særskilt tilrettelagt innenfr læreplanverket. Fullført individuelt pplegg. Utfall=2. Kilde 20 B = fullført med vitnemål/årskursbevis, bestått. Utfall 8. Kilde20 C = Ikke sensurert. Utfall=2. Kilde 40,41 14

17 D = Ikke bestått. Utfall=2. Kilde 40,41 F = Bestått fagprøve. Utfall = 8. Kilde 21 G = Meget bra bestått fagprøve. Utfall = 8. Kilde 21 I = Fullført med vitnemål/årskursbevis,ikke bestått. Utfall =8 i Refrm94, utfall=2 tidligere. Kilde20. (i ettertid endret i NUDB til utfall 2, avbrutt, gså fr R94) M = Mangler vitnemål/årskursbevis. Har fullført uten vurdering i ett eller flere fag, f.eks. ved strt fravær. Utfall=2. Kilde20 N = Ikke bestått fagprøve. Utfall = 2. Kilde 21 O = Alternativ VKII i skle. Utfall = 2. Kilde 20 P = Bestått: Utfall=8. Kilde 40,41 S = Sluttet/avbrutt i løpet av året. Utfall2. Kilde20 X = Ikke utfylt fra skle. Utfall = 8. Kilde 20 2 = Ikke fullført. Utfall=2. Kilde 10,21,22,23,24 g = Fullført. Utfall=8. Kilde 10,21,22,23,24 g Elevens påbegynningstidspunkt mmåå Gir pplysninger m når eleven påbegynte gjeldende utdanning Elevens avslutningstidspunkt mmåå Gir pplysninger m når eleven avsluttet gjeldende utdanning Sklekmmune Gir pplysninger m hvilken kmmune sklen befinner seg i Næringskde Denne variabelen endrer navn i miniregistrene. Fr årganger fra kalles den fr 'SN72'. Fr årganger fra kalles den 'SN78', g fra årgangen 1994 g fremver kalles den 'SN94'. Sklegruppe har samme innhld sm i variabelen i avsnittet ver Denne variabelen endrer gså navn i miniregistrene. Fr årganger fra kalles den fr 'SN72'. Fr årganger fra kalles den 'SN78', g fra årgangen 1994 g fremver kalles den 'SN94'. Eierfrhld, umkdet Bstedskmmune Gir pplysninger m i hvilken kmmune eleven br i. Dette kan være frskjellig fra sklekmmune. Kjønn Alder Mann = 1 Kvinne = 2 Alder1, mkdet Alder2, mkdet Påbegynnelsestidspunkt Danner kjennemerket 'startd' fr årgangene Avslutningstidspunkt Danner kjennemerket 'sluttd' fr årgangene

18 Elevstatus Bsted kntra sklekmmune Studieretningskde Variabelen benyttes til å lage nye variabler på miniregistrene ('Studretn', 'Kurstrin'). 'Studretn' lages av de t første sifrene i kden, mens 'Kurstrin' lages av det femte sifferet. Utdanningens art, ny inndeling katalg Variabelen benyttes til å lage nye variabler på miniregistrene ('Studretn', 'Kurstrin'). 'Studretn' lages av de t første sifrene i kden, mens 'Kurstrin' lages av det femte sifferet. Eierfrhld, mkdet Gir pplysninger m sklen er statlig, fylkeskmmunal/kmmunal eller privat: Sklekmmunetype Bstedskmmunetype Elever, påbegynt, mkdet Elever, avsluttet, mkdet Omkdet sklegruppe Skleslag, mkdet Gir pplysninger m hvilken skle det her er tale m; grunnskle, videregående-skle, eller universitet/høgskle. Grunnskle = 1 Videregående-skle = 2 Universitet/høgskle = 3 ISCED Dette er den gamle ISCED-kden (1976) Fødeland Statsbrgerskap Frdyp Frdypningsfag NUS2000 NUS2000-kden Kltrinn2000 Klassetrinn etter NUS2000-kden Kdetype Gir pplysninger m dette er en samlekde eller en enkeltutdanning i NUS2000 Samlekde =1 Enkeltutdanning = 2 16

19 Uhg2000 Gruppering av universitets- g høgskleutdanning. Variabelen skifter navn til 'Uhgruppe' i miniregisteret Det ser ut sm nen variable er listet pp 2 ganger - se ISCED på frrige side I97ISCED Den internasjnale utdanningskden ISCED97 I97destn ISCED97, tilleggsdimensjnen 'Destinatin' I97rien ISCED97, tilleggsdimensjnen 'Orientatin' I97varig ISCED97, tilleggsdimensjnen 'Varighet' I97grads ISCED97, tilleggsdimensjnen 'Gradsstruktur' Naering Næringskde 1994 Hgskle Gir pplysninger m hvilket høgsklesentra utdanningen er tatt ved Innvkat Landbak Hskde Gir pplysninger m hvilken høgskle studiet er tatt på Kmpetanse i videregående Gir pplysninger m hvilken kmpetanse eleven har fått etter sin utdanning. Gjelder videregående utdanning g kan kun benyttes fr data fra g med Utd Gruppering av skleslag. Gir pplysninger m hvilken type skle utdanningen er tatt ved. Studretn Studieretning. Gir pplysninger m hvilken studieretning på videregående skle gjeldende utdanning er tatt ved Kurstrin Kurstrinnskde. Gir pplysninger m hvilket kurstrinn utdanningen er tatt på Et av frmålene med NUDB er å finne den periden en persn er under utdanning. Vi har derfr tatt med ss både elevens/studentens g kursets start- g sluttdat, men har bare benyttet kursets start- g sluttdat dersm elevens/studentens dater ligger med blank. Det vil si at det bare er én start, g én sluttdat sm er tatt med videre. På igangværendefilene har vi kun benyttet startdaten fra filene. Vi har kun vært interessert i å finne ut når eleven/studenten påbegynte utdanningen sin på disse filene. Variabelen 'Sklegruppe' eller 'Næringskde' angir "skletype" g tar utgangspunkt i sklen, ikke hvilke kurs studentene leser. Variabelen har t sifre, g dette tilsvarer de t siste sifrene i den femsifrede kden i Standard fr næringsgruppering (fr undervisningssektren) sm gjaldt til g med Denne 17

20 variabelen skal benyttes til å finne ut hvilke studenter sm studerer ved universitetene. Dette har betydning fr å kde hvedgruppevariabelen. Vi lager gså en variabel på miniregistrene, kalt 'Univ' sm markerer fr de sm studerer på universitetene Beflkningens høyeste utdanning per 1.ktber Registeret ver beflkningens høyeste utdanning mfatter persner registrert bsatt i Nrge per 1.kt., sm per 31/12 er 16 år g ver. I tillegg registreres 15-åringer sm har fullført grunnsklen eller sm er i gang med en utdanning utver grunnsklenivå. Opplysningene m høyeste fullførte utdanning blir ppdatert hvert år med pplysninger fra individfilene ver avsluttet utdanning. Fra g med filen per 1.kt blir filen gså ppdatert med pplysninger m utdanning fullført i utlandet (pplysninger fra Statens lånekasse fr utdanning). Opplysningene m utenlands-utdanning dekker utdanning fullført i utlandet, av lånekassens kunder, fra g med skleåret 86/87. Våren 1991 ble det hentet inn på skjema pplysninger m eksamen avlagt i utlandet av utenlandsfødte persner sm hadde innvandret til Nrge fr første gang mellm 1/ g 31/ , g sm var 16 år g ver ved utgangen av første innvandringsåret. Denne undersøkelsen het "Utdanning fullført i utlandet", g en tilsvarende undersøkelse ble gså gjennmført i Respndentene i den siste undersøkelsen var alle med utenlandsk bakgrunn sm var registrert bsatt i Nrge g sm st med uppgitt utdanning i registeret ver beflkningens høyeste utdanning. Også frafallsgruppen i undersøkelsen fra 1991 var inkludert. I tillegg ble nrdmenn sm bdde i utlandet da BHU ble pprettet i 1970 sm st med uppgitt BHU tatt med i undersøkelsen i Det har ikke vært mulig å utarbeide BHU-status fr 1981, 82, 83 g 84. Dette skyldes tekniske prblemer knyttet til mleggingen av Det sentrale persnregisteret. SSB har derimt utarbeidet BHUstatus hvert år siden 1985, basert på bearbeiding av filene fr avsluttet utdanning. Dagens register tillater en løpende ajurføring. BHU-filene er nettfiler i det persner er enhet. Persner sm har fullført mer enn en utdanning, er bare registrert med den høyeste av utdanningene. Det vil si at den utdanningen sm har det høyeste nivået, er registrert. Hvis en persn har fullført flere utdanninger på samme nivå, er det den utdanningen med høyeste fullføringstidspunkt sm er registrert. Alle utdanninger i SSBs utdanningsstatistikk har fått sekssifrede utdanningskder etter den nrske standarden fr utdanningsgruppering (NUS). Dette gjelder gså BHU. Utdanningsstandarden ble første gang utarbeidet i 1970, g deretter revidert i 1973, 1989 g nå sist i 2000 (NUS2000). Ved publisering av SSBs statistikk ver BHU benyttes det t alternative utdanningsvariabler fr å beskrive fullført utdanning. Dette har sin bakgrunn i vergangen fra sjuårig flkeskle til niårig grunnskle. I den umkdede utdanningsvariabelen er grunnleggende ettårig fagutdanning avlagt før basert på sjuårig flkeskle g ett års framhaldsskle plassert på grunnsklenivå. I den mkdede utdanningsvariabelen er tilsvarende utdanning plassert på videregående sklenivå. Hvis man vil belyse utdanningsnivå etter utdanningens kmpetanse, bør den mkdede variablene benyttes. Vi har valgt å kun legge inn mkdet utdanningsvariabler inn i Nasjnal utdanningsdatabase (NUDB). I tillegg til NUS registreres gså den internasjnale standarden fr utdanningsgruppering Internatinal Standard Classificatin f Educatin (ISCED), sm ble utarbeidet av UNESCO på 1970-tallet g ble sist revidert i 1997 (ISCED97). I frbindelse med revisjnen av den nrske standarden fr utdanningsgruppering er det utarbeidet en nøkkel mellm den g ISCED97, der hver NUS-kde har en henvisning til en internasjnal kde med tilhørende tilleggesdimensjner. Et kryss indikerer at variabelen tas med inn i miniregisterene fr BHU. 18

21 Filbeskrivelse av BHU-1970 g hvilke variabler sm tas med inn i miniregisteret BHU-70 Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune kjenn Kjønn. 1 = mann, 2 = kvinne NUS73u NUS73 umkdet kltr73 Klassetrinn73 x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen x uhgruppe_ Universitets g høgsklegruppering, skifter navn til 'uhgruppe' i NUDB x I97ISCED ISCED97-kde, mkdet x I97destn ISCED97, tilleggesdimensjnen destinatin, mkdet x I97rien ISCED97, tilleggesdimensjnen rientatin, mkdet x I97varig ISCED97, tilleggesdimensjnen varighet, mkdet x I97grads ISCED97, tilleggesdimensjnen gradsstruktur, mkdet Filbeskrivelse av BHU-1980 g hvilke variabler sm tas med inn i miniregisteret BHU-80 Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune flyttdat Dat fr flytting alderu Alder ved utgangen av året kjnn Kjønn. 1 = mann, 2 = kvinne pphld Dat fr første pphld i Nrge x statbrg Statsbrgerskap. NB er blank i denne årgangen fdeland Fødeland x nusukd NUS89 umkdet kltrinnu Klassetrinn NUS89 umkdet x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet fulland Fullføringsland fulldat Fullføringstidspunkt (YYYYMM) isced ISCED-kde x pedsem Fullført praktisk-pedaggisk utdanning nusigang Utdanningens art NUS89, igangværende utdanning kltrtinn Klassetrinn igangværende utdanning, NUS89 heldel Heltid/deltid. 1 = heltid, 2 = deltid sklekm Sklekmmune start Påbegynningstidspunkt x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen NUS2000u NUS2000 umkdet x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen nus2000i NUS2000, igangværende utdanning kltrinn2000i Klassetrinn NUS2000 igangværende utdanning x uhgruppe_ Universitets g høgsklegruppering, mkdet. Skifter navn til 'uhgruppe' i NUDB uhgruppe_i Universitets g høgsklegruppering, igangværende utdanning x I97isced ISCED97-kde, mkdet 19

22 BHU-80 Variabelnavn Variabelbeskrivelse x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97varig ISCED97, varighet, mkdet x I97grads ISCED97, gradsstruktur, mkdet Filbeskrivelse av BHU g hvilke variabler sm tas med inn i miniregisteret BHU Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune flyttdat Dat fr flytting alderu Alder ved utgangen av året kjnn Kjønn. 1 = mann, 2 = kvinne pphld Dat fr første pphld i Nrge x statbrg Statsbrgerskap. Er blank i 1985, g er kblet på årgangene fra 1986 til Opprinnelig på filene fra 1990 til fdelad Fødeland nusukd NUS89 umkdet kltrinnu Klassetrinn NUS89 umkdet x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet fulland Fullføringsland fulldat Fullføringstidspunkt isced ISCED-kde, knyttet til 'nusmkd' x pedsem Fullført praktisk-pedaggisk utdanning nusigang Utdanningens art NUS89, igangværende utdanning kltrtinn Klassetrinn igangværende utdanning, NUS89 heldel Heltid/deltid. 1 = heltid, 2 = deltid sklekm Sklekmmune start Påbegynningstidspunkt x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen NUS2000u NUS2000 umkdet x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen nus2000i NUS2000, igangværende utdanning kltrinn2000i Klassetrinn NUS2000 igangværende utdanning x uhgruppe_ Universitets g høgsklegruppering, mkdet. Skifter navn til 'uhgruppe' i NUDB uhgruppe_i Universitets g høgsklegruppering, igangværende utdanning x I97isced ISCED97-kde, mkdet x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97varig ISCED97, varighet, mkdet x I97grads ISCED97, gradsstruktur, mkdet Filbeskrivelse av BHU-1998 g hvilke variabler sm tas med inn i miniregisteret BHU-98 Variabelnavn Tekst x fnr Fødselsnummer x kmmnr Bstedskmmune flyttdat Dat fr flytting alderu Alder ved utgangen av året 20

23 BHU-98 Variabelnavn Tekst kjnn Kjønn. 1 = mann, 2 = kvinne pphld Dat fr første pphld i Nrge x statbrg Statsbrgerskap. Er blank i 1985, g er kblet på årgangene fra 1986 til Opprinnelig på filene fra 1990 til fdelad Fødeland nusukd NUS89 umkdet kltrinnu Klassetrinn NUS89 umkdet x nusmkd NUS89 mkdet. Skifter navn til 'NUS89' i basen kltrinn Klassetrinn89 mkdet fulland Fullføringsland fulldat Fullføringstidspunkt isced ISCED-kde, knyttet til 'nusmkd' x pedsem Fullført praktisk-pedaggisk utdanning nusigang Utdanningens art NUS89, igangværende utdanning kltrtinn Klassetrinn igangværende utdanning, NUS89 heldel Heltid/deltid. 1 = heltid, 2 = deltid sklekm Sklekmmune start Påbegynningstidspunkt x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen NUS2000u NUS2000 umkdet x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen nus2000i NUS2000, igangværende utdanning kltrinn2000i Klassetrinn NUS2000 igangværende utdanning x uhgruppe_ Universitets g høgsklegruppering, mkdet. Skifter navn til 'uhgruppe' i NUDB uhgruppe_i Universitets g høgsklegruppering, igangværende utdanning x I97isced ISCED97-kde, mkdet x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97grads ISCED97, gradsstruktur, mkdet x I97varig ISCED97, varighet, mkdet Filbeskrivelse av BHU-1999 g hvilke variabler sm tas med inn i miniregisteret BHU99 Variabelnavn Variabelbeskrivelse x fnr Fødselsnummer x kmmnr Bstedskmmune alder Alder ved utgangen av året kjenn Kjønn. 1 = mann, 2 = kvinne fdat Dat fr første pphld i Nrge x statbrg Statsbrgerskap fdeland Fødeland invkat Innvandringskategri landbak Landbakgrunn NUS2000u NUS2000 umkdet kltrinn2000u Klassetrinn NUS2000 umkdet x NUS2000_ NUS2000 mkdet. Skifter navn til 'NUS2000' i basen x kltrinn2000_ Klassetrinn2000 mkdet. Skifter navn til 'kltrinn2000' i basen x fulland Fullføringsland x fulldat Fullføringstidspunkt (YYYYMM) x pedsem Fullført praktisk-pedaggisk utdanning 21

24 BHU99 Variabelnavn Variabelbeskrivelse x kildebhu Kilde fr BHU-pplysning x I97isced ISCED97-kde, mkdet x I97destn ISCED97, destinatin, mkdet x I97rien ISCED97, rientatin, mkdet x I97varig ISCED97, varighet, mkdet x I97grads ISCED97, gradsstruktur, mkdet x uhgruppe Universitets g høgsklegruppering NUS2000_i Utdanningens art NUS2000, igangværende utdanning kltrtinn_i Klassetrinn igangværende utdanning, NUS2000 heldel_i Heltid/deltid, igangværende utdanning rgnr_i Organisasjnsnummer, igangværende utdanning sklekm_i Sklekmmune, igangværende utdanning Ikke alle BHU-filer har alle variablene det er krysset av fr. Imidlertid får de "kblet på" variabelen i miniregisteret med pplysninger der vi har kunnet framskaffe dem, g er blank der pplysningene mangler fr hele årgangen. Fra g med årgang 2000 blir BHU-filene ikke lastet inn i basen, frdi fra g med dette året vil alle data sm er benyttet til å ppdatere Bhu gså ligge på årgangsfilen fr avsluttet utdanning Krreksjner g kntrller Fødselsnummerkntrll Det er kjørt samme type fødselsnummerkntrll fr hele NUDB. Prgrammet fr dette ligger på: $UTD/nudb/prg/sas/mrk_fnr.sas. Siden avsluttafila innehlder dubletter mht. FNR, så kjøres fødselsnummerkntrllen fr disse data på en litt annen måte (se neste punkt). Prgrammet fjerner dubletter kun på grunnlag av fødselsnummer g behlder den første recrden av de like fødselsnummerene. I tillegg markerer prgrammet ugyldige fødselsnummer med variabelen 'mrk_fnr'. Kdelisten fr mrk_fnr ser slik ut: 0 = Gyldig fødselsnummer 1 = Gyldig d-nummer 2 = Ugyldig fødselsnummer sm består av blankt persnnummer 3 = Ugyldig fødselsnummer sm ikke mfattes av 1 g Dublettkntrller Utføres på filene fr å luke ut uønskede dubletter. Nedenfr er beskrivelser av de algritmer sm er benyttet på de frskjellige filene fr å løse prblemene med uønskede dubletter Igangværendefilene: På igangværendefilene skal det ikke frekmme dubletter i fødselsnummer. Dublettene her defineres derfr bare ved fødselsnummer alene, g fjernes derfr i fødselsnummerkntrllen Avsluttafilene: Registrene fr avslutta utdanning er bruttfiler, g har derfr fødselsnummerdubletter. Det skal ikke frekmme t like kurs (lik NUS-kde) sm løper samtidig i NUDB. Like kurs sm er verlappende i tid slås sammen. Det vil si at vi tar startdat fra det kurset sm har startet først, g sluttdat fra det kurset sm er avsluttet sist. Srteringen sm er benyttet til å kntrllere recrds mt hverandre er: 22