Partielt fråfall av yrkesdata i Arbeidstakerregisteret



Like dokumenter
Notater. Ole Villund. Partielt frafall av yrkesdata i Arbeidstakerregisteret. 2003/80 Notater 2003

GSI 2014/15: Voksne i grunnskoleopplæring

Notater. Ole Villund. Klassifisering ved hjelp av tekst - noen resultater fra yrkeskodingen i Arbeidskraftundersøkelsen. 2006/10 Notater 2006

Notater. Ole Villund. Evaluering av omkodingen fra stillingskode til yrkeskode i Statens sentrale tjenestemannsregister (SST) Korrigert 24.1.

Om tabellene. Februar 2016

Om tabellene. Mars 2015

Hvorfor tar selvstendig næringsdrivende fedre kortere foreldrepermisjon?

2004/46 Notater Ole Villund. Notater. Yrke i sysselsettingsstatistikken. Seksjon for arbeidsmarkedsstatistikk

Juni NNU andre kvartal 2014 Utarbeidet for Altinn. Norges næringslivsundersøkelser - NNU

// PRESSEMELDING nr 1/2013. Pressemelding fra NAV Sør-Trøndelag

ARBEIDSKRAFTBEHOVET ->

Tall fra Grunnskolens informasjonssystem (GSI) 2012/13

Omfanget av deltidsarbeid

Styringsdata for fastlegeordningen, 4. kvartal 2014 Skrevet av Per Øivind Gaardsrud

Notater. Ole Villund. Automatisk koding av yrke i Arbeidstakerregisteret. 2001/70 Notater 2001

Mindre skjemavelde, sikrere tall

OMNIBUS UKE WWF. Deres kontaktperson Tom Endresplass Tom.Endresplass@Visendi.no. Periode Start Avsluttet

Hvilke rekrutteringskanaler benytter bedriftene?

VEILEDNING TIL STATLIGE ARBEIDSGIVERE OM OVERGANG FRA STILLINGSKODER TIL YRKESKODER

Om tabellene. Januar 2018

Analyser karakterstatistikk for grunnskolen 2009

Rapport om lokal brukerundersøkelse høsten 2014 ved NAV Ås

ARBEIDS- OG VELFERDSDIREKTORATET STYRINGSDATA FOR FASTLEGEORDNINGEN, 4. KVARTAL 2006

Om tabellene. April 2014

Om tabellene. November 2012

Om tabellene. Juni 2016

Nedgang i legemeldt sykefravær 1

Om tabellene. Desember 2015

En lavere andel arbeidsledige mottar dagpenger

unge i alderen år verken jobbet eller utdannet seg i 2014

Næringslivets Hovedorganisasjon. Lønnsstatistikk for funksjonærer

Juli NNU - rapport Utarbeidet for Altinn. Norges næringslivsundersøkelser - NNU

Ole Villund. Yrke i Arbeidstakerregisteret. o z 8 : (0 V) NB Rana Depotbiblioteket. 2003/79 Notater 2003

Mai Bedriftsundersøkelsen 2015 Akershus

Hva forklarer variasjonen i legemeldt fravær mellom kommunene i Oppland? Sektor, næring, befolkning og sysselsetting

Verdiskapning i landbruksbasert matproduksjon

Næringsstruktur målt i antall sysselsatte for årene 2002 og anleggsvirksomhet. Kraft- og vannforsyning Bygge- og

Sammenligning av sykefraværsstatistikker i KS, SSB og enkeltkommuner

*** Spm. 1 *** Er du...

Permitteringsperiodens varighet og tilbakekalling til permitterende bedrift

*** Spm. 1 *** Hvor mange elever er det på den skolen du jobber på?

Hovedtall om arbeidsmarkedet juli 2007

Hovedtall om arbeidsmarkedet januar 2010

Avtalt arbeidstid og arbeidstidsordninger. 1. Arbeidstidsordninger - definisjoner

6. Arbeidsliv og sysselsetting

Rapport om. lokal brukerundersøkelse høsten 2015 ved NAV Malvik

Om tabellene. Juni 2019

Styringsdata for fastlegeordningen, 1. kvartal 2008 Skrevet av Jon Petter Nossen, 23. april 2008

Juni Bedriftsundersøkelsen 2016 Akershus

Stor etterspørsel etter arbeidskraft i Sør-Trøndelag

Om tabellene. Juni 2014

Om tabellene. Juli 2014

Om tabellene. Mars 2014

Deres kontaktperson Anne Gretteberg Analyse Tone Fritzman Thomassen

Om tabellene. Oktober 2016

Om tabellene. September 2016

Q1 Ditt kjønn: Studentundersøkelsen / 26. Answered: 1,124 Skipped: 0. Kvinne. Mann 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 79.

Om tabellene. Desember 2013

Tall fra Grunnskolens informasjonssystem (GSI) 2013/14

// PRESSEMELDING nr 18/2012

Om tabellene. August 2016

Om tabellene. Juli 2015

ARBEIDS- OG VELFERDSDIREKTORATET / STATISTIKKSEKSJONEN

1. Arbeidssøkere fordelt på hovedgrupper og kjønn

Bedriftsundersøkelse

Om tabellene. Mars 2017

Om tabellene. Oktober 2017

Figur 1. Utviklingen i legemeldt sykefravær i prosent i alt og etter kjønn, 2. kvartal kvartal kv kv.

Om tabellene. Januar 2017

Om tabellene. Mai 2017

Om tabellene. September 2017

Om tabellene. November 2017

Om tabellene. Juli 2017

Om tabellene. August 2017

Deres kontaktperson Jens Fossum Analyse Tone Fritzman Thomassen

Hovedtall om arbeidsmarkedet februar 2009

Om tabellene. Juli 2019

Om tabellene. September 2019

Arbeidsmarkedet nå juni 2006

ARBEIDS- OG VELFERDSDIREKTORATET STYRINGSDATA FOR FASTLEGEORDNINGEN, 1. KVARTAL 2006

Om tabellene. April 2016

Notat. Arbeidsgiver- /Arbeidstakerregisteret - konsistens med andre datakilder

Om tabellene. Mars 2018

Hovedtall om arbeidsmarkedet august 2010

Det norske utdanningssystemet - struktur

Sykefravær blant gravide

Meningsmåling Holdninger til Forsvaret

ARBEIDS- OG VELFERDSDIREKTORATET / STATISTIKK OG UTREDNING

Aksepterte årsaker til sykefravær holdninger i de fem nordiske landene - resultater for Norge

Opplæring gjennom Nav

Ungdom arbeid og velferd. Truls Nordahl, NAV Rogaland

R A P P O R T. Axxept. Befolkningsundersøkelse om energimerking av boliger i Norge

Figur 1. Utviklingen i legemeldt sykefravær i alt og etter kjønn, 2. kvartal kvartal Prosent. 3. kv. 2004

Resultater NNUQ IMDi

// Månedstall arbeidsmarkedet - Østfold februar 2013

Akershus. Nordland, Troms og Finnmark. Stavanger. Bergen. Agderfylkene. Hordaland, Sogn og Fjordane. Møre og Romsdal og Trøndelagsfylkene

Analyse av søkertall 2010

Kvalitet på yrke i registerbasert statistikk Resultater og videre utfordringer

Bedriftsundersøkelsen 2015 Østfold

// PRESSEMELDING nr 6/2010

Transkript:

/8 Notater I o 8 Ole Villund Partielt fråfall av yrkesdata i Arbeidstakerregisteret s i-> NB Rana Depotbiblioteket I Seksjon for arbeidsmarkedsstatistikk Emnegruppe: 6.

Innhold Innledning Bakgrunn for yrkesklassifisering Fråfall av yrkesdata. Manglende innlevering. Uspesifikke titler. Andre problematiske titler. Yrkeskoder levert av arbeidsgiver Fob og sysselsettingsstatistikk. Prioritering. Noen problemområder i forhold til modellering. Konklusjon for sysselsettingsstatistikken 5 5 Justering for fråfall av yrke i Arbeidstakerregisteret 5 5. Data 5 5. Frafallsmodeller 7 5. Imputering \\ 6 Planer 6 De sist utgitte publikasjonene i serien Notater 7

Innledning Dette notatet har bakgrunn i notatet "Yrke i Arbeidstakerregisteret" (, Ole Villund ved Seksjon for arbeidsmarked), og en innleveringsoppgave i forbindelse med kurs i statistiske metoder SMOS-. Det presenteres metoder for å justere for partielt fråfall av yrke i Arbeidstakerregisteret, og anbefalinger for produksjon av statistikk. Mye av metodikken bygger på kursnotat av Li Chun Zhang. Målgruppen er brukere av yrkesvariabelen ved Seksjon for arbeidsmarked, og andre interesserte. I hovedsak diskuteres yrke i Arbeidstakerregisteret, men det er også et avsnitt om de nye registerbaserte sysselsettingsstatistikken. Den baserer seg på flere andre registre enn Arbeidstakerregisteret og ble første gang publisert i forbindelse med Folke- og boligtellingen (FoB). FoB inneholdt ikke yrkesstatistikk som følge av fråfall og usikker kvalitet av yrke i Arbeidstakerregisteret på det tidspunktet. Videre er det slik at sysselsatte fra andre registre mangler yrkesdata. Dette gjelder f.eks. kortvarige jobber som finnes i Lønns- og trekkoppgaveregisteret (LTO), men ikke i Arbeidstakerregisteret. Bakgrunn for yrkesklassifisering Arbeidstakerregisteret administreres av Rikstrygdeverket (RTV) og inneholder over millioner records. Enheten er arbeidstakerforhold, som er identifisert av person + bedrift + ansattdato. Dette innebærer at det for hver person kan være flere records, og også dubletter på person + bedrift, med ulike ansettelsesdatoer. Et register over yrkesdata vil inneholde dubletter på arbeidstakerforhold (definert utfra person + bedrift + ansattdato) fordi en person som endrer arbeidsoppgåver kan ha flere yrkeskoder i samme ansettelsesforhold. Fra og med er det krav om at innmeldinger til Arbeidstakerregisteret skal inneholde yrkesdata for alle arbeidstakerforhold. Bedrifter med elektronisk innlevering skal levere yrkeskode, andre kan føre inn yrkestittel som tekst eller skrive yrkeskode. Arbeidsgivere kan finne riktig yrkeskode i Yrkeskatalogen som papirversjon eller på Internet, og få hjelp ved henvendelse til Statistisk sentralbyrå. De som benytter stillingskoder som brukes i offentlig sektor kan oppgi disse istedenfor yrkeskode. Statistisk sentralbyrå mottar ukentlig data fra Arbeidstakerregisteret og koder yrke i henhold til Standard for yrkesklassifisering. Yrkeskodene skal benyttes til statistikkformål og tilbakemelding til arbeidsgiver for kontroll. Yrkeskodingen baseres både direkte på det arbeidsgiver oppgir og ved bruk av tilleggsvariabler. Fråfall av yrkesdata Et lavt og helt tilfeldig fråfall i Arbeidstakerregisteret har liten statistisk betydning unntatt for svært små grupper. Analyser av Arbeidstakerregisteret og sammenlikninger med AKU gir grunn til å tro at fråfallet ikke er tilfeldig og at det i tillegg er andre klassifiseringsproblemer. Med fråfall i denne sammenheng menes alle übrukbare inndata, det vil si leverte data hvor arbeidstakerforhold ikke kan yrkesklassifiseres. Arbeidstakerregisteret er et forvaltningsmessig verktøy, og det er et krav fra RTV at alle arbeidsgivere skal levere yrkesdata på alle arbeidstakere. Fråfall er derfor et administrativt problem i den grad RTV benytter yrkesdata på personnivå. Generelt sett kan fråfall i yrkesdata være en indikatorer for kvaliteten av data fra Arbeidstakerregisteret. I den grad fråfallet skyldes at visse grupper av arbeidsgivere synes det er vanskelig å finne riktig yrkeskode, vil det kunne bety at også de leverte yrkeskode kan være usikker hos liknende arbeidsgivere. Vi har for tiden ikke noe mål på kvaliteten av de yrkeskoder som er levert av arbeidsgiver uten omkoding ved Statistisk sentralbyrå.. Manglende innlevering Det mangler fortsatt endel yrkesdata, pr. uke -, er det % av arbeidstakerforholdene som mangler en brukbar yrkeskode. Det meste er fra bedrifter som ikke har levert noe yrkesdata i det hele tatt, færre bedrifter har levert yrkesdata for kun deler av arbeidsstokken. Det er grunn til å tro at det er ikke-ignorerbare skjevheter i fråfallet. Man har gode opplysninger om personer og bedrifter fra Arbeidstakerregisteret og Bedriftregisteret, som kan brukes for å justere for dette. Det er flere årsaker til mangler: Bedrifter som ikke leverer meldinger. Meldinger/årskontroller som ikke blir punchet. Maskinelle rutiner som ikke fungerer, IT-baserte lønnssystemer og andre tekniske problemer. Årsakene til manglende levering kan være: Utilstrekkelig kommunikasjon mellom RTV og arbeidsgivere. Dette handler ikke nødvendigvis om manglende informasjon, men hvordan informasjonen blir nyttiggjort. Reelle problemer med å finne riktig yrkeskode. Dette skyldes både egenskaper i bedriftene og egenskaper ved yrkesstandarden, yrkeskatalogen, søkemuligheter.

Noen bedrifter kan opplever dette som en økning av oppgavebyrden og prioriterer det ned. Det er også forståelig med bedrifter som føler at de har fatt tilbake svært upassende yrkeskoder, og at det er unødig merarbeid ved årskontrollen pga. feilklassifiseringer fra vår side. Årsakene til manglende registrering ved trygdekontor kan være interne forhold som vi ikke spekulerer om. Det kan være verdt å merke seg at det er trygdekontor i hvert fylke som har ansvaret for registreringen av alle meldinger fra arbeidsgivere i fylket. Trygdekontorspesifikke forhold kan derfor påvirke den geografiske fordelingen av fråfall. Det samme kan fråfall hos dominerende bedrifter på små steder.. I spesifikke titler Bruken av tekst som ikke beskriver arbeidsoppgåver - f.eks. vikar, assistent og konsulent - skaper problemer for yrkeskoding, særlig i næringer med uensartede arbeidsoppgåver. Næringsstandarden er blitt noe endret i, blant annet med mer detaljering i enkelte tertiærnæringer. Fortsatt er mange arbeidstakerforhold slik at de ikke kan yrkesklassifiseres utfra en generell tekst + næringskode. Arbeidstakerforhold som blir levert med for uspesifikk tekst fikk ved årskontrollen i Arbeidstakerregisteret koden "" med teksten "Angi yrkestittel mer fullstendig". Dette utfra Arbeidstakerregisterets forvaltningsmessige karakter, der alle arbeidstakerforhold skal være oppført med en regulær kode. For rene statistikkformål kunne noen av disse arbeidstakerforhold vært klassifisert på et mer aggregert nivå.. Andre problematiske titler Bruken av nye ord og engelske versjoner er økende. Dette kan til dels avhjelpes ved å lage nye koder, dels å hjelpe arbeidsgivere med oversettelser. Når arbeidsgiver leverer slik tekst uten å kontakte oss, kan man ofte få en negativ reaksjon på koden/teksten som sendes tilbake også i de tilfeller der yrkeskoden på siffer-nivå faglig sett er korrekt. Bruken av titler på uventede steder er langt mer problematisk, f.eks. at man kaller en som selger bensin for stasjonsbetjent, en tittel som normalt brukes innen om helt andre arbeidsoppgåver i jernbanenæringen. Forutsetningene for automatisk tekstbasert yrkeskoding er at teksten forteller noe om reelle arbeidsoppgåver. Når teksten ikke lenger er adekvat for dette formål, må andre metoder benyttes. En konsekvens er at stadig færre titler kan kodes entydig utfra tekst, en metode som i utgangspunktet er sikrest, raskest og billigst. Misvisende tekstbruk er vanskelig å oppdage, og kan gi betydelige systematiske feil. Mye er blitt rettet opp med manuell kontroller, og man kan i ettertid si at det kunne ha vært en like god ressursbruk å kode disse manuelt med en gang. Kodeprogrammene er derfor justert slik at en viss mengde flere arbeidstakerforhold kodes manuelt. Et annet problem er titler som tildels brukes om liknende arbeidsoppgåver, men som skal ha yrkeskoder på ulike yrkesfelt. F.eks. skal salgskonsulent og selger skal til yrkesfelt og 5, mens enkelte andre selgere skal til. Det er grunn til å spørre om arbeidsgiver faktisk bruker yrkestitlene på den måte som er forutsatt. Det er ikke alltid innlysende utfra yrkestittelen hva som er de reelle arbeidsoppgåvene, i forhold til de arbeidsoppgåver som er nevnt i Standard for yrkesklassifisering.. Yrkeskoder levert av arbeidsgiver Stadig flere arbeidsgivere leverer yrkeskoder istedenfor tekst. Denne koden kan være basert på yrkeskode fra Statistisk sentralbyrå utfra tidligere levert tekst, eller en yrkeskode arbeidsgiver har kommet fram til. Det er ifølge RTV stadig flere arbeidsgivere som leverer data til Arbeidstakerregisteret på diskett. Pr. mai er det omlag 5 foretak med noe over 6. arbeidstakerforhold som leverer diskett, og som derfor skulle levert yrkeskode. Når arbeidsgiver leverer yrkeskode er den maskinelle behandling enklere, men det foreligger ingen direkte holdepunkter for arbeidstakerens reelle arbeidsoppgåver. Det må derfor kontrolleres mot avledede variabler, men her gjenstår mye arbeid. Dette må basere seg i stor grad på sammenlikning med tekstbasert yrkesklassifisering i Arbeidstakerregisteret og AKU. For tiden kan vi derfor ikke si noe nærmere om kvaliteten på leverte koder. Fob og sysselsettingsstatistikk I den nye registerbaserte sysselsettingsstatistikken beskrives sysselsatte som ikke finnes i Arbeidstakerregisteret. De største gruppene er selvstendig næringsdrivende, og mange sysselsettingsforhold som defineres utfra fra lønns- og trekkoppgaveregisteret (LTO). Mange kjennemerker hentes eller klassifiseres utfra kobling mot andre registre, men yrkesdata mangler fullstendig for disse gruppene. Pr. oktober, manglet det yrkesdata på rundt million sysselsatte. Dette skyldes både mangler i data som sendes via databaserte lønnssystemer og fra arbeidsgiverne direkte, samt de med stillingskoder som ennå ikke var yrkeskodet. I tillegg som nevnt de som er klassifisert som sysselsatte utenom Arbeidstakerregisteret. Det ble derfor ikke levert yrkesvariabel til FoB.

For sysselsatte utenom Arbeidstakerregisteret kan man tenke seg å nytte kobling til andre registerdata som f.eks. stillingskoder i offentlige register, personens utdanning og foretakets næring. I tillegg kan også foretakets størrelse ved antall sysselsatte og personens lønn eller inntekt være en type informasjon som kan utnyttes til å finne et sannsynlig yrke.. Prioritering I AKU publiseres yrkesfelt ( siffer) etter fylke, kjønn og alder. Videre publiseres på siffer for yrker over en viss størrelse, etter kjønn. All publisert yrkesstatistikk er estimerte årsgjennomsnitt. Ujusterte kvartalsnivåer viser store svingninger, og endringstall pr. kvartal er ikke vurdert publisert. Det kan tenkes at svingningene bl.a. har sammenheng med trekkemetoden som er klyngetrekking av familier. Man vet at det finnes intrafamiliære korrelasjoner mellom yrkesrelaterte kjennemerker og i yrke seiv. Et eksempel på det siste er "legefamilier" og liknende, hvor yrke går i arv eller parforhold som oppstår i studietiden. For publisering basert på Arbeidstakerregisteret og eventuelt andre registre er det aktuelt å publisere detaljerte yrkesdata (- og i noen tilfeller 7-siffer nivå), og på kommunenivå f.eks. yrkesfelt (-siffer). Siden detaljerte yrkesdata prioriteres, vil dette gi andre vurderinger av metodikken enn om formålet var å gi presise totaler eller endringstall. Som følge av de nevnte prioriteringer anbefaler vi at det forsøkes flere ulike metoder ved justering og imputering. Ulemper ved dette er omfattende arbeid med utredning og programmering, samt at en ikke kan gi et samlet mål på kvaliteten. Alternativet er å lage en enkelt multivariabel modell.. Noen problemområder i forhold til modellering I definisjonen av et yrke grupperes liknende arbeidsoppgåver. En modell for et yrke som lages utfra faglige og skjønnsmessig valg må benytte svært detaljerte inndelinger i f.eks. utdanning og næring for å kunne anta at arbeidsoppgåvene tilsvarer et bestemt yrke. I praksis kan derfor noen av gruppene bli for små og usikre. Det er da naturlig å tenke seg at hvis man aggregerer på en av de yrkeskarakteriserende variablene, så kan man aggregere tilsvarende på yrke også. Dette er ikke uproblematisk, som framgår av et par eksempler. Eksempel -: utdanning kan aggregeres fra 6 til siffer, og yrke fra til siffer ukhinnin tekst rke 578 Måler 7 579 Murer 7 579 Tømrer 75 Eksempel -: aggregering av utdanning gir forskjellige yrkesfelt Det samme gjør seg gjeldende for endel andre utdanninger, kanskje særlig innen tekniske yrker. På grunn av yrkesstandardens oppbygning, er dette heller ikke enkelt å omgå dette problemet ved å gruppere ikke-hierarkisk slik det er mulig med f.eks. fag i NUS. For eksempel kunne man gruppere tekniske utdanninger finnes ved å velge utdanningskodens.-.siffer = 55. For å finne tekniske yrker må en gå på tvers av samtlige siffer i yrkeskoden, f.eks. xx, xx, 7xx, 75 x. Variabler som ikke karakteriserer yrke direkte er også tenkt brukt i imputeringsopplegget. Det er da interessant å se på aggregering av yrke i forhold til prediktive, men ikke-klassifiserende variabler, som f.eks. kjønnsfordeling på ulike nivåer i enkelte yrkesgrupper. Kjønn er bestemmende for yrke (-siffer), men i liten grad på yrkesfelt (-siffer). Tabell -: Utdrag fra yrkesfelt og yrke etter kjønn. AKU. Tusentall og prosent. Yrkeskoder ( ulike nivåer) I alt Menn Kvinner AKADEMISKE YRKER 55 % 7 58% 8 % Systemutviklere og programmerere 7 % 8% 6% Spesialsykepleiere og jordmødre 7 % 6% 6 9% HØYSKOLEYRKER 5 % 9 8% 75 5% Bygningsingeniører og teknikere 6 % 88% % Sykepleiere 5 % 8% 6 9%

. Konklusjon for sysselsettingsstatistikken I AKU er det publisert tall for yrkesfelt ( siffer) etter fylke, og yrke ( siffer) for de største yrkene. Det er ikke noe mål å komme fram til andre yrkesandeler for alle sysselsatte på de allerede publiserte nivåene. Hensikten med å lage registerbasert yrkesstatistikk er å gi tall på alle yrker ( siffer), dvs. også for mange små yrker som ikke kan publiserer fra AKU. Videre er det interesse for kommunetall. Da det ikke er hensikten å lage et nytt estimat for de aggregerte tallene tar vi ikke utgangspunkt i en felles, multivariat modell. Vi satser på å lage en sammensatt metodikk og forsøker å favorisere kvaliteten på små grupper. Yrke predikeres og imputeres ved hjelp av ulike metoder avhengig av kilden til sysselsettingsklassifiseringen, opphavsregistrenes kvalitet, egenskaper ved bedrifter, m.m. Kvaliteten kan eventuelt dokumenteres separat for hver gruppe. Dette er i tråd med dokumentasjonen av andre variabler i sysselsettingsstatistikken. 5 Justering for fråfall av yrke i Arbeidstakerregisteret Resten av notatet diskuterer konkrete metoder for å justere for fråfall, estimere yrkesnivåer, og kvantifisere usikkerheten til disse nivåer. Videre gis resultater av anvendelse av disse metodene på aktuelle data som kun har opphav i Arbeidstakerregisteret og ikke andre kilder til sysselsettingsstatus. Anbefalinger som gis gjelder derfor yrkesestimater for arbeidstakere. Det er verdt å merke seg at slike estimater ikke bare er interessant for statistikkpublikasjoner fra Arbeidstakerregisteret og sysselsettingsstatistikk, men også for mange oppdragsgivere med ønsker om spesielle analyser. Interessevariablene som presenteres i dette notatet er antallet og andelene av de største yrkene. 'Yrke' er definert ved -siffer nivå i henhold til Standard for yrkesklassifisering 999 (NOS C5). 5. Data Inndata er en periodefil fra Arbeidstakerregisteret, som blir koblet med yrkesdata fra det såkalte yrkesregisteret. Yrkesregisteret er samlede og prioritert yrkesklassifisering pr. arbeidstakerforhold i ukefiler fra Arbeidstakerregisteret. Både innholdet i yrkesregister og selve koblingen med resten av Arbeidstakerregisteret byr på endel problemstillinger som kan ha noe betydning for resultatene, men som ikke omtales i så detaljert her som i notatet "Yrke i Arbeidstakerregisteret". Tabellen nedenfor viser fordelingen av de ulike koblingstypene som er gjort. Årsaken til at det ikke benyttes en entydig kobling er bl.a. feil i dateringer, bytte av organisasjonsnummer, endring i næringskoder. Vi velger allikevel å bruke en gradvis kobling, da det er svært få arbeidstakere som har fiere arbeidstakerforhold med helt ulik yrkeskode, blant de som har koblingstyper av lavere kvalitet. For personer som har samme yrket i ulike jobber, spiller ikke koblingstypen noen rolle. 5.. Arbeidstakerregister Datagrunnlaget som brukes består av 7 89 records fra Arbeidstakerregisteret periodefil pr. uke 5, som er koblet mot alle tilgjengelige gyldige yrkesdata. Aktive hoved- og biarbeidsforhold er definert ved bosatte (regstl6=l) og gyldige (og typarbl6=l,). Samlet fråfall av yrke, av alle ulike årsaker er 8.7%. 5.. Sammenlikning med andre yrkesdata For en ekstra sammenlikning er det laget en egen tabell fra AKU over yrke for ansatte (definert ved sstat=l,) pr..kvartal,. Vanlig publisert yrkesstatistikk i AKU inkluderer selvstendig næringsdrivende. Da disse ikke forekommer i Arbeidstakerregisteret, holdes de utenfor i denne sammenlikningen. Grunnen til at AKU-ansatte fortsatt er høyere enn Arbeidstakerregisternivået er at det er endel sysselsettingsforhold som fanges opp i AKU, men som verken er selvstendige eller innmeldes til Arbeidstakerregisteret, f.eks. kortvarige jobber. Det betyr at forskjellene i yrkesandeler ikke erjevntfordelt etter yrke, da småjobber vil være vanligere i visse yrker enn andre. En ytterligere sammenlikning kunne derfor gjøres ved å selektere etter samme type arbeidstid i begge datamasser. 5

Nedenfor vises tabeller over datagrunnlaget som brukes i de videre forsøkene. Tabell 5-: Fordeling av koblin ;sityper mellom Arbeidstakerregisteret Arpeiastakerregisteret og ; yrkesdata. Prosent isent Antall arbeidstakerforhold I alt IKKE OPPGITT Andre yrker Lederyrker Akademiske yrker Høyskoleyrker Kontor- og kundeservice 5 Salgs- og serviceyrker 6 Bønder, fiskere.. 7 Håndverkere.. o CD Q. i to I <D > I c f ro I a) Z + co + Ll_ "aj _ + m + 656 656 6 9 78 9 88 7 88 77 798 9 8 56 978 8 86 77 95 77 758 9 76 87 68 566 7576 8 6 79 78969 7789 88 8 8 7 6 958 5 56 565 7 5 5 89 65 9 7 5 8 89 75 58 5 576 7 89 6996 6798 9 567 5 75 5566 7 987 8 Operatorer, sjåfører m 9 Andre yrker A Jordbruk og skogbruk 8 585 8 79 785 B Fiske 5 8 567 567 5 5 99 C Olje, gass, bergverk 8 58 69 69 699 59 8 D Industri 7 5 87 678 995 99 66 69 E Kraft- og vannforsyning 65 559 586 987 6 F Bygg og anlegg 86 687 899 6 6 98 G Handel.butikk.rep. 8 79 676 5777 865 76 5658 H Hotell,restaurant,bar 9 6 65 79 675 8 8556 667 I Transport/kommunikasjon 8 7 5867 7 89 6 56 J Bank,finans,forsikring 5 6 78 76 6668 6 58 66 K Eiendom, forretn.tjen. 9 69 8965 98 99 5 69 L Offentlig forvaltning 8 78 9 59 7 85 M Undervisning 8 9 866 6 9 688 N Helse- og sosialtj. 7 989 86 665 895 6 Andre sos. og pers.tj. 9 7 7 7575 68 757 587 P Lønnet husarbeid 6 9 8 5 9 Q Internasj. org. 8 6 66 7 9 97 Z Uoppgitt 6 5 87 98 ZJ Tabell 5-: Koblingstyper mellom Arbeidstakerregisteret og yrkesdata, etter dublett-type. I alt Kun person +Næring +Bedrift Full I alt 789 58 67 596 877 Antall records pr. person 8 789 78 978 5!+ 58 587 76 958 Person har samme yrke 97 58 8 5 99 Har flere ulike yrker 89 56 59 67 9578 5.. Oppsummering om datagrunnlaget med hensyn til kobling av data Det er visse problemer med å koble yrke til arbeidstakerforhold på en entydig måte, med de årsakene som er nevnt i forrige avsnitt som bytte av bedriftsnummer, datering, osv. Det er allikevel slik at det er ganske få arbeidstakerforhold hvor en person har flere ulike yrker, og en kobling av dårlig kvalitet. Hvis det var slik at mange arbeidstakere hadde flere arbeidstakerforhold hver seg med helt ulike yrker, kunne man vurdere å bruke en strengere kobling og derved betrakte flere arbeidstakerforhold som uten yrkesdata (fråfall). Omvendt kan man også betrakte en "løs" kobling som en form for imputering av yrke pr. person. 6

Tabell 5-: Oversikt over fråfall av yrkesdata i Arbeidstakerregisteret, etter arbeidssted og næring. I alt Ant. Fråfall Ant. Svar Fråfall % Svar% I alt 789 656 9899 8 9 ØSTFOLD 6 75 88 7 8 AKERSHUS 86 7879 88 OSLO 689 859 7 8 9 HEDMARK 799 7 6776 7 9 5 OPPLAND 79 68 76 97 6 BUSKERUD 68 77 9697 5 95 7 VESTFOLD 8756 75 8855 96 8 TELEMARK 65975 95 668 97 9AUST-AGDER 895 6 657 96 VEST-AGDER 6566 7 69 96 ROGALAND 785 588 66 9 9 HORDALAND 995 787 878 6 9 SOGN OG FJORDANE 57 66 6 6 9 5 MØRE OG ROMSDAL 99756 579 996 6 9 6SØR-TRØNDELAG 59 9 96 96 7NORD-TRØNDELAG 8569 6 97 9 8 NORDLAND 96 79 8755 8 9 9 TROMS 669 9989 566 5 85 FINNMARK 96 57 69 9 9 Annen kommune 9 765 58 68 Uoppgitt kommune 7 55 5 5 85 A Jordbruk og skogbruk 585 6 9 6 9 B Fiske 567 86 98 7 9 C Olje, gass, bergverk 69 775 97 66 D Industri 678 667 5 95 E Kraft-og vannforsyning 559 8 7 9 F Bygg og anlegg 687 9 75 7 9 G Handel,butikk,rep. 676 58 5 95 H Hotell,restaurant,bar 79 99 69 96 I Transport/kommunikasjon 5867 976 86 J Bank,finans,forsikring 76 568 869 87 K Eiendom, forretn.tjen. 8965 78 97887 5 95 L Offentlig forvaltning 78 9 685 7 9 M Undervisning 866 7796 7885 96 N Helse-og sosialtj. 989 85 59 89 O Andre sos. og pers.tj. 7575 65 78 5 95 P Lønnet husarbeid 9 985 8 8 Qlnternasj.org. 7 7 8 Z Uoppgitt næring 87 77 7 8 Ser at fråfallet ikke er jevnt i forhold til næring, og kan ha sin årsak i enkelte store foretak. Vi har konkret kjennskap til at enkelte foretak har hatt problemer med å levere yrkesdata. Vi går derfor utfra at mye av fråfallet vil bli rettet opp når innrapporteringen fra disse kommer i gang. 5. Frafallsmodeller Fråfall er avhengig av en rekke forhold som nevnt i avsnitt, og siden det er arbeidsgivers ansvar å levere yrkesdata for alle ansatte, er det naturlig å tenke seg at det er egenskaper ved bedriftene som påvirker fråfallet. Videre er det jo slik at hver bedrift vil jo ha en mer eller mindre ensartet arbeidsstokk, slik det kan også være nyttig å bruke egenskaper ved arbeidstakerne seiv for å justere for fråfall av yrke. Slike egenskaper kan være kjønn, alder og utdanning. Effekten av dette vil avhenge av hvor stor sammenheng det er mellom den enkeltes bakgrunn og nåværende arbeidsoppgåver som ligger til grunn for yrkeskoden. Vi vet at det er betydelig variasjon i dette. 7

5.. Modell HTF For å ha et grunnlag for sammenlikning av realistiske modeller lages en estimering ved direkte vekting basert på helt tilfeldig fråfall. Denne basismodellen tar for gitt at fråfallet ikke avhenger av noen kjente størrelser, noe som jo virker lite sannsynlig på bakgrunn av f.eks. tabell 5... Definerer U populasjonen = alle identifiserte enheter i Arbeidstakerregisteret N antall i U s enheter i Arbeidstakerregisteret med brukbar yrkeskode n antall i 5 m antall fråfall, i dette tilfelle også: m N n Y interessevariabel: arbeidstakerforhold med yrkeskode/kjønn \l\ies] rt =< > responsindikator [Oi s\ Pi svarsannsynlighet = andel med brukbar yrkeskode i register Wj designvekt, her: l/p,- y> interessevariabel - indikatorer Estimerer f - W/JPj Totalt antall i yrket er summen av vekten til hver person ganget med indikator ( eller ). iesr Y - N Andelen i yrket er det estimerte antallet med yrket delt på populasjonstotalen (antall i Arbeidstakerregisteret). Vi kan bruke den enkle formelen fordi her er TV er like stor som estimert populasjonsstørrelse: Sl vy( ies r 5.. Ikke-informativ SHG-modell En svarhomogen gruppe-modell tar for gitt at det er mulig å identifisere grupper i hvilke fråfallet er like stort. I en ikke informativ SHG-modell forutsetter man i tillegg at fråfallet er avhengig bare av kjente egenskaper, ikke av interessevariabelen seiv. Hvor vellykket dette er vil avhenge av i hvilken grad forutsetningen er riktig, og av hvor stor den faktiske variasjonen av fråfallet er. Estimerer svarsannsynligheten pr. enhet i gruppen: n, j Pi - hvor nogm er definert som ovenfor og gruppeindeks erge (,,...G/ Siden jeg har definert populasjonen = det identifiserte register, setter jeg designvekten lik frafallsvekten: wiß =%-- Pl* Estimat for populasjonstotalen: G f f = _\ \\ wt g yi g og estimat for andelen i yrket: Y= 5... Valgav gruppering Valg av gruppering må balanseres i forhold til ulike interesser: Grupperingen bør ha grunnlag i en intuitiv determinasjon eller ha en teoretisk forankring. Dette både for å kunne velge passende variabler og for å gi en koherent forklaring av resultatene. Gruppene skal være mest mulig homogene, men samtidig ikke for små. Tilleggsvariablene som brukes for å identifisere gruppen må være mest mulig komplette og uavhengige. Det må nødvendigvis bli endel prøving og feiling, og den valgte grupperingen i disse forsøkene er neppe den ideelle. Vi må forsøke å dokumentere resultatene av forsøket og måle kvaliteten for estimatene, vurdere utslagene for statistikk, avvente kommentarer, og eventuelt revidere inndelingen. 8

Definerer bedriftskategori som næringshovedområde + round(log]o(ansatte)). Dette utgjør en bokstavkode for næring og et tall for størrelsesgruppe som tilsvarer -potenser. Antall ansatte pr. bedrift har en frekvensfordeling som er svært skjev, i våre data blir det med denne metoden omtrent størrelsesgrupper i hver hovednæring. Dette for å få et håndterlig antall grupper med variabler som er tilgjengelige og som det er gode grunner til å anta vil beskrive ulikheter ved bedriftene både når det gjelder arbeidsoppgåver og administrative forhold. Neste tabell viser fråfallet fordelt etter denne gruppering, og vi legger merke til skjevheten i fråfall. Tabell 5-: Oversikt over fråfall av yrkesdata i Arbeidstakerregisteret, etter bedriftsgruppering, I alt Fråfall Svar F.% 5.% F 67 67 99 86 L 65 6 9 5 95 MO 8 976 6 9 7 5 95 M 557 7 5 5 95 66 5 95 M 585 56 59 96 89 7 9 M 9 687 98 97 6 9 M 5 59 99 969 96 NO 99 65 6 5 95 69 96 N 95 98 6 9 9 76 99 N 87 796 66 9 998 5 95 N 67685 65 55 8 8 7 9 N 5559 66 899 8 8 5578 89 O 8 57 677 5 95 I alt 789 656 9899 8 9 GO 8 6 AO 787 68 779 6 9 G 6 989 A 85 5 77 7 9 G 69785 55 A 885 6 85 7 9 G A 86 85 99 HO 6 BO 866 86 78 9 H 77 B 9 96 67 8 9 H 57 B 598 59 99 H 8 7 CO 5 8 77 7 9 9 555 C 67 95 5 95 56 97 C 95 6 786 87 66 68 C 5865 658 98 59 76 77 C 86 69 86 JO 9 65 DO 8 55 77 7 9 J 6 76 D 6688 698 97 J 669 7 D 686 6 55 5 95 J 7 D 597 5 599 9 9 KO 67 56 EO 8 96 7 9 K 885 66 E 65 69 588 7 9 K 8 59 E 79 56 6968 7 9 K 97 E 78 78 99 LO 5 88 FO 7 67 7 6 9 L 78 5 F 6896 767 69 96 L 685 669 F 9998 5778 89 L 979 587 99 67 99 79 5 95 9 5 95 6 7 69 5 95 8 5 95 77 99 5 9 9 P 7 85 9 8 8867 8 7 P 8 8 99 97 5 95 Q 8 7 6 9 7789 97 Q 9 9 78 7586 7 9 Z 5 99 5 78 96 9 9 Z 6 9 9 6 8 9 Z 9 8 7 955 9 9 676 9 9 97 Dette er altså en mer detaljert inndeling enn tabell 5-. Ser at f.eks. gruppe Cog Char stort fråfall. Dette er store bedrifter i olje- og gassnæring, og her gjør som nevnt enkeltforetak store utslag. er store bedrifter i transport og kommunikasjon, og her også vi har vi kjennskap til at enkelte store foretak som har hatt problemer med å levere yrkesdata. Tabell 5-5: Yrke i antall og andeler, resultat av justering ved HTF-modell og ikke-informativ SHG-modell. Yrke AKU- AKU- HTF- HTF- -Bedrift- -Bedrift ansatte andel antall andel antall andel 5 BUTIKKMEDARB. 566. 7.9 78. 8.% 695. 8.7% 5HJELPEPLEIERE.O.L 7658..66 7596.6.6% 777.6.75% 5 BARNE/UNGDOMSARB. 6799.. 588..8% 5787.6.79% GRUNNSKOLELÆRERE 669.5. 7.7.% 6797..8% 9RENGJØRING(BEDR.) 57..75 7685.7.56% 75.9.5% SYKEPLEIERE 57..5 69..5% 57..8% 59 ANNET PLEIE. 5.. 5995..9% 658.6.% 5 SALGSREPRESENTANTER 88.8.5 8956.5.% 889.6.7% KONTORMEDARBEIDERE 5..68 67..95% 6695..9% SEKRETÆRER.6.65 8555..8% 8..6% 9

Det framgår av tabellen en viss forskjell mellom modellene, men også at forskjellen mellom estimatene og AKU er enda større. Dette forklares dels med jobber som inngår i AKU-ansatte og ikke i Arbeidstakerregisteret - og dels med ulikheter i selve yrkeskodingen. 5... Kvalitet For å si noe om kvalitetsforskjeller tar jeg utgangspunkt i variansen til estimatet av gjennomsnittet (andelene) av interessevariabelen. Estimert gjennomsnitt er vanligvis: Y=^ iesr Wi «i Der a som nevnt er trekksannsynligheten. Siden register = populasjon er a = og andelen estimeres enklere: yt A _ <65r Variansen av estimatene av andelene er for HTF-modellen, forutsatt konstant varians: >< iesr, v iesr som med konstant a kan forenkles til: varoo n For de andre modeller er variansen avhengig av designvekten på følgende måte: Zwf _i_ v, = -^ ~y varcy,.) = - var(j(.) = varcj,.) ( + c w ) (X wi ) «w, ;e.v w, -w w,. hvor variansen av vektene o - der w= og variasjonskoeffisienten cw =. n n w Kan definere en rate for å måle effekten av å bruke andre modeller enn rent tilfeldig fråfall: Siden var(y) forekommer både i teiler og nevner, "forsvinner" den fra formelen. Dette betyr i praksis at denne raten avhengig av modellen og ikke av interessevariabelen. Spesialtilfeller: Ca blir i vårt tilfelle null, fordi det er å regne som en fulltelling og a ikke varierer. Cw blir ved HTF-modellen null, ettersom alle vektene er like. Raten gamma for den ikke-informative SHG-modell med bedriftsgruppering blir da kun avhengig av de justerte vektene. Resultatet viser en betydelig variansøkning ved å benytte denne modellen. w.98 cr M,.57 c w = %. w Denne modellen gir liknende estimater som den forrige, men man får en økning i variansen. Som et forsøk estimeres samme parametere utfra en annen stratifisering. Her benyttes færre strata ved å slå sammen bedriftskategorier med liknende fråfall.

w 598. ebatl 5-6: Ny stratifisering eter bedrifts næring, størelse og frafalsandel i grupen. NyAntal Sum Svar % Ny vekt Gruper fra tabel 5.. urp De qamle arb.taker _s 6 98.6 %.687 L EHM BOP AM L _s 5 7 96. %.8 K D H F H _s 696 95.5 %.678 M M C _s 697 95. %.97979 G K _s 5 9 95. %.5868 D JOG _s5 96 9.8 %.6857 G INJQFAHMOAI K A DO _s6 9565 9.6%.998 CEGE EB LN JDZ _s7 7 9. %.6988 K L N _s8 6 95 89. %.88 LBF ICF _s9 66 7. %.5896 N N PO ZO Q JZ ICC i alt...5 Vurdering edn nye stratifiseringen gir ike særlig andre estimater, noe som ike er overaskende med tanke på de høye nelednaravsetotalt. Imidlertid er det betraktelig lavere variasjonskoefisient som vist i tabelen under. Alikevel vil nedemetoden ha en ulempe ved at stratifiseringen ike er konstant, siden den byger på punktvis frafalsandel og ike enmer invariant egenskap ved bedriften. Strengt tat er jo ike næringskode og størelse helt konstant, men dog mer libatse kjenetegn ved en bedrift. er.7958 C w =.77 w Deike-informative modelene er hovedsakelig vist for å gi et samenlikningsgrunlag med metodene i de påfølgende tinsva. Det er ike noen spesiel grun til å anbefale dene metoden slik data foreliger for tiden..5 Imputering Dadet for registerbasert yrkestatistik er interesant med tal for detaljerte yrker, og for små gruper, f.eks. komune, livedet være en stor fordel med komplete mikrodata. Kompletering av data må slik det ser ut i Arbeidstakeregisteret ofr tiden, skje ved hjelp av imputering. Da yrke regnes som rent partielt fråfal (ingen enhetsfrafal) kan man i stor grad resabeseg på same tilgjengelig informasjon for hvert arbeidstakerforhold uten yrkeskode som arbeidstakerforhold emd komplete yrkesdata. I tileg kobles på anen registerinformasjon som f.eks. arbeidstakers utdaning...5 Tilegsdata...5 Utdaning elbokrpå utdaning fra "Befolkningens høyeste utdaning", den siste filen som foreliger er pr. nov.. Observerer ac. % arbeidstakere som mangler utdaningskode, og analyserer fråfalet nærmere. Her er vist rent fråfal, ike andre epytr av übrukelige koder. Fråfal av utdaningskode vil utgjøre et problem i den grad det er korelert med yrke. Ser at destørste manglene er inen de yngste arbeidstakere, og for yrkene inen primærnæringer og yrker uten krav til gninadtu, samt for arbeidstakerforhold som mangler yrkeskode.

Tabell 5-7: Partielt fråfall av utdanningskode, etter kjønn og aldersgrupper; og etter yrkesfelt I alt Har utd. Fråfall Utd.% Fråfall % I Alt 789 8657 8 98 K 575 57 K 776 58 95 9 9 K 687 55 55 9 9 : K 5695 5596 999 K 5 965 96 K 6 557 59 5 K 7 87 86 9 K 8 87 87 K 9 6 6 M 7. 7 9 9 57 79-99 7 698 66 9 5 8 775 669 6 68 685 8 7 975 976 5 8 9 I Alt 69 6 789 69 6 8657 8 9 8 Mangler 656 575 9 97 Andre yrker 78 6 7 Lederyrker 798 676 7 Akademiske yrker 86 8 5 99 Høyskoleyrker 87 66 7 Kontor/kundes 78969 77577 9 99 5 Salg/service 958 85958 97 98 Bønder, fiskere 95 5 Håndverkere o.l. 75 79 6 :> 9 Operat/sjåfører 6996 687 85 99 Andre yrker 5566 5697 9869 9 7 De to neste tabellene viser en nærmere oversikt over utdanningsnivået blant arbeidstakere i data som brukes i forsøket. For endel yrker må det benyttes svært detaljerte utdanningskoder for å kunne imputere yrke deterministisk, og samtidig få en viss kontroll med mikrokonsistens. Tabell 5-8: Utdanningsnivå etter kjønn/aldersgruppering. Prosent av kjønn/aldersgruppering. K K K K K 5 K 6 K 7 K 8 K 9 M M M M 5 M 6 M 7 M 8 M 9 5 8 Ingen utdanning og førskole Barneskoleutdanning Ungdomsskoleutdanning Videregående, grunnutd. Videregående, avsluttende Påbygging til videregående Univ./høgsk.utd. lavere Univ./høgsk.utd. høyere Forskerutdanning 5 5 6 7 6 6 8 5 9 5 9 7 9 7 5 8 9 6 8 7 8 5 7 6 7 6 8 7 5 9 7 8 9 6 6 6 6 6 8 7 8 Tabell 5-9: Utdanningsnivå etter yrkesfelt. Prosent av yrkesfelt. 5 6 7 8 Ingen utdanning og førskole Barneskoleutdanning Ungdomsskoleutdanning Videregående, grunnutd. Videregående, avsluttende Påbygging til videregående Univ./hagsk.utd. lavere Univ./høgsk.utd. høyere Forskerutdanning Kontor 5 Salgs- 6 7 Operatø- Akademi- og og Bønder, Håndver- rer, IKKE Andre Leder- ske Høyskol- kundese- service- fiskere kere sjåfører 9 Andre OPPGITT yrker yrker yrker eyrker :er rvic yrker :ei o..... o. m yrker :er 6 5 7 6 8 8 5 9 7 6 7 6 6 9 5 5 6 5 9 7 9 55 8 6 5 7 9 5 5 5 5... Nærin. Næringskode for bedrift hentes fra bedriftsregisteret og er klassifisert utfra bedriftens hovedsaklige virksomhet, altså hva bedriften produserer av varer eller tjenester. Bedriftens næringskode kan være en annen en foretakets, og vi går utfra at det er bedriftens næringskode som er mest bestemmende for arbeidstakerens arbeidsoppgåver. Når det gjelder fråfall kunne en tenkt seg at det var foretakets egenskaper som var bestemmende, i den grad innsending av yrkesdata skjer foretaksvis. Av praktiske grunner benyttes samme variabel gjennom hele denne analysen, og under vises en nominell kontroller av næringskoder i de aktuelle data. Fråfall utgjør et übetydelig problem i disse data, og vi kjenner ikke til omfanget av feilkoding. Man vet at det er endel bedrifter som har næringskode som ikke samsvarer helt med deres virksomhet, og det foregår en løpende revisjon av registerdata. Bl.a. er det slik at siden næringskoden hentes ved hjelp av organisasjonsnummer, er det viktig at arbeidstakerne er knyttet til riktig enhet, ikke bare at enheten har riktig næringskode.

Tabell 5-: Fråfall av næringskoder, etter bedriftsstørrelse. Antall arbeidstakerforhold. Størrelsesgruppe I alt Kode Fråfall I alt 789 69699 79 (små) 7 7 77955 779 5 8879 887 657 657 (store) 57 57 5... Andre bedriftsegenskaper Enhetens størrelsen målt ved antall ansatte har betydning for organisering av arbeidet og derfor for arbeidsoppgåver som igjen får konsekvenser for yrkesfordelingen i en bedrift eller foretak. Dette skyldes støttefunksjoner som vokser med økende størrelse, for eksempel yrker innen administrasjon og ledelse, samt lager, transport osv. Man antar også at det er høyere grad av spesialisering innen ledelsen av store bedrifter, f.eks. egne personaldirektører, osv. I små bedrifter vil arbeidsoppgåvene til den enkelte være mer varierte, noe vi vet har skapt usikkerhet om hvilken yrkeskode de bør velge. Hovedregelen er at de arbeidsoppgåvene som man bruker lengst tid på skal være bestemmende for yrkeskoden. Foretakenes ansattetall øker og minsker som følge av både organisatoriske omgrupperinger, så vel som reelle ansettelser/oppsigelser. Foretak kan derfor bytte størrelsesgruppe fra en periode til en annen, og dette vil vel skje i større utstrekning enn endringer i næringskoder. Andre egenskaper er organisasjonsform (A/S, osv.), og hvorvidt det er en eller flere bedrifter i foretaket. Dette er egenskaper som først og fremst kan ha betydning for ledelses- og administrasj onsyrker. 5... Andre egenskaper ved arbeidstakerforholdet Det har vært foreslått å bruke lønn i modellering av yrke. Uten å ha undersøkt dette nærmere kan vi peke på to forhold: En betydelig del av arbeidstakerforholdene i Arbeidstakerregisteret er ikke koblet til Lønns- og trekkoppgaveregisteret (LTO) slik denne koblingen foretas i forbindelse med sysselsettingsstatistikken. Å forsøke enda en koblingsmetode her vil bringe inn nye usikkerhetsmomenter. Man må også merke seg at det i LTO ikke er direkte kobling til bedrift (kun foretak), og at det er betydelige svakheter i dateringene. Vi tror at lønn har endel åsi for yrkesfelt ( -siffer nivå), men kan være mindre nyttig for å skille yrker på et detaljert nivå. Dette er ikke undersøkt nærmere, og det kan tenkes at det for enkelte yrkesgrupper er mer nyttig enn antatt. Det vil bli mer aktuelt å bruke lønn for å predikere yrke for selvstendig næringsdrivende. For denne gruppen vil man ha et mer entydig datagrunnlag for inntekt, da disse defineres bla. utfra selvangivelsesregisteret. Det vil også bli aktuelt å bruke yrkeskoder som er samlet inn i forbindelse med lønnsstatistikken. Dette er en stor utvalgsundersøkelse hvor bedrifter leverer yrkes- og lønnsdata på personnivå. 5.. Imputeringsmetodikk Vi kan imputere alle som mangler yrke i Arbeidstakerregisteret ved en imputeringsmodell i flere trinn. Valg av variabler og detaljeringsnivåer må baseres på yrkesfaglig skjønn i tillegg til en ren kvantitativ vurdering av effekt og kvalitet. Det betyr at vi ikke kan gi en uttømmende begrunnelse for alle valgene her. Beskrivelse av metoden: Deterministisk imputering utfra en ikke-informativ SHG-modell. Estimert gruppegjennomsnitt (urealistisk verdi) for alle innen hver SHG. Imputerer i flere trinn, med de mest detaljerte ("beste") først, og grovere inndelinger i videre trinn. Ideelt sett skulle man identifisert det vi kan kalle 'ikke-informative yrkeshomogene grupper', dvs. i et stratum har alle samme yrke, og stratumstilhørighet er definert av andre variabler enn yrke. For en slik gruppe vil alle arbeidstaker forhold få realistiske verdier (T for medlemmer og '' for ikke-medlemmer). For de øvrige gruppene vil verdiene ikke gi mening på mikronivå, men gi liknende makrotall som andre metoder. Noen egenskaper ved den valgte metoden: Det er enkelt å lage makrotall utfra den komplette yrkesvariabelen. Ingen ekstra estimeringsusikkerhet slik som ved stokastiske metoder. Metoden er mulig å forklare på en intuitiv måte, altså at den virker rimelig for brukerne av yrkesdata. Verdiene må konverteres for å kunne brukes på mikronivå. Programmeringen blir mer omfattende og dokumentasjonen blir mindre sammenhengende enn ved en mer enhetlig metodikk. Man underslår endel variasjon i data, og metoden kan være mer sårbar for skjevheter. Variansen av estimatet må justeres for effekten av imputering for å gi et realistisk mål.

Estimerer andelen av yrke Y innen gruppen g: _ zesr,g Imputerer yrke for arbeidstakerforhold i som mangler yrke og som er medlem av gruppen g: Y Y HSr,ieg x g Sum for imputert yrke: i=g asr Estimat for populasjonsandelen blir da: Y -- Y * f= s- N For å kvantifisere effekten av imputering beregnes en justering av varians av estimatet. Dette er altså en økning av den usikkerheten som allerede finnes pga. rent fråfall. La v* være variansestimat for den imputerte estimator og svarandelen f n + m Da er et forenklet frafallsjustert variansestimat gitt ved: v* v ( = for deterministisk imputering r 5.. Variabler og grupperingsnivåer Tabell 5-: Valgte inndelinger i forsøk med deterministisk imputering av yrke. Trinn Variabel Aggregerin nta ven ic Antall grupper Nærin 5 (næringsundereruppe 58 97 Utdannin (nivå + faggruppe) Antall ansatte Log-grupper Næring (næring) 5 7 Utdannin (nivå Bedriftstype Næringshovedområde + 7 størrelsesgruppe Tabellen viser forholdet mellom aggregeringsgrad og antall grupper. På sikt kunne man analysert dette nærmere og eventuelt kommet fram til en bedre balanse eller mer raffinerte metoder. Eksempel på en analyse vil være å måle oppsplitting av yrker innen de ulike gruppene (eks. ved mikrokonsistens) for å identifisere inndelinger som er mer effektive. 5.. Resultater Etter å ha kjørt imputeringsopplegget på de største yrkene, vises resultater av estimering sammenliknet med svargruppen. Detaljerte tabeller brukes for å vurdere om estimeringen fører til spesielle resultater for små grupper. Dette fordi det vil være interessant å lage yrkesstatistikk på et svært detaljert nivå. Vi må derfor kontrollere om den forsøkte metodikken gir store utslag, og i hvilken grad vi kan forklare dette utfra de foreliggende data. Tabell 5-: Antall imputert i de ulike trinn, samt tall for øvrige arbeidstakerforhold i samme grupper. imputeringstrinn I alt 789 879 89 87 Fråfall, imputert 656 7 97 Levert, ikke-imp. 9899 6679 66 75 Dette er bokstavkoder, ikke " -siffer næring"

Tabellen viser at de fleste blir imputert på et detaljert nivå og at det er en rimelig sammenheng mellom størrelsene på giver- og mottakergruppene. Det må bemerkes at bildet vil se annerledes ut for de resterende () yrkene, og at en vil forvente mer usikkerhet i små grupper. Tabell 5-: Estimerte antall i vanlige yrker, etter kjønn og -årige aldersgrupper. 5 BUTIKKMEDARB 5 HJELPEPL,. 5 BARN/UNG.ARB GRUNNSK.LÆR. 9 RENGJØR,(BED, SYKEPLEIERE 59 PLEIE OL 5 SALGSREPR. KONTORMED. SEKRETÆRER Kvinner 5 6 7 8 9 Menn 5 6 7 8 9 76 9.9.8.6.6 7 77.85.. 8 5 76 986 668 57 59.8 59 587.9 78 855.6 76 87.8 7699 859. 7 596 86 6 5 6 5887 6 776 87 666.69 899.7 88 9798 5.68 9596 568.8 5 66.97 7978 85. 878 6 7576 8978 7 57.8 99 865.5 9. 9 75 8 6 68. 96 5.9 77 79.6 67 69 55 6. 86 55.6 67 77.7 95 75.76 986, 887 9.6 9 6.9 9 98.8 76 797 6797 7 95 77.7 66 79. 5 559.78 996 9889.8 8.6 7 8. 66 78. 86 55 59 99 775 55 57 856 98.5 6 87.77 55. 5 58.98 8 968 55 68.66.6 7.6 97 766 58 557 86 96.9 5...5 8.6 5. 5.. 7 77. 5 6.5..8.6..7.6.6 85 5.6.8. 7 58..5.9.77. 77 899 8 5 5.76 75.9 8 9. 57 6. 6 5.7 59 7.8 85 886.88 6.58 5 5. 6 8.5 75 97.8 87 976.5 56 56.8 8 76.9 7.5 6 9.77 575 596.7 57 789.7 55 68.5 795 89.7 5 56.68 8 85.8 7 57. 9 5.5 6 7.9 77 7.66 698 658.7 8 59.55 5 65. 58 589.8 75 9. 6 7. 565 56. 67 6.99 65 79. 8 9.96 6.8 59 78.7 9 8.69 697 8. 67 9. 8 55.6 89 77.9 6. 86, 87 95. 665 9.66 5 65. 7 77.6 7 9.9 55.56 8 6. 97 7.5 6.96 8.8 5 67. 6 97. 79.9 8 9.9 6. 5...6.75 5 7.7 5 6.58 58 65.95 6.9 5 8.5 _..8..58 5 5.7. Tabell 5-: Estimerte antall i vanlige yrker, etter fylke. ØSTFOLD AKERSHUS OSLO HEDMARK 5 OPPLAND 6 BUSKERUD 7 VESTFOLD 8 TELEMARK 9 AUST-AGDER VEST-AGDER ROGALAND HORDALAND SOGN OG FJORD. 5MØREOGROMSD. 6SØR-TRØNDELAG 7NORD-TRØNDELAG 8 NORDLAND 9 TROMS FINNMARK 7589 889.78 758 8.89 8 876.5 558 6.5 698 67.57 87 97.96 88 858.66 568 578.96 7 58 587 6.7 7 575.5 56 6.7 6 67 8 7999 89.88 8.6 5.89 7 769.6 967 56.56 6 95.7 58 5.7 787 6 55 6597 7 8585 7.9 7 55 57. 76 57 9 975. 76 87.5 555 58.89 7 77.66 99 96 9 78 55 6.5 5 5.5 65 77.85 7 65 9 7.5 6 989.5 665 6787.8 598 6. 79.9 88 7.7 6 5.89 6 7589 96.97 9.8 78 88.58 67 8.6 5 56.97 7 58. 768 885.6.9 8 59 7 7 57.98 79 67.7 99 69.7 9 569.85 66 698.9 5 57.8 756 89.5 8 87. 79 86. 655 5.5 8. 6 6.6 96 5.8 668 6.55 6566 666. 98 5. 69 77.6 896 9585 87.6 957.55 6 77.5 75 55.7 85.6 968.5 89.7 97 7.88 8 5.9 97 5.9 596 656 87 8 79.5 567 5768 76 958. 578 596.96 88 8.9 99 886 9 595.5 97 65,9 968 986.87 89 85.9 79 8,7 856 5. 6 655 5 597 77 59.9 76 867. 66 7.76 7 687 7.6 6 57 8 5. 97 956.7 756 776.5 699 95 98 599 5558 5. 775 89.6 9 68 55 6.5 8 887 67 85 98.85 9 8.87 655 7 9 9.55 9 5.5 5 579.7 5.7 6 9 658 678.77 9 78. 8 5.7 95 5. 88 97.5 5 5.5.8 67 767 669 7 65.7 59 5.9 9 955.9 89 856.68 5655 668.7 5 675.7 6 578 58 699 67 5.55 86 99.6 6569 6898.8 6 58.8 666 6986 968.5 587 6. 96 55.98 9 8.9 996 57.85 556 6. 5 7.98 7 97.5 9 7.6 5 57.99 59 66 7 5.8 7 76.96 5 65.5 65.9 59.75 58.8 5.7 9 8. 59 68.8 75. 75 965.5 58.76 8.5 86 7.76 5 6. 67.85 885 9.7 679.6 96 6.6 9.7 6,8 9 96.87 77.6 8 5. 96 9.76 69 58.8 66.56 676 758. 7 6.65 65 66. 87 9.9 9.9 85 89. 5 8.9 Generelt kan man si at effekten er størst i de yngste og eldste (små grupper), i Østfold (høyest fråfall) og Troms (ganske høyt fråfall, og lavt antall arbeidstakerforhold i alt). 5..5 Vurdering Det foreslåtte estimeringsopplegget ved imputering kan brukes for å lage detaljert statistikk over yrke i Arbeidstakerregisteret. De største fordelene er: Komplette mikrodata, kan gi tall for små grupper. Antall arbeidstakerforhold stemmer overens med annen publisert statistikk fra Arbeidstakerregisteret. Usikkerhet som skyldes selve estimeringen er lav. Siden fråfallet er ganske lavt i de foreliggende data, er den teoretisk varians lav og det vil også være en lav tilleggsusikkerhet av imputeringen. Det er grunn til å tro at andre forhold er mer bekymringsfulle når det gjelder kvaliteten på yrkesdata i Arbeidstakerregisteret. Dette er i hovedsak klassifiseringsspørsmål, altså validitets problematikk ikke estimeringsproblematikk. Samsvarsanalyser med AKU viser endel avvik i yrkeskodingen på personnivå, og stikkprøver av mikrodata i Arbeidstakerregisteret viser noen få prosent som har feil eller usikker yrkeskode. Det blir til slutt et skjønnsspørsmål hva man mener er en akseptabel kvalitet. Tabellen nedenfor viser et kvalitetsmål for estimeringsmetoden som er foreslått. Det betyr at vi kan bestemme en grense for akseptabel kvalitet, og fastsette publiseringsnivå utfra denne. Variasjonskoeffisient til estimatet er justert på den forenklede måten som anvist for imputering i pkt. 5... 5

Tabell 5-5: Estimerte antall i vanlige yrker, og kvalitetsmål. Andel Antall Variasionskoeffisient 5 BUTIKKMEDARB. 8.% 69 95.77.8 % 5HJELPEPLEIERE.O.L.67 % 76 6..9% 5 BARNE/UNGDOMSARB..78% 57 6.6.56 % GRUNNSKOLELÆRERE.8% 67 9..7% 9RENGJØRING(BEDR.).55 % 7 5.79. % SYKEPLEIERE.%.5.7 % 59 ANNET PLEIE..95 % 6 989.7. % 5 SALGSREPRESENTANTER KONTORMEDARBEIDERE SEKRETÆRER.5% 7 865.7.88 % 59 687.87.% 7 66. 5. %.7 % 5.9 % Andre forhold som må forklares i forbindelse med publisering er avvik mellom Arbeidstakerregisteret i forhold til publisert yrkesstatistikk i AKU, jf. pkt 5... Tabellen nedenfor viser andelene for de største yrkene, når selvstendig næringsdrivende holdes utenfor i AKU-data.kvartal. Tabell 5-6: Andeler av vanlige yrker, AKU-ansatte (upubliserte tall), og AA-estimat. Yrke AKU AA Andel Andel 5 BUTIKKMEDARB. 7.9 8. 5HJELPEPLEIERE.O.L.66.67 5 BARNE/UNGDOMSARB...78 GRUNNSKOLELÆRERE..8 9RENGJØRING(BEDR.).75.55 SYKEPLEIERE.5. 59 ANNET PLEIE...95 5 SALGSREPRESENTANTER.5.5 KONTORMEDARBEIDERE.68.88 SEKRETÆRER.65. 6 Planer Følgende arbeidsoppgåver vil ha høy prioritet i arbeidet med yrkesvariabelen i Arbeidstakerregisteret: Kontakt med arbeidsgivere for å øke leveringsgraden. Her vil vi særlig prioritere foretak med mange ansatte og som har maskinell innrapportering til Arbeidstakerregisteret, da dette vil gi størst effekt på leveringsgraden. Forserte revisjon av systemer for manuell- og automatisk yrkeskoding, for å sikre mest mulig faglig korrekte yrkeskoder. Bruke yrke aktivt i interne analyser, f.eks. i forhold til sykefravær, for åfå nye innfallsvinkler til å bedømme kvaliteten. Fortsatt holde et høyt servicenivå ovenfor arbeidsgivere i forbindelse med årskontrollen, med rask hjelp til å finne riktig yrkeskode. Dette utfra et ønske om større grad av levering av koder framfor tekst. 6

De sist utgitte publikasjonene i serien Notater /5 E. Holmøy: Velferdsregnskap - et mulig teoretisk rammeverk.ss. /5 C. Wiecek: Undersøkelse om fremtidsplaner, familie og samliv. Dokumentasjonsrapport. 595. /5 KOSTRA: Arbeidsgrupperapporter. 55. /65 P.E. Tønjum: Tilbakemelding/ dokumenta sjon av prosjektet: Avstemming av KNR mot nye årstall ifølge tallrevisjonen.s. /66 B.A. Holth: Arbeids- og bedriftsundersøkelsen. Dokumentasjon. 675. /67 H. Tønseth: Kommuneale helseforskjeller -de finnes, men kan de måles? 5s. /5 A. Haglund: Rapport fra arbeidsgruppa om forslag til arbeidsdeling mellom /68 T.M. Normann: Omnibusundersøkelsen mai/juni. Dokumentasjonsrapport. 5s. Brønnøysundregistrene (BR) og Statistisk sentralbyrå (SSB). s. /69 KOSTRA (Kommune- Stat- Rapportering) Rutinebeskrivelse og dokumentasjon. 6s. /5 E. Eng Eibak: Forventningsindikator - konsumprisene. Mai - november. 9s. /7 E. Holmøy og B. Strøm: Fordeling av /55 G. Daugstad: Levekår for ungdom i større byer. 8s. tjenesteproduksjon mellom offentlig og privat sektor i MSG-6. 55. /56 A. Vedø og D. Rafat: Sammenligning av utvalgsplaner i AKU. 7s. /57 L. Belsby: Fråfall og vekter i Tidsbruksundersøkelsen -. s. /58 L.Belsby: Vekter i Forbruksundersøkelsen. 8s. /59 M. Mogstad og L.C. Zhang: På veien fra familie- til husholdningsregister. En metode for prediksjon av samboere uten barn.5s /6 A. Vedø og D. Rafat: Redigering av husholdningsfilen fra Kvalitetsundersøkelsen. s. /6 M. Mogstad: Analyse av fattigdom basert på register- og folketellingsdata. 755. /6 T. Eika og J.A. Jørgensen: Makroøkonomiske virkninger av høye strømpriser i. En analyse med den makroøkonometriske modellen KVARTS. 6s /7 J.K. Dagsvik: Hvordan skal arbeidstilbudseffekter tallfestes? en oversikt over den mikrobaserte arbeidstilbudsforskningen i Statistisk sentralbyrå. 675. /7 A. Steinkellner: Inntektsstatistikk for personer og familier 999-. Dokumentasjon av datagrunnlag og produksjonsprosess. 5. /7 F. Tverå, I. Sagelvmo: Beregning av næringene fiske eget bruk, fiske og fangst og fiskeoppdrett i nasjonalregnskapet. 9s. /7 K.H. Grini: Lønnsstatistikk privat sektor 997-. Dokumentasjon av utvalg og beregning av vekter. 65. /75 A.H. Foss: Grafisk revisjon av nøkkeltallene i KOSTRA. 6s. /76 K. Hansen: Ideelle organisasjoner i nasjonalregnskapet. Os. /6 B. Mathisen: Flyktninger og arbeidsmarkedet /77 E.E: Eibak: Undersøking om foreldre-. kvartal. 5. betaling i barnehagar, august. 65. /6 E. Røed Larsen og D.E. Sommervoll: Til himmls eller utfor stupet? En katalogisering av forklaringer på stigende boligpriser. Is. /78 A.H. Foss: Kvaliteten i husholdningsdelen i Folke- og boligtellingen. ls. 7