Historie på individnivå - historieforskning basert på datagrunnlag fra fagsystemer. Børge Strand KAI-konferansen

Like dokumenter
Digitalt skapt kildemateriale og arkivarenes påvirkning - fast element i kildekritikken? Av Børge Strand

Om bruk av digitalt skapt arkivmateriale i historieforskning. Av Børge Strand Daglig leder IKA Øst

Instruks for elektronisk arkivmateriale som avleveres eller overføres som depositum til IKA Møre og Romsdal IKS

Prinsipper og nye metoder for formidling av statistikk

Del 2: Uttrekk fra udokumentert database

Tilgang til forskningsdata. Bjørn Henrichsen NSD Norsk senter for forskningsdata

ADDML er død, lenge leve ADDML. (ADDML 7.3 er ikke helt død, lenge leve ADDML 8.3)

Retningslinjer for avlevering av elektronisk arkivmateriale til Interkommunalt arkiv Troms

Juridisk regulering av helseregistre brukt til kvalitetssikring og forskningsformål

Studieplan 2008/2009

PRESENTASJON NORDIG OKTOBER Alle skal kunne teste alt - overalt

Bruk av pasientregisterdata i SINTEF. Fremtidens behov og utfordringer

DIAS - Digital arkivpakkestruktur

Retningslinjer for utlevering av data fra Kreftregisteret

HelsIT 2015 Submission/Paper 9 (rev.)

Retningslinjer for deponering og avlevering av digitalt arkiv. Kontaktkonferansen 2018 Arkiv Troms v/jan Grav, IT-rådgiver

Etikk skal ikke være noe ved siden av -

Samtykkeerklæring. Forespørsel om registrering i [sett inn navn på register]. [Sett inn databehandlingsansvarliges logo)

Bevaring og innsyn i elektroniske arkiver i Bergen kommune. IKAH kontaktkonferanse 2. juni 2015 jan.helle@bergen.kommune.no

Regelverk, instrukser, bestemmelser og metode

Alle skal kunne teste alt - overalt KDRS TRONDHEIM JUNI 2017

8. Datagrunnlaget. Kåre Vassenden

kommunesamling 6. Juni 2007 Svein Amblie

Big data i offentlig sektor og personvern

Periodisering og avlevering av elektronisk arkiv hvem, hva, når? Rådgiver Ole-Bjørn Fossbakk og rådgiver Solveig Heløe Olsen, IKA Troms

Forskrift om endring i Dødsårsaksregisterforskriften, Kreftregisterforskriften, Medisinsk fødselsregisterforskriften, SYSVAKregisterforskriften,

Det juridiske rammeverket for helseregistre

Retningslinjer for utlevering av data fra Kreftregisteret

NORSK LOVTIDEND Avd. I Lover og sentrale forskrifter mv. Utgitt i henhold til lov 19. juni 1969 nr. 53.

RETNINGSLINJER FOR UTLEVERING AV DATA FRA NORSK PASIENTREGISTER

Retningslinjer for avlevering av elektronisk arkivmateriale til Bergen Byarkiv

Avlevering av digitale arkiver (DA)

NORSK LOVTIDEND Avd. I Lover og sentrale forskrifter mv. Utgitt i henhold til lov 19. juni 1969 nr. 53.

102 Definisjoner og forklaringer

Infrastruktur i samfunnsvitenskap - Om tilgang til registerdata for forskningsformål

Ny statistikklov: Utlevering av statistikk til forskning

Samdok. Samdok og. Arkiv i e-forvaltning. KDRS-samling 14. november Arkiv i e-forvaltning. Hans Fredrik Berg, Riksarkivet

Digitalarkivet som nasjonal publiseringsplattform. 8. norske arkivmøte, 8. april Vildana Grabovica, prosjektleder Digitalarkivet

Mikrodata til forskere - erfaringer og planer fra Norge

ARKIVVERKETS EARKIV- PROSJEKT : STATUS

Om det pågående arbeid med standard for arkivering av EPJ Hva med kommunenes behov?

Jon Helgeland - seminar om rammeverk 22. april Kunnskapsesenterets Datainnhenting muligheter og. utfordringer

Personvernerklæring for Fredrikstad kemnerkontor

Personvernerklæring for Cristin (Current Research Information System in Norway)

Big data i offentlig sektor - og personvern

Helsedatautvalget. Marta Ebbing, leder. HelseOmsorg21-rådet, 23. januar 2017

Vedlegg C - Datahåndteringsplan

Marcus et digitalt verktøy

Informasjonsforvaltning et rettslig perspektiv. Jon Holden

Hovedtema: Primær- og sekundær arkivbruk bør den siste legge premisser for den første?

Go to use the code /10/2016. En liten undersøkelse: Mobil/ nettbrett. INF1000/ INF1001: IT og samfunn.

Arkivverket Dokumentasjonsforvaltning - ny struktur. Kjetil Reithaug Fagdirektør Seksjon for Dokumentasjonsforvaltning,

1. De overordnede bevarings- og kassasjonsvurderingene som ligger til grunn for regelutkastet (kapittel 1 i høringsnotatet).

NORSK LOVTIDEND Avd. I Lover og sentrale forskrifter mv. Utgitt i henhold til lov 19. juni 1969 nr. 53.

Det 8. norske arkivmøtet 2019 Invitasjon til innlegg

Forskningsprogrammet MER entreprenørskap. Informasjonsmøte 22. oktober 2009 om utlysning Programkoordinator Hanne Mari Førland

Forbedring av datakvalitet på bosatte i Norge - Bohusholdning

DEL I TILRÅDING ELLER KONSESJON?

unge i alderen år verken jobbet eller utdannet seg i 2014

Tilbakeføring av folkeregisteret til 1801: Kan vi? Vil vi? Tør vi?

KAI-konferansen AVTRYKK Aust-Agder museum og arkiv KUBEN september 2015

I spennet mellom ny forskrift for pasientopplysningar til ny strategi for arbeid med privatarkiv Arkivverkets arbeid med bevaring av arkiv

Kvalitetsregister for arbeidsrettet rehabilitering - KAR

Produksjonslinje for bevaring og formidling av elektroniske arkiv fra kommunal sektor KDRS RIKSARKIVARENS ARKIVUTVIKLINGSMIDLER

Det må etableres gode og fremtidsrettede helseregistre som gir formålstjenlig dokumentasjon til kvalitetsforbedrende arbeid og forskning.

Samdok konferansen 2013 Fra digital arkivdanning til digitalt depot i kommunene Tor Eivind Johansen, daglig leder KDRS

Informasjonsskriv om forskningsprosjektet Nye mønstre trygg oppvekst

Velkommen til Riksarkivarens undersøkelse for kommunale arkivtjenester 2015 (Storbyundersøkelsen)

Samfunnsnytte og belastninger for den registrerte

Veiledning i arkivarbeid med fagsystemer

Ny personopplysningslov - endringer av betydning for behandling av personopplysninger i forskningsprosjekter

Personvern i forskning

Tilgang til data fra Reseptregisteret. Olaug Sveinsgjerd Fenne, Seniorrådgiver, Folkehelseinstituttet

Fagsystemer. Kommunearkivkonferansen IKA Opplandene Pål Mjørlund

Sikker, digital arkivering av personsensitiv informasjon

Utfylt skjema sendes til personvernombudet for virksomheten. 1 INFORMASJON OM SØKEREN 2 PROSJEKTETS NAVN/TITTEL

Digitale arealplaner. Arkivloven Lars-Jørgen Sandberg, Riksarkivet

Høringsuttalelse: Ny lov om offisiell statistikk og Statistisk sentralbyrå

DEN DIGITALE TIDSALDER

Framgangsmåte for klargjøring og avlevering av elektronisk arkivmateriale til arkivdepot Supplerende bestemmelser for kommuner tilknyttet IKAT

NAV-evaluering. - behandling av personopplysninger. Voksenåsen, Oslo. Personvernombudet for forskning. 23.oktober 2007

Rettslig regulering av helseregistre

Samdok samla samfunnsdokumentasjon

Eksamensoppgave for FINF 4001 Forvaltningsinformatikk Fredag Kl (6 timer)

Bruk av produksjonsdata til testing

Nye bevarings- og kassasjonsbestemmelser

Generell metode. v/sigve Espeland, IKA Rogaland

Håndtering av forskningsdata og utvikling av datahåndteringsplaner (DMP) Solveig Fossum-Raunehaug (Forskningsavdelingen)

Automatisering av uttrekk fra bevarte databaser

Arkivlovutvalget har levert!

Ole Myhre Hansen Seksjon for digitalt depot, RA

Behovene for god fagskolerapportering Rita Aanerud, Statistisk sentralbyrå (SSB)

Fra kalveskinn til datasjø Ny lov om samfunnsdokumentasjon og arkiver

Riksrevisjonens undersøkelse av arbeidet med å sikre og tilgjengeliggjøre arkivene i kommunal sektor. Dokument 3:13 ( )

Hvilke krav stiller Folkehelseinstituttet ved søknad om data fra helseregistrene?

Rettslig regulering av helseregistre. Dana Jaedicke juridisk rådgiver E-post:

Dokumenter som må være på papir i en fullelektronisk verden?

Transkript:

Historie på individnivå - historieforskning basert på datagrunnlag fra fagsystemer Børge Strand KAI-konferansen 2016 15.09.16

Historie på individnivå Begrepet er hentet fra Sivert Langholms artikkel i Historisk tidsskrift 3/1974 Artikkelen gjaldt Ullensakerundersøkelsen, og definerte mikrohistorie som historie med kildegrunnlag på individnivå der variable fra en rekke ulike kilder ble dataregistrert, sammenstilt på individnivå og analysert maskinelt Paneldata, dvs. å følge de samme individene over tid, hele eller deler av livsløpet Langholm beskriver bl.a. prosessen med personidentifisering fra kilde til kilde som meget ressurskrevende mikrohistoriens problem Det er kontinuitet fra de manuelle informasjonssystemene med individdata til dagens digitale informasjonssystemer med individdata, men også meget viktige forskjeller: Individdata som er skapt digitalt, er tilrettelagt for maskinell bruk - og gjenbruk - av arkivskaperne Det finnes entydige ID-nøkler som tillater maskinelle koblinger - dvs. arkivskaperne har løst mikrohistoriens problem

Mikrodata - hva menes? Data på individnivå om f.eks. enkeltpersoner eller enkeltforetak Mikrodata finnes i store mengder i digitale registre og fagsystemer som utgjør ca. 75 % av det digitale arkivmaterialet ID-nøkler: fødselsnummer, familienummer, organisasjonsnummer, numerisk adresse m.fl. - som muliggjør datautveksling, kobling og gjenbruk av data på tvers av organisasjoner og systemer i aktiv administrativ bruk og i forskning Uansett i hvilket system fødselsnummer 15123437845 forekommer, så gjelder dette samme individ

Forskerforum tidsskrift for forskerforbundet I 2014 var det en rekke artikler og debattinnlegg om registerbasert forskning (eks. 1/2014, s.35) Bekymring for tilgangen til mikrodata for forskning Statistisk sentralbyrå (SSB) har et tilnærmet monopol på utlån av mikrodata for forskning SSB tilrettelegger - skreddersyr - datagrunnlag for forskere Prisøkning på tilrettelegging Etterspørsel etter data fra SSBs egne registre, men også eksterne, administrative registre Dette er i stor grad de samme registrene/fagsystemene som arkivinstitusjonene bevarer nasjonale og lokale

Hovedgrupper av digitalt arkivmateriale Internadministrative systemer Journalførings-/sak/arkivsystemer (NOARK) Andre internadministrative systemer (regnskap, lønn, personal, tidsregistrering mm.) Registre/fagsystemer nasjonale/etatsvise administrative registre forskningsregistre statistikkregistre støttesystemer for spesielle typer saksbehandling f.eks. i kommunal sektor (barnevern, helsetjeneste, eldreomsorg, skole, barnehage, naturforvaltning, bygg og eiendom, sosialtjeneste osv.) generelt - omfattende datautveksling og gjenbruk Andre

Sperrefrister vs. tilgjengeliggjøring Digitalt skapt arkivmateriale er ungt materiale og dermed underlagt sperrefrister Klausulert i 60 til 100 år For de eldste arkivuttrekkene nærmer det seg slutten på klausuleringstiden Eks. Fellesordningen for tariffestet pensjon (FTP) 1962 1967 Arkivdepotene har samtidig et krav om å gjøre dette tilgjengelig - 1. For publikum/arkivskaperne generelt 2. For forskning spesielt Forvaltningsloven 13 d Personopplysningsloven 11 - Grunnkrav til behandling av personopplysninger: Senere behandling av personopplysningene for historiske, statistiske eller vitenskapelige formål anses ikke uforenlig med de opprinnelige formålene med innsamlingen av opplysningene, jf. første ledd bokstav c, dersom samfunnets interesse i at behandlingen finner sted, klart overstiger ulempene den kan medføre for den enkelte Datatilsynet om avidentifisering og anonymisering: Avidentifisering vil si at alle person-entydige kjennetegn er fjernet fra opplysningene, slik at de ikke lenger kan knyttes til en enkeltperson Anonymisering er å gjøre personopplysninger anonyme Re-identifisering skal ikke være mulig NSD Personvernombudet for forskning

Eksempel Ligningsregisteret fra Skattedirektoratet Årlige datasett fra 1967 Populasjon er alle personlige skattytere det enkelte inntektsår Demografisk informasjon Inneholder en rekke inntekts-, formue- og skattebeløp Registeret dokumenterer opptjening av pensjonsrettigheter, danner grunnlag for forskuddsutskrivning m.m. Koblingsnøkler: fødselsnummer, rekkefølgenummer, kommunenummer Dataflyt fra Ligningsregisteret til Det Sentrale Folketrygdsystem DSF - (NAV): Årlige tabeller med fødselsnummer, kommunenummer og kronebeløp for pensjonsgivende inntekt Skattelistene er produsert på grunnlag av Ligningsregisteret - Ligningsregisteret er primærkilden både for skattelistene og for historikken i DSF To bevaringsvedtak hhv. 1984 og 2002 1984 hver femte årgang bevares 2002 - hver årgang bevares f.o.m. 1990

Katalogdata - teknisk dokumentasjon av arkivuttrekk Teknisk dokumentasjon er helt avgjørende for bruk hva de enkelte systemer inneholder, hva tabellene inneholder og hva de enkelte felt inneholder Ikke godt nok å bare ta med tabellnavn og feltnavn fra opphavssystemet VSOIKFS og GTUOLXE er tabellnavn som forekommer i WIS skoleadm. system GSIID er et feltnavn i det samme systemet 8-27.Formatkrav m.m. til den tekniske dokumentasjonen Struktur- og innholdsbeskrivelsen som skal følge med tabelluttrekk, skal være i ren tekst i godkjent tegnsett, jf 8-11. Beskrivelsen skal benytte XML-syntaks. Når XML benyttes i beskrivelsen av tabelluttrekk med tekstfiler i fast eller tegnseparert format, jf. 8-13 bokstav a og b, skal beskrivelsen følge reglene i Riksarkivarens beskrivelsesstandard ADDML (Archival Data Description Markup Language). 8-28.Dokumentasjon av systemet som datauttrekket er eksportert fra Det skal gis en oversikt over det opprinnelige systemets overordnede struktur, herunder relasjoner mellom tabeller og primær- og sekundærnøkler i de enkelte tabellene i systemets database. Denne oversikten kan ha form av et ER-diagram. Katalogdata tekniske metadata kan fritt publiseres data og tekniske metadata lagres hver for seg Forskere og andre må kunne se katalogen uten samtidig å se innholdet i datatabellene Men noen må lage katalogdata det er både tidkrevende og kompetansekrevende

Enkeltoppslag og søking på vegne av publikum og/eller arkivskapere Katalogen - teknisk dokumentasjon/tekniske metadata (= ADDML-fil) er en forutsetning for all bruk av data i teknologiuavhengig form Tilgjengeliggjøring: Arkivdepotet utfører søk/spørringer på vegne av arkivskaper/rekvirent Eks. Dokumentasjon av historisk, pensjonsgivende inntekt fra Ligningsregisteret Eks. fra Humanus fagsystem for sosialtjenesten: Sum utbetalt økonomisk sosialhjelp for en klient 1998 2002 - unge uføre Arkivdepot leverer en DIP av et gitt fagsystem en historisk søkbar database tilbake til arkivskaper Det er fullt mulig å kjøre søk/spørringer direkte mot rådatatabeller - ofte mer effektivt enn å gjenskape fagsystemet som en DIP

Forskningens etterspørsel og bruk Stor og økende etterspørsel etter mikrodata fra registre alltid informasjonsverdien som etterspørres Etterspørsel er ett av kriteriene vi skal ta hensyn til i BK-vurderingen Stor bredde i forskningsmiljøer som etterspør dette foreløpig lite fra historikermiljøene Samfunnsvitenskapelig, økonomisk, medisinsk forskning osv. En rekke formelle, juridiske og etiske vilkår må være oppfylt Hvert enkelt forskningsprosjekt vil være individuelt og kreve individuelt tilpasset - skreddersydd - datagrunnlag All tilrettelegging og kobling må foregå innenfor sikre soner i et digitalt depot Datagrunnlag som utleveres, må være avidentifisert eller anonymisert - avidentifiserte/anonymiserte data kan ikke kobles videre på individnivå Datagrunnlaget må slettes etter bruk. Videre bruk vil uansett være lite aktuelt

Historieforskning spesifikt Statlige registerdata fra 1960-tallet. Populasjonen i registrene omfatter årskull tilbake til 1800-tallet Overlapper til dels med Historisk befolkningsregister Demografi, økonomi, samferdsel, justis Trygdeetaten, skatteetaten, politiet, veietaten Kommunale systemer fra 1970-tallet Lang historikk bør være interessant for historieforskning også Paneldata

Bestilling av datagrunnlag for forskning Kildemateriale - datagrunnlag hva finnes og hvor finnes det? Katalogene er inngangsporten til kildene - for tabelluttrekk fra registre og fagsystemer, vil det si tekniske metadata - ADDMLfilene Lang tradisjon for forskning basert på registerdata i Norge og i Norden forskningsmiljøene har stor kompetanse på å lese tekniske metadata, men arkivdepotene må kunne gi ytterligere veiledning Analysegrunnlag datasett skreddersydd for et gitt forskningsformål Populasjon Et sett av variable Tilrettelegging og koblinger deretter avidentifisering/anonymisering Eksempler på forskning basert på registerdata

Riksrevisjonens undersøkelse av oppfølging av ungdom utenfor opplæring og arbeid Dokument 3:9 (2015 2016) Datagrunnlag individdata - hentet fra OTTO fylkeskommunenes fagsystem for oppfølgingstjenesten «Populasjonen til undersøkelsen er ungdommer som har en statuskode i OTTO som viser at oppfølgingstjenesten arbeider med ungdommen (oppfølging og veiledning), og/eller at ungdommen befinner seg i tiltak i form av et arbeidsrettet NAV-tiltak, et fylkeskommunalt tiltak eller et kombinasjonstiltak» (s. 41) Populasjonen omfatter 67 784 personer, dvs. dette er antallet som oppfyller kriteriene for populasjonen

Evig rikdom? - utvikling av inntektsnivå og inntektsfordeling i Norge de siste 150 år Et forskningsprosjekt i regi av SSB (omtalt i Forskerforum 9/2014) Det vi vil finne ut er om de personene som er rike ett år, er de samme som er rike året etterpå, Rolf Aaberge, prosjektleder (Forskerforum, november 2014) Metodisk: Moderne registerdata kobles med historiske data om formues- og inntektsfordeling For perioden fra 1967 benyttes mikrodata i registre: Inntektene til hvert enkelt individ følges år etter år gjennom maksimalt 45 år, dvs. paneldata basert på Ligningsregisteret

Registermateriale og kildekritikk Maskinell kildekritikk Logiske kontroller - sammenhenger og gjensidig avhengighet, systemgenerert informasjon, verdiområder for variable Konsistens samsvar avvik - internt i registeret Validering av fødselsnummer, organisasjonsnummer, kommunenummer Referanseintegritet Sammenligning på makronivå datautveksling og gjenbruk Sammenligning på mikronivå - samme metode som ved registervasking Retning av dataflyt hvor kommer data fra? avhengighet mellom kilder? Entitet: Person, familie, husholdning, skattyter, organisasjon Adresse ulike nivåer av numerisk adresse Mye avvik kan forklares med ulike entiteter og ulike perioder