Historie på individnivå - historieforskning basert på datagrunnlag fra fagsystemer Børge Strand KAI-konferansen 2016 15.09.16
Historie på individnivå Begrepet er hentet fra Sivert Langholms artikkel i Historisk tidsskrift 3/1974 Artikkelen gjaldt Ullensakerundersøkelsen, og definerte mikrohistorie som historie med kildegrunnlag på individnivå der variable fra en rekke ulike kilder ble dataregistrert, sammenstilt på individnivå og analysert maskinelt Paneldata, dvs. å følge de samme individene over tid, hele eller deler av livsløpet Langholm beskriver bl.a. prosessen med personidentifisering fra kilde til kilde som meget ressurskrevende mikrohistoriens problem Det er kontinuitet fra de manuelle informasjonssystemene med individdata til dagens digitale informasjonssystemer med individdata, men også meget viktige forskjeller: Individdata som er skapt digitalt, er tilrettelagt for maskinell bruk - og gjenbruk - av arkivskaperne Det finnes entydige ID-nøkler som tillater maskinelle koblinger - dvs. arkivskaperne har løst mikrohistoriens problem
Mikrodata - hva menes? Data på individnivå om f.eks. enkeltpersoner eller enkeltforetak Mikrodata finnes i store mengder i digitale registre og fagsystemer som utgjør ca. 75 % av det digitale arkivmaterialet ID-nøkler: fødselsnummer, familienummer, organisasjonsnummer, numerisk adresse m.fl. - som muliggjør datautveksling, kobling og gjenbruk av data på tvers av organisasjoner og systemer i aktiv administrativ bruk og i forskning Uansett i hvilket system fødselsnummer 15123437845 forekommer, så gjelder dette samme individ
Forskerforum tidsskrift for forskerforbundet I 2014 var det en rekke artikler og debattinnlegg om registerbasert forskning (eks. 1/2014, s.35) Bekymring for tilgangen til mikrodata for forskning Statistisk sentralbyrå (SSB) har et tilnærmet monopol på utlån av mikrodata for forskning SSB tilrettelegger - skreddersyr - datagrunnlag for forskere Prisøkning på tilrettelegging Etterspørsel etter data fra SSBs egne registre, men også eksterne, administrative registre Dette er i stor grad de samme registrene/fagsystemene som arkivinstitusjonene bevarer nasjonale og lokale
Hovedgrupper av digitalt arkivmateriale Internadministrative systemer Journalførings-/sak/arkivsystemer (NOARK) Andre internadministrative systemer (regnskap, lønn, personal, tidsregistrering mm.) Registre/fagsystemer nasjonale/etatsvise administrative registre forskningsregistre statistikkregistre støttesystemer for spesielle typer saksbehandling f.eks. i kommunal sektor (barnevern, helsetjeneste, eldreomsorg, skole, barnehage, naturforvaltning, bygg og eiendom, sosialtjeneste osv.) generelt - omfattende datautveksling og gjenbruk Andre
Sperrefrister vs. tilgjengeliggjøring Digitalt skapt arkivmateriale er ungt materiale og dermed underlagt sperrefrister Klausulert i 60 til 100 år For de eldste arkivuttrekkene nærmer det seg slutten på klausuleringstiden Eks. Fellesordningen for tariffestet pensjon (FTP) 1962 1967 Arkivdepotene har samtidig et krav om å gjøre dette tilgjengelig - 1. For publikum/arkivskaperne generelt 2. For forskning spesielt Forvaltningsloven 13 d Personopplysningsloven 11 - Grunnkrav til behandling av personopplysninger: Senere behandling av personopplysningene for historiske, statistiske eller vitenskapelige formål anses ikke uforenlig med de opprinnelige formålene med innsamlingen av opplysningene, jf. første ledd bokstav c, dersom samfunnets interesse i at behandlingen finner sted, klart overstiger ulempene den kan medføre for den enkelte Datatilsynet om avidentifisering og anonymisering: Avidentifisering vil si at alle person-entydige kjennetegn er fjernet fra opplysningene, slik at de ikke lenger kan knyttes til en enkeltperson Anonymisering er å gjøre personopplysninger anonyme Re-identifisering skal ikke være mulig NSD Personvernombudet for forskning
Eksempel Ligningsregisteret fra Skattedirektoratet Årlige datasett fra 1967 Populasjon er alle personlige skattytere det enkelte inntektsår Demografisk informasjon Inneholder en rekke inntekts-, formue- og skattebeløp Registeret dokumenterer opptjening av pensjonsrettigheter, danner grunnlag for forskuddsutskrivning m.m. Koblingsnøkler: fødselsnummer, rekkefølgenummer, kommunenummer Dataflyt fra Ligningsregisteret til Det Sentrale Folketrygdsystem DSF - (NAV): Årlige tabeller med fødselsnummer, kommunenummer og kronebeløp for pensjonsgivende inntekt Skattelistene er produsert på grunnlag av Ligningsregisteret - Ligningsregisteret er primærkilden både for skattelistene og for historikken i DSF To bevaringsvedtak hhv. 1984 og 2002 1984 hver femte årgang bevares 2002 - hver årgang bevares f.o.m. 1990
Katalogdata - teknisk dokumentasjon av arkivuttrekk Teknisk dokumentasjon er helt avgjørende for bruk hva de enkelte systemer inneholder, hva tabellene inneholder og hva de enkelte felt inneholder Ikke godt nok å bare ta med tabellnavn og feltnavn fra opphavssystemet VSOIKFS og GTUOLXE er tabellnavn som forekommer i WIS skoleadm. system GSIID er et feltnavn i det samme systemet 8-27.Formatkrav m.m. til den tekniske dokumentasjonen Struktur- og innholdsbeskrivelsen som skal følge med tabelluttrekk, skal være i ren tekst i godkjent tegnsett, jf 8-11. Beskrivelsen skal benytte XML-syntaks. Når XML benyttes i beskrivelsen av tabelluttrekk med tekstfiler i fast eller tegnseparert format, jf. 8-13 bokstav a og b, skal beskrivelsen følge reglene i Riksarkivarens beskrivelsesstandard ADDML (Archival Data Description Markup Language). 8-28.Dokumentasjon av systemet som datauttrekket er eksportert fra Det skal gis en oversikt over det opprinnelige systemets overordnede struktur, herunder relasjoner mellom tabeller og primær- og sekundærnøkler i de enkelte tabellene i systemets database. Denne oversikten kan ha form av et ER-diagram. Katalogdata tekniske metadata kan fritt publiseres data og tekniske metadata lagres hver for seg Forskere og andre må kunne se katalogen uten samtidig å se innholdet i datatabellene Men noen må lage katalogdata det er både tidkrevende og kompetansekrevende
Enkeltoppslag og søking på vegne av publikum og/eller arkivskapere Katalogen - teknisk dokumentasjon/tekniske metadata (= ADDML-fil) er en forutsetning for all bruk av data i teknologiuavhengig form Tilgjengeliggjøring: Arkivdepotet utfører søk/spørringer på vegne av arkivskaper/rekvirent Eks. Dokumentasjon av historisk, pensjonsgivende inntekt fra Ligningsregisteret Eks. fra Humanus fagsystem for sosialtjenesten: Sum utbetalt økonomisk sosialhjelp for en klient 1998 2002 - unge uføre Arkivdepot leverer en DIP av et gitt fagsystem en historisk søkbar database tilbake til arkivskaper Det er fullt mulig å kjøre søk/spørringer direkte mot rådatatabeller - ofte mer effektivt enn å gjenskape fagsystemet som en DIP
Forskningens etterspørsel og bruk Stor og økende etterspørsel etter mikrodata fra registre alltid informasjonsverdien som etterspørres Etterspørsel er ett av kriteriene vi skal ta hensyn til i BK-vurderingen Stor bredde i forskningsmiljøer som etterspør dette foreløpig lite fra historikermiljøene Samfunnsvitenskapelig, økonomisk, medisinsk forskning osv. En rekke formelle, juridiske og etiske vilkår må være oppfylt Hvert enkelt forskningsprosjekt vil være individuelt og kreve individuelt tilpasset - skreddersydd - datagrunnlag All tilrettelegging og kobling må foregå innenfor sikre soner i et digitalt depot Datagrunnlag som utleveres, må være avidentifisert eller anonymisert - avidentifiserte/anonymiserte data kan ikke kobles videre på individnivå Datagrunnlaget må slettes etter bruk. Videre bruk vil uansett være lite aktuelt
Historieforskning spesifikt Statlige registerdata fra 1960-tallet. Populasjonen i registrene omfatter årskull tilbake til 1800-tallet Overlapper til dels med Historisk befolkningsregister Demografi, økonomi, samferdsel, justis Trygdeetaten, skatteetaten, politiet, veietaten Kommunale systemer fra 1970-tallet Lang historikk bør være interessant for historieforskning også Paneldata
Bestilling av datagrunnlag for forskning Kildemateriale - datagrunnlag hva finnes og hvor finnes det? Katalogene er inngangsporten til kildene - for tabelluttrekk fra registre og fagsystemer, vil det si tekniske metadata - ADDMLfilene Lang tradisjon for forskning basert på registerdata i Norge og i Norden forskningsmiljøene har stor kompetanse på å lese tekniske metadata, men arkivdepotene må kunne gi ytterligere veiledning Analysegrunnlag datasett skreddersydd for et gitt forskningsformål Populasjon Et sett av variable Tilrettelegging og koblinger deretter avidentifisering/anonymisering Eksempler på forskning basert på registerdata
Riksrevisjonens undersøkelse av oppfølging av ungdom utenfor opplæring og arbeid Dokument 3:9 (2015 2016) Datagrunnlag individdata - hentet fra OTTO fylkeskommunenes fagsystem for oppfølgingstjenesten «Populasjonen til undersøkelsen er ungdommer som har en statuskode i OTTO som viser at oppfølgingstjenesten arbeider med ungdommen (oppfølging og veiledning), og/eller at ungdommen befinner seg i tiltak i form av et arbeidsrettet NAV-tiltak, et fylkeskommunalt tiltak eller et kombinasjonstiltak» (s. 41) Populasjonen omfatter 67 784 personer, dvs. dette er antallet som oppfyller kriteriene for populasjonen
Evig rikdom? - utvikling av inntektsnivå og inntektsfordeling i Norge de siste 150 år Et forskningsprosjekt i regi av SSB (omtalt i Forskerforum 9/2014) Det vi vil finne ut er om de personene som er rike ett år, er de samme som er rike året etterpå, Rolf Aaberge, prosjektleder (Forskerforum, november 2014) Metodisk: Moderne registerdata kobles med historiske data om formues- og inntektsfordeling For perioden fra 1967 benyttes mikrodata i registre: Inntektene til hvert enkelt individ følges år etter år gjennom maksimalt 45 år, dvs. paneldata basert på Ligningsregisteret
Registermateriale og kildekritikk Maskinell kildekritikk Logiske kontroller - sammenhenger og gjensidig avhengighet, systemgenerert informasjon, verdiområder for variable Konsistens samsvar avvik - internt i registeret Validering av fødselsnummer, organisasjonsnummer, kommunenummer Referanseintegritet Sammenligning på makronivå datautveksling og gjenbruk Sammenligning på mikronivå - samme metode som ved registervasking Retning av dataflyt hvor kommer data fra? avhengighet mellom kilder? Entitet: Person, familie, husholdning, skattyter, organisasjon Adresse ulike nivåer av numerisk adresse Mye avvik kan forklares med ulike entiteter og ulike perioder