Veileder for orden i eget hus

Like dokumenter
Veileder for orden i eget hus

- Orden i eget hus - Oversikt over og beskrivelse av egne datasett

«Standard for begrepsbeskrivelser»

Tiltaksliste Informasjonsforvaltning og -utveksling

Sak 3/18 Sluttbehandling av Etablere enhetlig arkitekturrammeverk (ST 2.2) Skate-møtet 21.mars 2018

Bedre informasjonsforvaltning og -utveksling - hva bør vi gjøre? ODSF

Utkast til nasjonal strategi for metadata

«Standard for begrepsbeskrivelser»

Felles datakatalog. David Norheim

Strategi for metadata i offentlig sektor


Semantikk og Informasjonsarkitektur. Geir Myrind, SITS Planlegging Arkitektur

API katalog: tilbakemeldinger fra Skate

DIGITALISERING AV KOMMUNAL SEKTOR

Rammeverk for informasjonsforvaltning for offentlig sektor. Samdok, ,

Strategi for nasjonale felleskomponenter og -løsninger i offentlig sektor. Strategiperiode

Norsk standard for beskrivelse av datasett og datakataloger. Møte i Standardiseringsrådet

Faglig arena Orden i eget hus - Brønnøysundregistrenes erfaringer

Kulturdepartementets strategi for åpne data vedtatt av Kulturdepartementet Foto: Andrea G. Johns/Scanstockphoto

Høringsnotat ny delversjon av Referansekatalog for anbefalte og obligatoriske IT-standarder i offentlig sektor, våren 2015

Statlig IKT-politikk en oversikt. Endre Grøtnes Difi, avdeling for digital strategi og samordning

Felles datakatalog og DCAT-AP-NO

Strategi for data.norge.no. Datadelingsforum Øystein Åsnes, Difi

Hvordan det offentlige kan få bedre oversikt over og øke verdien av sine data gjennom en helhetlig tilnærming til beskrivelser av data

Difis og Skates bidrag til mer, bedre og samordnet digitalisering

Metode for identifikasjon av dokumentasjon. Presentasjon i Skate

Informasjonsforvaltning som forutsetning for offentlig samhandling

Mandat for arbeidet med Langsiktig strategi for Altinn


Standard for beskrivelse av datakataloger og datasett

DIGITALISERINGSSTRATEGI FOR DDV-SAMARBEIDET

Brukerreiser som metodikk for samhandling Enhetlig tverrsektoriell tilnærming og felles datakatalog

Digital strategi for HALD Februar 2019

Tjenesteorientert arkitektur hvordan statistikkproduksjonen støttes og forbedres av en tilpasset IT arkitektur

Anbefaling om bruk av HL7 FHIR for datadeling

Veikart for nasjonale felleskomponenter

IKT-STRATEGI

Utfordringer for bruk av felles digitale tjenester i det offentlige

Difi. Digitalisering av offentlig sektor. Offentlig sektor er ikke en enhet

Digitalisering av offentlig sektor

Veikart for nasjonale felleskomponenter

Nasjonale standardar og felleskomponentar kva er det og korleis påverkar det arkivet?

SAKSFRAMLEGG. Forum: Skate Møtedato:

Datadeling og nasjonal arkitektur

Anbefalinger til Standardiseringsrådet vedrørende utredning av standarder for informasjonssikkerhet

Roller og ansvar ved deling av opplysninger

SERES. Espen Slotvik 4. desember 2013

Innspill til WS på NOKIOS 2014

Metode for identifikasjon av dokumentasjon. 8 Norske Arkivmøte,

Helse- og omsorgsdepartementet St.meld. nr Samhandlingsreformen

Informasjonsforvaltning og felles datakatalog. Standardiseringsrådet

Målbildet for digitalisering arkitektur

Sak 22/18 Vedlegg - Difis anbefaling til KMD - Nasjonal prioritering og finansiering tverrgående løsninger.

Sluttrapport Foranalyse Informasjonsforvaltning og -utveksling

Informasjonsforvaltning et rettslig perspektiv. Jon Holden

Svein Erik Grønmo / Steinar Ekse. Visjon og hovedmål. Svein Erik Grønmo

Fellesmøte GeoForum fornye plan- og byggesaksprossen i kommunene. Oslo den 7. februar 2017 Michael Pande-Rolfsen Prosjektleder Plan, bygg & geodata

Agenda og tema til diskusjon Skates fagdag Mål for fagdagen: Styrke Skate og bruken av fellesløsninger

Samordning av domenekunnskap i offentlig sektor. Geir Myrind, SITS Planlegging Arkitektur Frokostseminar

Dine data er fra Mars, mine fra Venus -

Difis prosjekt for deling av data

e-dialoger Framtidens eforvaltning eller.?

Kartlegging av data i store virksomheter erfaringer fra Statens vegvesen

Innføring av earkiv i offentlig forvaltning

Skate-sak 15/2018 Deling av data Konsepter. Knut Bjørgaas Avdelingsdirektør Digital strategi og samordning Oslo, 26. september

Sikkert nok - Informasjonssikkerhet som strategi

Direktoratet for IKT og fellestjenester i høyere utdanning og forskning

Etableringsplan. Internkontroll for informasjonssikkerhet og personvern

Arkiv i en digital forvaltning

Digitalisering (av arkiv) muligheter for bedre samhandling

Utfordringer og løsninger for håndtering av kompleksitet på nasjonalt nivå Ark 2018

Digitalt førstevalg. Digital postkasse som en del av digitalt førstevalg i forvaltningen. FINF 4001 høst 2016

Interoperabilitet i norsk offentlig forvaltning Terje Grimstad Prosjektleder Semicolon Karde AS

Felles datakatalog. Espen Slotvik, avdeling for digitalisering

Tiltaksplan digitalisering 2019

Digitaliseringsstrategi

Styring og samordning av IKT i offentlig sektor

Mandat. Ma lbilder og strategier for fellesløsninger i offentlig sektor

Hvordan prosess for utvikling og forvaltning av metadata. Geir Myrind, Semicolon Samhandlingsarena,

Dagens forelesning. Regjeringens mål. Ni prinsipper for den digitale forvaltningen

Prosjekt Digital samling og deling av kunnskap i offentlig sektor

Smart integrasjon i offentlig sektor

Høring - Hindre for digital verdiskapning - Rapport fra utvalg som har vurdert muligheter og hindringer for digital verdiskapning

definisjonsarbeid Anbefalinger til standardiseringsrådet

Fagutvalgsmøte Administrasjon, ledelse og kontorstøtte. Møte Lillestrøm

Roller og ansvar ved deling av personopplysninger

Metoder for bedre samhandling. erfaringer fra Semicolon

Oversikt. Remi Longva

Krav til digitalisering i stat og kommune

Kontekst. DRI3010 Emnekode 644 Kandidatnummer Dato SIDE 1 AV 6

SAKSFRAMLEGG. Forum: Skate Møtedato:

Semicolon II, Seman-sk interoperabilitet og konsekvenser for arkiv.

AVTALE KNYTTET TIL SAMARBEID VEDRØRENDE DIGITALISERING

Digitaliseringsstrategi

Felles veikart for nasjonale felleskomponenter i regi av Skate. Digitaliseringskonferansen 2015 vidar.holmane@difi.no

Svein Erik Grønmo / Steinar Ekse

Aggregering av risiko - behov og utfordringer i risikostyringen

Digitaliseringsstrategi

Tekniske, semantiske og organisatoriske utfordringer for samhandling i offentlig sektor. Endre Grøtnes FINF 4001 høst 2011

Skate-sak 22/2018 Difis anbefaling til KMD - Nasjonal prioritering og finansiering tverrgående løsninger. Skate Knut Bjørgaas Difi

Transkript:

Veileder for orden i eget hus 1. juni 2016, versjon 1.0 Innhold 1. Innledning... 2 1.1. Bakgrunn... 2 1.2. Delingskultur som gir gevinster... 3 1.3. Veilederen... 4 1.3.1. Struktur... 4 1.3.2. Målgruppe... 5 1.3.3. Bruk... 5 2. Utnyttelse av data... 5 2.1. Hva mener vi med orden i eget hus?... 5 2.2. Hva er et datasett og hvilke datasett skal beskrives?... 6 2.3. Hva er forskjellen mellom oversikt over og beskrivelse av datasett?... 7 2.4. Oversikt over datasett... 7 2.4.1. Standard for oversikt over datasett... 7 2.4.2. Komme i gang med oversikt over datasett... 8 2.5. Beskrivelse av datasett... 8 2.5.1. Standarder for beskrivelse av datasett... 8 2.5.2. Komme i gang med beskrivelse av datasett... 9 2.6. Vurdering av tilgang til datasett... 10 2.7. Å gjøre informasjon om egne datasett tilgjengelig... 10 2.7.1. Standarder for å gjøre informasjon om egne datasett tilgjengelig... 10 2.8. Forvaltning av informasjon som er gjort tilgjengelig... 10 3. Informasjonssikkerhet... 10 4. Kvalitet... 11 5. Hvordan komme i gang?... 11 5.1. Organisering... 11 5.2. Kartlegging... 12 6. Erfaringsdeling... 12 6.1. Skatteetaten... 13 6.2. Hva er et datasett og hvilke datasett skal være beskrevet?... 13-1 -

6.2.1. Brønnøysundregistrene... 13 6.3. Beskrivelse av data... 13 6.3.1. SSB... 13 6.3.2. Difi... 15 6.4. Bruk av standarder og verktøy... 16 6.4.1. SSB... 16 6.4.2. Difi... 18 6.5. Å gjøre informasjon om egne datasett tilgjengelig... 18 6.5.1. SSB... 18 6.5.2. Brønnøysundregistrene... 20 6.6. Informasjonssikkerhet... 20 6.6.1. SSB... 20 6.6.2. Difi... 20 6.7. Kvalitet... 21 6.7.1. SSB... 21 6.7.2. Brønnøysundregistrene... 21 6.8. Hvordan komme i gang?... 21 6.8.1. Brønnøysundregistrene... 21 1. Innledning 1.1. Bakgrunn Informasjon er en av de viktigste ressursene i offentlig sektor, og det har lenge vært et krav om at offentlig sektor må utnytte informasjonen sin på en bedre måte for å bli mer effektiv, gi bedre tjenester til innbyggere og næringsliv, og bidra til økt rettssikkerhet. Digitaliseringsrundskrivet 1 konkretiserer dette ved bl.a. å si at offentlige virksomheter i størst mulig grad bør gjenbruke informasjon som allerede finnes. Lov om Oppgaveregisteret er enda sterkere og stiller krav om samordning rundt innhenting av informasjon fra næringslivet når dette er egnet jf. 5. Formålet med dette er bl.a. å fremme en datadelingskultur i offentlig sektor. En større grad av gjenbruk krever imidlertid en helhetlig forvaltning av informasjon, både internt i og på tvers av virksomheter. Mange offentlige virksomheter har nå en felles forståelse av at manglende oversikt over egen informasjon - eller manglende orden i eget 1 Digitaliseringsrundskrivet er en sammenstilling av pålegg og anbefalinger vedrørende digitalisering i offentlig sektor, og gir et helhetlig bilde av hvilke føringer som gjelder. - 2 -

hus - er et av de viktigste hindrene for elektronisk informasjonsutveksling, og dermed gjenbruk av andres informasjon. Skate 2 har derfor tatt initiativ til et felles rammeverk for informasjonsforvaltning. Rammeverksarbeidet inkluderer etablering av en rekke veiledere innen informasjonsforvaltning (begrepsforvaltning, felles informasjonsmodeller m.m.) og standardisering for å sikre god utveksling av informasjons- og tjenestebeskrivelser (utvekslingsformat for begreper, beskrivelse av datasett m.m.). Veilederen for orden i eget hus inngår som en del av rammeverket. 1.2. Delingskultur som gir gevinster Foranalysen 3 som ble gjennomført i regi av Skate, etablerte et målbilde for informasjonsforvaltning på tvers av offentlig sektor. Der heter det bl.a.: Data skal skapes én gang og forvaltes i én kilde for så å kunne gjenbrukes. Gjenbruk er hovedregel ved utvikling av nye digitale offentlige tjenester, og dette gjelder gjenbruk av både tjenester, data og beskrivelser. Digitaliseringsrundskrivet sier at en bør bruke felles offentlige registre (Det sentrale folkeregisteret, Enhetsregisteret og Matrikkelen) 4. Dette er autoritative registre som inneholder fasiten for data på sitt område. Men det finnes mye informasjon av felles nytte også utenfor fellesregistrene, og hvordan skal en få til en delingskultur rundt disse? Og hvilke gevinster vil en slik delingskultur skape, både internt i en virksomhet og for samfunnet som helhet? Gevinsten ved å ha den orden i eget hus som delingskulturen forutsetter, vil være at virksomheten selv har oversikt over egen informasjon, forstår hva den betyr og bruker den til å understøtte egne arbeidsprosesser og oppgaveløsning. I dag er det ikke uvanlig at deler av en virksomhet ikke kjenner til informasjon som forvaltes av en annen del, noe som bidrar til redusert effektivitet i arbeidsprosessene. Generelt vil det også være nyttig at en har oversikt over all relevant informasjon i en virksomhet, og ikke bare uttrekk/deler som er tilpasset et nåtidig behov. Ingen vet hvilken informasjon som trengs for å møte morgendagens krav, men dersom all relevant informasjon er kjent, vil det gjøre endringer enklere, dvs. bedre virksomhetens endringsevne. Informasjonssikkerhet er en viktig del av informasjonsforvaltning, og offentlig sektor har allerede en plikt til å gjøre kartlegginger og vurderinger knyttet til informasjon som forvaltes. Arbeid med informasjonssikkerhet pågår sannsynligvis flere steder i en virksomhet, men ikke nødvendigvis koordinert med øvrig arbeid. Dette kan føre til dobbeltarbeid. En bevisstgjøring 2 Skate (Styring og koordinering av tenester i e-forvaltning) er eit strategisk samarbeidsråd som skal bidra til at digitaliseringa av offentleg sektor blir samordna og gjev gevinstar for innbyggjarar, næringsliv og forvaltninga. https://www.difi.no/fagomrader-og-tjenester/digitalisering-ogsamordning/skate 3 Sluttrapport Foranalyse Informasjonsforvaltning og -utveksling, https://www.difi.no/sites/difino/files/20150624_sak_10-15_foranalyse_informasjonsforvaltning_og_utveksling_-_vedlegg_1_sluttrapport_ny_versjon.pdf 4 Punkt 2.2 Bruk nasjonale felleskomponenter i Digitaliseringsrundskrivet, https://www.regjeringen.no/no/dokumenter/digitaliseringsrundskrivet/id2462793/ - 3 -

rundt informasjonssikkerhet som en del informasjonsforvaltningen, vil derfor bidra til bedre ressursutnyttelse. I dag samler flere deler av offentlig sektor inn samme type informasjon, noe som er en dårlig utnyttelse både av offentlig sektors egne, og samfunnets, ressurser. Dersom en har tilstrekkelig orden i eget hus, vil oversikter over egen informasjon kunne tilgjengeliggjøres. Dermed vil andre virksomheter se hvilken informasjon som allerede fins, og vil dersom de har hjemmel for gjenbruk kunne be om å få relevant informasjon. Dette vil kunne redusere kostnader både hos seg selv og hos de som ellers må sende inn samme informasjon flere ganger. Digitale tjenester i én offentlig virksomhet forutsetter ofte informasjon som forvaltes av andre virksomheter. Lånekassen trenger f.eks. informasjon fra bl.a. Skatteetaten, NAV og UDI i sin saksbehandling. Orden i eget hus er viktig for å lage gode og sammenhengende tjenester; for å vite hvilken informasjon som finnes hos andre, men også for å vite hva informasjonen betyr, f.eks. hvordan ulike begreper er definert. Samboer er eksempelvis ikke nødvendigvis det samme i Skatteetaten og NAV. Orden i eget hus forenkler arbeidet med å identifisere hva som kan utveksles, og gir basis for eventuell koordinering av begrepsbruk. Den som bruker tjenestene, slipper på sin side å slite med ulik begrepsbruk, og henting av informasjon som det offentlige allerede har. Arbeidet med å skape orden i eget hus, vil være et stort nasjonalt fellesløft, der eget arbeid vil gi gevinst for andre, og vise versa. 1.3. Veilederen 1.3.1. Struktur Difis rapport Informasjonsforvaltning i offentlig sektor 5 definerer informasjonsforvaltning slik: Informasjonsforvaltning betyr eit heilskapleg syn på aktivitetar, verktøy og andre tiltak for å sikre best mogleg kvalitet, utnytting og sikring av informasjon i ei verksemd. Organiseringa av informasjonen skal vere systematisk og henge saman med verksemda sine arbeidsprosessar. Strukturen på veilederen er bygget opp i henhold til denne, dvs. at en har tre hovedkapitler som omhandler utnytting, sikring og kvalitet av informasjon. Disse kapitlene vil også ha med aktiviteter og verktøy (inkludert standarder) knyttet til de aktuelle områdene. Det er også et eget kapittel med overordnede tips for å komme i gang med orden i eget hus -arbeidet, samtidig som vi har forsøkt å legge inn komme i gang -tips også innenfor enkeltkapitler der det er relevant. Det siste kapittelet vil benyttes til deling av virksomhetenes egne erfaringer innen det å skape orden i eget hus. 5 https://www.difi.no/sites/difino/files/rapport-informasjonsforvaltning-i-offentleg-sektor-2013-10-10.pdf. - 4 -

1.3.2. Målgruppe Behovet for orden i eget hus gjelder hele offentlig sektor. Det betyr at målgruppen for denne veilederen både er statlige og kommunale virksomheter av ulik størrelse og med ulik erfaring innenfor informasjonsforvaltning. Veilederen henvender seg til de som i den enkelte virkomhet har ansvar for og myndighet til å sørge for orden i eget hus. Dette er i mange tilfeller linjen/ledelsen, men vil også være ansatte som skal følge opp det konkrete arbeidet internt. 1.3.3. Bruk Veilederen skal støtte arbeid som er nødvendig for å få til deling av informasjon, men skal ikke omhandle hvordan selve delingen skal gjøres i praksis (avtaleverk, utvekslingsformater o.l.). Dens bidrag er å hjelpe virksomhetene med å etablere orden i eget hus, en situasjon der oversikten som trengs for å dele informasjon, er på plass. Veilederen vil gå nærmere inn på hva dette innebærer i praksis. Veilederen er ikke laget for å leses fra a til å. Siden målgruppen er variert, vil ulike deler være relevante for ulike brukergrupper. Veilederen er basert på innspill fra en gruppe offentlige virksomheter, og vil være preget av de erfaringer gruppen har. Det vil komme nye versjoner etterhvert som erfaringene med og rammeverket rundt informasjonsforvaltning øker både i bredde og dybde. 2. Utnyttelse av data 2.1. Hva mener vi med orden i eget hus? I denne første versjonen av veilederen er det datautnyttelse i form av datadeling som er i fokus. For at offentlig sektor skal kunne dele data med hverandre, er det viktig at de enkelte virksomheter har oversikt over egne data, noe som er et prinsipp for god informasjonsforvaltning (slik det er definert i Informasjonsforvaltning i offentlig sektor 5 ). «Informasjonsforvaltning i offentlig sektor» konkretiserer informasjonsforvaltning ( orden i eget hus ) i fem punkter med økende ambisjonsnivå. 1. Dataene i virksomheten er beskrevet 2. Oversikten fra punkt 1 er publisert 3. Tilgang til data er vurdert 4. Dataelementene er beskrevet 5. Beskrivelsene er strukturerte og maskinlesbare. Data som behandles, skal altså være beskrevet, det skal være mulig å finne en oversikt over disse dataene, en skal ha vurdert hvem som skal ha tilgang til ulike typer data, dataelementene skal være beskrevet, eksempelvis via en begrepskatalog som forklarer hva f.eks. inntekt eller samboer er, og beskrivelsene skal være på en strukturert form (maskinlesbare). - 5 -

Rapporten Informasjonsforvaltning i offentlig sektor 5 bruker den generelle termen data, f.eks. dataene er beskrevet. I veilederen vil vi hovedsakelig bruke den mer spesifikke termen datasett fordi modenhetsmodellen (se under) bruker denne termen. Når vi snakker om deling av data, er det i praksis (oftest) deling av datasett som menes. Vi kommer imidlertid til å bruke termen datadeling, og ikke datasettdeling for å beholde det mer generelle preget fra rapporten "informasjonsforvaltning for offentlig sektor". Vi har utviklet en modenhetsmodell for at virksomhetene skal kunne vurdere hvor langt de er kommet i arbeidet med orden i eget hus. Også for denne modellen er datadeling målet, og orden i eget hus middelet. Modellen inkluderer flere av punktene fra Difi-rapporten, både punkt 1, 2 og 4 inngår i aksene i modellen. Modenhetsmodellen er verktøyet virksomhetene skal bruke for å vurdere orden i eget hus, og veilederen skal gi hjelp til å øke sin modenhet langs de ulike aksene. I arbeidet både med veilederen og modenhetsmodellen har det vært diskusjoner rundt en del grunnleggende spørsmål: hva er et datasett, hvilke datasett skal beskrives, hva er forskjellen på oversikt over og beskrivelse av datasett? Vi skal i det følgende ta for oss disse spørsmålene, og regner med å kunne gi mer fyldige beskrivelser etter hvert som arbeidet med informasjonsforvaltning går framover. Veilederen har med informasjon om standarder knyttet til noen av kapitlene, men også her vil det komme mer når en er i gang med å etablere rammeverket for informasjonsforvaltning i offentlig sektor. Her skal det defineres nye standarder og prinsipper for informasjonsforvaltning (f.eks. knyttet til modellering av informasjon), og nåværende standarder skal revideres. Slik vil en skape en grunnmur for det framtidige arbeidet med informasjonsforvaltning. 2.2. Hva er et datasett og hvilke datasett skal beskrives? Et datasett er en organisert samling av data. Hvordan et datasett avgrenses og organiseres vil imidlertid variere mellom ulike virksomheter. Det kan gjøres ulike valg f.eks. mht. hvilke datasett som skal spesifiseres i forbindelse med en saksbehandling eller trekkes ut av en database eller et register (se Brønnøysundregistrenes tanker rundt dette i 6.2.1). I ordforklaringene til Standard for beskrivelse av datasett og datakataloger (DCAT-AP-NO) 6 brukes følgende definisjon: Et datasett er en samling med data, for eksempel i form av en tabell, liste eller en database som kan gjøres tilgjengelig som en nedlastbar fil, og/eller nåes via et Web-API. Enn så lenge må vi overlate til den enkelte virksomhet å vurdere hva som er relevante samlinger av data (datasett) å beskrive for å senere publisere i egen sammenheng. Det pågår imidlertid en pilot - Utprøving av DCAT-AT-NO 7 som standard for beskrivelse av datasett -, og deltakernes erfaringer, bl.a. hvordan de vurderer hva som er et datasett, vil være nyttige. I senere utgaver av veilederen vil vi vurdere om resultater fra piloten kan bidra til mer konkrete råd i dette kapittelet. 6 http://difi.github.io/dcat-ap-no/ 7 Se kap. 2.4.1-6 -

Det er i utgangspunktet opp til virksomheten, ut fra gitte formål, å definere hvilke datasett som er relevant å beskrive, og mange vil ha lovverk og retningslinjer som sier noe om dette. Imidlertid fokuserer veilederen på datadeling, dermed kan en grovt sett si at alle datasett som virksomheten kan dele med andre, er relevant å beskrive. Å lage oversikt over og beskrive datasett vil ta tid, og det anbefales å starte i det små med datasett som en vet eller tror er etterspurt av andre. For noen vil det sannsynligvis være hensiktsmessig å ta for seg ulike arbeidsprosesser (f.eks. knyttet til forskjellige typer saksbehandling), og identifisere og beskrive datasett for én og én prosess. Dersom en har datasett som både brukes internt (av andre deler av virksomheten enn de som forvalter datasettene), og eksternt, bør en prioritere å starte med disse som vil gi gevinst for både egen og andre virksomheter. 2.3. Hva er forskjellen mellom oversikt over og beskrivelse av datasett? I modenhetsmodellen skiller en mellom oversikt over datasett og beskrivelse av datasett. Men hva er forskjellen på disse? Det er kanskje lettest å se forskjellen ved å se på hensikten med oversikten og beskrivelsen. Hensikten med oversikten er at potensielle brukere (også interne) skal kunne sjekke om det finnes datasett som kan være aktuelle for en bestemt oppgave, mens beskrivelsen, som gir mer detaljert og utfyllende informasjon om datasettet, skal hjelpe brukeren å avgjøre om datasettet virkelig er aktuelt for oppgaven. En kan si at oversikten brukes til å identifisere/oppdage relevante kandidat-datasett, mens beskrivelsen skal hjelpe en til å vurdere/evaluere om informasjonen i datasettene er relevant for den aktuelle oppgaven. Eksempel på brukerhistorie: Jeg er på jakt etter et datasett som sier noe om inntekt for samboere med barn. Jeg søker gjennom datasettoversikten hos relevante virksomheter, og ser at både Etat A og Etat B har datasett som ut fra den kortfattede informasjonen (f.eks. tittel) kan være aktuelle. For å vurdere om datasettene virkelig inneholder det jeg ser etter, trenger jeg imidlertid en mer detaljert beskrivelse av informasjonen. I beskrivelsen finner jeg bl.a. definisjoner av begrepene som brukes i datasettet, og ser at Etat B definerer samboer på en annen måte enn en gjør innenfor mitt fagområde. Dette datasettet er derfor ikke aktuelt for min bruk, men Etat A viser seg å ha samme definisjon både på samboer og inntekt som det jeg bruker i mine analyser. 2.4. Oversikt over datasett Oversikten utgjøres av en sammenstilling (f.eks. en liste eller katalog) av identifiserte datasett. Alle datasettene skal være beskrevet på en overordnet måte, typisk tittel, en kort beskrivelse av innhold, eier, kontaktperson og hyppighet for tilgjengeliggjøring. Data.norge.no er en oversikt eller katalog over åpne datasett, og det enkelte datasett har en overordnet beskrivelse, se f.eks. datasett Kvalitet på nett - resultatliste 2010. 2.4.1. Standard for oversikt over datasett Det finnes i dag ingen obligatorisk standard for beskrivelse av oversikter (kataloger) med tilhørende datasett. I 2015 vedtok imidlertid Standardiseringsrådet en anbefalt standard, - 7 -

Standard for beskrivelse av datasett og datakataloger 6, også kalt DCAT-AP-NO 1.0. Dette er den norske versjonen av EU-standarden DCAT-AP 1.0 (Data Catalog Vocabulary - Application Profile). DCAT-AP ble revidert høsten 2015 (DCAT-AP-1.1 8 ), og det forventes at DCAT-AP-NO vil revideres i 2016 for å ta hensyn til dette. Det er også sannsynlig at revisjonen vil føre til flere særnorske tillegg. Siden DCAT-AP-1.1 ikke dekker behovet for en tilstrekkelig detaljert beskrivelse av datasettet (f.eks. begreper), arbeides det med forslag som skal avhjelpe dette. 2.4.2. Komme i gang med oversikt over datasett Det er så langt ikke identifisert noen konkret erfaring for dette området, men en bør ta hensyn til følgende: Organisering: hvordan man organiserer arbeidet for å få etablert en oversikt, som også sikrer at oversikten blir vedlikeholdt systematisk. Hva og hvordan: Hva og hvordan en skal kartlegge (hovedprosesser? støtteprosesser? ifm. digitaliseringsprosjekter?) 2.5. Beskrivelse av datasett Beskrivelsen må være tilstrekkelig til at potensielle brukere skjønner hva datasettet inneholder og hva de ulike variablene/egenskapene/dataelementene 9 betyr/representerer. Samtidig skal beskrivelsen ikke inneholde taushetsbelagt informasjon. Brukeren må ut fra beskrivelsen kunne vurdere om dette datasettet er aktuelt i en eller annen spesifikk sammenheng. (Dette utelukker selvfølgelig ikke at en også kan kontakte oppgitt kontaktperson dersom ytterligere informasjon kreves). Beskrivelse bør inneholde navnet på alle variablene/egenskapene/dataelementene i datasettet, definisjoner på hva de betyr (hvordan er f.eks. inntekt definert i dette datasettet) og ev. kodeverk som brukes (hva betyr det at verdien for kjønn er 1). Dersom det brukes ulike måleenheter, f.eks. kroner og 1000 kroner, er også dette viktig å dokumentere. Et eksempel på et slikt beskrevet datasett er SSBs variabelliste som brukes av forskere som skal bestille data 10. 2.5.1. Standarder for beskrivelse av datasett Når det gjelder standarder for beskrivelse av datasett, er disse foreløpig knyttet til beskrivelse av begreper. Senere vil også andre standarder, der noen nå er under utarbeidelse 11, tas med. Beskrivelse av begreper kan organiseres på ulike måter. Flere virksomheter arbeider med begrepskataloger (bl.a. NAV, Skatteetaten og Difi 12 ) der de definerer både begreper som inngår i datasett og andre begreper som er relevante i 8 https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-ap-v11 9 Ulike virksomheter bruker ulike termer og legger litt ulik betydning i de forskjellige innholdselementene i datasettet. Det er ennå ikke definert noen felles begreper for offentlig sektor på dette området. Disse innholdselementene kan f.eks. være identifikatorer som fødselsnummer, variabler som inntekt og kodeverk som Kommuneinndelingen. 10 Gå til http://www.ssb.no/omssb/tjenester-og-verktoy/data-til-forskning/arbeid, velg lenka som heter variabelliste for syselsetting (Excel), og velg Variabelliste - velg variabler i Excel-arket. Her er liste over variabler som kan velges, definisjon av variabler og kodelister. 11 Bl.a. arbeider en med modelleringsregler for etablering av felles informasjonsmodeller. 12 http://begrep.difi.no/felles/ viser Difis begrepskatalog for felleskomponenter forvaltet av Difi. - 8 -

virksomhetens arbeid. Andre har valgt å konsentrere begrepsarbeidet hovedsakelig om begreper knyttet til identifiserte datasett. Det finnes i dag tre anbefalinger vedrørende begrepsarbeid i Referansekatalogen for ITstandarder i offentlig sektor. Den ene er Standard for begrepsbeskrivelse 1.0 13 som viser hvilke elementer som skal med når et begrep beskrives. Her inngår bl.a. navn, definisjon, kilde og gyldighetsperiode. Standarden er fra 2012, og flere har uttrykt behov for en revisjon. En slik revisjon er nå planlagt og en håper å få en ny versjon på plass i 2016. Denne vil inngå i rammeverket for informasjonsforvaltning som er under etablering. Den andre anbefalte standarden er Standard for begrepskoordinering 1.0 14. Standarden beskriver en prosess for å koordinere begreper mellom to eller flere parter innenfor offentlig sektor, inkludert en anbefaling om beste praksis. Dette vil være særlig aktuelt i prosjekter som involverer deling av data. Selv om hovedbruken av standarden vil være knyttet til samarbeidsprosjekter mellom etater, vil standarden også være nyttig i internt arbeid med begrepskoordinering (i tilfeller der ulike deler av en virksomhet har ulike definisjoner av samme begrep). Noen forskjeller kan f.eks. skyldes at en forholder seg til ulike lovverk, andre at ulike deler av en virksomhet ikke kjenner nok til begrepsbruken hos andre og lager egne definisjoner. I tillegg anbefales «Termlosen» 15 som veileder i arbeidet med å analysere eksisterende begrepsbruk og komme fram til et koordinert begrepsapparat. 2.5.2. Komme i gang med beskrivelse av datasett En vanlig utfordring er at begrepsarbeid ofte starter i forbindelse med større prosjekter der begrepsarbeid ikke nødvendigvis er hovedsaken, men nødvendig for et godt resultat. Utfordringen vil da ofte være å få dette begrepsarbeidet over i en driftsfase (med inkludering av nye begreper og oppdatering) når det opprinnelige prosjektet avsluttes. Det er viktig at noen får ansvar for å koordinere begrepsarbeidet på tvers i en virksomhet. Dersom en bruker begreper som kommer fra andre, eller hvis en vet at andre jobber innenfor samme fagområde, vil det være lurt å sjekke om andres begrepsbeskrivelser kan brukes. Kapittelet bør ellers si mer om: Tilnærming - hvor skal en begynne i arbeidet? Datasett, datakilder, begreper som er viktigst for forståelse av egen virksomhet. Skal en konsentrere seg om begrepsbeskrivelse på semantisk nivå eller også gjøre modellering samtidig? Hvordan bør arbeidet organiseres? 13 https://www.difi.no/sites/difino/files/2012-05-13-mal-begrepsbeskrivelser-1-0-1-.pdf 14 https://www.difi.no/sites/difino/files/standard-for-begrepskoordinering-2013-02-13-1-.pdf 15 Termlosen kort innføring i begrepsanalyse og terminologiarbeid fås ved henvendelse til Språkrådet: http://www.sprakradet.no/vi-og-vart/publikasjoner/termlosen/. Termene i Termlosen er igjen basert på den nordiske terminologisammenslutningen Nordterms arbeid. - 9 -

2.6. Vurdering av tilgang til datasett Vurdering av tilgang til datasett tilsvarer punkt 3 knyttet til god informasjonsforvaltning i Difirapporten Informasjonsforvaltning i offentlig sektor 5. Dette punktet er foreløpig ikke tatt inn i modenhetsmodellen, og heller ikke behandlet i denne veilederen. 2.7. Å gjøre informasjon om egne datasett tilgjengelig Det er viktig å presisere at vi her ikke ennå snakker om tilgjengeliggjøring av selve datasettene, men av informasjon om datasettene, dvs. oversikter over hvilke datasett som finnes og beskrivelser av disse datasettene. Tilgjengeliggjøring betyr at informasjonen gjøres tilgjengelig for eksterne brukere. Eksterne brukere er valgt siden det er datadeling i offentlig sektor som er vårt fokus. Generelt anbefales det å tilgjengeliggjøre ting før det er perfekt, oversikter og datasettbeskrivelser kan utdypes og forbedres over tid. Man bør heller ikke vente til hele huset er i orden før man begynner å tilgjengeliggjøre informasjon om enkeltdatasett. 2.7.1. Standarder for å gjøre informasjon om egne datasett tilgjengelig DCAT-AP-NO anbefaler to tekniske standarder for tilgjengeliggjøring av oversikt over og beskrivelse av datasett: RDF/XML (https://www.w3.org/tr/rdf-syntax-grammar/) og JSON- LD (https://www.w3.org/tr/json-ld/). Det arbeides nå med en standard for URI som skal brukes ved tilgjengeliggjøring av informasjon. Arbeidet pågår i regi av Standardiseringsrådet og ventes ferdigstilt i 2016. 2.8. Forvaltning av informasjon som er gjort tilgjengelig For at informasjon som gjøres tilgjengelig, skal bevare sin verdi, må noen ha ansvar for at informasjonen oppdateres. Interne og eksterne brukere skal sikres en pålitelig tilgang over tid. 3. Informasjonssikkerhet Informasjonssikkerhet handler om å sikre informasjonens konfidensialitet, integritet og tilgjengelighet. Å sikre konfidensialitet innebærer å hindre uautorisert innsyn i informasjon som ikke kan være åpent tilgjengelig for alle. Å sikre integritet innebærer å hindre uautorisert endring og sletting av informasjon. Å sikre tilgjengelighet innebærer å sikre tilgang til informasjon ved behov for tilgang. 16 16 http://internkontroll.infosikkerhet.difi.no/begrepsliste-informasjonssikkerhet - 10 -

Difi har utviklet veilederen Internkontroll i praksis - informasjonssikkerhet 17. Internkontroll betyr intern styring og kontroll. Internkontroll på informasjonssikkerhetsområdet betyr intern styring og kontroll slik at informasjonssikkerheten ivaretas på det nivå og med den ressursinnsats virksomhetsledelsen mener er riktig. Informasjonssikkerhet er av avgjørende betydning for god informasjonsforvaltning. For mer informasjon og veiledning om informasjonssikkerhet henvises det til Difis nettsider om informasjonssikkerhet 18. 4. Kvalitet Når det gjelder kvalitet, vil dette være en nyttig opplysning i beskrivelsen av et datasett, men kvalitet inngår ikke som eget felt i DCAT-AP-NO. Noen av feltene kan i stedet brukes som indikatorer på kvalitet, f.eks. oppdateringsfrekvens og utgivelsesdato (aktualitet på datasett). Utgiver (kilde) kan for noen data også si noe om kvalitet (ut fra kildens autoritet på området). I dette kapittelet skal vi imidlertid se litt mer på de kvalitetsvurderinger en dataforvalter vil foreta i forbindelse med tilgjengeliggjøring av informasjon om datasett. Hva er bra nok til å deles? Veilederen omhandler tilgjengeliggjøring av informasjon om egne datasett, men i arbeidet med å lage oversikt over og beskrive datasett, vil sannsynligvis en dataforvalter også tenke over om selve datasettene er bra nok. Hvis en synliggjør at de finnes, risikerer en jo å bli kontaktet av potensielle brukere, og er disse dataene av en slik kvalitet at en ønsker å utlevere dem til andre? En erfaring flere har gjort seg, er at tilgjengeliggjøring fører til bedre kvalitet. Når informasjon gjøres tilgjengelig, er det flere som kan oppdage og gi tilbakemelding om potensielle feil, og eier kan rette opp disse. 5. Hvordan komme i gang? I dette kapittelet nevnes punkter som bør gjennomgås for å komme i gang. Kapittelet må i kommende versjoner bearbeides til å inneholde konkrete erfaringer (beste praksis) etter hvert vi får mer erfaring med informasjonsforvaltning. 5.1. Organisering Aktiviteter/prosesser forankre, planlegge, etablere, utføre, styre, vedlikeholde, (tenke helhetlig, forankring i ledelse/linje). Ta hensyn til ressurser som finnes i virksomheten (mennesker, organisering, prosesser, metoder, teknologi og verktøy) overgangen fra prosjekt til del av virksomheten 17 http://internkontroll.infosikkerhet.difi.no/ 18 infosikkerhet.difi.no - 11 -

virksomhetene må ha metoder/prosedyrer knyttet til ulike sider ved informasjonsforvaltningen (knyttet til linjen) - bør ha ansvarlig også for prosedyrene Roller (f.eks. eier/eierskap), beskrivelse av roller; hva gjør de, hvilken myndighet har de, ta med både forretning og IKT, hvordan skal de ulike rollene jobbe sammen, trengs det en koordinator for informasjonsforvaltningsarbeidet? hvem eier ulike prosesser og hvem fordeler ressurser? Kompetanse/kulturutvikling: Hvordan kan en bygge kompetanse og bidra til modning innenfor informasjonsforvaltning? Hvordan utvikle en delingskultur? Bruk av virksomhetsarkitektur for å se hvordan virksomhetene skal spille sammen nasjonalt, nødvendig kompetanse må gjøres synlig i interne kompetanseplaner Kommunikasjon (forankring av informasjonsforvaltning i virksomheten, både overfor linjen og øvrige ansatte, hjelpe til å ta ut gevinsten av informasjonsforvaltningsarbeidet) Sette av tilstrekkelig ressurser. Ting tar tid. Gjerne ha egne team som jobber med begrepsdefinisjoner, modellering og konvertering til XML osv. 5.2. Kartlegging Hvordan går vi fram for å identifisere datasettene vi skal beskrives i oversikten/katalogen? Hvordan skal vi prioritere hva som skal beskrives først? Hvem skal delta i arbeidet? Bør det gjøres en interessentanalyse - hvem bruker våre data i dag, og hvem kunne/burde bruke dem? Arbeidsmetode: Manuell? Stegvis/iterativ? Automatisk (Er det en utopi, eller finnes det i hele tatt verktøystøtte som gir organisasjonen noe her?) 6. Erfaringsdeling Det er planer om å etablere et faglig forum der offentlige virksomheter kan møtes og utveksle erfaringer knyttet til informasjonsforvaltning. Et slikt forum er imidlertid ennå ikke på plass, så foreløpig vil dette kapittelet i veilederen være arenaen for denne type erfaringsdeling. Erfaringene er fordelt etter emnene som tas opp i selve veilederen. Teksten i hele dette kapitlet er direkte innspill fra de aktuelle virksomhetene, kun med layoutmessige justeringer. - 12 -

6.1. Skatteetaten Notatet GMS-rammeverksbeskrivelse 19 fra Skatteetaten er lagt ved i sin helhet. Vi tror det bedrer forståelsen å se rammeverksbeskrivelsen i sammenheng og ikke plukke ut ulike deler og forsøke å plassere dem under respektive overskrifter. 6.2. Hva er et datasett og hvilke datasett skal være beskrevet? 6.2.1. Brønnøysundregistrene Det er fortsatt noe ulike oppfatninger av hva vi forstår med et datasett. I noen tilfeller blir rammene for settene definert ut i fra hjemmelsgrunnlag, eller et overordnet tematisk/faglig område. For Brønnøysundregistrene er det for eksempel nærliggende å se på innholdet i hvert av registrene som et sett av data. I andre tilfeller er rammene for datasett noe strammere og nærmere knyttet til prosesser i form av datautdrag fra et eller flere registre. Eksempler på dette er «nøkkelopplysninger» fra registre, påkrevde identifikasjons- /dokumentasjonskrav eller en bobestyrers informasjonsbehov. En tredje variant som også blir brukt til å avgrense sett av data, er knyttet til innsendelser/transaksjoner (tjenester). Både av hensyn til arkivering og dokumentasjon, men også i form av «kundeopplysninger». Åpne data fra Brønnøysundregistrene er datasett som fremstår som selvstendige datasett (Enhetsregisteret) eller datasett som i hovedsak gir mening ved lenking til andre datasett (Frivillighetsregisteret og Partiregisteret). I datasett fra Frivillighetsregisteret og Partiregisteret er grunndata fra Enhetsregisteret i hovedsak utelatt for å hindre dupliserende data, men med felles entydig identifikator i alle datasettene (organisasjonsnummer), er det enkelt å koble registerinformasjonen sammen. I registersammenheng ansees gjerne hvert register som separate datasett. Ved bruk av lenkede åpne data (LOD) vil begrepet datasett for brukerne gjerne omfatte alt som tilbys som virksomhetsdata. LOD kan koble sammen virksomhetsdata fra f.eks. Enhets-/Foretaks-, Regnskaps- og Løsøreregisteret. I tillegg kan virksomhetsdata fra eksterne LOD-tjenester kobles sammen, f.eks. fra NAV og SKD. 6.3. Beskrivelse av data 6.3.1. SSB Datasettbeskrivelser er organisert i 4 nivåer. De første to er tematiske. Det tredje indikerer at det er noen små endringer fra forrige perioden. Den fjerde viser gyldighetsperioden. Arkivverdige data beskrives i en felles datakatalog, alle medarbeidere har lesetilgang til beskrivelsene, men ikke til dataene. 19 GMS står for «Generisk Metamodell Skatt» - 13 -

Mål for arbeidet: Arkivverdige data tas vare på for gjenbruk i SSB. Eier/ledelsen definerer hva som er arkivverdige data for sitt ansvarsområdet. Hva ble gjort: En felles datakatalog ble bygget tidlig på 90-tallet med import fra/eksport til analyseverktøy, for gjenbruk i SSB. De fleste datasett er beskrevet. Datasett på statistikkområder med høy «turnover» og/eller høyt gjenbruk har best dekning. Erfaringer: Begrensninger på antall karakterer i ulike analyseverktøy har ført til mange kryptiske forkortelser. Fram til standard rutiner og verktøy var godt etablert, var det nødvending med både «pisk og gulrot». Selv om eierskap til innholdet i felles datakatalog er godt etablert, er eierskap til selve verktøyet ikke like godt etablert. Gevinster: Bedre oversikt over data, enklere for nyansatte å komme i gang, mindre sårbare for turnover, bedre ressursutnyttelse Hvordan skal dataene beskrives? Mål for arbeidet: Ha et felles format for databeskrivelser for å gjøre import, eksport og gjenbruk effektivt. Hva ble gjort: Dataene lagres som flatfiler. For hver variabel i en datasettbeskrivelse dokumenteres følgende: Variabelnavn, Beskrivelse, Definisjon, Type, Lengde, Antall Desimaler, Start posisjon, Verdiområde, Kodeliste, Kommentar/Lenke til dokumentasjon, Opprettet Av, Endret Av, og følgende funksjoner: Vis kodeliste (Kodelist), Vis variabeldefinisjon (Definisjon) For hver datasettbeskrivelse har vi følgende funksjoner: Opprett ny variabel, Slett variabel, Flytt variabel, Slett alle variabler, Kopier variabel, Oppdater Start, Oppdater databeskrivelsen Erfaringer: Dokumentasjon av kodelister er ikke alltid fullstendig. Dataene kan inneholde mer detaljerte koder enn kodelisten for en variabel pga. aggregering i analyseverktøy. Vi mangler lenke til mastersystemet for klassifikasjoner. Begrensninger på antall karakterer i ulike analyseverktøy har ført til mange kryptiske forkortelser av variabelnavn. Mangelfull støtte for norske tegn. Vi bruker en navnestandard som danner spesifikasjonsgrunnlaget for automatiske rutiner for sletting av "gamle" arbeidsfiler og filer som ikke følger navnestandarden. Gevinster: Standardmåte å beskrive data på gir optimal gjenbruk og viderebruk av data, reduserer behov for opplæring av ansatte og gjør det enklere å lage støtteverktøy og automatisere. - 14 -

Når skal data beskrives? Mål for arbeidet: Data og datasettbeskrivelser skal være tilgjengelig når og der du trenger det forutsatt at du har et legitimt behov for dataene. Data bør være en felles ressurs. Hva ble gjort: Det er viktig at data beskrives så tidlig i livssyklusen som mulig. Dessverre er det ofte mer prioritert å publisere statistikk enn å beskrive datagrunnlaget for statistikken. Erfaringer: Egennytte gir best motivasjon. En bør lage støtteverktøy som gjør jobben så automatisk og lettvint som mulig. Hvis de som skal gjøre jobben ikke får noen nytte av jobben selv, kan det være nødvendig med både «pisk og gulrot». Gevinster: At data dokumenteres så tidlig som mulig, gir best semantisk forståelse i ettertid, best kvalitet mht. gjenbruk og viderebruk, og minst mulig semantisk og teknisk gjeld. 6.3.2. Difi Hva betyr det at data i virksomheten skal være beskrevet? Mål for arbeidet: For arkivet: Metadata muliggjør gjenfinning av saker og dokumenter, både for interne og eksterne (gjennom OEP 20 ) brukere. For informasjonssikkerhet: For å gjøre verdivurdering og risikovurdering av informasjon, må de først bli beskrevet. For statistikkprosjektet: For å identifisere datasett som kan være nyttig for forvaltningen. For åpne data: For å identifisere datasett som kan være nyttig for næringslivet og samfunnet. Hva ble gjort: For arkivet: P360 er NOARK godkjent og beskrivelser av data (metadata) i systemet er i henhold til standard. For informasjonssikkerhet: All informasjon behandles i informasjonssystemer. Difi har identifisert om lag 100 systemer. Systemene skal være beskrevet ut ifra informasjon som de behandler. For statistikkprosjektet og åpne data: Identifiserte datasett er beskrevet. Erfaringer og Gevinster: Det er helt nødvendig å stille krav til at data skal være beskrevet hvis man vil jobbe med informasjonsforvaltning eller informasjonssikkerhet. Imidlertid kan ikke alle data i virksomheten være beskrevet. Det er viktig å finne et hensiktsmessig omfang på arbeidet. Det er også viktig å finne et riktig detaljeringsnivå til å begynne med. Hvordan skal dataene beskrives? Hva ble gjort: Statistikkprosjektet: Beskrivelser av datasettene fra statistikkprosjektet er basert på Standard for beskrivelse av datasett og datakataloger (DCAT-AP-NO). Når det 20 Offentlig Elektronisk Postjournal - 15 -

gjelder verktøy er prosjektet mer opptatt av verktøy for presentasjon av data, grunnet mandatet de har. Åpne data: Datasettene på data.norge.no er beskrevet etter standard datadefinisjoner (DCIP). 6.4. Bruk av standarder og verktøy 6.4.1. SSB Standarder (eksisterende, ev. under arbeid/oppdatering) Mål for arbeidet: SSBs navnestandard for filer og lagringsområder skal bidra til: at brukerne kan lagre data på en sikker og velorganisert måte uten unødig dobbeltlagring å støtte gjenfinning og bruk av data (filer) å støtte administrasjon av data, inkludert automatisk sletting av filer at dataenes eierseksjon skal kunne ha full oversikt over de data som den har ansvaret for at adkomsten til data kan reguleres effektivt Hva ble gjort: Navnestandarden ble innført og fulgt opp. Erfaringer: Bare positive. Gevinster: Se Mål for arbeidet Verktøy (1) Mål for arbeidet: Lage en felles datakatalog som kunne samspille med våre analyseverktøy, våre datalager og Riksarkivet. Denne må også samspille med variabeldefinisjonskatalog og kodeverkskatalog. Hva ble gjort: En felles datakatalog ble bygget tidlig på 90-tallet av interne ressurser. Variabeldefinisjonskatalogen ble utviklet av interne ressurser 2000 2006 og satt i produksjon i 2007 med to-veis kobling til felles datakatalog. Klassifikasjonskatalogen ble utviklet 2002-2004 som et norsk-dansk samarbeid og satt i produksjon i SSB i 2005, men har ingen kobling til vår felles datakatalog. En ny kodeverkskatalog er nå under utvikling. Erfaringer: Hovedsakelig positive, men kvaliteten kunne vært bedre for brukerne, både maskiner og mennesker Gevinster: Bedre oversikt over data, enklere for nyansatte å komme i gang, lavere sårbarhet for turnover, bedre ressursutnyttelse. Verktøy (2) Mål for arbeidet: - 16 -

Lage en variabeldefinisjonskatalog. Denne må samspille med felles datakatalog og klassifikasjonskatalog. (Variabler er de begrepene SSB bruker i sine statistikker, f.eks. Inntekt, Landbakgrunn, Sysselsatte) Hva ble gjort: Variabeldefinisjonskatalog ble utviklet av interne ressurser 2000 2006 og satt i produksjon i 2007 med to-veis kobling til felles datakatalog og en-veis til klassifikasjonskatalog. Erfaringer: Viktig å avklare hvilke begreper som skal dokumenteres. Viktig å avklare ansvarlig enhet for ulike begreper. Sørg for at det er en fagperson som dokumenterer, dvs. ikke IT-person. Oppnevn intern koordinator som bidrar til å avklare hvem som har ansvar for hvilke begreper «kurser» de ansvarlige slik at dokumentasjonen gjøres så likt som mulig bidrar til kvalitetssikring av dokumentasjon (f.eks. språk og struktur), ta gjerne en prat med de ansvarlige også før de dokumenterer for å se hva de har tenkt å legge inn har oversikt over hva som er gjort, hva som skal gjøres og gir tilbakemelding til linjen avtaler med linjen hvilke ressurser som kan brukes til arbeidet i en gitt tidsperiode, f.eks. et år initierer koordineringsaktiviteter på tvers av egen virksomhet Det er nyttig at katalogen har ulike rapportmuligheter, f.eks. hvor mange variabler med samme navn er lagt inn. Også nyttig om den som dokumenterer, får beskjed dersom et variabelnavn er brukt tidligere og dermed kan sjekke om de kan bruke den allerede dokumenterte definisjonen. Ta vare på variablenes historikk, koble til kodeverk dersom det er aktuelt (f.eks. når variabelen Bostedskommune er definert, kan den lenkes til kodeverket som viser Kommuneinndelingen i klassifikasjonskatalogen). Ha faste gjennomganger, f.eks. hvert halvår/år, for å avdekke like variabelnavn, og initiere koordineringsmøter mellom relevante ansvarlige (via linjen). I den grad det er mulig, koble variabeldokumentasjonen opp mot virksomhetens prosesser for å sikre at variablene oppdateres. Husk: Ting tar tid! Råd mht. utvikling av variabelkatalog Før utviklingen startet, ble behovene kartlagt via omfattende samtaler med representanter for potensielle brukergrupper. Vi satset på en trinnvis utvikling der hvert trinn inneholdt implementering av minst et behov. Det er viktig å lage et godt brukergrensesnitt. Ta gjerne brukerne med i utviklingsfasen. Velg positivt innstilte brukere som pilottestere, så kan de forhåpentligvis være med å overbevise andre. Ikke lag et stort system for å løse alle metadata/informasjonsutfordringer. Velg heller flere mastersystem med koblinger som ideelt sett kan fungere som et system. Oppdatering av innholdet i katalogen er en utfordring. Det er viktig med forvaltningsrutiner, og at katalogen integreres mest mulig i produksjonsprosessene, - 17 -

for å få til dette. Variablene bør dokumenteres/oppdateres i starten av et prosessløp. Vi har ikke fått til det ennå. Generelt: Det var viktig med en informasjonsforvaltningsstrategi og forankring i ledelsen for å få gjennomført arbeidet. Gevinster: Bedre oversikt over variabler, enklere for nyansatte å komme i gang, lavere sårbarhet for turnover, gjenbruk av definisjoner, framstår som mer helhetlig utad, bedre ressursutnyttelse. Verktøy (3) Mål for arbeidet: Lage en klassifikasjonskatalog (inneholder kun standard klassifikasjoner, ikke kodelister) Hva ble gjort: Klassifikasjonskatalogen ble utviklet 2002-2004 som et norsk-dansk samarbeid og satt i produksjon i SSB i 2005, men har ingen kobling til vår felles datakatalog. Modellen var basert på en internasjonal standard utviklet av flere statistikkbyråer. Erfaringer: Klassifikasjoner oppdateres forholdsvis sjelden og har ulike forvaltere, og det viste seg at brukergrensesnittet ble for komplisert for brukerne når det gikk lang tid mellom hver bruk. Forvaltningen av klassifikasjonene ble derfor sentralisert slik at kun et fåtall personer forvalter klassifikasjonene i katalogen, og har opparbeidet seg erfaring. Katalogen har fungert godt for å gi en oversikt over de klassifikasjoner SSB bruker i sin statistikkproduksjon. Katalogen brukes også i stor grad av eksterne aktører. Gevinster: Bedre oversikt over klassifikasjoner. Det ble laget et format for alle klassifikasjoner som gjorde import og eksport for videre bruk enklere. Internasjonalt samarbeid ga en robust modell som har holdt seg i mer enn 10 år. 6.4.2. Difi Hva ble gjort: Statistikkprosjektet: Beskrivelser av datasettene fra statistikkprosjektet er basert på Standard for beskrivelse av datasett og datakataloger (DCAT-AP-NO). Når det gjelder verktøy er prosjektet mer opptatt av verktøy for presentasjon av data, grunnet mandatet de har. Åpne data: Datasettene på data.norge.no er beskrevet etter standard datadefinisjoner (DCIP). 6.5. Å gjøre informasjon om egne datasett tilgjengelig 6.5.1. SSB Tilgjengeliggjøring Mål for arbeidet: Lage et fellesopplegg for formidling og viderebruk av våre statistikkdata til innbyggere, offentlig forvaltning, næring, forskning og utdanning, media, internasjonale organisasjoner osv. Alle datasett som gjøres tilgjengelig på våre internettsider skal beskrives - 18 -

for å øke forståelse og viderebruk. Forskere kan på visse betingelser bestille datasett basert på datasettbeskrivelser. Hva ble gjort: Et fellesopplegg ble bygget tidlig i 2000 og fikk en total renovering i perioden 2009-2013. Fra våre internettsider kan det lastes ned tabeller i CSV eller Excel. I tillegg tilbyr vi åpne data i JSON eller CSV via API. For forskere har vi sju tilrettelagte datasettbeskrivelser hvor hver variabel beskrives med følgende informasjon: Variabelnavn, Beskrivelse, Periode, Definisjon, Kodeliste og følgende funksjoner: Vis kodeliste (Kodeliste), Vis variabeldefinisjon (Definisjon). Forskere kan også bestille en kombinasjon av de sju tilrettelagte variabellistene, eventuelt i kombinasjon med andre datasett. Erfaringer: Betydelige investeringer. Organisatoriske grep etablerte sentralt eierforhold til våre internettsider og data til forskere. Vi utvikler nå et nytt system for å tilby forskere mer enn de sju datasettene på en standardisert måte. Gevinster: Enklere for brukere å finne fram og mer strømlinjeformet formidling. Standarder JSON-stat Mål for arbeidet: Tilby åpne data via API som JSON eller CSV. Hva ble gjort: For JSON benyttes rammeverket JSON-stat som er laget spesielt for statistiske tabeller. Erfaringer: Positive. Gevinster: API er et programmeringsgrensesnitt som gjør det mulig for applikasjoner å samhandle. Verktøy - Statistikkbanken Mål for arbeidet: En fellesløsning for publisering av statistikk som både ansatte og eksterne brukere forholder seg til. Hva ble gjort: Et nordisk samarbeid med statistikkbyråene i Sverige og Danmark for å lage et system for å tilgjengeliggjøre statistikkdata. Erfaringer: Hovedsakelig positiv, men det finnes flere ønsker angående bedre/mer funksjonalitet. Gevinster: Når flere organisasjoner bidrar i design og utvikling gir det en mer robust løsning, og mindre ressursbruk per organisasjon. Brukere kan gjenkjenne seg i de andre nordiske statistikkbankene. - 19 -

6.5.2. Brønnøysundregistrene Enhetsregisteret tilbys via ulike tjenester fra Brønnøysundregistrene. Fra data.brreg.no og hotell.difi.no er basisinformasjon fra Enhetsregisteret tilgjengelig i et REST-grensesnitt. Tjenesten er lisensiert med Norsk lisens for offentlige data (NLOD). Tjenester for åpne data fra Brønnøysundregistrene er beskrevet i datakatalogen data.norge.no. Videre er informasjonen gjort tilgjengelig via filbasert leveranse (batch-oppdatering), og via online-tjeneste direkte fra Brønnøysundregistrene. Disse tjenestene inneholder informasjon som stiller krav til konfidensialitet, og er derfor ikke åpne for enhver. I tillegg er det for flere tjenester krav om betaling. 6.6. Informasjonssikkerhet 6.6.1. SSB Mål for arbeidet: Informasjonssikkerhet i SSB omfatter sikring av: konfidensialitet - at informasjonen kun er tilgjengelig for autoriserte personer og/eller systemer og at det på forhånd er foretatt en gyldig identifisering og autentisering. integritet - at informasjonen ikke blir endret eller slettet på uautorisert måte. tilgjengelighet - at informasjonen eller dataressurser er til stede, stabile og anvendelige for brukere etter behov. Hva ble gjort: Prosesser, rutiner, lover og regler angående informasjonssikkerhet er kjent, det er godt dokumentert og innarbeidet gjennom trening, kommunikasjon og tilgjengelige verktøy. Erfaringer: Positive Gevinster: Hele SSBs virksomhet er basert på tillit fra dataleverandører og brukere. For å gjøre oss fortjent til den tilliten må vi vise og bevise at vi tar informasjonssikkerhet på alvor. 6.6.2. Difi Hva ble gjort: Verktøy for åpne data og statistikkprosjektet og Difis kontorstøttesystemer er underlagt regime for verdivurdering (internt Difi-regime). Verdivurderingen er avgjørende for hvilket sikkerhetsnivået systemene får. Erfaringer og gevinster: Informasjonssikkerhet handler om tilstrekkelig sikkerhet. Det er viktig å gjøre en grundig analyse av sikkerhetsbehov før tiltak implementeres. - 20 -

6.7. Kvalitet 6.7.1. SSB Kvalitet (Verktøy/tjeneste) Mål for arbeidet: Den felles datakatalogen skal ha tilstrekkelig kvalitet for både mennesker og maskiner. Hva ble gjort: Tjenester ble utviklet i 2006. Disse kunne brukes automatisk for å sammenligne alle databeskrivelser i fellesdatakatalogen med de fysiske dataene som ble beskrevet. Erfaringer: Investeringene i utvikling av tjenestene var lav, men tjenesten var effektive til å identifisere avvik. Dessverre ble ikke dette arbeidet fulgt opp. Det skyldtes delvis etterslep både på semantisk og teknisk side siden tidlig på 90-tallet. Anbefaling sjekk kvalitet fra første dag for å unngå for stort etterslep. Gevinster: Gevinster utover kompetanseheving i utvikling av tjenester ble ikke hentet ut. Hindringer Mål for arbeidet: Identifisere hindringer og lage tiltak for å redusere disse. Hva ble gjort: Trening av nyansatte, ansvarlig- og bevisstgjøring av ledelsen, kommunikasjon på alle nivåer i organisasjonen, trinnvis utvikling av støtteverktøy - sterk brukerinvolvering. Erfaringer: Vær tidlig ute med å identifisere hindringer. Gevinster: Mindre tid og ressursbruk for å bedre kvaliteten. 6.7.2. Brønnøysundregistrene Vår erfaring er at økt bruk av enhetsregisterdata gir bedre kvalitet på de registrerte opplysningene ved at enheten melder inn endringer som følge av at informasjonen er tilgjengelig i ulike tjenester. I tillegg rapporterer også andre brukere inn feil og mangler som de finner i våre datasett. Bruk av rolleinformasjon i Altinn har også bidratt til at disse opplysningene er blitt bedre ajourført. 6.8. Hvordan komme i gang? 6.8.1. Brønnøysundregistrene Vi startet med å hente erfaringer fra andre etater som allerede har kommet i gang med lignende arbeid. For oss var det veldig nyttig og avgjørende for hvordan vi startet arbeidet. Etatene var imøtekommende og vi var heldige som fikk mye hjelp og informasjon fra de vi kontaktet. - 21 -