Datakvalitet og Noark IKA Hordaland 24.04.2017 thomas.sodring@hioa.no 1/17
Datakvalitet Datakvalitet som et eget forskningsfelt har eksistert siden 1970 tallet men det var etter 2000 tallet at flere og flere ble interessert i fagfeltet Dette pga en eksplosjon i mengden av elektronisk data som ble generert Hvordan dataen ble (og fortsatt blir) håndtert på en ustrategisk måte av mange selskaper 2/17
Hva er datakvalitet? Datakvalitet angir i hvilken grad data i et system er i overensstemmelse med det virkelige scenarioet dataene representerer og er brukbar 3/17
Systemutvikling modellering implementasjon bruk Kunder KunderNr Fornavn Etternavn Addresse Postnr Sted 1 Mona Lie Storgata 4 0182 Oslo 2 Thomas Hansen Bakken 8b 1406 Skii 3 Eli Rørvik Saturnringen 47 1808 Askim Kunder KunderNr Fornavn Etternavn Addresse Postnr Sted 1 Mona Lie Storgata 4 0182 Oslo 2 Thomas Hansen Bakken 8b 1406 Skii 3 Eli Rørvik Saturnringen 47 1808 Askim 4/17
Hvordan oppstår dårlig datakvalitet Manglende datakvalitet er ofte et resultat av dårlig system design Scenarioet system representerer er ikke tilstrekkelig modellert forbundet med dårlige prosedyrer ved data innførsel Da er datakvalitet er en form av god arkivdanning eller kvalitetsikring! 5/17
Hvor ser vi datakvaliteten? dårlig system design dårlige prosedyrer ved data innførsel Kunder KunderNr Fornavn Etternavn Addresse Postnr Sted 1 Mona Lie Storgata 4 0182 Oslo 2 Thomas Hansen Bakken 8b 1406 Skii 3 Eli Rørvik Saturnringen 47 1808 Askim Kunder KunderNr Fornavn Etternavn Addresse Postnr Sted 1 Mona Lie Storgata 4 0182 Oslo 2 Thomas Hansen Bakken 8b 1406 Skii 3 Eli Rørvik Saturnringen 47 1808 Askim dårlig system design dårlige prosedyrer Datakvalitetsproblemet manifesterer seg her måles også her! 6/17
DK ved danning eller bevaring? Er datakvalitet noe som vi skal være opptatt av under danning eller bevaring? Hvordan oppleves datakvalitets problematikken i hver av fasene? Når depot overtar et uttrekk er det praktisk talt umulig å rette på kvaliteten Hvorfor tar ingen ansvar for datakvalitet? Det står ikke noe om det i Noark standarden Data er låst i leverandørenes systemer 7/17
DK ved danning eller bevaring? modellering implementasjon bruk Kunder KunderNr Fornavn Etternavn Addresse Postnr Sted 1 Mona Lie Storgata 4 0182 Oslo 2 Thomas Hansen Bakken 8b 1406 Skii 3 Eli Rørvik Saturnringen 47 1808 Askim Kunder KunderNr Fornavn Etternavn Addresse Postnr Sted 1 Mona Lie Storgata 4 0182 Oslo 2 Thomas Hansen Bakken 8b 1406 Skii 3 Eli Rørvik Saturnringen 47 1808 Askim Et uttrekk blir skapt fra data i databasen 8/17
Datakvalitet Datakvalitet måles i datakvalitetsdimensjoner Det finnes mange datakvalitetsdimensjoner og kan kan grupperes som Subjektive Prosesss Objektive 9/17
Er data mellom systemer konsistent? Eksister det duplikater? Gjenspeiler data virkeligheten? konsistens Er all data som trengs tatt med? korrekthet fullstendighet Datakvalitet Er data tilgjengelig når de skal være tilgjengelig? Er data utdatert? tidsriktighet integritet gyldighet Er referanser mellom entiteter og attributter konsistent? Kommer alle verdier fra domenen av verdier? Datakvalitets dimensjoner 10/17
Datakvalitets GUI 11/17
IKA Kongsberg DK prosjekt 7-baser, 5 aktive, to historiske 12 år arkivdanning 850 000 'dokumenter' Minst en stor oppdateringer til databasen som endret database struktur/bruk 12/17
Hovedkilden til DK problemene Avvik fra standarden Manglende bruk av primærnøkler Duplikater "I/Inngående dokument" og "I/Søknad om stilling" Manglende bruk av fremmednøkler Hvem som meldte en person inn i en gruppe har en tom verdi Skiller ikke mellom små og store bokstaver Kode «G» og «g» brukes om hverandre i systemet Manglende data / Usann data 13/17
Fil heterogenitet 14/17
Fordyrer bevaringsprosessen Nå trenger vi 4 uttrekk Bevare original databasedump Bevare original database i XML Bevare (original) N4 uttrekk med feil Bevare 'vasket' N4 uttrekk som kan brukes for innsyn Hvis det ikke var avvik fra standarden så ville dette ikke vært et problem 15/17
Overordnet problemene er Volum Tid Heterogentitet 16/17
Hva kan vi gjøre Arkivarene må se på databasen som «arkivet» Vekk fra et systemforståelse om arkiv Når du kjøper et system må det alltid foreligger oppdatert dokumentasjon om hvordan systemet implementerer standard Ikke stol på egenerklæringen Lag uttrekk kvartalsvis for å avdekke feil og mangler Test verktøy?? Sørg for at fagsystemer som kjøpes inn kan lage uttrekk eller kan bruke Noark 5 kjerne 17/17