Data Quality Perspectives Various roles from arkivdanning to arkivbevaring
Pragmatic Data Quality In this project we explore what data quality is based on observation and understanding within a Noark context Project results are based on observations and discussion Start with analysis of what DQ is for NOARK 4 Who are the stakeholders What factors should be considered
Who are municipal DQ stakeholders Records Management (Arkivdanning) Case Handler (Saksbehandler) Manager (Leder) Records Manager (Arkivleder) Municipality Manager (Rådmann) Long Term Preservation (Arkivbevaring) Extraction Processor Record Locator Trends Analysis Archive Manager
How do stakeholders view DQ? Case Handler (Saksbehandler) Short term / assume good DQ Manager (Leder) Short term / assume by verify good DQ Records Manager (Arkivleder) Short to medium term (long term?) Knows the truth! Municipality Manager (Rådmann) Short to medium term (long term?) Assumption that all is well
How do stakeholders view DQ? Extraction Processor Very short term, probably only one that ever makes a formal DQ judgement Record Locator Wish that DQ is good. Sees fragments of the truth Trends Analysis Assumption of good DQ, but irrelevant Archive Manager Long term, cost perspective
Wangs 15 DQ Dimensions Data Quality Intrinsic Contextual Representational Accessibility Accuracy Believability Objectivity Reputation Value-added Relevancy Timeliness Completeness Appropriate amount of data Interpretability Ease of understanding Accessibility Access Security
Wangs 15 DK Dimensjoner Datakvalitet Iboende Kontekstuele Representasjon Tilgjengelighet Nøyaktig Troverdig Objektiv Omdømme Verdi Relevans Tidsriktig Helhetlig Passende mengde data Tolkes Enkel forståelse Konsistent Konsis Tilgjengelig Tilgangsikkerh et
Intrinsic Data Quality Accuracy Believability Objectivity Reputation
Iboende DK Dimensjoner Nøyaktighet Troverdighet Objektivt Omdømme
Nøyaktighet c Snakk om avvik, feks distansen fra v til v' v er databasen og v' er uttrekket
Trodverdighet Er dataene i uttrekket sann og troverdig? Hva skjer hvis finner et dokument uten tilknytning til arkivstrukturen? Hva skjer hvis finner en registrering uten tilsvarende dokument? Kanskje den viktigste av alle dimensjoner Hvordan måle det? Dokumentasjon Objektivt / Subjektivt? Bruken av sjekksummer, automatisk avlevering til depot, logger Jo mer vi har, jo mer objektiv vi kan måle
Trodverdighet Viktig å skille mellom troverdighet til systemet og innhold/saksgang Eksempel* Danning Depot Saksbehandler/Leder Arkivtjenesten Motakk/Ledelse Forsker Algoritmer http://www.dn.no/forsiden/politikksamfunn/article1962324.ece
Objektivitet Er datene nøyaktig, konsis og upartisk? Har noen prøvd å "dempe" en betent sak? Ser vi fordommer fra saksbehandler/kommunen i en sak? Forskjell mellom innhold og metadata? tittel / dokument type sak, hva og hvem Systemet / Noark sørger for et nivå av objektivitet
Objektivitet Danning Depot Saksbehandler/leder Arkivtjenesten Mottakk/Ledelse forsker/algoritmer Kan vi måle objektivitet? antall ord/tegn brukt i tittel / innholdsbesrivelse
Omdømme Kan vi si noe om pålitlighet og viktigheten av en gitt informasjonskilde Kilder kan være interne/eksterne Integrasjon med fagsystem Noen baser ansees å være mer pålitlig På systemnivå så kan et system ha en bedre omdømme enn et annet Saksgang kan utløse et omdømme problem for kommunen feks noe informasjon fra en betent byggesak /reguleringsplan som blir lekket
De krysser hverandre Flere dimensjoner krysser hverandre Omdømme / sikkerhet Omdømme / objektiviet Omdømme / troverdighet Veldig kontekst (Noark) og rolle avhengig hvordan de krysser hverandre
Kontekstuele DK Dimensjoner Verdi Relevans Tidsriktig Helhetlig Passende mengde data
Contextual Data Quality Value-added Relevancy Timeliness Completeness Appropriate amount of data
Verdi Hva slags verdi gir Noark systemet? Utenom det lovpålagte Hvis loven ikke var der mye rot og kostnader Danning saksbehandler/leder arkivtjeneste/kommunen Depot (verdi på uttrekk) Når Volum øker, kan få bedre omdømme mottak/ledelsen forskeren / algoritmene
Relevans Under danning er Noark relevant / nyttig? jobber med arkivbegrensing postmottak Heller et spørsmål om vi fanger alt som er relevant Er det eksempler der vi ser at Noark ikke er nyttig? Hva hvis ikke kan lage uttrekk fra systemet? For depot er det litt anderledes Alt i uttrekket er relevant
Tidsriktig Er systemet / data tilstrekkelig oppdatert Ingen bruker et Noark 3 system i dag "Data delayed is data denied På saksbehandling, får politikerne data tidsnok til å gjøre grundig vurdering? Folkeregisteret/BBREG holder data oppdatert Data inn i system vil ofte være tidsriktig fordi adressen står der Endring av eksterne kilder som feks oppdatering i offentlighetsloven/postnummer
bevarings/kassasjons regler Tidsriktig Forskrift om byggesak 7-4 Gebyrbortfall ved kommunens fristoverskridelse Når uttrekket blir laget mister dataene evnen til å bli oppdatert / dynamikken forsvinner Tilgang og forståelse kan spille en rolle om tidsriktig Hvis det er mye arbeid / tar lang tid å hente data da er vi i en "data denied" situasjon Volum og tid til å prossesere/lage uttrekk med/uten feil kan være en del at tidsriktig Uttrekk er tidsriktig bilde av det som skjedde
Helhetlig Har vi fanget nok data? Noark sier hva vi skal fange Er basen fullstendig? mangler det data? Er bredden og dybden av opplysningene riktige? Tolkning av standarden spiller en rolle her Krav til epost adresse? Ikke alle har epost.
Passende mengde data Brukeren / skjermbilde, tanke på hvordan man presenterer data Politikere blir presenter med et dokument på 500 sider som de skal stemme over På systemnivå burde ikke være et problem ephorte søk Basen vokser sakte men sikkert over tid Depot får alt og da er det ikke nødvendigvis en passende mengde data Så lite innholdsvurdering som kan gjøres, kun det som kan scriptes
Passende mengde data Forsker med verktøy behøver ikke være et problem, men uten verktøy så kan det være et problem Teknologiske utviklingen gjør at det er ikke et problem på kommunalt nivå Kanskje mer et problem for RA
Representational Data Quality Interpretability Ease of understanding Consistent Representation Concise Representation
Representasjons DK Dimensjoner Enkel forståelse Tolkes Konsistent Konsis
Enkel forståelse (understand) Er systemet / dataene for komplisert slik at det er vanskelig å forstå I forhold til prosess Depot Kan vi forstå at et sett med filer utgjør et uttrekk, uten av vi nødvdendigvis kan bruke det Litt forbi å sikre lesbarheten
Tolkes (interpret) Kan dataene tolkes / brukes Du må først forstå noe før du kan tolke det Du kan forstå dataene du ser i tabelluttrekket (tall, dato, tekst) men du tolker at et data produkt er en sak eller journalpost
Konsistent Med GUI tankegang, Depot å være konsitent med visuell utforming å være konsistet med navngivning For Noark så bør uttrekkene til et vist nivå være konsistent Fagsystem og andre kilder Heterogene uttrekk kan være et problem
Konsis Beskrivelser er utformet på en konsis måte feks titelfelt ikke bruker mye unødvendig informasjon/språk Tabellnavn og attributter er "riktig" I forhold til å lage uttrekk konsis er at du får med det som trengs Unngå 200 tomme systemtabeller Unngå en overdokumentasjon
Accessibility Data Quality Accessibility Access Security
Tilgjengelighets DK Dimensjoner Tilgjengelig Tilgangsikkerhet
Tilgjengelig Problemer med systemet, nedetid Bruken av skytjenester Data er tilgjengelig og kan lett innhentes Bruken av gamle tegnsett Bruken av disker som ikke kan lenger leses Bruken av teritær lagring med lang hentetid Bruk av kryptering
Tilgangsikkerhet Sikker sone Tilgangskontroll på objekter Skille mellom lese og redigerings muligheter i forhold til materiale For noe informasjon skal ikke være mulig å fastslå eksistens På systemnivå er dette relatert til tillit
Mye informasjon... OAIS Modellen Iboende / Kontekstuelt / Represetasjon / Tilgang Arkivpakke?? Hva sitter vi igjen med nå? Hvordan kan dette brukes? Hva kan måles subjektivt / objektivt? I et Noark kontekst så krysser disse dimensjone hverandre på måter som de ikke gjør i andre kontekster Utfordring til å samle tankene og publisere dette