Er Noark 5 og Datakvalitet det neste steget for depot? Thomas Sødring thomas.sodring@jbi.hio.no 22452610/99570472
Bakgrunn Inspirert av et møte med Frode flere år tilbake Kan vi måle datakvaliteten til en avlevering? Kontakt med kommunene bekrefter behov og en begeistring for et slikt verktøy Markus Helfert ved DCU Dimitar Ouzounov tar prosjektet som sin masters i M.Sc. in Software Engineering Høgskolen i Oslo og Akershus 2 / 25
Først status på kjernen Ikke i mål enda... Opprinnelige basen fra Dublin inneholdt en del feil Hibernate Lazy initialisation errors Selve arkitekturen mangler skalerbarhet Jeg begynte på nytt i mai, i juni valgte Dimitar å skrive alt på nytt! Høgskolen i Oslo og Akershus 3 / 25
Status Fjernet Adobe Flex/Flash/GraniteDS og gått over til HTML basert brukergrensesnitt ZK rammeverket Hele prosjektet er bygget på åpenkildekode Uttrekksmodulen på plass n5v3! Endringslogg på plass Mye av indrekjerne men ikke Gjenfinning av dokumenter virksomshetslogikk Administrasjons brukergrensesnitt Bevaring / kassasjon / periodisering friark? Høgskolen i Oslo og Akershus 4 / 25
Noark5 Noark 5 kjerne Tjeneste/Grensesnitt laget (service layer) Virksomhetslogikk laget (Business Logic Layer) Lagrings laget (Persistence Layer ORM) Relasjonsdatabase Indrekjerne ytrekjerne
Videre arbeid Nå kommer vi ordentlig igang med virksomhetslogikken Det er ingenting som gjenstår som er vanskelig Usikre hvordan håndtere Virksomhetsspesifikmetadata i utrekksmodulen Apache Solr prosjektet for gjenfinning MySQL og Solr er de eneste kjerne komponenter som vi ikke utvikler Dimitar gjør dette på egen regning Høgskolen i Oslo og Akershus 6 / 25
Innovasjon Vi har hatt to proof-of-concept prosjekter for å teste dokumentfangst fra utradisjonelle kilder Integrert kjernen mot Facebook Android mobiltelefon (fange SMS) http://student.iu.hio.no/hovedprosjekter/2011/da ta/33/ Høgskolen i Oslo og Akershus 7 / 25
Datakvalitet Datakvalitet som et eget forskningsfelt har eksistert siden 1970 tallet men det var etter 2000 tallet at flere og flere ble interessert i fagfeltet Dette er pga en eksplosjon i mengden elektronisk data som ble generert Hvordan dataen ble (og fortsatt blir) håndtert på en ustrategisk måte av mange selskaper Høgskolen i Oslo og Akershus 8 / 25
Hva er datakvalitet? Datakvalitet angir i hvilken grad data i et system er i overensstemmelse med det virkelige scenarioet dataen representerer Manglende datakvalitet er ofte et resultat av dårlig system design eller forbundet med dårlige prosedyrer ved data innførsel Egentlig er det god arkivdanning! Høgskolen i Oslo og Akershus 9 / 25
Datakvalitet Datakvalitet måles i datakvalitetsdimensjoner Det finnes mange datakvalitetsdimensjoner og kan kan grupperes som Subjektive Prosesss Objektive Høgskolen i Oslo og Akershus 10 / 25
Prosjektet DCU / HiOA Hva er datakvalitet fra Noark 5 perspektivet? Kan vi utvikle programvare som kan måle datakvalitet? Dimitar utviklet arkivstrukturen og grunnlegende funksjonalitet for indrekjerne analyserer kjernen for DK utviklet en utvidbar skriptingspråk som kan måle DK utviklet selve DK modulen Høgskolen i Oslo og Akershus 11 / 25
Hvorfor Vi ønsker å visualisere «kvalitet» objektivt Du behøver ikke være enig i vår definisjon av kvalitet Dette er en start på å finne ut hvordan arkivfeltet kan fra nytte av datakvalitetet Noen dimensjoner finnes i dag i form av rapporter, noen finnes fordi danningssystemet ikke gjør jobben sin riktig Hvilken dimensjoner gjelder for arkiv? Høgskolen i Oslo og Akershus 12 / 25
Datakvalitetsdimensjoner Fullstendighet Alle metadata elementer (som skal ha en verdi) har en verdi DIM "Completeness" FOR CaseFile f EXISTS f.filetype; END DIM "Completeness" FOR RegistryEntry e EXISTS e.createddate; END Høgskolen i Oslo og Akershus 13 / 25
Metadata for arkiv Nr. Navn Forek Avl Datatype M001 systemid 1 A Tekststreng M020 tittel 1 A Tekststreng M021 beskrivelse 0-1 A Tekststreng M050 arkivstatus 0-1 A Tekststreng M300 dokumentmedium 0-1 A Tekststreng M301 oppbevaringssted 0-M Tekststreng M600 opprettetdato 1 A Dato og klokkeslett M601 opprettetav 1 A Tekststreng M602 avsluttetdato 1 A Dato og klokkeslett M603 avsluttetav 1 A Tekststreng Høgskolen i Oslo og Akershus
Datakvalitetsdimensjoner Korrekthet Vurdere riktigheten til verdier DIM "Correctness" FOR CaseFile f, refseries s END f.createddate BETWEEN s.startdate,s.enddate; Høgskolen i Oslo og Akershus 15 / 25
Datakvalitetsdimensjoner Saksgang forsinkelse Hvor lang tid bruker saksbehandlere på saker, hvor ofte det kommer registreringer DIM "Processing Delay" FOR CaseFile f, rentry r WHEN f.casestatus MATCHES "open" THEN r.createddate AGE_LATEST< 5; END Høgskolen i Oslo og Akershus 16 / 25
Datakvalitetsdimensjoner Syntaktisk nøyaktighet Alle verdier må komme fra et dommene av verdier DIM "Syntactic Accuracy" FOR CaseFile f f.casestatus MATCHES "(open closed)"; END Høgskolen i Oslo og Akershus 17 / 25
Datakvalitetsdimensjoner Konsistens inklusjonsavhengighet funksjonsavhengighet DIM "Consistency" FOR CaseFile f, rseries s INCLUDES f.refregistryentries; f.reflocation CONTAINED IN s.reflocations; END Høgskolen i Oslo og Akershus 18 / 25
DK for Noark5 KassasjonBevaring Foreldelse av materialet DIM "Disposal" FOR CaseFile f f.createddate AGE< 1825; END Høgskolen i Oslo og Akershus 19 / 25
Datakvalitet Mange av dimensjonene representerer god arkivdanning men nå kan vi måle de Vår analyse er basert på indrekjerne og fiktiv data DK er ofte forbundet med dårlige prosedyrer ved data innførsel Høgskolen i Oslo og Akershus 20 / 25
Datakvalitets GUI http://ark1.hio.no:8180/n5.ui.dq/ Høgskolen i Oslo og Akershus 21 / 25
DK ved danning eller bevaring? Depot vil arve DK fra danningsystemene DK er noe depot bør være opptatt av Danning har jo bare en 5 års perspektiv på kvalitet. Bevaring har?? Ja takk begge deler! Mål og fiks datakvalitet underveis, la DK inngå i avleveringer Kan du som IKA nekte å ta imot et uttrekk pga dårligkvalitet? Høgskolen i Oslo og Akershus 22 / 25
Datakvalitet og Noark Noark indirekte sørger for et minimum av datakvalitet Det er ingen eksplosjon av elektronisk informasjon brukt på en ustrategisk måte i offentlig sektor Eller? Kommunes bruk av sosiale medier? Noark 5 avleveringer vil ha en høyere kvalitet enn Noark 4! Tror vi... Høgskolen i Oslo og Akershus 23 / 25
Videre HiOA har en søknad inn hos NFR under verdikt programmet til å bla jobbe videre med DK og Noark Tilgjengelig midler under verdikt sier at 5% av søknadene får finansiering HiOA/DCU/KDRS/IKA Kongsberg har søkt Kulturrådet om midler for et lite prosjekt til å se nærmere på DK fra Noark 4 siden Hvilken dimensjoner gjelder for arkiv? Høgskolen i Oslo og Akershus 24 / 25
DK og arkiv På danningsiden så er det mye som kan gjøres DK fra eksisterende prosesser i kommunene realisert i kjernen med jbpm DK er ofte testet opp mot en database, se på DK fra et TOA/EJB vinkel Rom for samarbeid med DK gruppen i dnv På bevaring Integrasjon med DIAS/URD prosjektene Bruke det til å måle DK på Noark4/5 avleveringer Høgskolen i Oslo og Akershus 25 / 25