Automatisering av uttrekk fra bevarte databaser

Like dokumenter
Databasebevaring. Arne-Kristian Groven, KDRS-samling, Trondheim

Bevaring og tilgjengeliggjøring- Hvor ligger forbedringspotensialet?

Metoder og verktøy for overføring, analyse og tilgjengeliggjøring av digitalt arkivmateriale

IT, arkivarens verktøy eller forbannelse? Arne-Kristian Groven, Riksarkivet 24. mars 2015

Instruks for elektronisk arkivmateriale som avleveres eller overføres som depositum til IKA Møre og Romsdal IKS

Archivematica og AtoM: «State of the art» programvare for digital bevaring og tilgjengeliggjøring

To RDF or not to RDF Fagdag om Noark 5 og RDF

Produksjonslinje for bevaring og formidling av elektroniske arkiv fra kommunal sektor KDRS RIKSARKIVARENS ARKIVUTVIKLINGSMIDLER

Praktisk bevaringsmetodikk - prosesser, rutiner, metoder, verktøy. v/sigve Espeland

Fagsystemer. Interkommunalt arkiv for Buskerud, Vestfold og Telemark IKS

Samdok samla samfunnsdokumentasjon

ARK2200-H18 - Digital arkivdanning og -bevaring II. Mappeeksamen

DIAS - Digital arkivpakkestruktur

ARK Digital arkivdanning og -bevaring II Mappeeksamen. Eksamen består av fire deler

Fra produksjonsmiljø til bevaring - produksjonslinje for earkiv. v/sigve Espeland og Harald Nordli

PRESENTASJON Uttrekk og bevaring av eldre fagsystem med dots kjernen

Noark 5 utvidelser og virksomhetspesifikkemetadata: En praktisk forklaring. Thomas Sødring HiOA

Å lage Noark 4 uttrekk selv. Thomas Sødring thomas.sodring@jbi.hio.no /

Generell metode. v/sigve Espeland, IKA Rogaland

<Digitale_arkiver>fra A til #??A_#%,&</Digitale_arkiver> Digitale arkiver fra A til Å

Eks. på uttrekk fra fagsystem inkl. dokument. Produksjon av SIP og AIP

Kommunale, digitale depot i endring Trøndelagsmodellen. Kari.Remseth@ika-trondelag.no

Samdok samla samfunnsdokumentasjon

Dias, Ny lagringsmodell for elektroniske arkiver

Langtidsbevaring av helsedata ved bruk av en åpen depotplattform

Del 2: Uttrekk fra udokumentert database

PRESENTASJON NORDIG OKTOBER Alle skal kunne teste alt - overalt

ADDML er død, lenge leve ADDML. (ADDML 7.3 er ikke helt død, lenge leve ADDML 8.3)

Kjøre Wordpress på OSX

Interkommunalt arkiv for Buskerud, Vestfold og Telemark IKS

Validering Noark 5-uttrekk Gjemnes kommune etter innlevering til Digitalt Depot IKAMR Torbjørn Aasen, IT-rådgiver

Eks. på uttrekk fra fagsystem inkl. dokumenter. Sigve Espeland Interkommunalt Arkiv i Rogaland IKS

Samdok samla samfunnsdokumentasjon

Samdok samla samfunnsdokumentasjon

Testverktøy Status og videre tanker

Uttrekk fra elektroniske arkiver

«Farvel DBS» - mottak av database-arkiver fra privat sektor. Arbeiderbevegelsens arkiv og bibliotek

Samdok samla samfunnsdokumentasjon. Arkivarkitektur. Samdok-konferansen 12. november Hans Fredrik Berg, Riksarkivet.

Framgangsmåte for klargjøring og avlevering av elektronisk arkivmateriale til arkivdepot Supplerende bestemmelser for kommuner tilknyttet IKAT

Versjon

Fagsystemer. Kommunearkivkonferansen IKA Opplandene Pål Mjørlund

Saksbehandling, arkivdanning og arkiv om arbeidsprosesser, dokumentasjonsforvaltning og langtidslagring

Periodisering og uttrekk av elektroniske arkiver. v/tormod Engebu IT Rådgiver

Samdok. PRIORITERT OPPGAVE Arkiv i eforvaltning. samla samfunnsdokumentasjon

Digital Arkivbehandling fra A til Å

Alle skal kunne teste alt - overalt KDRS TRONDHEIM JUNI 2017

ARK H - Digital arkivdanning og -bevaring I Mappebeskrivelse. OBS Eksamen består av fire deler!

Orientering om E-ARK4ALL. Et pågående delprosjekt av CEF earchiving buildingblock

Erfaringer med bruk av DEX. Sigve Espeland IKA Rogaland

Avlevering av digitale arkiver (DA)

Bevaring av fagsystemer i Tysvær kommune

KOMMUNEREFORM ARKIV OG DOKUMENTASJONSFORVALTNING. FASE II Hva må gjøres etter at vedtak om sammenslåing er fattet?

Digital Arkivbehandling fra A til Å

ARK Digital arkivdanning og -bevaring II Mappeskildring. OBS Eksamen består av fire delar!

Ole Myhre Hansen Seksjon for digitalt depot, RA

>>21 Datamodellering i MySQL Workbench

ESSArch som felles depotstyringssystem for arkivsektoren

INF 329: Web-Teknologier. Dataimplementasjon. Fra Kapittel 11 i «Designing Data-Intensive Web Applications» Presentasjonsdato: 17/10/2004

Noark 5 tjenestegrensesnittet Hvor er vi nå?

ARKIVVERKETS EARKIV- PROSJEKT : STATUS

Autentiske data hva er det og hvordan sikres det?

Bevaring av fagsystem og Noark 5

1. SQL datadefinisjon og manipulering

Kan RDF være en del av løsningen i arbeidet med å ta vare på fagsystem fra offentlig sektor? Thomas Sødring HiOA

Folloarkivets dagskonferanse 2014

Overgang fra papirarkiv til digitale arkiv. IKA Finnmark, 26. september 2017

Public. earkiv 360. Integrasjonsmuligheter og nye metoder for import Stian Gregory

Retningslinjer for deponering og avlevering av digitalt arkiv. Kontaktkonferansen 2018 Arkiv Troms v/jan Grav, IT-rådgiver

Presentasjon av implementasjonen av ESSArch i Arkivverket

Hvordan kan en gjenbrukbar NOARK kjerne bidra til samhandling mellom forvaltningsnivåene?

ARKIVBESKRIVELSE I ATOM KOMPETENT ÅPEN PÅLITELIG SAMFUNNSENGASJERT

Samdok samla samfunnsdokumentasjon

Testing av Noark 5 uttrekk med kdrs-toolboxvalidator og innsyn med kdrs-toolbox-innsyn. Thomas Sødring HiOA

DEN DIGITALE TIDSALDER

Innsynsløsningen til bergen byarkiv

1. Introduksjon til Oracle Express Edition

ORDBMS og OODBMS i praksis

Noark-5 hva blir det til? Ståle Prestøy IKA Trøndelag. 23. mai 2007 Noark-5 - hva blir det til? 1

Innføring av earkiv i offentlig forvaltning

MySQL. Historikk. Nedlasting og installasjon

Bevaring av dokumentasjon i læringssystemer Lars-Jørgen Sandberg, Riksarkivet

ARKIVVERKETS UNDERSØKELSE AV ARKIVHOLDET I STATLIGE VIRKSOMHETER

earkiv som mulig felleskomponent for KDRS? 10. mars 2015 Fagdag - Riksarkivet - Oslo

Samdok samla samfunnsdokumentasjon

Brukerveiledning for ArkN4

Arkivplan - internkontroll

1. Innføring i bruk av MySQL Query Browser

FEILSITUASJONER I ARKIVENE Erfaringer fra prosjekter hos Justisdep. + noen til... Automatiserer og effektiviserer deponeringsarbeidet

Veiledning i arkivarbeid med fagsystemer

Master Data Management

Ny tjeneste fra Arkiv i Nordland. Digitalisering av eiendomsarkiv

Nordisk Arkivakademi. Arkivpakkestruktur. i det norske Arkivverkets nye digitale magasin. Boden, Trond Sirevåg

Uttrekk og bevaring av elektroniske arkiv

Feilsøking i BO. Olav Syse, konsulent. Jan Terje Hansen, service manager. Be business intelligent

Introduksjon til fagfeltet

Databaser kort intro. Tom Heine Nätt

Daglig leder Tor Eivind Johansen Kommuneseminaret

Opprette dokumentbibliotek med unike rettigheter

Applikasjonsutvikling med databaser

Samdok Delprosjekt Kommunale arkiv Metodikk for bevaring fra kommunale fagsystem (Pleie og omsorgssektoren) Sigve Espeland, IKA Rogaland

Transkript:

Automatisering av uttrekk fra bevarte databaser Arne-Kristian Groven, Fagdag om Noark5 og RDF, Riksarkivet, Oslo, 17.06 2014

Om meg Har 20 års bakgrunn innen IT-forskning Snart 3 år i Riksarkivet Arbeider med: Innhenting av bevaringsverdig arkivmateriale (uttrekk/sip generering) Innovasjoner/FoU/nye metoder og verktøy

Databasebevaring vs. uttrekk Det meste av det digitale materialet vi ønsker å bevare har en databasekomponent i seg 90 % av lagrede arkivpakker, AIPer, i det danske Rigsarkivets (nye) depotsystem er bevarte databaser I Norge har vi lang tradisjon for å transformere deler av databasene til standardiserte uttrekksformat: Noark-3, Noark-4 og Noark-5 Pluss å spesiallage uttrekk fra spesifikke fagsystem

Noark-uttrekket Blir gjennomført av konsulenter Basert på manuelt arbeid i databasene, ofte klipp og lim Tidkrevende Dyrt Varierende kvalitet Har vi tillit til materialet som mottas?! Hvordan skal materialet tilgjengeliggjøres/vises?

Dagens situasjon i Norge Det flommer over av systemer der ute Mye bevaringsverdig digitalt skapt arkivmateriale forsvinner fordi systemer dør Dette gjelder både Noark-godkjente system og fagsystem: Register, støttesystem... VI TRENGER (SNAREST) METODER OG VERKTØY SOM KAN BEVARE OG TILGJENGELIGGJØRE: Effektivt, repeterbart og med høy kvalitet! Slik at tillit til materialet kan bevares inn i framtida!

Hvordan komme videre?... Mot målet: Effektiv, repeterbar, høykvalitets bevaring og tilgjengeliggjøring! Mitt forslag: 1. Speil databaser over i et velegnet bevaringsformat 2. Fyll opp med relevant tilleggsinformasjon 3. Lag transformasjoner (uttrekk) fra bevarte databaser til velegnede visnings- og gjenfinningsformat (eksempelvis RDF vokabular og ontologier)

Hvordan komme videre? Jeg vil i det følgende se litt på disse tre stegene: 1. Ved å presentere verktøyet og formatet SIARD, for databasebevaring 2. Ved å illustrere med et tilfeldig eksempel jeg fant på nettet, fra et web-basert fagsystem 3. Ved å diskutere mulighetene for automatiserte uttrekk fra Noark-4 godkjente system

Databasebevaring med SIARD Illustrasjon: Save Your Databases! Urs Meyer, SFA ECA 2010, April 2010

SIARD oppsummert Veldefinert bevaringsformat, SIARD-formatet Veldefinerte transformasjoner Normalisering fra ulike databaseplattformer (Oracle, MS SQL Server, MySQL, MS Access, DB/2) til bevaringsformatet, SIARD formatet Fra SIARD-formatet til ulike databaseplattformer (på SQL:1999 formatet) Velfungerende verktøystøtte, Siard Suite SiardFromDB, SiardToDB, SiardEdit (GUI)

Eksempel: Transformasjoner fra MySQL datatyper til SIARD datatyper

Om SIARD-formatet En SIARD fil er en ZIP fil, på samme måte som DOCX og ODT filer er ZIP filer 64-bit på grunn av databasenes størrelse Bestående av XML filer Muligens også tekst og binærfiler, store objekter UTF-8 tegnsett på tekstfiler og XML filer Innholdet i SIARD-filen i henhold til SQL:1999 standarden Ikke bare syntaktisk, men også I henhold til SQL:1999 sine konsistensregler

SIARD Formatet: Filenes struktur header metadata.xsd metadata.xml content schema1 table1 table2 table2.xsd table2.xml schema2 File and folder names short, plain ASCII strings. table1.xsd table1.xml lob1 record1.txt / record1.bin lob2 record2.txt / record2.bin

Dette tas vare på av SIARD Database Schemas, Users, Roles Schemas Tables, Views, Routines Tables Columns, Rows, Keys (Primary, Foreign, Candidate) Constraints Rows data records containing primary data Views Users, Roles

Metadata som tas vare på av SIARD Schema level name folder description tables views routines Table level name folder description columns primarykey foreignkeys checkconstraints Column level name folder description type typeoriginal defaultvalue nullable Other Metadata View level Routine level User level Role level Privilege level

Erfaringer med SIARD Enkelt å generere SIARD-filene Oppgir databasens adresse og en databasebruker/passord (leseaksess) Databasepersonell hos arkivskapere kan gjøre jobben SIARD Suites GUI muliggjør rask inspeksjon/analyse av data Automatisert, veldokumentert transformasjon gir økt tillit

MEN: SIARD-filen er bare en del i arkivpakken

SIARD og arkivaren SIARD (Suite) gjør ikke arkivarens jobb Arkivarens jobb starter når SIARD har gjort sin, eller aller helst lenge før Arkivfaglige beskrivelser kan inkluderes på ulike nivå i SIARD-filen Datakataloger og annen dokumentasjon bør vedlegges SIARD-filen.

Dokumentasjon av databaser Så over til dokumentasjon av databaser: Dokumentasjon burde være påkrevd for alle databaser med bevaringsverdig innhold! Hva slags informasjon bør være tilgjengelig?!...

Dokumentasjon av databaser Jeg fant et illustrerende eksempel på nettet, for et system som heter Vigo Opplæring: http://www.vigoiks.no/systeminformasjon/informasj on-vigoopplaering/dokumentbase/databasedokumentasjon

Dokumentasjon av databaser Hver eneste tabell var i Vigo Opplæring dokumentert og publisert På følgende form:

SIARD anvendt på Noark-4 databaser Vi har det siste halve året ved hjelp av SIARD hentet inn databasene til ulike Noark-4 godkjente system Fire databaser tilknyttet en type system og fem databaser tilknyttet en annen type For en type system har vi funnet spørringer i views som tilsvarer Noark-4 DTDene

Automatisert transformasjon (uttrekk) fra Noark-4 databaser til Noark-5 RDF Funnet av Noark-viewene formet ideene om å generere mest mulig automatiserte uttrekk fra Noark-4 databasene over i en eller flere formalismer For eksempel RDF som målformalisme Hva gjelder Noark-4 godkjente systemer så er det fem ulike typer systemer fra fire(?) forskjellige leverandører Etter å ha kikket ned i databasene til to av disse er det helt klare likheter innenfor hver type, noe som gir grunn til optimisme

Automatisert transformasjon (uttrekk) fra Noark-4 databaser til Noark-5 RDF Optimisme, men arbeidsmengden som må til for å være i stand til å mappe databasefelter over i et uttrekksformat vil være helt avhengig av: Tilgang på databasedokumentasjon Om det allerede finnes spørringer i databasene

Fagsystem vs. Noark-godkjente system Vi har i dag et klart skille mellom håndtering av bevaringsverdig informasjon fra fagsystem og Noark-godkjente system Det første tilfellet (alle mulige typer fagsystem) er som regel underspesifisert hva gjelder bevaringsformat Noark-uttrekket er på sin side strengt spesifisert

Semantiske teknologier/rdf og Noark 5 Det kan selvsagt utvikles en eller flere Noark-5 vokabularer/ontologier Jeg vet at det finnes flere initiativer og håper disse vil konvergere

Semantiske teknologier/rdf og Noark 5 Men, semantiske teknologier/rdf med dets mange etablerte vokabularer og ontologier kan også bidra til å finne ut om deler av Noark-5 kan uttrykkes i noe som allerede er veletablert! Dessuten, kanskje det kan bygges bro mellom bevaringsverdig informasjon fra fagsystem og Noark-godkjente system?! Dette er i mitt håp!

Hvorfor ta vare på databasen og deretter lage uttrekk? I dag har vi Noark-3 uttrekk, Noark-4 uttrekk og snart Noark-5 uttrekk Ved å ta vare på databaser og databasedokumentasjon vil man være på tryggere grunn hva gjelder autentisitet Ved å ta vare på databasene vil man til en hver tid inn i framtida kunne generere uttrekk tilpasset den til en hver tid gjeldende visningsomgivelsen En vil også sannsynligvis kunne få en mer ensartet håndtering av bevaringsverdig materiale fra både fagsystem og Noark-godkjente system