Metoder og verktøy for overføring, analyse og tilgjengeliggjøring av digitalt arkivmateriale Arne-Kristian Groven, Riksarkivet KDRS samling i Trondheim, 20.-21.11 2012
ET PROSJEKT SOM EVALUERER STATE OF ART METODER OG VERKTØY
Om prosjektet Prosjektets navn: Ny metodikk for bevaring og tilgjengeliggjøring Prosjektets varighet: 1. mai 2012 til 31. august 2013 Prosjektets finansiering: Egenfinansiert Delfinansiert fra Norsk kulturråd, kr. 250.000 Prosjektetdeltagere: Riksarkivet, Bergen byarkiv, IKA Møre og Romsdal, IKA- Trøndelag, Kommunearkivinstitusjonenes digitale Ressurssenter og Oslo byarkiv
Om prosjektet Prosjektdeltagere: Espen Tønnessen, Seniorrådgiver, Depotavdelingen, Riksarkivet Jon Atle Haugen, Seniorrådgiver, Seksjon for elektronisk arkivdanning, Riksarkivet Hans Fredrik Berg, Underdirektør (fungerende), Seksjon for digitalt depot, Riksarkivet Geir Kåre Utmo, IKT-arkivar, Fylkesarkivet i Sogn og Fjordane Egil Blomsø, arkivar/rådgiver, Aust-Agder kulturhistoriske senter IKS Olav Mjelde, konsulent, Bergen byarkiv Prosjektleder: Arne-Kristian Groven, Seniorrådgiver, Seksjon for elektronisk arkivdanning, Riksarkivet
Om prosjektet Prosjektplan ble godkjent av styringsgruppen 27/6 2012. Bruker prosjektverkøyene: Confluence (Wiki) for dokumentasjon JIRA (issue tracker) for oppfølging Arbeidsform: Fjernarbeid Få møter
Confluence, for dokumentasjon og deling av kunnskap og erfaringer
VEIEN FRA ARKIVSKAPER TIL DEPOT TIL PRESENTASJON
Overordnet, fra arkivskaper til depot Last ned data Dra ut metadata + legg til metadata Analyse av data + metadata, problemløsning Lagre i arkivformat + presentasjonsformat
Identifiserte metode- og verktøykandidater SIARD (Software Independent Archiving of Relational Databases) Archivematica RODA (Repository of Authentic Digital Objects) BitCurator DPSP (Digital Preservation Software Platform) Dspace Fedora (Flexible Extensible Digital Object Repository Architecture)
Hva vi gjør for øyeblikket Har startet evaluering av følgende metoder/verktøy: Archivematica SIARD Finner kandidater for pilotstudier Ser på ulike typer fagsystem, støttesystemer for saksbehandlingen Tilrettelegger felles testomgivelse Tilgang for samtlige prosjektdeltagere
SIARD EN VERKTØYKASSE VI EVALUERER
SIARD består av to deler Et definert arkivformat: NB: Et SVEITSISK arkivformat(!) Et åpent format Et arkivformat for relasjonsdatabaser Et programvareverktøy: SIARD Suite
SIARD Kilde: Save Your Databases! Urs Meyer, SFA ECA 2010, April 2010
SIARDs plass i arkivpakkestrukturen
SIARD-formatet (hvordan SIARD filer ser ut) Metadata og data fra databasen blir lagret sammen i en ukomprimert ZIP64-fil. Filens suffiks er.siard
Eksempel på en table.xml fil der hvor dataene lagres
Hva mottas av SIARD verktøyet Databaser, fra MS Access, MySQL, Oracle og SQL Server med leverandørspesifikke konstruksjoner
Hva produseres i SIARD verktøyet Leverandørspesifikke SQL konstruksjoner transformeres til et standardisert format. Databasene omgjøres til arkivdokument... som kan eksporteres til andre relasjonsdatabaseplattformer, uavhengig av databaseleverandør
Hva kommer ut av SIARD verktøyet Standardisert output, basert på ISO standardene XML og SQL:1999. Databaseinnholdet er lagret i en samling XML filer, både SQL kode og skjemadefinisjoner Binary Large Objects and Character Large Objects er lagret i egne binærfiler, referert til fra XML-filene. ZIP64 pakket
SIARD Suite verktøyet For å konvertere fra MsSQL, Oracle, SQL-server eller Ms Access databaser til SIARD-formatet Består av tre komponenter, hvor av ett grafisk: SIARD EDITOR Fra database, Grafisk brukergrensesnitt De to andre er SiardFromDb Fra database (store filer), kommandolinje SiardToDb Til database (store filer), kommandolinje Det er også mulig å bruke JDBC eller ODBC for tilkobling.
Datatyper: Transformasjoner fra MySQL til SIARD
ARCHIVEMATICA EN ANNEN VERKTØYKASSE VI EVALUERER
Archivematica-arkitekturen Kilde: https://www.archivematica.org/wiki/file:archivematica-0.8-beta-architecture.png
Archivematica Mottar mappestrukturer Som sjekkes og bearbeides Mest mulig automatisert
Mikrotjeneste -arkitekturen Kilde: https://www.archivematica.org/wiki/file:archivematica-0.8-beta-architecture.png
Mikrotjenester
Mikrotjenester
MCP The MCP is the core of the Archivematica system. It controls the various micro-services in the Archivematica system. Configuration and processing information are held in the database. The user monitors and controls the MCP via the dashboard. The MCP maintains a log of all completed work. The MCP uses the gearman. The MCP Clients are relatively "dumb". They are gearman worker implementations, that inform the gearman server what tasks they can perform, and wait for the server to assign them a task. The Archivematica system relies on client and server having access to the same directory, to process the commands. On a distributed system, this is done through the shared directory.
MCP og Gearman
Arbeidsflyt i Archivematica
Normalisering- til arkivformater
OPPSUMMERING
Noen stikkord Vi befinner oss der hvor digitalt arkivmateriale skal overføres fra arkivskaper til depot Overføring innebærer ulike typer sjekker, tester og manipuleringer Metoder og verktøy som dekker ulike typer digitalt arkivmateriale blir undersøkt Ser på mest mulig automatiserte verktøyomgivelser
Hvorfor dette prosjektet!? Fordi vi tror at noen der ute i den store verden har de samme behov som oss Fordi vi tror at noen der ute har kommet lengre enn oss Fordi vi kan lære av disse initiativene!
SPØRSMÅL?!? TAKK FOR MEG