Presentasjon av implementasjonen av ESSArch i Arkivverket Terje Pettersen-Dahl Seksjon for Digitalt Depot Riksarkivet KDRS Samling, Trondheim, 12. juni 2013 1
Elmag, Elektronisk Magasin Prosjekt i Arkivverket med tanke på: Teknisk løsning ved lagring av elektroniske arkiver, både hardware og software. Sette opp retningslinjer og behandlingsregler av elektronisk mottatt materiale. Sikkerhetsaspekter rundt elektronisk materiale. Egentlig bestående av flere prosjekter over flere år. 2
Elmag, Elektronisk Magasin DIAS prosjektet ble opprettet som en følge av Elmag 2 prosjektet. DIAS prosjektet kunne vært et Elmag-prosjekt i utgangspunktet, men ble skilt ut siden det også var eksterne aktører involvert. 3
Dias, Målformuleringer Utprøving og komplettering av den logiske arkivpakkemodellen foreslått gjennom Arkivverkets Elmag-prosjekt. Vurdering og valg av standarder for implementering av modellen. Spesifikasjon av strukturen gjennom XML-skjemaer for den definerte arkivpakkemodellen. Utforming av kravspesifikasjon til programvare for generering av arkivpakker m.m. Programutvikling av programvare for generering av arkivpakker m.m. 4
Dias-modell SIP Mottakskontroll Adgang etc Standard operasjoner Testing Innhenting DIP Magasinkontroll Asta Sto r age st ge In Pakking P AI C ss I e ) A IP Innlegging cc ) S A ( IP Søk (D Uthenting Admin Magasin Rapportering 5 Magasinstyringssystem (m/san el.) 5
Arkivpakker Standard arkivpakke (AIP). Siden arkivpakker vil bli bevart i flere generasjoner vil det også være behov for et overordnet nivå en arkivkontainer (AIC). Ved enkle endringer av metadata, føltes det vel tungvint å endre en hel arkivpakke, derfor ble det også definert en arkivenhet (AIU). 6
Pakkestrukturer DIAS prosjektet definert en struktur for en arkivpakke (AIP). Arkivverket har deretter arbeidet med å definere en struktur for en innleveringspakke (SIP). Strukturen for en SIP er basert på strukturen for en AIP. Strukturen for en visningspakke (DIP) vil være spesialtilpasset behovene. 7
Arkivpakke AIP Struktur En arkivpakke (AIP) kan deles opp i følgende hoveddeler Informasjonsinnhold Selve informasjonen som skal bevares Administrative metadata Arkivskaper, proveniens og annen kontekstuell informasjon Tekniske metadata Teknisk beskrivelse av informasjonsinnholdet Depotoperasjoner Håndtering og arbeidsoperasjoner depotet har utført på informasjonsinnholdet 8
Struktur i en arkivpakke AIP AIP (<UUID>.tar) dias-mets.xml (og dias-mets.xsd) descriptive_metadata/ ead.xml eac-cpf.xml administrative_metadata/ dias-premis.xml arkivuttrekk.xml repository_operations/ Testrapporter etc content/ Dokumentfiler og annet innhold 9
10
Arkivpakkemodell Alt bevares i sin opprinnelige form (SIP). Ved tekniske endringer dannes en ny pakke (AIP) i tillegg til den opprinnelige. Operasjoner i depotet bevares og dokumenteres som tillegg. Ved senere vedlikehold (f.eks. konvertering av formater) dannes alltid en ny pakke (AIP). All informasjon fra pakkenivå ned til filnivå kan verifiseres med sjekksummer. 11
Struktur i en innleveringspakke SIP SIP (<UUID>.tar) dias-mets.xml (og dias-mets.xsd) descriptive_metadata/ administrative_metadata/ dias-premis.xml arkivuttrekk.xml content/ Dokumentfiler og annet innhold info.xml 12
Forvaltningssystem Automatisert magasinforvalter Legger arkivpakker inn i magasinet Henter arkivpakker ut av magasinet Genererer arkivpakker Automatisert kontrollør Kontrollerer innholdets integritet Har egne lukkede områder for materialet Genererer rapporter 13
Dias, Skjemaer og standarder Pakkeinformasjon - METS Bevaringsmetadata - PREMIS Arkivbeskrivelse - EAD Aktørbeskrivelse EAC-CPF Tekniske metadata ADDML Muligens fler spesialiserte standarder knyttet til formater. F.eks. MIX for bilder. 14
METS METS-standarden benyttes i to tilfeller. Inne i pakkene (gjelder alle typer): Angivelse av pakkeinformasjon (pakkseddel). Angivelse av sammenhenger mellom filer. Angivelse av sjekksummer for alle filer. Denne versjonen navngis som mets.xml, og vil ligge på rotnivå i pakkene. Utenfor pakkene (for overføring fra en aktør til en annen): Inneholder informasjon om overføringen. Identifiserer TAR-filen (SIP). Denne versjonen navngis som info.xml. 15
PREMIS PREMIS-standarden benyttes kun inne i pakkene (for alle typer) som: Angivelse av bevaringsmetadata. Angivelse av hendelser. Angivelse av rettigheter. Denne versjonen navngis som premis.xml. 16
ADDML ADDML-standarden benyttes kun inne i pakkene (for alle typer) som: Angivelse av teknisk strukturbeskrivelse. Angivelse av utvalgte bevaringsmetadata (SIP). Denne versjonen navngis som arkivuttrekk.xml. Depotet vil kopiere denne og benytte den videre: For å legge på testkommandoer som skal utføres. 17
EAD og EAC-CPF EAD- og EAC-CPF-standardene benyttes kun inne i pakkene (valgfri i SIP) som: Angivelse av arkivbeskrivelse (EAD). Angivelse av aktørbeskrivelse (EAC-CPF). Filene navngis som ead.xml og eac.xml respektive. Normalt vil disse filene bli generert av Betty på grunnlag av informasjon lagt inn i ASTA. Gjeldende for Arkivverket. Andre depoter kan ha andre løsninger. 18
info.xml Som tidligere nevnt en METS-fil. Inneholder informasjon angående overføringen av en SIP. Er en kontrollmekanisme for å sikre en SIPs integritet. Vil ikke bli bevart i sin originale form hos depotet. Enkelte informasjoner kan bli bevart i andre filer. Vil bli bevart i journalsystemet. Bør bli behandlet parallellt med SIP hos depotet av sikkerhetsmessige grunner. 19
Gjennomføring (Fase 1) (utviklingen av forvaltningssystem) Utarbeidet en enkel kravspesifikasjon med 29 punkter. Noen skulle oppfylles, andre var kjekt å ha. Utlysning av anbud nasjonalt og EU - Mottok 2 tilbud. Valget falt på ES Solutions med sitt verktøy ESSArch. Dette var det eneste tilbudet som falt innenfor rammene. ESSArch grunnversjon godkjent 6. juni 2012, men ikke tatt i bruk. 20
Gjennomføring Fase 2 Forbedring av Fase 1 på 5 punkter. Brukergrensesnitt til log.py. Forbedring av DiffCheck. Endring av struktur for SIP. Endring av info.xml. xxx. 21
Gjennomføring Fase 2 Skulle vært igangsatt i sommer, men starter først i andre halvdel av oktober. Fase 2 levert i slutten av februar fra ES Solutions. Testet i testmiljø frem til 1. juni. Lagt over til prodmiljø første uken i juni. Testes i prodmiljø i juni. Test av installasjonspakke i slutten av juni. Produksjonsstart fra 1.juli. 22
Det Digitale Depotet Starter opp sammen med innføringen av det nye Digitale Depotet. Det Digitale Depotet inneholder følgende: Teknisk infrastruktur DSM (Digitalt sikringsmagasin) Forvaltningssystem (ESSArch) Rutiner for mottak og testing for hele Arkivverket 23
24
25
Revidert oversikt 26
Teknisk løsning Innholdet i rød sone Den tekniske løsningen vil være i rød sone. Rød sone vil inneholde En lagringsserver det egentlige DSM To taperoboter som en del av DSM En server med kontrollområde som vil være områdekontrollens ene arbeidsområde. En server med ESSArch og et temp-område for pakking av AIPer områdekontrollens andre arbeidsområde. 27
Teknisk løsning Innholdet i rosa sone Rosa sone vil inneholde En server med testernes arbeidsområder. En skjemaserver med standard skjemaene som benyttes av ESSArch. Mellom rosa og blå sone vil det være en brannmur. Kun ESSArch vil ha tilgang til å gå gjennom brannmuren. 28
Revidert oversikt 29
Testing av fagsystem Nye behandlingsrutiner Alle arkivversjoner skal innleveres til Riksarkivet. Alle arkivversjoner skal pakkes med TAR. En ny fil info.xml skal også innleveres. En slik Tar-fil vil bli kalt en SIP. En ny fil info-xml skal også innleveres. info.xml sendes til spesifikk e-post mottaker. info.xml inneholder sjekksum for TAR-fil. info.xml vil bli registrert i Ephorte. 30
Enkel oversikt over arbeidsprosess Kartlegging Avtale om innlevering Bevaring- og kassasjons-ve dtak Pre mottak Generering av arkivversjon Testing Mottak Tilgjengeliggjøring Lagring Vedlikehold 31
Vedtak og avtaler BETI-avdelingen og Statsarkivene gjør vedtak og inngår avtaler med arkivskapere som tidligere. Avtalene registreres i Ephorte med referansenummer og dato for avtalte innleveringer. Avtalene og datoene registreres også inn i Betty. 32
Pre mottak Tilsvarer førstehånds mottak. I Arkivverket gjøres dette av Seksjon for Elektronisk Arkivdanning (Elark). Vil kjøre viruskontroll på egen dedikert PC, etter at materialet først har ligget 3 uker i karantene. Deretter en enkel visuell kontroll av at det ser ut til at materialet er komplett. Denne kontrollen medfører ikke åpning av noen filer. Se til at info.xml ligger på utvekslingsområdet ioessarch. 33
Pre mottak Registrering av mottak i Ephorte (for SIP). Registrering og innlegging av info.xml i Ephorte. Registrering av mottak i Betty. Registrere alle hendelser som er skjedd med materialet i en hendelseslogg. Dette gjøres ved hjelp av verktøyet ESSArch Tools. Overlevering av materialet til DD. 34
Mottak Manuell overføring av SIP fra pre mottak. Kontrollere at info.xml og hendelseslogg ligger korrekt på utvekslingsområdet ioessarch. Hovedoppgave er å gjøre Check-in fra en dedikert maskin til Områdekontrollen. Må også registrere sine hendelser i hendelsesloggen. Denne oppgaven utføres av koordinator eller leder i Seksjon for Digitalt Depot. 35
Arbeidsområde All testing vil bli foretatt mot tildelte arbeidsområder. Hver tester vil få sitt dedikerte arbeidsområde. Testverktøyene vil være tilgjengelig for alle testere. Det vil ikke være mulighet for å kopiere materiale ukontrollert ut av rosa sone. Testing utføres av medarbeidere i Seksjon for Digitalt Depot og utvalgte medarbeidere i noen Statsarkiv. 36
Testing Grunnprinsipper Avdekke alle avvik som skyldes feil eller mangler i uttrekksprosessen. Følge og oppfylle regelverket. Konsekvenser for videre arbeid med materialet. Ingen endring av kvaliteten på materialet i forhold til hva som faktisk er hos arkivskaper! 37
Testing Verktøy Følgende verktøy benyttes til testing: Proteus for testing av Noark 3-uttrekk. ArkN4 for testing av Noark 4-uttrekk. Arkade for testing av Noark 5-uttrekk. Arkade for testing av uttrekk fra fagsystem. I tillegg kommer: Arkadukt for å lage og ajourføre strukturbeskrivelser for fagsystem. 38
Kommunikasjon mellom rød/rosa og blå soner Fra rød/rosa sone til blå sone: Forespørsel om ASTA-informasjon med unik ID (UUID). Utlegging av testresultater. Utlegging av rapporter statistikk, årsrapporter, sikkerhetsrapporter, osv. 39
Kommunikasjon mellom rød/rosa og blå soner Fra blå sone til rød/rosa sone: Innhenting av bearbeidede testrapporter. Innhenting av ASTA-informasjon fra Betty. Innhenting av info.xml og hendelseslogg. Innhenting av nye versjoner av xml-skjemaer. Innhenting av nye versjoner av testverktøy. 40
ESSArch og Betty Betty vil motta informasjon om planlagte arkivversjon. Betty mottar informasjon om mottatt arkivversjon. Inklusive å oppdatere identifikasjon av arkivversjonen (UUID). ESSArch gjør en check-in av arkivversjonen. ESSArch gjør en forespørsel om ASTA-informasjon til Betty. (Eventuelt legger Betty denne informasjonen klar uten forespørsel.) ESSArch henter inn ASTA-informasjonen fra utvekslingsområdet (EAD og EAC-CPF). 41
Grunnprinsipper for behandling av materiale Sikkerhet Sikkerhet - Sikkerhet. Alle hendelser på materialet skal logges. Ikke mulig å kopiere ut materiale uautorisert. Ikke mulig å uforvarende endre materiale. Alle endringer skal kunne dokumenteres for evt. å kunne tilbakestilles. Bruk av sjekksummer. Områdekontrollen utfører sammenligninger for å avdekke uregelmessigheter. 42
ESSArch - Verktøy ESSArch Tools. Erstatter tidligere log.py. Registrering av hendelser på materialet for logging. Oppretting av pakkestruktur (SIP). Generering av pakke (SIP). Generering av info.xml. ESSArch Preservation Platform. Tidligere nevnt som ESSArch. Forvaltningssystem ihht DIAS. 43
Arbeidsflyt i ESSArch verdenen Sone 1 Arkivskaper E T Mappestruktur Arkivskaper Legger inn info i mappestruktur Sone 2 - Mottak E T Genererer en SIP og info.xml info. xml SIP E T Genererer loggfil Sone 3 Digitalt depot Depotmedarbeider Kontrollerer og gjør virussjekk EP P SIP Innlegging av SIP i ESSArch PP Testansvarlig Tester SIP godkjenner eller avviser EP P Lagrer SIP og AIP 44
ESSArch Tools DEMO! 45
ESSArch Preservation Platform KVASIDEMO! 46
EPP - Innlogging 47
EPP - Hovedbilde 48
EPP Control Area 49
EPP Checkin from reception 50
EPP Checkout to work area 51
EPP Checkout to work area 52
EPP Checkout to work area 53
EPP Checkin from work area 54
EPP Checkin from work area 55
EPP Checkin from work area 56
EPP Checkin from work area 57
EPP - DiffCheck 58
EPP - DiffCheck 59
EPP - DiffCheck 60
EPP - Preservation 61
EPP - Preservation 62
EPP - Preservation 63
EPP - Preservation 64
EPP - Ingest 65
EPP Ingest IPs 66
EPP Ingest request 67
EPP Ingest request 68
EPP List of Ingest requests 69
EPP - Access 70
EPP List of archived IPs 71
EPP Access request 72
EPP - Administration 73
EPP - Reports 74
EPP Delivery report 75
EPP Events report 76
EPP Events report 77
EPP - Management 78
EPP - Management 79
EPP Management Archive Policy 80
EPP Management Archive Policy 81
EPP Management Archive Policy 82
EPP Management IP Parameters 83
EPP Management IP Parameters 84
EPP Management IP Parameters 85
EPP Management IP Parameters 86
EPP Management Log events 87
EPP Management Parameters (core) 88
EPP Management - Parameters 89
EPP Management - Paths 90
EPP Management Worker processes 91
EPP Management XML schema 92
ESSArch Preservation Platform Mye testing gjenstår. En nedlastbar installasjonspakke skal være klar I løpet av juni 2013 både for ESSArch Tools og for ESSArch Preservation Platform. Arkivverket planlegger ikke noen ny fase før høsten 2014/våren 2015. Dette gir åpning for andre KDRS å få implementert sine ønsker! 93
Presentasjon av implementasjonen av ESSArch i Arkivverket Spørsmål? terje.dahl@arkivverket.no 94