Arbeidsgruppe for standardisering av registrering og utveksling av metadata mellom norske vitenarkiv og CRIStin - rapport

Størrelse: px
Begynne med side:

Download "Arbeidsgruppe for standardisering av registrering og utveksling av metadata mellom norske vitenarkiv og CRIStin - rapport"

Transkript

1 Arbeidsgruppe for standardisering av registrering og utveksling av metadata mellom norske vitenarkiv og CRIStin - rapport Introduksjon Håndbok for bruk av metadata i norske vitenarkiv 1 ble utarbeidet av en nasjonal arbeidsgruppe i I 2014 ble en ny arbeidsgruppe nedsatt for å oppdatere håndboka. Gruppen har bestått av: Hege Johannesen (BIBSYS) Tarje Sælen Lavik (UiB) Emma Margret Skåden (UiT-Norges arktiske universitet) Elin Stangeland (UiO, leder) Tore Vatnan (CRIStin/FSAT). Gruppen har på oppdrag fra CRIStin oppdatert håndboka og kommer i tillegg med anbefalinger omkring videre implementasjon og bruk. Gruppen har stått fritt til å gjøre endringer i mandatet 2 for arbeidet, og ble tidlig enige om å fokusere mer på utveksling av metadata mellom vitenarkiv og de nasjonale verktøyene CRIStin og NORA enn registrering av metadata. De lokale vitenarkivene har i de fleste tilfeller etablert egne rutiner og felt for å registrere metadata og trenger etter vår mening i mindre grad retningslinjer for dette. Det vil imidlertid være mulig å bruke håndboka som en guide til registrering om man ønsker dette. Hensikten med den oppdaterte håndboka er derfor i hovedsak å tilrettelegge for: egenarkivering av artikler og annet materiale via CRIStin tilbakelenking fra CRIStin til vitenarkivene der en åpen versjon av en artikkel finnes høsting av metadata til NORA tjenesten, både fra DSpace-arkiv og Diva. NORA anvendes også som en høstingshub for en rekke internasjonale søketjenester som for eksempel BASE. Håndboka vil i hovedsak fortsatt være basert på metadataskjemaet Dublin Core 3 slik dette er definert i DSpace. I tillegg har gruppen trukket ut felt som faller utenom DSpace standard i et eget navnerom kalt Norwegian Open Access (NOA). Kort oppsummering av anbefalinger og videre arbeid Iverksetting av oppdatert håndbok - CRIStin gjør den oppdaterte håndboka tilgjengelig online, samt etablerer et nytt OAI metadataformat for høsting. CRIStin prosess for høsting oppdateres og CRIStin eksport til vitenarkivene inkorporerer de foreslåtte endringene

2 Norsk inndeling av vitenskapsdisipliner - gruppen viderefører anbefaling fra forrige håndboksrevisjon om at disse må revideres. Vi foreslår at CRIStin involverer flere parter (NB, UB ene m.fl) i en eventuell oppfordring til UHR om revisjon. For å bedre søk anbefaler vi også ulike tilnærminger for å sikre registrering av data i CRIStin. Emneord - bedre emnedata i vitenarkivene er absolutt ønskelig. Arbeidet til Tesaurus forprosjekt 4 ser lovende ut, og bør overvåkes videre med tanke på fremtidig bruk av en ny tesaurus også i vitenarkiv. Permanent arbeidsgruppe for metadata anbefales ikke, men arbeidsgruppen foreslår at en vurderer om det er ønskelig å opprette en gruppering tilsvarende den tidligere styringsgruppen for NORA. Identitetsforvaltning og autoritetskontroll - arbeidsgruppen foreslår at CRIStin utreder bruk av internasjonale standarder slik som VIAF autoritetsfil 5 og ORCID 6. Generelle prinsipper og standarder Endringer i bruk av navnerom I Norge har man i hovedsak brukt kvalifisert Dublin Core (DC) slik denne er implementert i programvareplattformen DSpace. I Dublin Core-miljøet har man siden ca. år 2000 gått bort fra å bruke kvalifisert Dublin Core, men for DSpace brukes fortsatt kvalifisert Dublin Core, med ett ekstra felt. Denne varianten av Dublin Core har i tillegg blitt ytterligere tilpasset av lokale brukere med den følgen at få DSpace-arkiv lagrer metadata i en form som muliggjør enkel utveksling av kvalifiserte Dublin Core metadata. Det er sannsynlig at DSpace vil endre måten metadata håndteres på i kommende versjoner, blant annet er man enige om å tilpasse seg DCMI Metadata Terms 7, som er den gjeldende Dublin Coreanbefalingen. Samtidig arbeides det med å implementere biblioteksystemet Alma i norske fag og forskningsbibliotek innen utgangen av Systemet muliggjør etter det vi erfarer integrering med DSpace, og man kan se for seg at arbeid med metadata i norske vitenarkiv samordnes på sikt. Alma-implementasjonen er imidlertid i et tidlig stadium, så eventuelle behov relatert til metadata i forhold til denne bør vurderes av en eventuell fremtidig arbeidsgruppe. Arbeidsgruppen var tidlig enige om å separere ut felt som ikke fulgte standard DSpace Dublin Core fra håndboken. Disse har vi plassert i et nytt navnerom kalt Norwegian Open Access (NOA). Tanken er at det skal bli enklere å forholde seg til endringer i metadataskjema som gjøres på DSpace-plattformen. Denne Også brukt av BIBSYS

3 tilnærmingen er i tråd med andre tilsvarende initiativ, for eksempel den Britiske RIOXX application profile 8. OpenAIRE Arbeidsgruppen har i denne omgangen i liten grad forholdt seg til OpenAIRE. De nødvendige data støttes av håndboka slik den er nå, men forutsetter at dataene er formatert riktig. Siden man ikke har avklart hvordan norske institusjoner vil forholde seg til EU-rapportering ennå, dvs. om rapportering vil skje fra CRIStin/NORA eller fra de lokale vitenarkivene anbefaler vi at man ser på behov i forhold til håndboka når dette er avklart. Begrunnelser for endringer Arbeidsgruppen har foretatt en rekke endringer i håndboken, større endringer beskrives og begrunnes i mer detalj under. Spesifisering av elementer Vi har fjernet oppdelingen i elementer og underelementer. I Dublin Core-anbefalingene har man gått bort fra denne typen hierarkier og vi ønsker også å understreke at alle elementer i håndboka er likestilte. Vi har derfor fjernet Underelement som betegnelse i malen, og har også fjernet Presiserer informasjon. I stedet har vi lagt inn lenke til kilder for enkelte elementer, for eksempel til Dewey klassifikasjonssystem. DSpace tilpasning Arbeidsgruppen har ved denne oppdateringen av håndboken tatt utgangspunkt i at alle kjente vitenarkiv i Norge bortsett fra NTNUs DIVA anvender programvareplattformen DSpace 9. For en del felt har vi derfor valgt å endre tidligere anbefalinger til å følge default Dublin Core slik denne er definert i DSpace. Dette er gjort for å a) minimere behovet for tilpasninger av DSpace for lokale vitenarkiv, noe som er tidkrevende og vil måtte vedlikeholdes ved eventuelle oppgraderinger; og b) tilrettelegge for at norske vitenarkiv enklere kan følge med i utviklingen av DSpace-plattformen. Videre utvikling av DSpace er under vurdering, og håndtering av metadata er et område der vi forventer å se store endringer i fremtiden. Nye felt Health Research Classification System (HRCS) HRCS 10 er lagt til som eget emne. Dette er et klassifikasjonssystem som hovedsakelig brukes i forbindelse med klassifikasjon av forskningsprosjekter relatert til biomedisin og helseforskning

4 Siteringer Arbeidsgruppen har lagt til syv nye felt der man om man ønsker det kan utveksle detaljert informasjon om en artikkel. Feltene er tidsskriftstittel, volum, hefte, startside, sisteside, sideantall og artikkelnummer. Tanken er at vi med dette åpner for at vitenarkivene kan motta mer detaljerte siteringsdata fra CRIStin, og at vitenarkivene kan levere tilsvarende data i retur. Disse er plassert i det nye navnerommet Norwegian Open Access (NOA). Fjernede felt dc.x.other I forrige versjon av håndboka ble det opprettet sekkeposter som man anbefaler brukt i situasjoner der informasjon bør utveksles, men ikke passer inn i andre felt. Disse er typisk på formen dc.x.other. Vi har i noen tilfeller fjernet disse, og foreslår at ukvalifisert felt brukes istedenfor. For eksempel foreslår vi at dc.description brukes istedenfor dc.description.other.vi har fjernet dc.language av samme grunn, kun dc.language.iso skal brukes. Finansieringskilde Feltet finansieringskilde er fjernet fra dagens håndbok da dette i liten grad er brukt og til dels dekkes av dc.relation feltene der man registrerer informasjon om forskningsfinansiør etc. Date for offentliggjøring Vi har fjernet dc.date.available. I DSpace er dette et felt som fylles ut av systemet. Embargo utløper Vi har fjernet dc.date.embargoenddate. Dette er ikke lenger i bruk i DSpace. Fagfellevurdert Siden dette feltet kun kan ha en verdi har vi valgt å inkorporere dette i listen over dokumenttyper under dc.type. Format Vi har fjernet dc.format feltene fra håndboka. Grunnen er at denne informasjonen ikke registreres i DSpace da man ikke med sikkerhet kan relatere riktig filstørrelse eller mimetype til riktig fil for poster som har filer i ulike formater. Informasjon om mimetype lagres nå sammen med filene, mens data om filstørrelse lagres per i dag ikke lagres. Endrede felt Opphavsmann og bidragsyter I forrige versjon av håndboka ble det innført et skille mellom opphavsmann og bidragsyter. Opphavsmann er definert som hovedansvarlig for ressursen og registreres i dc.creator.x mens bidragsyter er definert som en som har bidratt til ressursen og registreres i dc.contributor.x. Vi har valgt å samle disse feltene under dc.creator.x paraplyen for å forenkle registrering og utveksling av informasjon om opphavsmenn og bidragsytere i arkivene (I DSpace registreres denne informasjonen i dc.contributor.x. Ved høsting via OAI flyttes innholdet i dette feltet til dc.creator.x og vil derfor være i 4

5 henhold til utvekslingsstandarden.). Tre av kvalifikatorene som er beskrevet i forrige versjon av håndboka følger ikke standard DSpace Dublin Core er derfor plassert i det nye navnerommet Norwegian Open Access (NOA). Emne I forrige versjon av håndboka er det beskrevet ni ulike kvalifikatorer for emne under dc.subject. Seks av disse følger ikke standard DSpace Dublin Core og er derfor plassert i det nye navnerommet Norwegian Open Access (NOA). For ukontrollerte emneord (nøkkelord) anbefaler vi registrering i dc.subject uten kvalifikator. Beskrivelse Beskrivelse av versjon for ressurs er flyttet fra dc.type.version til dc.description.version. Dette er i henhold til standard DSpace Dublin Core. Populærvitenskapelig sammendrag er flyttet til det nye navnerommet Norwegian Open Access (NOA). Dokumenttype Den første nasjonale standarden for dokumenttype ble innført av NORA i I forrige versjon av håndboka ble det innført et skille mellom dokumenttype og ressurstype samt et felt for å angi versjon av ressursen og et felt for å angi om ressursen er fagfellevurdert eller ikke. Dette har vi gått bort fra da få institusjoner både nasjonalt og internasjonalt har implementert en slik løsning. I stedet har vi valgt å bruke dokumenttype slik dette brukes i DSpace med registrering i dc.type. For utveksling har vi beskrevet 15 ulike dokumenttyper. I forrige versjon av håndboka ble dokumenttypene utvidet med Exhibition (Utstilling), Performance (Forestilling) og Work of art (Kunstverk). Ingen av disse er tatt i bruk i noen av de norske vitenarkivene. Disse er derfor slått sammen til Artistic production (Kunstnerisk produksjon) som er en standard dokumenttype i DSpace. Mange vitenarkiv har også tatt denne i bruk. Det enkelte vitenarkiv kan selv velge å bruke andre dokumenttyper for å dekke lokale behov. Identifikator I forrige versjon av håndboka er det beskrevet seks ulike kvalifikatorer for identifikator under dc.identifier. Tre av disse er ikke standard DSpace Dublin Core og er derfor plassert i det nye navnerommet Norwegian Open Access (NOA). ISBN/ISSN God Dublin Core-praksis innebærer at ISBN for kapitler i en bok, samt ISSN legges i dc.source feltet. Dvs. når en ressurs er del av en større helhet oppgis helheten (f.eks. en bok) som kilde. Anbefalingen var tidligere at ISBN for et helt verk registreres i dc.identifier.isbn feltet. ISBN for et kapittel skulle imidlertid registreres i dc.source.isbn. Det viser seg imidlertid at ingen i Norge (og få DSpace-arkiv internasjonalt) har implementert anbefalingene om kapittel- ISBN og ISSN. Vi har derfor valgt å endre standarden i tråd med dagens praksis. Dette innebærer at dc.source.issn endres til dc.identifier.issn og dc.source.isbn fjernes og erstattes i bruk av dc.identifier.isbn. Sistnevnte felt vil da kunne brukes både for hele verk, 5

6 men også for kapitler og andre deler av verk. Ved eventuelle endringer i praksis i DSpace-miljøet, ev. ved et skifte av plattform brukt i Norge bør dette revurderes. Opphavsrett I forhold til rettigheter har norske vitenarkiv tre behov a) å beskrive hvilke rettigheter som er knyttet til en ressurs, b) å uttrykke rettigheter relatert til tilgangsnivået på en ressurs og c) lagre og utveksle informasjon om eventuelle lisenser assosiert med en ressurs. For å bedre tilfredsstille krav om OpenAIRE-kompatibilitet har vi endret navnet på feltet tidligere kalt dc.rights.accessrights til dc.rights. Implementasjon av den oppdaterte håndboka Arbeidsgruppen ser for seg at implementasjonen av den oppdaterte håndboken innebærer følgende aktiviteter: Den oppdaterte håndboken må gjøres tilgjengelig på nett, ideelt sett i tilknytning til nettsiden openaccess.no. Det er også ønskelig at den legges ut i html-format for enkel lenking til feltene. Som nevnt i introduksjonen har arbeidsgruppen endret fokus for håndboka fra registrering til datautveksling mellom systemer med OAI-PMH protokollen 11. Det må lages ett nytt OAI metadataformat for høsting i DSpace for at vitenarkivene skal kunne levere data i henhold til håndboka. Den nye definisjonen må spesifiseres i XSLT og blir gjort tilgjengelig for vitenarkivene. Det enkelte vitenarkiv mapper lokale felt til foreslått felt i håndboka slik at leverte data er i henhold til anbefalingene. Metadataformatet må foreslås inkludert i DSpace sin kildekode slik at den blir tilgjengelig som del av OAI 2.0 server 12. For å gjøre implementasjon enklere for de lokale vitenarkivene må det lages en veiledning som detaljerer hvordan man tar i bruk det nye metadataformatet. CRIStin må høste vitenarkivene i det nye metadataformatet, og samtidig sørge for at poster med CRIStinID lenkes til fra CRIStin. Data som eksporteres fra CRIStin til lokale vitenarkiv må tilpasses den oppdaterte standarden Anbefalinger og videre arbeid Bruk av UHRs Norsk inndeling av vitenskapsdisipliner, emneord og kontrollerte emneordsregistre Norsk inndeling av vitenskapsdisipliner CRIStin har bedt arbeidsgruppen om å se spesifikt på bruken av Norsk inndeling av vitenskapsdisipliner 13 i forbindelse med revisjonen av håndboken. UHR bekrefter på epost at de ikke har planer om å gjøre https://wiki.duraspace.org/display/dsdoc4x/oai+2.0+server 13 6

7 noen endringer med det første, men har registrert at det i flere miljøer er et sterkt ønske om at inndelingen oppdateres. Arbeidsgruppen har vurdert dagens bruk, og har konkludert med følgende: 1. Vi er enige i anbefalingen til den forrige arbeidsgruppen fra 2011 om at dagens inndeling av vitenskapsdisipliner trenger en oppdatering. Vi erfarer også at det er flere aktører (f.eks. Tesaurus forprosjekt) som uttrykker interesse for en eventuell oppdatering, og vil foreslå at CRIStin undersøker muligheten for å sende en anbefaling om oppdatering til UHR i samarbeid med Nasjonalbiblioteket, Universitetene (eventuelt ved Universitetsbibliotekene) samt andre relevante parter. 2. Per i dag er ca. 13 % av poster rapportert per år i CRIStin tilordnet vitenskapsdisiplin. Denne andelen bør økes for å forbedre søkbarheten, dette er også trolig nyttig for å få en bedre oversikt over aktivitet innenfor de ulike disipliner. Andelen kan økes ved å gjøre registrering av vitenskapsdisipliner obligatorisk ved rapportering i CRIStin, eller ved å automatisere tilordning av disiplin basert på fagtilhørighet på publikasjon eller den enkelte forskers fagområde. Emneord og kontrollerte emneordsregistre I mandatet bes også arbeidsgruppen å evaluere dagens bruk av emneord og kontrollerte emneordsregistre. For øyeblikket er det vekslende i hvor stor grad emneord legges på poster i norske vitenarkiv. De fleste institusjoner tilrettelegger for frie emneord lagt til av forfatter, i tillegg legger enkelte institusjoner til kontrollerte emneord. Arbeidsgruppen har vært i kontakt med Unni Knutsen ved Universitetsbiblioteket i Oslo, prosjektleder for Tesaurus forprosjekt 14. Dette prosjektet ser etter vår mening lovende ut, men det er for tidlig å si om dette utvikles til en ressurs som også vil være av nytte for vitenarkivsektoren. Vi anbefaler at man overvåker det videre arbeidet her og at en eventuell fremtidig gruppe med ansvar for metadata tar saken videre når det blir relevant. Når det gjelder emnerelaterte termer i dagens håndbok så videreføres denne som den er, med The Health Research Classification System (HRCS) som eneste nye tillegg. Fast arbeidsgruppe I mandatet ber CRIStin arbeidsgruppen om å uttale seg om hvorvidt man trenger en fast arbeidsgruppe som har i oppgave å vedlikeholde standarden mm. Vi mener at en fast gruppe ikke er nødvendig for øyeblikket da vi ikke forventer at håndboken trenger videre revisjon før tidligst om ett år eller to. To initiativer vil trolig medføre et behov for oppdatering av håndboken: oppdatering av DSpace programvare, og implementasjon av ALMA, nytt nasjonalt biblioteksystem. Begge disse er imidlertid i startgropen og det er usannsynlig at norske vitenarkiv vil måtte foreta endringer før tidligst våren Samtidig observerer arbeidsgruppen at det i fagmiljøene er et behov for et organ som på tvers av institusjonene legger til rette for erfaringsutveksling og inspirasjon rundt Open Access og arbeid med 14 I samarbeid med Oddrun Pauline Ohren, Nasjonalbiblioteket 7

8 vitenarkiv i Norge, samt bedre koordinering i forhold til lokale policies og aktiviteter. Vi foreslår derfor at man på Open Access dagen, 25. november 2014, vurderer hvorvidt en gruppering tilsvarende den tidligere styringsgruppen for NORA bør gjenopprettes. En eventuell ny gruppe vil også kunne støtte CRIStin i deres arbeid ved å fungere som et bindeledd mellom vitenarkivene og CRIStin. Sekretariatet for en slik gruppe foreslås lagt til CRIStin. Identitetsforvaltning og autoritetskontroll Per i dag mottar CRIStin identitetsdata om norske forskere fra den enkelte institusjons HR system. Denne informasjonen kobles til data fra SCOPUS. I forhold til bruk av disse dataene i vitenarkiv og videre inn i andre bibliotekrelaterte systemer er det ønskelig at dataene kvalitetssikres ifølge internasjonale standarder for autoritetskontroll, f.eks. VIAF autoritetsfil. Vi ser også at ORCID, en ny løsning for identifikasjon av forskere og deres forskning, adopteres bredt internasjonalt. Vi anbefaler CRIStin å vurdere implementasjon av denne i sine systemer. Juridiske aspekter CRIStin ønsket at arbeidsgruppen skulle se på to juridiske problemstillinger som del av dette arbeidet: Lage en anbefaling angående behov for lisensiering av metadata med tanke på videreformidling til eksterne tilbydere Undersøke juridiske problemstillinger relatert til dagens bruk av CRIStin metadata kjøpt fra eksterne leverandører. Etter å ha diskutert saken har arbeidsgruppen konkludert at disse problemstillingene er viktige og derfor bør utredes av personer med juridisk kompetanse. Vår anbefaling er at CRIStin henvender seg til jurister f.eks. ved Nasjonalbiblioteket som trolig har bedre forutsetninger og forståelse av både norsk og internasjonalt lovverk til å uttale seg. CERIF Grunnet begrensninger i tid ble CERIF modellen ikke vurdert i denne omgang. Dette vil ev. være en jobb en fremtidig arbeidsgruppe kan ta tak i. 8