CLARINO: samarbeid mellom bibliotek og forskningsmiljø om infrastruktur for språkdata Prof. Koenraad De Smedt Nasjonal koordinator, CLARINO Director and Chair NCF, CLARIN ERIC desmedt@uib.no UHR-B, Oslo 14. november 2016
Universitetsbiblioteket i Bergen Har som mål å være kompetanse- og servicesenter innenfor fysiske og digitale forskningsarkiv Har bred erfaring ifm. digitale tekst- og bildearkiv, bl.a. Ludvig Holbergs skrifter MARCUS bildedatabase CLARINO Bergen Repository UHR-B, 14. november 2016 Koenraad De Smedt 2
CLARIN 3
Deling av ansvar og kompetanse Forskningsmiljøene leverer innhold og faglig ekspertise Universitetsbiblioteket utvikler, drifter og støtter den digitale arbeidsflyten fra kilden frem til datadeling og visning IT-avdelingen drifter e-infrastruktur UHR-B, 14. november 2016 Koenraad De Smedt 4
Nasjonalbiblioteket Digital bibliotekutvikling storslått digitalisering, Bokhyllen Forskning og formidling Språkbanken: data, verktøy og tjenester til forskning og utvikling innen norsk språkteknologi UHR-B, 14. november 2016 Koenraad De Smedt 5
UHR-B, 14. november 2016 Koenraad De Smedt 6
CLARIN (EU) Common Language Resources and Technologies Infrastructure ERIC (European Research Infrastructure Consortium) med 19 medlemmer ESFRI Landmark Status 2016 Infrastruktur som nettverk: sentrale tjenester + hvert medlemsland tar sitt ansvar for oppbygging av et nasjonalt nettverk UHR-B, 14. november 2016 Koenraad De Smedt 7
CLARINO (NFR) Norges bidrag til CLARIN Finansiering fra Forskningsrådet og fra konsortiet: UiB, UiO, UiT, NHH, NTNU, Uni Digital Computing Nasjonalbiblioteket og Uninett (Notur/NorStore) som partnere Samarbeid med bibliotekene er viktig og produktivt Samarbeidet skal utvides i CLARINO-PLUS UHR-B, 14. november 2016 Koenraad De Smedt 8
UHR-B, 14. november 2016 Koenraad De Smedt 9
UHR-B, 14. november 2016 Koenraad De Smedt 10
UHR-B, 14. november 2016 Koenraad De Smedt 11
CLARINO Bergen Repository, driftet av Universitetsbiblioteket i Bergen Datadepot åpent for alle Innlogging gjennom Feide/eduGAIN Basert på DSpace Samarbeid med Universitetet i Praha Component Metadata (CMDI: ISO standard) Metadata høstet nasjonalt og internasjonalt Bruk av CLARINs lisenskategorier Persistent ID for hver språkressurs Sertifisert av Data Seal of Approval Sertifisert som CLARIN Centre type B UHR-B, 14. november 2016 Koenraad De Smedt 12
UHR-B, 14. november 2016 Koenraad De Smedt 13
UHR-B, 14. november 2016 Koenraad De Smedt 14
UHR-B, 14. november 2016 Koenraad De Smedt 15
Hvor skal vi deponere og finne ressurser? Kommersielle aktører (Figshare) Nasjonale dataarkiver (NSD/NORDi, NorStore, Difi) Institusjonelle datadepoter (Bora mm.) Infrastrukturer som betjener bestemte forskningsmiljø eller er spesialisert i bestemte typer data (CLARINO) Unngå konkurranse, stimuler tilsamarbeid Sats på kompetanse og erfaring til oppbygging, drift og brukerstøtte Hvis forskeren leverer på ett sted, kan metadata høstes og data repliseres til flere datadepoter UHR-B, 14. november 2016 Koenraad De Smedt 19
UHR-B, 14. november 2016 Koenraad De Smedt 21
Infrastruktur er mer enn et datadepot Søke i annoterte datasett Analyse og visualisering av data, workflows Opplæring og brukerstøtte i kontekst av fag/forskingstema UHR-B, 14. november 2016 Koenraad De Smedt 22
UHR-B, 14. november 2016 Koenraad De Smedt 23
UHR-B, 14. november 2016 Koenraad De Smedt 24
UHR-B, 14. november 2016 Koenraad De Smedt 25
UHR-B, 14. november 2016 Koenraad De Smedt 26
UHR-B, 14. november 2016 Koenraad De Smedt 27
Språkbanken UHR-B, 14. november 2016 Koenraad De Smedt 28
Trolling (UiT) UHR-B, 14. november 2016 Koenraad De Smedt 29
Bærekraftig drift Trenger tilgang til databaser 24/7 Trenger tilgang til analyseverktøy og regnekapasitet Trenger oppdatering, videreutvikling, brukerstøtte Ikke lurt å ta betalt for normal deponering av data Ikke lett å ta betalt for normal bruk av data Ikke bærekraftig med prosjekt eller instituttenes budsjetter Utvidelse av bibliotekenes oppgaver Nye finansieringsordninger som sikrer stabilt vitenskapelig støtte fra forskningsmiljøene UHR-B, 14. november 2016 Koenraad De Smedt 30
Holdninger og insentiver Forskere må deponere i sertifiserte sentere Forskere må dokumentere sine data med relevante og kompatible metadata Forskere må sitere data med PID Insentiver for publisering av data Fagspesifikke forskerkurs i deponering, sitering, analyse og videre bruk av data UHR-B, 14. november 2016 Koenraad De Smedt 31
Language Analysis Portal: opplæring nødvendig UHR-B, 14. november 2016 Koenraad De Smedt 32
Konklusjon Samarbeid mellom forskningsorienterte biblioteker og universitære forskningsmiljø om digital infrastruktur er viktig, produktivt og fremtidsrettet Digital forskningsinfrastruktur er mer enn data: også verktøy, tjenester, brukeropplæring og brukerstøtte Forskere jobber sammen internasjonalt det må også bibliotekene gjøre, ofte i kontekst av store internasjonale satsinger som CLARIN UHR-B, 14. november 2016 Koenraad De Smedt 33