-Er semantikk romantikk? Semantisk teknologi og tenesteutvikling for arkiv Snorre D. Øverbø, Fylkesarkivet i Sogn og Fjordane
Kva eg skal snakke om: Semantikk, LOD og andre trendord Generelt om prosjektet Innhaldsmodellering Tenestemodell «Jeg hører og jeg glemmer. Jeg ser og jeg husker. Jeg gjør og jeg forstår.» Konfucius (551-479 f.kr.)
Semantisk teknologi og andre kule trendy ord (kort ordliste m. forklaringar) Semantikk betyr å forstå: Semantisk (web data) -teknologi betyr at datamaskiner kan «forstå» Web of data: Det nye internettet motsetning til «Web of Documents» Internet of Things: Alt blir «ting» for maskiner, ikkje som tekst for mennesket å tolke Linked (Open) Data, LOD: Maskinlesbar data (innhald) som er koplet saman med hjelp av RDF-standarden og anerkjente vokabular RDF Resource Description Format Vokabular (aka Ontologi) «Metaspråk» for å uttrykke kunnskapsorganisering
Målsetting: Betre tenester
Planlagd som eit 3-årig prosjekt (start april, 2013) Prosjektansvarleg: Fylkesarkivet i Sogn og Fjordane Viktige partnarar: Vestlandsforsking, Norsk reiselivsmuseum, Riksarkivet, Esis Norge AS, Arkiv i Nordland
Semantisk teknologi og tenesteutvikling for arkiv Planlagd som eit 3-årig prosjekt (start april, 2013) Prosjektansvarleg: Fylkesarkivet i Sogn og Fjordane Viktige partnarar: Vestlandsforsking, Norsk reiselivsmuseum, Riksarkivet, Esis Norge AS, Arkiv i Nordland
«Case Fylkesarkivet», status: Fylkesarkivet har 42 databasar, mesteparten kan definerast som instansar i ein Oracle 11g Enterprise relasjonsdatabase Total ca 500.000 datapostar. Mesteparten av datapostane er omtalt med tekststrenger i forskjellige kolonnar. Kanskje halvparten har digitale representasjonar
Fylkesarkivet sitt noverande innhaldssystem Eigenutvikla produksjonsystem for foto, dokumenter, stadnamn, lyd osv, som er eksponert mot internett Datasett med koordinatar vert brukt av ein eigenkartteneste, «fylkesatlas Sogn og Fjordane» Eigenutvikla publikumsteneste for søk og visning av innhald.
Dagens innhaldstenester:
Kva er problemet med dette??? Heterogen innhaldsmodellering mellom innhaldskomponentar Ikkje klart skille mellom administrativ, teknisk og deskriptiv metadata Manglande samanknyting av innhald på tvers av databasane Komplisert og ressurskrevjande å integrere eksternt innhald/tenester i eigne publikumsløysingar Delvis usynleg for Google og andre søkjetenester Uforløyste verdiar i innhaldet Drift, vedlikehald og utvikling generelt
Kva vi skal gjere Modellering Utvikle semantisk grensesnitt for samsøk basert på tingsentrert modellering Tenester Utvikle nye publikumstenester med eige innhald og innhald frå eksterne leverandørar Dele Publisere det semantiske grensesnittet som LOD / LD
Kva vi ikkje skal gjere Ikkje lage nytt produksjonsystem Ikkje leggje ned eksisterande tenester Ikkje utvikle vokabular for fagfelt innanfor sektoren
Hovudkomponentar i arbeidet Modellering Grunnprinsippa er på plass. Men modelleringsarbeidet vil pågå under heile prosjektperioden Implementasjon Ansvar:Esis Norge AS v/robert Engels, og utviklar hjå Fylkesarkivet
Planar for modellering Første år (2013): Fotodatabase, Kulturhistorisk leksikon Andre år (2014): Historiske stadnamn Gardsleksikon/register Historiske persondata Tredje år (2015): Arkivkatalogdata (fra ASTA) Digitaliserte arkivdokument (møtebøker/dokument) Musikk/lyd/levande bilete
«Tingssentrert» tilnærming Tingsentrert klassifisering av informasjonselement Klassifisering via klassifisering av ting basert på relasjonen «Omtalt AV» Emnebasert kategorisering av informasjons-element Kategorisering via tematisk innhald basert på ein taksonomi/tesaurus
Både tingsentrert klassifisering og emnesentrert kategorisering er representert av eit kartoteksystem der elementa er omtalar av tinga (faktaark = opplisting av eigenskapar) informasjonselementa (kartotekkort = opplisting av tema)
Alle ting får namn - «Internet of Things» System for namngjeving (URI ar), eksempel: http://data.sfj.no/4i325iu25a405e0/ ( person) http://data.sfj.no/1412040266_1 (person) http://data.sfj.no/person/1412040266_1 (person) http://data.sfj.no/i89220fdkfj40fdklsaf/ ( køyretøy) http://data.sfj.no/nv60651_1 (køyretøy) http://data.sfj.no/vehicle/nv60661_1 (køyretøy)
Fylkesarkivet sine «ting», førebels liste: Person Stad Administrativ eining Institusjon Lag/organisasjon Bedrift Gard Bygning Anlegg Fartøy Køyretøy Minnesmerke Naturattraksjon Aktivitet Hending
Utarbeide «faktaark» for alle typer ting:
«Arkivting»/informasjonselement, førebels liste «OmtaltAv:» dokument bok fotografi levandebilete lydtale lydmusikk kart teikning kunstverk digitaltdokument [fødd digitalt]
Modell (forts) Faktaark for alle ting ( = eksponert for søk i semantisk grensesnitt) Vokabular / autoritetsregistre: DCMI, VIAF, DBpedia, EDM +++ KulturNAV Statens Kartverk Trong for eige vokabular??? (ja!)
Frå modellering / kunnskapsrepresentasjon til innhaldsteneste: Uttrekk frå databasetabellar Semantisk «løfting» av innhald Maskinelt Manuelt RDF-store med triplar Setje opp andre tenester Arbeid utført av teknikar, eigne fagfolk, eksterne konsulentar
Ressursar: Prosjektsøknad 2012: http://kulturradet.no/documents/10157/357863/248.pdf Prosjektrapport, pr. 14.10.2013: http://www.fylkesarkiv.no/sites/default/files/prosjektrapport14102013.pdf W3C Semantic Web Frequently Asked Questions: http://www.w3.org/2001/sw/sw-faq Epostadr. for meir informasjon: snorre.d.overbo@sfj.no