Flerspråklig terminologi en ressurs for digitale offentlige tjenester i EU- og EØS-området Jon Arild Olsen jon.olsen@nb.no
Connecting Europe Facility (CEF) EUs infrastrukturprogram for transport-, energi- og telesektorene. Norge deltar i telekommunikasjonsdelen. Telekommunikasjonsdelen består av CEF Broadband og CEF Digital.
CEF Digital Kommunal- og moderniseringsdepartementet har ansvaret, Difi koordinerer. CEF Digital utvikler sektorspesifikke tjenester med utgangspunkt i felles teknologiske «byggeklosser».
Tjenester Cyber Security Online Dispute Resolution eprocurement Europeana Safer Internet BRIS (Business Registers Interconnection System) EESSI (Electronic Exchange of Social Security Information) ejustice ehealth WiFi4EU Nasjonal sikkerhetsmyndighet Nasjonal kommunikasjonsmyndighet Barne-, likestillings- og inkluderingsdepartementet Difi Kulturdepartementet Medietilsynet Brønnøysundregistrene Nav Justisdepartementet Lovdata Direktoratet for e-helse Nasjonal kommunikasjonsmyndighet
Byggeklosser e-id esignature edelivery einvoicing etranslation earchiving Public Open Data Difi Difi Difi Difi Nasjonalbiblioteket Språkrådet Arkivverket Difi
etranslation Automatisk oversettelsestjeneste for alle språk i EU og EØS-området. Bruksområder: alle offentlig ansatte i EU/EØS-området. del av digitale tjenester utviklet for borgere i EU/EØS-området (Online Dispute Resolution, ejustice, TED m.fl.)
Hvordan fungerer etranslation? Bygger grunnleggende sett på de samme prinsipper som f. eks. Google Translate. Beregner statistisk sannsynlighet for forekomsten av ord i oversettelser. Krever store korpus av tidligere oversettelser som grunnlag for beregningene.
Fordi eksisterende korpus av oversettelser mellom de fleste europeiske språk er små, fungerer som regel engelsk som «pivot language», dvs. at en oversettelse fra f. eks. polsk til norsk gjøres via engelsk.
European Resource Language Coordination (ELRC) For å støtte innsamling av språkdata til Translation har EU-kommisjonen opprettet ELRC. Et latvisk språkteknologisk selskap, Tilde, har det operative ansvaret for Norden og Baltikum. Månedlige digitale møter med lokale representanter. Norge er representert ved Språkrådet (Kristine Eide) og Nasjonalbiblioteket (Jon Arild Olsen).
Status for norsk språk i etranslation Ca. 1 million oversettingselement, hovedsakelig mellom bokmål og engelsk. Det aller meste kommer fra UDs oversettelse av EUs lov- og regelverk. ForbrukerEuropa har nylig bidratt med 300 000 oversettelsesminner fra anonymiserte klager.
Planer for å styrke norsk språk i etranslation Nasjonalbiblioteket har mottatt ca. 1,2 millioner oversettelsesminner fra Amesto/Semantix. UD og EFTA skal levere minner fra seksjon for generelle oversettelser (ca. 600 000 elementer). Nasjonalbiblioteket skal produsere et parallelkorpus for nynorsk og bokmål basert på lærebøker i skoleverket.
Flerspråklig terminologi som ressurs i etranslation Prosjektet etranslation TermBank startet med støtte fra CEF-digital (september 2017 til mars 2019). Ledes av Tilde med partnere fra Danmark, Sverige, Island, Estland, Litauen, Østerrike og Slovenia. Målet er å samle inn flerspråklige terminologiressurser fra alle EU- og EØS-språk.
Status for norsk Norge deltar ikke i EUs terminologitjenester (IATE og TermCoord). Norsk er derfor avhengig av direkte bidrag fra nasjonale virksomheter. Så langt har Norge bidratt med SNORRE fra StandardNorge (ca. 200 000 termer med tilhørende definisjoner på engelsk og norsk).
Hvorfor bruke ressurser på å etablere flerspråklige terminologilister? Flerspråklig terminologi styrker kvaliteten på oversettelser til og fra norsk enten de gjøres internt eller bestilles eksternt. En relativt liten ekstra innsats i tillegg til arbeidet med å etablere interne definisjoner av sentrale begreper i virksomheten. Flerspråklig terminologi vil styrke kvaliteten på oversettelser til og fra norsk i alle digitale tjenester hvor etranslation inngår.
Veien videre etranslation har begynt omlegging til maskinlæringsteknologi. Gir gode resultater, særlig for språk med store syntaktiske og/eller morfologiske forskjeller fra engelsk. Maskinlæring nyttiggjør seg av rikere data enn rent statistiske oversettelsesprogram.
Blant annet lenkete data. SKOS (Simple Knowledge Organization System) angir semantiske relasjoner mellom terminologiske data Tilpasset den semantiske webben og anbefalt av World Wide Web Consortium
Hold av dagen Norsk seminar om automatisk oversettelse i offentlig sektor 20. november 2018 i Nasjonalbibliotekets lokaler i Oslo.