Terminologiprosjektene CLARINO/Termportalen og Maritim ordbok og deres relevans for ordboksarbeid Leksikografi i Norden, Oslo, 16. august 2013 Vemund Olstad, Marita Kristiansen, Gisle Andersen og Kai Innselset (NHH)
CLARINO, CLARIN og Termportalen CLARINO: nasjonalt prosjekt, finansiering fra NFR - etablerer en nasjonal infrastruktur for språkressurser CLARIN: felles europeisk forskningsinfrastruktur - legger føringer for formater, arbeidsmåter, tilgangskontroll og juridiske forhold Termportalen: en del av NHHs arbeidspakke i CLARINO-prosjektet - etablerer en nasjonal portal for terminologiressurser 3
NHHs bidrag Primært tilgjengeliggjøring av eksisterende terminologi, og noe videreutvikling av nytt innhold Etablere www.terminologi.no - en åpen nasjonal termportal Parallelt: terminologi søkbart og nedlastbart fra CLARIN/CLARINO-infrastrukturen - Autentisering/autorisering via FEIDE el. tilsvarende autorisasjonssystem3 4
Funksjonalitet, tjenester og innhold Én felles søkerute mange lokale termbaser/-ressurser Søk i alle ressursene som er koblet sammen eller i utvalgte ressurser Søk/søkbegrensing i alle eller utvalgte felt - term/uttrykk - domene (f.eks. IKT, biologi eller økonomi- og administrasjon) - subdomene (underområde innen økonomi og administrasjon: bedriftsøkonomi vs. samfunnsøkonomi) - språk (f.eks. norsk vs. engelsk) - kilde Kobling til begrepssystemer, tekstkorpus, nettsider, multimedieinnhold - «En nasjonal termportal må ha et system for å integrere semantisk strukturert informasjon i basene, for å navigere langs begrepsrelasjoner og for å visualisere generiske og partitive begrepssystem, helst i form av dynamiske begrepskart og ikke statiske bilder.» (Utredning 13. mars 2012: 9) 6
Prosjektets status Oppdatert ressursoversikt med prioriteringer Avtaleverk og lisenser alternativer i CLARINO utredet Begynt med henvendelser til ressursleverandører Tekniske spesifikasjoner for terminologiressurser i CLARINO Avklaring av ressursintegrering i CLARINO for enkeltressurser Terminologihåndteringssystem Testversjon av nasjonal termportal 7
Status terminologiske ressurser Ressursnavn Fagområde Termpost/ oppslag KB-N (Kunnskapsbank Norge) Språk etc. økonomi/ administrasjon 8.473 N/E Mikroøkonomen mikroøkonomi 798 N/E økonomi/ NHH Termbase administrasjon 2.859 N/E UHR (Universitets- og høyskolerådet) studieadmin. term. 38 fagområder, NOT (Norsk oljeterminologi) oljeterminologi 30.500 N/E N/E noe nynorsk N/E noe nynorsk brannfaglige fagområder 1.424 N RTT (Rådet for teknisk terminologi) tekniske fagområder 48.311 KBT (Kollegiet for brannfaglig terminologi) Akutt forurensning (Kystverket) akutt forurensning 333 N Maritim ordbok maritime fag 1.200 1.200 forskningsadm./ Norges Forskningsråd programspesifikk? N/E Totalt 93.898 8
Maritim ordbok Eget delprosjekt med finansiering fra Bergesens allmennyttige fond Også medfinansiering fra NFRs Småforsk-ordning og egenfinansiering fra NHH Maritim terminologi, omfatter marin biologi (flora/fauna), fiske, havbruk/oppdrett, skipsfart, sjømannskap og navigasjon osv. Digitalisering, bearbeiding, systematisering av eksisterende data Tilgjengeliggjort via Termportalen 9
Foreløpig faginndeling for maritim terminologi 10
Marine professions vs. capacities Babian, bavian (syn.) Den som er avløser og går vakt* mens de andre skaffer* eller har frivakt* skaffe = spise (Kilde: Vidar Lund/Christiania Seilskuteklubb) utkikk bløgger sløyer vs. maskinist kaptein styrmann 11
Bokmålsordboka vs. maritim ordbok vind vindbukse vindbye vindbyge vindbøye vinddrag vinddreiing vinddreining vinddrevet vindebro vindebru vindegg vindel vindelfamilie vindeltrapp vindfall vindfallstømmer vindfang vindfelling vindfelt vindflage vindfløy vindforhold vindhane vindhard vindharpe vindhastighet vindhol vindhull vindikabel vindikant vindikasjon vindikasjonsrett vinding vindisere vindjakke vindkast vindkraft vindkraftverk vindkule vindmaskin vindmotor vindmølle vindbyge flau vind svak vind vindretning tilsynelatende vind få vindstille vindbølge vindbølge overflatebølge som skyldes vindens retning 12
Bokmålsordboka vs. maritim ordbok bris lett bris laber bris frisk bris 13
Arbeidet frem til nå Innhenting av data - Etter at tilsagn om bruk er gitt - 4 baser klare (NOT, KB-N, RTT, Mikroøkonomen) - Flere baser er på vei Vurdering av innhold / modellering - Ulike eksportformat - Ulik struktur på basene (alt fra enkle tabeller til komplekse baser) - Veldig varierende innhold Konverteringsrutiner - Skript / stilark for hver enkelt base - Alt konverteres til ett standardformat (TBX) Testversjon av Termportalen - Enkel prototype lansert 14
Demoversjon av Termportalen 15
Demoversjonen - infrastruktur Fillager Apache Cocoon exist Lucene 16
Hva må gjøres? Datamodellering - En datamodell som dekker alle basene Termportalen får inn - Krever et litt større grunnlagsmateriale Utarbeide endelig TBX-format Utarbeide databasestruktur Ny database - Relasjonell database. Trolig Oracle Redigeringsapplikasjon - Java-basert - Gir brukere tilgang til sine egne baser i vårt system Ny nettportal - Utvidet funksjonalitet, bl.a. begrepsdiagram - Søk går mot en raskere base 17