3. Generell presentasjon av MT-programmet



Like dokumenter
INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

APPENDIKS D Geminittisk språk/grammatikk

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017

UNIVERSITETET I OSLO

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

Definisjonene og forklaringene i denne presentasjonen er hentet fra eller basert på kap. 1 (Kristoffersen: «Hva er språk?

IN1140: Introduksjon til språkteknologi. Forelesning #7

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

VURDERINGER AV EKSEMPELSVAR TIL NORSKPRØVE, DELPRØVE I SKRIFTLIG FRAMSTILLING NIVÅ A1 A2

7. trinn Målark Chapter 1 Bokmål

Slides til 12.1 Formelt språk og formell grammatikk

LF - Eksamen i INF1820

Språk Skriving Læringsmål Vurdering

Engelsk gruppe 2 høsten 2015

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

EXFAC EURA Syntaks2 1

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 10. TRINN SKOLEÅR

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

INF1820: Oppsummering

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I SPANSK 10. TRINN SKOLEÅR Periode 1: UKE Kompetansemål:

Innhold. Forord Om å bruke Norsk for deg: Grammatikkoppgaver Hovedfokus: Substantiv... 17

Evalueringsmatrise (Rubrics) Autorisasjonsprøve i oversettelse

Grammatikk En innføring av Anne Lene Berge

Norsyg en syntaksbasert dyp parser for norsk

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Hvorfor skal vi lære grammatikk?

Forslag til analyse av læreplanen i fremmedspråk, nivå 1. (1. utkast)

INF 2820 V2016: Innleveringsoppgave 3 del 1

Få maksimalt utbytte av WordFinder! Oppstartsguide med nyttige råd og tips.

Medisinsk Ordbok Engelsk Norsk

Uke 12: Hvem, hva, hvor II: Hv-spørsmål i underordnede setninger.

UNIVERSITETET I OSLO DET HUMANISTISKE FAKULTET. Hjemmeeksamen/heimeeksamen i. LING2104 Morfologi og syntaks 2

Språkleker og bokstavinnlæring

Oppgaver til kapittel 4

Norsk minigrammatikk bokmål

ifinger med tegnspråk Sluttrapport

a) Sett strek mellom ordene og forklaringene som betyr omtrent det samme. b) Sett inn riktig ord uten å

Fag: Engelsk fordypning 8. trinn. Periode Kompetansemål Grunnleggende ferdigheter. Underveisvurdering. Læringsressurser.

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Bryne ungdomsskule ÅRSPLAN FAG: Engelsk fordjuping. Trinn: 10.

KOMPETANSEMÅL LÆRINGSMÅL VURDERING Muntlig kommunikasjon lytte etter, gjenfortelle,

Gøy med grammatikk Kurs på Lillehammer 23. oktober

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Norsk Grammatikk Oppgaver

UKE TEMA KOMPETANSEMÅL LÆRINGSMÅL INNHOLD METODE VURDERING

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

Grunnskole NORSK. Overordnet plan for fagene. Fag: Trinn: 4. Skole: Å Barneskole. År: 2018/2019. Grunnleggende ferdigheter (GRF) Generell del (GD)

IN1140: Introduksjon til språkteknologi. Forelesning #8

norsk grammatikk 149BE6CADCAB6FFCFBAA3C DC4 Norsk Grammatikk 1 / 6

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

UKE TEMA KOMPETANSEMÅL LÆRINGSMÅL INNHOLD METODE VURDERING

HR analysen. Ny versjon Brukermal. Administratorer

Sandefjordskolen LOKAL LÆREPLAN I SPANSK BREIDABLIKK UNGDOMSSKOLE

Ny norsk dialektinnsamling gir ny forståing av grammatikken. Åshild Søfteland, Universitetet i Oslo, doktorgradsstipendiat i nordisk språkvitskap

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Lesekurs i praksis. Oppgaver på «Nivå 2» Vigdis Refsahl

Nye spanskemner ved NTNU studieåret 2016/2017

Oppgavesett videregående kurs i NVivo 9

Støtteark Tidsformer (verb) Presens (nåtid): Når vi skriver i presens så bruker vi verbet i sin grunnform, men hvis det er

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I TYSK 10. TRINN SKOLEÅR Periode 1: UKE Kompetansemål:

Sjekkliste B2-nivå. 1 Har du brukt stor/liten forbokstav, punktum (.), komma (,) og spørsmålstegn (?) riktig?

BRUKERVEILEDNING. ::: Parallellkorpus og søkegrensesnittet. ::> Korpuset ::> Utskriftsvennlig versjon ::> Kodeboken.

ANDEBU KOMMUNE ANDEBU UNGDOMSSKOLE

Vedlegg Brukertester INNHOLDFORTEGNELSE

Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I TYSK 9. TRINN SKOLEÅR Periode 1: UKE Kompetansemål: Kjennetegn for måloppnåelse:

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Parsing basert på LFG: Et MlT/Xerox-system applisert på norsk

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

Innhold. 1 Innledning Semantikk Talespråk og skriftspråk 47. Forkortelser Språket som kodesystem 17 1.

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I TYSK 9. TRINN SKOLEÅR Periode 1: UKE Kompetansemål: Kjennetegn til måloppnåelse:

UNIVERSITETET I OSLO

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820-V2014-Oppgavesett 15, gruppe 13.5

- Diverse sanger på YouTube (bl.a. Be cool speak deutsch og Weltmeister ) - Sanger. - Lektion 1: Die Sommerferien i Los geht`s 9. - CD til læreverket

Øving 3: Begrensninger

Vedlegg til veiledning til læreplan i engelsk. Se skolenettet.no/veiledninger

uke Kapittel Språkbok Lesebok KL 06: Elvenene skal -

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

norsk grammatikk bok C2FFB2EE7079E5C7671E474DBC1B7657 Norsk Grammatikk Bok

Innhald/Lærestoff/ Grammatikk Elevane skal arbeida med: STAIRS 6:

TID TEMA KOMPETANSEMÅL ARBEIDSMETODER VURDERINGSFORMER RESSURSER

Sandefjordskolen BREIDABLIKK UNGDOMSSKOLE ÅRSPLAN I ENGELSK FORDYPNING 9. TRINN SKOLEÅR

IKT Informasjonsteoretisk programanalyse Janne S.

Læreplan i norsk - kompetansemål

LOKAL LÆREPLAN I TYSK BREIDABLIKK UNGDOMSSKOLE trinn LOKALE KJENNETEGN FOR MÅLOPPNÅELSE. bruke egnete strategier for hjemmearbeid/lekser.

Lokal læreplan i. tysk 10. trinn. Tema: Ferien und Deutsche Länder und Städte

Transkript:

3. Generell presentasjon av MT-programmet Innhold: 3.1. Innledning 3.2. Grensesnitt 3.3. Oversettelsesmodell og paradigmetype 3.3.1. Oversettelsesmodell 3.3.2. Paradigmetype 3.4. Målgruppe/ anvendelsesområder 3.5. Dekningsgrad og problemområder 3.5.1. Leksikon 3.5.1.1. Dekningsgrad 3.5.1.2. Problemområder 3.5.2. Grammatikk 3.5.2.1. Dekningsgrad 3.5.2.2. Problemområder 3.6. Oppsummering 3.1. Innledning Utgangspunktet for hovedfagsprosjektet mitt er ego (elektronisk Grammatisk Oversettelse), som er et program for maskinoversettelse engelsk-norsk som Clue Norge ASA er i ferd med å utvikle. Arbeidet med utviklingen av programmet (orddatabaser, språkregler, brukergrensesnitt og programplattform) har pågått i Clue Norge siden 1999. Plattformen som utfører selve oversettelsesprosessen bygger på teknologi som tidligere har vært anvendt i produkter for maskinoversettelse utenfor Norge. Denne plattformen er et program som opprinnelig var skrevet i C, og som i 2002 ble modernisert og konvertert til C++. Orddatabasene er videreutviklet med grunnlag i Clues databaser for elektroniske ordbøker. ego gir en grovoversettelse og dernest muligheter for etterredigering for å nå frem til en ferdig oversatt tekst. 3.2. Grensesnitt

Bildet under viser egos nåværende brukergrensesnitt 1. Dette brukergrensesnittet er både et program for sluttbrukeren og, med utvidede funksjoner, et redskap for språkutvikleren. Sluttbrukerversjonen er et verktøy for maskinstøttet oversettelse der en kan åpne tekstfiler, redigere dem, oversette dem, få frem alternativer og redigere oversettelsen i ett og samme programvindu. Språkutviklerens funksjoner gir i tillegg muligheter for feilfinning i selve oversettelsesprosessen og kompilering av programmets ord- og regelfiler med det formål å forbedre og videreutvikle språkmodulene. Programvinduet er delt i tre ved en justerbar horisontal linje som skiller kildetekst fra måltekst, og en justerbar vertikal linje som gir plass for to alternative lister (en for logging av ukjente ord i teksten og en for synonymer/alternativer). Ukjente ord markeres dessuten i begge tekstvinduene. 1 Dette er ikke det samme grensesnittet som jeg har tilgang til, og som jeg ble tildelt da jeg begynte å jobbe med hovedoppgaven, men et nyere grensesnitt som Clue i senere tid har utviklet for ego.

Synonymlisten kommer frem ved dobbeltklikk på ord i målteksten (jf. ordet 'feste' over). Tekst kan skrives inn, kopieres inn eller importeres direkte ved åpning av en Word-fil. All avsnittsformatering i den opprinnelige teksten bevares. En kan oversette hele teksten eller et markert område. Teksten kan redigeres i både måltekst og kildetekst (preeditering og posteditering). Ved redigering markeres den aktuelle setningen i begge vinduer. En markert og eventuelt redigert setning i kildeteksten kan oversettes på nytt uten av resten av oversettelsen berøres. Kilde- og måltekst lagres i ulike tekstfiler. 3.3. Oversettelsesmodell og paradigmetype 3.3.1. Oversettelsesmodell Clue kaller ego et transfersystem. Jeg mener imidlertid personlig at ego ligger et sted mellom det som tradisjonelt kalles direkte oversettelsesprogrammer og transferprogrammer. ego har et sett med grammatikkregler som styrer analyse av kildespråk og denne analysen resulterer i en representasjon av kildeteksten i form av et syntaktisk tre. I tillegg har programmet et sett med regler, som Clue noe misvisende kaller transferregler 2, som beskriver endringer som utføres på denne representasjonen ved oversettelse til målspråk for at målteksten skal bli grammatikalsk i henhold til målspråkets regler for syntaks. Dette omfatter bl.a. endringer i ordfølge. Programmet har med andre ord ingen selvstendig målspråksgrammatikk, som er typisk for rene transferprogrammer, og utgangspunkt for generering av en målstruktur er den syntaktiske representasjonen som er output fra analysen av kildestrukturen. Dermed skiller ikke ego klart mellom analyse, transfer og generering, som rene transferprogrammer gjør. Transfer og generering foregår kombinert i en prosess ved anvendelse av de såkalte transferreglene. Generering foregår med henblikk på analysen av språket i kildeteksten. Dessuten foregår analysen til dels med henblikk på målspråket, da den fanger opp informasjon om målspråket gjennom oppslag i det tospråklige leksikonet. ego har dessuten ikke separate ettspråklige leksikon for henholdsvis kilde- og målspråk som knyttes sammen ved hjelp av et tospråklig leksikon, slik som er vanlig i transferprogrammer. Programmet har derimot et tospråklig leksikon der et oppslag består av et ordpar samt informasjon om bl.a. ordklasse og målordets morfologiske bøyningsmønster. Dette minner mer om leksikon som benyttes i forbindelse med direkte oversettelsesprogrammer. Man kan med andre ord ikke karakterisere ego som et rent transferprogram, da programmet ikke fullt og helt benytter en tilnærmingsmåte som er typisk for slike oversettelsesprogrammer, og ettersom egenskaper ved både leksikon og grammatikk knytter det opp mot direkte oversettelsesprogrammer. Imidlertid er ikke ego nærliggende rene førstegenerasjonssystemer, da 2 Transferregler brukes tradisjonelt om regler som binder sammen separate abstrakte representasjoner av henholdsvis kilde- og målspråk. I dette tilfellet har man kun en slik representasjon av kildestrukturen.

programmet også har en rekke egenskaper som er karakteristiske for transferprogrammer. I likhet med transferprogrammer utfører ego en omfattende syntaktisk analyse av kildeteksten og prøver å finne fullstendige analyser av samtlige fraser og setninger i form av trestrukturer. Videre har man i ego muligheten til å tildele syntaktiske elementer trekk og verdier av forskjellig art. Dette omfatter blant annet semantiske trekk. Det betyr at analysen av kildeteksten kan fange opp betydning i tillegg til grammatisk form, slik at programmet er i stand til å løse problemer med hensyn til leksikalsk ambiguitet. Som en konklusjon på dette kan vi si at ego har egenskaper som man finner både i direkte oversettelsesprogrammer og i syntaktiske og semantiske transferprogrammer. 3.3.2. Paradigmetype ego er et lingvistisk basert program, som vil si at oversettelse baseres på prinsipper etablert i lingvistisk teori. Grunnstrukturen i grammatikken i ego ligger nær en kontekstfri frasestrukturgrammatikk. Den består et større sett med omskrivingsregler i form av mønster med navn som etter tur beskriver nye mønster. Grammatikken er trekkbasert i den forstand at reglene består av syntaktiske elementer som kan ha et arbitrært antall trekk. Attributtene kan være syntaktiske, semantiske, de kan være relatert til genus og numerus, eller de kan ha andre egenskaper. Antall trekk og attributter samt trekkenes egenskaper bestemmes av grammatikkutvikler. Systemet er dermed fleksibelt og mye informasjon kan inkorporeres i en og samme regel. Unifikasjon av trekk kan begrenses til bestemte attributter, så vel som til bestemte attributtverdier. Grammatikken i ego har videre elementer som minner om hva man finner i en Constraint Grammar (CG), som uttrykker betingelser som spesifiserer dels egenskaper ved selve ordet og dels egenskaper ved ordets kontekst (naboord). Dette kommer frem blant annet i forbindelse med bestemmelse av ukjente ords leksikalske kategori. 3.4. Målgruppe/ anvendelsesområder Clue sikter mot bedriftsmarkedet som målgruppe for ego, da de mener at programmet vil være tids- og kostnadsbesparende i forbindelse med oversettelse av dokumenter i en tid som er preget av stadig mer internasjonalisering av nærings- og samfunnsliv. I denne forbindelse nevnes bl.a. import- og eksportbedrifter, internettaktører og offentlige virksomheter. Clue anser dessuten ego for å kunne være et aktuelt hjelpemiddel for den profesjonelle oversetterbransjen. Når det gjelder egenskaper ved tekst egnet for oversettelse gjennom bruk av ego har Clue uttrykt følgende Den ideelle tekst har ikke for komplisert setningsbygning, men gjerne en høy andel av sjeldnere ord som normalt ville kreve oppslag i leksikon. Noe forhåndsredigering av teksten kan også gi mer effektiv bruk av programmet.

3.5. Dekningsgrad og problemområder 3.5.1. Leksikon 3.5.1.1. Dekningsgrad egos leksikon består av en hovedordliste med ca. 135 000 ordpar. Denne ordlisten består av engelske kildeord- og uttrykk, deres oversettelser til norsk, samt grammatisk informasjon. Videre har ego en fraseordliste med ca. 5000 oversettelser av mer kompliserte ord og uttrykk samt grammatisk informasjon. Orddatabasene bygger på Clues databaser for elektroniske ordbøker. Ettersom disse ordbøkene inneholder ord og uttrykk relatert til alt fra generell språkbruk til fagterminologi (ord og uttrykk fra næringslivet, betegnelser innenfor datateknologien, samt økonomiske, juridiske og tekniske termer) har egos orddatabaser relativt bred dekning. 3.5.1.2. Problemområder For å finne frem til eventuelle problemområder med hensyn leksikon lot jeg programmet oversette teksten Small is beautiful fra E. Hansens Oversettelsesoppgaver i engelsk. Blant problemene som dukket opp i forbindelse med uheldig ordvalg gjaldt enkelte tilfeller at enkeltord eller spesielle idiomer manglet i leksikon. Idiomene (4 tilfeller) ble dermed oversatt ord for ord. Når det gjaldt enkeltordene (2 tilfeller) som manglet ble kildeordene benyttet i målteksten. Videre skyldtes enkelte mangelfulle oversettelser at programmet valgte løsninger som var uheldige i en gitt kontekst. Dette kom enten av at en bedre oversettelse av det aktuelle uttrykket i fantes i leksikon (1 tilfelle), eller at programmet gjorde et uheldig valg blant en rekke mulige måluttrykk (3 tilfeller). Omkring åtte prosent av ordene i teksten ble oversatt mangelfullt tilsynelatende på grunn av uheldig parsing av kildeteksten, slik at ord blant annet ble tildelt feil leksikalsk kategori. 3.5.2. Grammatikk 3.5.2.1. Dekningsgrad Når det gjelder enkle forholdsvis enkle strukturer takler ego de fleste frase- og setningstyper på en tilfredsstillende måte. I grammatikken finner vi bl.a. regler for følgende frasetyper, som sammen med subjekter videre danner setninger: 1 Verbalfraser i infinitiv, presens, preteritum, presens perfektum, preteritum perfektum ( He eats his dinner/ He ate his dinner/ He has eaten his dinner/ He had eaten his dinner) 2 Verbalfraser med (bl.a. modale) hjelpeverb i presens og preteritum

( She will eat her dinner/ She would eat her dinner/ She may eat her dinner/ She might eat her dinner) 3 Modale verbfraser i presens og preteritum perfektum ( She will have driven/ She would have driven/ She shall have driven/ She should have driven) 4 Kopulafraser ( He is a boy/ She has a dog) 5 Verbalfraser med kontinuativt aspekt ( He has been running) 6 Passivfraser ( It was locked by them) 7 Relativfraser ( The man who sang was happy) 8 Interrogativfraser ( Did you drive her home?) 9 Imperativfraser ( Drive me home!) 10 Enkelte kombinasjoner av ovennevnte strukturer. ( He has has eaten his dinner and will try to sleep) 3.5.2.2 Problemområder For å lokalisere mangler med hensyn til grammatikken studerte jeg programmets oversettelse av den ovennevnte teksten samt av en rekke testsetninger som inneholdt ulike syntaktiske konstruksjoner. Følgende problemområder ble avdekket: 1 Preposisjoner oversettes ofte feil; 2 Komplekse nominalfraser der hodet postmodifiseres av en relativfrase som inneholder ytterligere en relativfrase får ikke en fullstendig analyse og dermed blir oversettelsen feil: NP[The man RELP[who owns NP[the dogs RELP[who chase the cats]]]] VP[drives the car] *Mannen who eier hundene who jager kattene kjører bilen 3 Kongruens. I tilfeller der man har komplekse nominalfraser der det nominale hodet postmodifiseres av for eksempel en preposisjonsfrase kongruerer ikke adjektivet i predikativ posisjon med hodet i nominalfrasen:

NP[The girl PP[with NP[the dogs]]] VP[is ADVP[happy]]. *Jenta med hundene er glade. NP[The girl RELP[who VP[owns NP[the dogs]]]] VP[is ADVP[happy]]. *Jenta som eier hundene er glade. 4 Et fåtall leddsetninger innledet av that. Her oversettes that med som i stedet for at : We are convinced that * Vi er overbeviste som 5 Generelt sett har programmet problemer med å analysere sammensatte strukturer som inneholder komplekse fraser (først og fremst komplekse nominalfraser) eller kombinasjoner av hel- og leddsetninger. 3.6. Oppsummering ego er et ungt oversettelsesprogram som befinner seg i en tidlig fase av utviklingen. Derfor er det foreløpig begrenset hvor komplekse setningsstrukturer programmet klarer å oversette fra engelsk til norsk på tilfredsstillende vis. Jeg mener imidlertid personlig at ego har forutsetninger for å bli et bedre oversettelsesprogram enn hva det er per i dag dersom grammatikken, og også eventuelt leksikon, utvikles ytterligere. Dette vil jeg kommer nærmere tilbake til i en senere del av denne hovedoppgaven.