INF5820. Language technological applications. H2010 Jan Tore Lønning

Like dokumenter
INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

INF5820. Language technological applications. H2010 Jan Tore Lønning

INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

INF5820 Language technological applications

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

Ole Isak Eira Masters student Arctic agriculture and environmental management. University of Tromsø Sami University College

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Presenting a short overview of research and teaching

EN Skriving for kommunikasjon og tenkning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

Presenting a short overview of research and teaching

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

Slope-Intercept Formula

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

Engelsk gruppe 2 høsten 2015

INF2820 Datalingvistikk V2015. Jan Tore Lønning

buildingsmart Norge seminar Gardermoen 2. september 2010 IFD sett i sammenheng med BIM og varedata

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

INF2820 Datalingvistikk V2016. Jan Tore Lønning

Eksamensoppgave i SOS1000 Innføring i sosiologi Examination paper for SOS1000 Introduction to Sociology

Databases 1. Extended Relational Algebra

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Årsplan engelsk 2.trinn 2018/2019

Graphs similar to strongly regular graphs

SRP s 4th Nordic Awards Methodology 2018

Vekeplan 4. Trinn. Måndag Tysdag Onsdag Torsdag Fredag AB CD AB CD AB CD AB CD AB CD. Norsk Matte Symjing Ute Norsk Matte M&H Norsk

LF - Eksamen i INF1820

Examination paper for BI2034 Community Ecology and Ecosystems

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Årsplan engelsk høst 1.trinn 2016

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Moving Objects. We need to move our objects in 3D space.

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

Norsk Engelske Ordbok

Eksamensoppgaver til SOSANT1101. Regional etnografi: jordens folk og kulturelt mangfold. Utsatt skoleeksamen 12. desember 2013 kl.

Brukerkrav og use case diagrammer og -tekst 19. januar Agenda. Brukerkrav og use case. Diagrammer Tekst.

Introduction to DK- CERT Vulnerability Database

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

HONSEL process monitoring

Engelsk 4. trinn, halvårsplan haust 2012

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

Samarbeid, arbeidsdeling og konsentrasjon (SAK) knyttet til instituttsektoren og UoH - sektoren. Tore Nepstad og Ole Arve Misund

10A Arbeidsplan for uke 35

FASMED. Tirsdag 21.april 2015

10A uke 43. UKE OVERSIKT Mandag Tirsdag Onsdag Torsdag Fredag. Informasjon:

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

Øystein Haugen, Professor, Computer Science MASTER THESES Professor Øystein Haugen, room D

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

FIRST LEGO League. Härnösand 2012

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Eksamensoppgave i SANT1001 Sosial organisasjon og identitetsdannelse

Baltic Sea Region CCS Forum. Nordic energy cooperation perspectives

ÅRSPLAN Følgende kompetansemål vil være gjennomgående i det meste av arbeidet med engelsk og føres ikke opp spesielt under hver periode:

Eksamen i engelsk 2018: Belonging. Fagdag på Hamar 12. september 2018

Exercise 1: Phase Splitter DC Operation

Grammatikk Henvisninger Ferdighetsmål Språksjekk. Stairs 1: side 4-8. Stairs 1 side 16-19

Fagdag i engelsk. Bergen Bodil Boie Brekkan

8A uke 3. UKE OVERSIKT Mandag Tirsdag Onsdag Torsdag Fredag Musikk: Innlevering Samfunnsfagsprøve: 1814 en norsk revolusjon?

ÅRSPLAN Følgende kompetansemål vil være gjennomgående i det meste av arbeidet med engelsk og føres ikke opp spesielt under hver periode:

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

Uke 5. Magnus Li INF /

«Flerspråklighet som ressurs i engelskundervisningen» - forskningsperspektiver og didaktiske grep. Christian Carlsen, USN

EKSAMEN I EXFAC0003 Språk og litteratur, 7,5 sp timer - Del I (språk) og del II (litteratur) teller 50% hver

EXFAC03-FIL Exfac, filosofivariant HØST 2007 Torsdag 13. desember kl ( 4 timer)

Periodens sosiale læringsmål:

Dynamic Programming Longest Common Subsequence. Class 27

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

Kartleggingsskjema / Survey

C13 Kokstad. Svar på spørsmål til kvalifikasjonsfasen. Answers to question in the pre-qualification phase For English: See page 4 and forward

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

Den som gjør godt, er av Gud (Multilingual Edition)

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Information search for the research protocol in IIC/IID

Some problems related to the development of a grammar checker

UNIVERSITETET I OSLO

Transkript:

INF5820 Language technological applications H2010 Jan Tore Lønning jtl@ifi.uio.no

Maskinoversettelse INF 5820 H2008 Forelesning 2

Machine Translation 1. Some examples 2. Why is machine translation a problem? 3. Traditional approaches: 1. Direct 2. Interlingua 3. Transfer 4. Empirical approaches: 1. SMT 2. Example-based MT (EBMT) 5. The LOGON approach

1. Realskolealgoritmen S N B E V Pr V PP H D 3p E O A U F Jenta fra byen har gitt ham noen røde epler Mädchen von Stadt haben geben er einige rot Apfel Das Mädchen von der Stadt hat gegeben ihm einige rote Äpfel gegeben 1. Identify verb, syntactic function, case 2. And morphosyntactic features: definiteness, number, person, form, tense, 3. Translate the lexemes 4. Properties of the target lexemes: gender, arguments, agreement 5. Inflection: Case, number, person, gender, def., tense, agr. 6. Word order

1. Direct translation Main idea: Translate words! Bilingual dictionary Some morphological analysis Two steps: Determine the words Determine the word order (Similar to statistical MT) J&M: Decision list algorithm

2. Interlingua A universal meaning representation language (lingua franca) Analyse the source language sentence resulting in an interlinguag representation From this generate sentence in target language

2. Interlingua strength Translation between many languages. One analysis module and one generation module per languages Example 17 languages: Direct 17*16 modules (=272) Interlingua 2*17 (=34) Language18: Direct +(2*17) Interlingua +2

3. Transfer Problem for interlingua: A language independent meaning representation Transfer approach: Language specific representations Contrast between pair of languages as transfer rules Syntactic transfer: Extends the direct approach with a syntactic analysis Semantic transfer Semantic representations, but language independent

Alternative strategies Vauquoistriangel interlingua Semantic transfer Syntaktic transfer Norsk setning Ord-for-ord English sentence

Machine Translation 1. Some examples 2. Why is machine translation a problem? 3. Traditional approaches: 1. Direct 2. Interlingua 3. Transfer 4. Empirical approaches: 1. SMT 2. Example-based MT (EBMT) 5. The LOGON approach

Example-based MT No: Jenta har lest lekser i en time. Eng:? Eksempler: Jenta har spist et eple hver dag The girl has eaten an apple a day Per hadde lest lekser Per had studied Kari sang i en time. Kari sang for an hour. Not necessarily constituents

SMT Figure 25.8

Machine Translation 1. Some examples 2. Why is machine translation a problem? 3. Traditional approaches: 1. Direct 2. Interlingua 3. Transfer 4. Empirical approaches: 1. SMT 2. Example-based MT (EBMT) 5. The LOGON approach

The LOGON-project Maskinoversettelse norsk engelsk Mange områder av språkteknologi trengs: Samvirke i en demonstrator Likheter og forskjeller mellom norsk og andre språk Turisttekster/turbeskrivelser Høykvalitet, (begrenset dekning) 2003-2007

Alternative strategier interlingua semantikk syntaks Norsk setning Ord-for-ord Engelsk setning

MT strategies (symbolic) semantic (syntactic) Norwegian sentence English sentence

Basis: Transferbasert oversettelse Underbestemt semantisk rep. av norsk 2. Transfer Underbestemt semantisk rep. av engelsk 1. Analyse LFG-basert 3. Generering HPSG-basert Norsk setning Engelsk setning

2.2 Flertydighet 1. Analysis 2. Transfer 3. Generation Hvordan velge den rette eller beste på hvert trinn?

< Toppen er luftig, og har en utrolig utsikt! (83) --- 2 x 24 x 12 = 12 > the top is airy and has an incredible view [85.9] <0.70> (1:0:0). > the summit is airy and has an incredible view [87.4] <1.00> (1:4:0). > the top is breezy and has an incredible view [87.7] <0.46> (1:6:0). > the top is airy and has an unbelievable view [88.9] <0.70> (1:1:0). > the peak is airy and has an incredible view [89.1] <0.96> (1:2:0). > the summit is breezy and has an incredible view [89.1] <0.66> (1:10:0). > the summit is airy and has an unbelievable view [90.3] <1.00> (1:5:0). > the top is breezy and has an unbelievable view [90.7] <0.46> (1:7:0). > the peak is breezy and has an incredible view [90.8] <0.66> (1:8:0). > the peak is airy and has an unbelievable view [92.0] <0.96> (1:3:0). > the summit is breezy and has an unbelievable view [92.1] <0.66> (1:11:0). > the peak is breezy and has an unbelievable view [93.8] <0.66> (1:9:0). = 64:19 of 83 {77.1+22.9}; 58:9 of 64:19 {90.6 47.4}; 55:9 of 58:9 {94.8 100.0} @ 64 of 83 {77.1} <0.51 0.67>.

< De slipper å bære. (70) --- 3 x 4 x 9 = 6 [9] > they do not have to carry something [40.6] <0.84> (0:0:1). > you do not have to carry something [41.8] <0.53> (1:0:1). > those do not have to carry something [51.6] <0.53> (2:1:1). > they don't have to carry something [55.2] <0.80> (0:0:0). > you don't have to carry something [65.8] <0.43> (1:0:0). > those don't have to carry something [66.3] <0.43> (2:1:0). = 57:13 of 70 {81.4+18.6}; 51:6 of 57:13 {89.5 46.2}; 48:6 of 51:6 {94.1 100.0} @ 54 of 70 {77.1} <0.53 0.69>.

Maskinoversettelse 1. Hva er maskinoversettelse 2. Hvorfor er det vanskelig? 3. Tradisjonelle tilnærminger: 1. Direkte 2. Interlingua 3. Transfer 4. Empiriske tilnærminger: 1. Eksempelbasert MT (EBMT) 2. Statistisk MT (SMT) 5. LOGON-prosjektet 6. Evaluering 7. Maskinoversettelse i praksis 8. Litt historie

Historien 1950-årene: stor optimisme (FAHQT) 1960-årene: for vanskelig Bar-Hillel ALPAC-rapporten 1980-årene-fornyet interesse: Japan EU, Eurotra

Vår tid (1992 ) Anvendelser Hyllevare for PC-er WWW Interaktive oversettelsesverktøy Nye markeder: Kina Teori Taleoversettelse, eks. VerbMobil, tysk prosjekt Afghanistan, jfr. SMT, EMT

SMTs tidsalder Fra 1990 Med som et alternativ på slutten av VerbMobil På markedet fra ca. 2003 Google: SMT fra ca 2005 Overbevisende kvalitet Mange språkpar Men forutsigbare feil