INF5820. Language technological applications. H2010 Jan Tore Lønning

Like dokumenter
INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

INF5820. Language technological applications. H2010 Jan Tore Lønning

INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

INF5820 Language technological applications

Norsyg en syntaksbasert dyp parser for norsk

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Presenting a short overview of research and teaching

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

SRP s 4th Nordic Awards Methodology 2018

Syntax/semantics - I INF 3110/ /29/2005 1

HONSEL process monitoring

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

Presenting a short overview of research and teaching

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

Øystein Haugen, Professor, Computer Science MASTER THESES Professor Øystein Haugen, room D

INF2820 Datalingvistikk V gang, Jan Tore Lønning

EN Skriving for kommunikasjon og tenkning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

buildingsmart Norge seminar Gardermoen 2. september 2010 IFD sett i sammenheng med BIM og varedata

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Mot en trebank for talespråk

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Information search for the research protocol in IIC/IID

Hvordan kan man holde kontakten med venner eller familie? Kan du legge til noen ideer på listen? Sende tekstmeldinger. Sende (bursdags-)kort

The Future of Academic Libraries the Road Ahead. Roy Gundersen

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

FIRST LEGO League. Härnösand 2012

Server-Side Eclipse. Martin Lippert akquinet agile GmbH

Moving Objects. We need to move our objects in 3D space.

Kurskategori 2: Læring og undervisning i et IKT-miljø. vår

Exercise 1: Phase Splitter DC Operation

Baltic Sea Region CCS Forum. Nordic energy cooperation perspectives

Server-Side Eclipse. Bernd Kolb Martin Lippert it-agile GmbH

SERVICE BULLETINE

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

Databases 1. Extended Relational Algebra

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

LF - Eksamen i INF1820

«Flerspråklighet som ressurs i engelskundervisningen» - forskningsperspektiver og didaktiske grep. Christian Carlsen, USN

Graphs similar to strongly regular graphs

INF2820 Datalingvistikk V2016. Jan Tore Lønning

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

INF2820 Datalingvistikk V2016. Jan Tore Lønning

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

verktøyskrin Grafisk profil ved Norges teknisk-naturvitenskapelige universitet

Enkel og effektiv brukertesting. Ida Aalen LOAD september 2017

INF2820 Datalingvistikk V2012. Jan Tore Lønning

GEOV219. Hvilket semester er du på? Hva er ditt kjønn? Er du...? Er du...? - Annet postbachelor phd

matematikk s F4814A8B1B37D77C639B3 Matematikk S1 1 / 6

Slope-Intercept Formula

Public roadmap for information management, governance and exchange SINTEF

EXAM TTM4128 SERVICE AND RESOURCE MANAGEMENT EKSAM I TTM4128 TJENESTE- OG RESSURSADMINISTRASJON

INF2820 Datalingvistikk V Gang Jan Tore Lønning

ARBEIDSPLAN Uke 43-44

The regulation requires that everyone at NTNU shall have fire drills and fire prevention courses.

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Lekseplan uke 46 Til tirsdag Matematikk: Oppgaveboka side 46 oppgave 3.8 og 39 ELLER side 47

Den som gjør godt, er av Gud (Multilingual Edition)

Grammatikk Henvisninger Ferdighetsmål Språksjekk. Stairs 1: side 4-8. Stairs 1 side 16-19

GEO326 Geografiske perspektiv på mat

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

Improving Customer Relationships

verktøyskrin Grafisk profil ved Norges teknisk-naturvitenskapelige universitet

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Anna Krulatz (HiST) Eivind Nessa Torgersen (HiST) Anne Dahl (NTNU)

Uke 5. Magnus Li INF /

Skjema for å opprette, endre og legge ned emner

Hvordan komme i gang med ArchiMate? Det første modelleringsspråket som gjør TOGAF Praktisk

Fagevalueringsrapport FYS Diffraksjonsmetoder og elektronmikroskopi

Software applications developed for the maritime service at the Danish Meteorological Institute

Hilsen Gro Wenche, Anne Marie og Alena Tlf.mob , e-post:

Engelsk gruppe 2 høsten 2015

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

MID-TERM EXAM TDT4258 MICROCONTROLLER SYSTEM DESIGN. Wednesday 3 th Mars Time:

Brukerkrav og use case diagrammer og -tekst 19. januar Agenda. Brukerkrav og use case. Diagrammer Tekst.

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Referansearkitektur use cases. Kjell Sand SINTEF Energi AS NTNU Institutt for elkraftteknikk

Tema. Informasjonsarkitektur Brukervennlighet/Usability Kommunikasjon som treffer målrettet kommunikasjon

Forbruk & Finansiering

Development of the Norwegian WFD classification system for eutrophication

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

GYRO MED SYKKELHJUL. Forsøk å tippe og vri på hjulet. Hva kjenner du? Hvorfor oppfører hjulet seg slik, og hva er egentlig en gyro?

Transkript:

INF5820 Language technological applications H2010 Jan Tore Lønning jtl@ifi.uio.no

MRS implementation MT transfer by MRS INF 5820 H2010 Lecture 12

Feature structure repr.

LOGON-prosjektet Maskinoversettelse norsk engelsk Mange områder av språkteknologi trengs: Samvirke i en demonstrator Likheter og forskjeller mellom norsk og andre språk Turisttekster/turbeskrivelser Høykvalitet, (begrenset dekning) 2003-2007

Transfertilnærming til MT Problem for interlingua: en språkuavhengig, universell representasjon Transfer tilnærming: språkavhengige representasjoner Kontrasten mellom to språk som transferregler Syntaktisk transfer tilnærming: Utvider den direkte tilnærmingene med syntaktisk analyse Semantisk tilnærming Semantiske representasjoner, men språkavhengige

Alternative strategier Vauquoistriangelet interlingua Semantisk transfer Syntaktisk transfer Norsk setning Ord-for-ord Engelsk setning

Basis: Transferbasert oversettelse Underbestemt semantisk rep. av norsk 2. Transfer Underbestemt semantisk rep. av engelsk 1. Analyse LFG-basert 3. Generering HPSG-basert Norsk setning Engelsk setning

Transfer NorGram UiB MRS Nor. Analysis UiB/PARC NoEn-rules UiO, NTNU Transfer LOGON/UiO LOGON Controller MRS Eng. ERG CSLI/UiO Generation DELPH-IN Norwegian sentence English sentence

Minimal Recursion Semantics

Analysis Grammar: NorGram, A multipurpose computational grammar based on LFG Developed at UiB since 1998 LOGON has greatly extended grammatical coverage equipped it with an MRS semantics module enhanced efficiency Processing The XLE system from PARC Morphological processing developed at UiB on top of earlier projects (tagging, UiB & UiO & NTNU) Compositional analysis of compounds

Generation Grammar The English Resource Grammar (ERG) A multipurpose computational grammar based on HPSG Continuously developed since 1994 (CSLI Stanford) Refined, domain-adapted, and extended by LOGON Open source, used in other ongoing projects Processing Adapted technology from DELPH-IN consortium LOGON: forty times faster generation algorithms

Transfer Grammar Hand-coded transfer rules (7000 rules) Semi-automatic acquisition of transfer correspondences for open class words from a dictionary (Kunnskapsforlagets store No-En) (ca 10 000) Processing Typed unification-based formalism for rewriting of MRSs Design and implementation from scratch Non-deterministic rewriting of MRS-fragments

Flertydighet 1. Analysis 2. Transfer 3. Generation Hvordan velge den rette eller beste på hvert trinn?

Ambiguity 1. Analysis 2. Transfer 3. Generation Each step generates many different hypotheses Stochastic models score the alternative outcomes of each component: Parsing, Transfer, Generation The per-component scores are calculated together and the final outcomes are ranked. Component models are trained on corpora and treebanks.

Demo handon.emmtee.net

Stochastic ranking

Lyspunkt 1 Vær forsiktig med gaupene! Be careful about the lynxes! Valg av preposisjon gjøres av de enspråklige grammatikkene som vet hvilke preposisjoner som velges av adjektivene. Preposisjonene er semantisk tomme.

Lyspunkt 2 Ask ankom på mandag. Ask ankom på ettermiddagen. Bruken av underspesifikasjon i generatorinput. Transfer vet at både mandag og ettermiddag er temporale. Derfor blir på overført som et abstrakt predikat temp_loc_sp. Valget av temporal preposisjon i engelsk (on monday, in the afternoon, at five), blir gjort av genereringsgrammatikken.

Lyspunkt 3-sammensetninger båndtvang leash law (N+N as N+N with idiosyncratic translation) sandstrand sandy beach (N+N as Adj+N) vareutvalg selection of merchandise (N+N as N+of+N) utgangspunkt starting point (TL nominalization) ved fire wood (SL lexicalization) turgåer hiker (TL lexicalization)

NorGram evolution over time KUNSTI 5.12.2005, 20 Jan Tore Lønning & Stephan Oepen

Sisyphus KUNSTI 5.12.2005, 21 Jan Tore Lønning & Stephan Oepen

Transfermaskinen Reglene er ordnet og gjennomløpes en gang: 1. Start M := start-mrs-et, n:=0 2. n:= n+1, hvis ingen regel(n), avslutt 3. Hvis regel(n) kan anvendes på M, la M:= regel(n) anvendt på M, gjenta 4. Hvis regel(n) er opsjonell lage en forgrening: a. En gren går til 3 b. Den andre til 2 5. Hvis regel(n) ikke kan anvendes på M, gå til 2

TAKE ONE hus_house_n := noun_omtr & [ INPUT.RELS < [ PRED "_hus_n_rel", LBL #h1, ARG0 #x1] >, OUTPUT.RELS < [ PRED "_house_n_1_rel", LBL #h1, ARG0 #x1] >]. TAKE TWO/Types: noun_mtr := monotonic_mtr & [ INPUT.RELS < [ LBL #h1, ARG0 #x1 ] >, OUTPUT.RELS < [ LBL #h1, ARG0 #x1 ] > ]. noun_omtr := noun_mtr & optional_mtr. Instances hus_house_n := noun_omtr & [ INPUT.RELS < [ PRED "_hus_n_rel"] >, OUTPUT.RELS < [ PRED "_house_n_1_rel"] >]. hus_building_n := noun_mtr & [ INPUT.RELS < [ PRED "_hus_n_rel"] >, OUTPUT.RELS < [ PRED "_building_n_1_rel"] >].

8. Rangering av resultater < Toppen er luftig, og har en utrolig utsikt! (83) --- 2 x 24 x 12 = 12 > the top is airy and has an incredible view [85.9] <0.70> (1:0:0). > the summit is airy and has an incredible view [87.4] <1.00> (1:4:0). > the top is breezy and has an incredible view [87.7] <0.46> (1:6:0). > the top is airy and has an unbelievable view [88.9] <0.70> (1:1:0). > the peak is airy and has an incredible view [89.1] <0.96> (1:2:0). > the summit is breezy and has an incredible view [89.1] <0.66> (1:10:0). > the summit is airy and has an unbelievable view [90.3] <1.00> (1:5:0). > the top is breezy and has an unbelievable view [90.7] <0.46> (1:7:0). > the peak is breezy and has an incredible view [90.8] <0.66> (1:8:0). > the peak is airy and has an unbelievable view [92.0] <0.96> (1:3:0). > the summit is breezy and has an unbelievable view [92.1] <0.66> (1:11:0). > the peak is breezy and has an unbelievable view [93.8] <0.66> (1:9:0). = 64:19 of 83 {77.1+22.9}; 58:9 of 64:19 {90.6 47.4}; 55:9 of 58:9 {94.8 100.0} @ 64 of 83 {77.1} <0.51 0.67>. KUNSTI 5.12.2005, 24 Jan Tore Lønning & Stephan Oepen

8. Statistisk rangering Omtrent 30 engelske realiseringer per MRS Første forsøk med rangering: BNC og n-gram Nye forsøk med tre-bank og maxent-modeller Maximum entropy models for realization ranking. Erik Velldal and Stephan Oepen. In Proceedings of the 10th Machine Translation Summit, Phuket, Thailand, 2005 KUNSTI 5.12.2005, 25 Jan Tore Lønning & Stephan Oepen

< Toppen er luftig, og har en utrolig utsikt! (83) --- 2 x 24 x 12 = 12 > the top is airy and has an incredible view [85.9] <0.70> (1:0:0). > the summit is airy and has an incredible view [87.4] <1.00> (1:4:0). > the top is breezy and has an incredible view [87.7] <0.46> (1:6:0). > the top is airy and has an unbelievable view [88.9] <0.70> (1:1:0). > the peak is airy and has an incredible view [89.1] <0.96> (1:2:0). > the summit is breezy and has an incredible view [89.1] <0.66> (1:10:0). > the summit is airy and has an unbelievable view [90.3] <1.00> (1:5:0). > the top is breezy and has an unbelievable view [90.7] <0.46> (1:7:0). > the peak is breezy and has an incredible view [90.8] <0.66> (1:8:0). > the peak is airy and has an unbelievable view [92.0] <0.96> (1:3:0). > the summit is breezy and has an unbelievable view [92.1] <0.66> (1:11:0). > the peak is breezy and has an unbelievable view [93.8] <0.66> (1:9:0). = 64:19 of 83 {77.1+22.9}; 58:9 of 64:19 {90.6 47.4}; 55:9 of 58:9 {94.8 100.0} @ 64 of 83 {77.1} <0.51 0.67>.

< De slipper å bære. (70) --- 3 x 4 x 9 = 6 [9] > they do not have to carry something [40.6] <0.84> (0:0:1). > you do not have to carry something [41.8] <0.53> (1:0:1). > those do not have to carry something [51.6] <0.53> (2:1:1). > they don't have to carry something [55.2] <0.80> (0:0:0). > you don't have to carry something [65.8] <0.43> (1:0:0). > those don't have to carry something [66.3] <0.43> (2:1:0). = 57:13 of 70 {81.4+18.6}; 51:6 of 57:13 {89.5 46.2}; 48:6 of 51:6 {94.1 100.0} @ 54 of 70 {77.1} <0.53 0.69>.