INF5820 Language technological applications

Like dokumenter
Information search for the research protocol in IIC/IID

HONSEL process monitoring

Improving Customer Relationships

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Enkel og effektiv brukertesting. Ida Aalen LOAD september 2017

Presenting a short overview of research and teaching

EN Skriving for kommunikasjon og tenkning

E-Learning Design. Speaker Duy Hai Nguyen, HUE Online Lecture

Den som gjør godt, er av Gud (Multilingual Edition)

Informasjonsgjenfinning

Syntax/semantics - I INF 3110/ /29/2005 1

Hvordan komme i gang med ArchiMate? Det første modelleringsspråket som gjør TOGAF Praktisk

1. Explain the language model, what are the weaknesses and strengths of this model?

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

Kartleggingsskjema / Survey

Databases 1. Extended Relational Algebra

P(ersonal) C(omputer) Gunnar Misund. Høgskolen i Østfold. Avdeling for Informasjonsteknologi

// Translation // KLART SVAR «Free-Range Employees»

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

GEO326 Geografiske perspektiv på mat

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

Eksamensoppgaver til SOSANT1101. Regional etnografi: jordens folk og kulturelt mangfold. Utsatt skoleeksamen 12. desember 2013 kl.

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

FIRST LEGO League. Härnösand 2012

Øystein Haugen, Professor, Computer Science MASTER THESES Professor Øystein Haugen, room D

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Eksamensoppgave i SANT3508 Globalization Theory and Culture

Metodisk kvalitetsvurdering av systematisk oversikt. Rigmor C Berg Kurs H, mars 2019

Hvordan føre reiseregninger i Unit4 Business World Forfatter:

SAMMENDRAG.

EKSAMENSOPPGAVE I FAG TKP 4105

Digital Transformasjon

Dynamic Programming Longest Common Subsequence. Class 27

Slope-Intercept Formula

Dean Zollman, Kansas State University Mojgan Matloob-Haghanikar, Winona State University Sytil Murphy, Shepherd University

Innovation at Redningsselskapet Martin Fuhr Bolstad. Redningsselskapet Ingen skal drukne

Assignment. Consequences. assignment 2. Consequences fabulous fantasy. Kunnskapsløftets Mål Eleven skal kunne

Introduction to DK- CERT Vulnerability Database

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Trigonometric Substitution

The internet of Health

Hilsen Gro Wenche, Anne Marie og Alena Tlf.mob , e-post:

Besvar tre 3 av følgende fire 4 oppgaver.

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Eksamensoppgave i SANT1001 Sosial organisasjon og identitetsdannelse

Vurderingsveiledning SPR3008 Internasjonal engelsk Eleven gir stort sett greie og relevante svar på oppgavene i samsvar med oppgaveordlyden.

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

buildingsmart Norge seminar Gardermoen 2. september 2010 IFD sett i sammenheng med BIM og varedata

Vedlegg til veiledning til læreplan i engelsk. Se skolenettet.no/veiledninger

C13 Kokstad. Svar på spørsmål til kvalifikasjonsfasen. Answers to question in the pre-qualification phase For English: See page 4 and forward

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

STØTTEMATERIALE TIL FORELESNINGENE OM SKATT

80. Lincoln to Parklands

Elektronisk innlevering/electronic solution for submission:

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

REMOVE CONTENTS FROM BOX. VERIFY ALL PARTS ARE PRESENT READ INSTRUCTIONS CAREFULLY BEFORE STARTING INSTALLATION

Neural Network. Sensors Sorter

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Call function of two parameters

I can introduce myself in English. I can explain why it is important to learn English. I can find information in texts. I can recognize a noun.

MID-TERM EXAM TDT4258 MICROCONTROLLER SYSTEM DESIGN. Wednesday 3 th Mars Time:

Eksamensoppgave i SANT2100 Etnografisk metode

Public roadmap for information management, governance and exchange SINTEF

Prosjektet Digital kontaktinformasjon og fullmakter for virksomheter Digital contact information and mandates for entities

Trådløsnett med. Wireless network. MacOSX 10.5 Leopard. with MacOSX 10.5 Leopard

of color printers at university); helps in learning GIS.

Du kan bruke det vedlagte skjemaet Egenerklæring skattemessig bosted 2012 når du søker om frikort.

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

verktøyskrin Grafisk profil ved Norges teknisk-naturvitenskapelige universitet

Digitization of archaeology is it worth while?

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Kurskategori 2: Læring og undervisning i et IKT-miljø. vår

Utstyr for avstandsmåling. Dommersamling 14. mars 2015 Stein Jodal

Baltic Sea Region CCS Forum. Nordic energy cooperation perspectives

Oppgave. føden)? i tråd med

EKSAMENSOPPGAVE I BI3013 EKSPERIMENTELL CELLEBIOLOGI

Transkript:

INF5820 Language technological applications H2008 Jan Tore Lønning/Stephan Oepen jtl@ifi.uio.no/oe@ifi.uio.no NLP applications 1. Translation 2. Dialogue 3. Voice control 4. Information processing 5. Speech text 6. Language support 1. Translation Fully-automatic text-translation: Systran, Google Speech-translation: commercial Aid for professional translators: trados From ca 1950, predating other NLP and AI: IBM 1954 press release 2. Dialogue systems Automatic number information Route schedule information Shopping Simple: say one or press one now! 3. Voice control Mobile phone Entertainment Navigation, not perfect yet Fridge? Washer? Vacuum? 1

4. Information processing Document/web page search (information retrieval): Language enhanced Factoid questions: PowerSet Summarization 5. Speech Text Speech synthesis: ATT Speech recognition: Dragon Part of applications 6. Language support tools Spell checkers Grammar checkers Translation help Foreign language learning tools Communicating with the computer Oral communication Syntactic and semantic analysis Speech recognition Syntactic and semantic analysis Generation Speech synthesis Generation The model of the computer as communicatior: Analysis Process Generate/synthesis The model of the computer as communicatior: Analysis: speech, grammar, semantics, pragmatics Process Generate/synthesis: content, grammar, speech 2

The communicating computer This models fits many applications The processing step varies: Translation Find an answer Carry out an order Some applications are parts of this model/process, e.g. speech recognition Some applications don t fit this picture at all: spelling correction Theoretical formal approaches Build a declarative model using Linguistics Logic Algorithms Symbolic Example: S NP VP parsing Theoretical less formal E.g., pragmatics: Gricean implicatures Dialogue handling: turntaking Heuristic algorithms Empirical methods Learn from examples Generalize Examples: Tagging Speech recognition Statistical MT Hybrid methods Empirical methods need constructed categories Symbolic methods need empirical methods to handle ambiguity 3

A. Machine translation A. Machine translation 1. What is MT, why is it difficult? 2. History 3. Approaches A. Machine translation Prerequisite: Some statistical NLP, HMM tagging A. Machine translation Prerequisite: Sentence semantics B. Other applications 1. Word sense disambiguation (WSD) Prerequisite: word semantics Some simple statistical NLP 2. Information processing Dependencies Sentence semantics Machine translation Statistical NLP HMM Word semantics Semantic transfer SMT WSD MT evaluation Information processing 4

Proposed order 1. MT 2. Word semantics 3. Simple statisticsl NLP 4. WSD 5. Information processing 6. SMT 7. Sentence semantics 8. Semantic transfer 9. MT evaluation INF5820 http://www.uio.no/studier/emner/matna t/ifi/inf5820/index.xml INF5820 Bygger på INF4820 (kan tas samtidig) Alternerer med INF5830 Teoretisk datalingvistikk Oblig.er http://www.uio.no/studier/emner/matna t/ifi/humit4722mn/ 4 obligatoriske innleveringer (godkjent- ikke godkjent) Semesteroppgave: A F Oppgave 1 Legge frem en historisk artikkel 11.9 Levere 1-2 sider referat. 9.9 5

Oppgaver videre Sett 2: 1.10 Sett 3: 22.10 Sett 4: 12.11 11 (Prosjektet del 1) Innlevering prosjekt 12.12 Undervisning Første del av semesteret: 2 ganger i uka Andre del: 1 gang i uka + prosjekt Introducing MT 1. Why is machine translation a problem? 2. Traditional approaches: 1. Direct 2. Interlingua 3. transfer 3. Empirical approaches: 1. SMT 2. Example-based MT (EBMT) 4. Some history 5. The LOGON approach 6. Evaluation Eksempel: freetranslation.com The construction of the park lasted for a number of years. The area east of the two Frogner ponds had already by the turn of the century been opened to the public. freetranslation.com : Konstruksjonen av parken vart for et antall år. Områdesom øst av den to Frogner damer hatt allerede ved det vender av århundret vært åpnet til offentligheten. Development The construction of the park lasted for a number of years. The area east of the two Frogner ponds had already by the turn of the century been opened to the public. freetranslation.com : Konstruksjonen av parken vart for et antall år. Områdesom øst av den to Frogner damer hatt allerede ved det vender av århundret vært åpnet til offentligheten. Google: Konstruksjonen av parken varte i en årrekke. Området øst for de to Frogner dammer hadde allerede ved århundreskiftet blitt åpnet for allmennheten. Eksempel 2 http://www.systransoft.com/index.html http://www.systranet.com/systran/net http://www.heeg.de/~uta/ix/art.htmheeg htm www.dn.se 6

Not only word-by-word: 1. Grammatical structure - ambiguity 2. Structure is not always preserved 3. Lexical choice 4. More than sentence meaning 1. Ambiguous structure De satte pris på dyrene De uppskattade djuren gir oss kjærlighet, vennskap og innimellom beskyttelse. ger oss kärlek, vänskap och ibland skydd. Behov for fullstendig grammatisk analyse Fra 1950-tallet: Utvikling av grammatikker egnet for dataprosessering 2. Structure not preserved 3. Lexical choice Han heter Paul. His name is Paul. Il s appelle Paul. He likes to swim. Er schwimmt gern. Jeg skar av makens tomme! Jag skar av makens tumme! The box is in the pen. (Y. Bar-Hillel 1960) Problemet er AI-hardt kan ikke vente fullgod løsning 4. Beyond sentence meaning Larger units, paragraphs Tracking the referent, No: den/det Metaphors, idioms Changre, Rhime, rythm Deliberate ambiguity, humor 7