Factoid Spørsmål Svar

Like dokumenter
HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Informasjonsgjenfinning

Sammendrag INF5820 H2008. Jan Tore Lønning. 1. oktober. Institutt for Informatikk Universitetet i Oslo

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Mer om WSD Ordlikhet. Ordlikhet INF5820 H2008. Jan Tore Lønning. Institutt for Informatikk Universitetet i Oslo. 17. september

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

EN Skriving for kommunikasjon og tenkning

Norsyg en syntaksbasert dyp parser for norsk

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF1820: Oppsummering

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

BIBSYS Brukermøte 2011 Live Rasmussen og Andreas Christensen. Alt på et brett? -om pensum på ipad og lesebrett

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V2012

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

1. Explain the language model, what are the weaknesses and strengths of this model?

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

Forelesning 27. MAT1030 Diskret Matematikk. Bevistrær. Bevistrær. Forelesning 27: Trær. Roger Antonsen. 6. mai 2009 (Sist oppdatert: :28)

2/24/2012. Context-Free Grammars. I dag. Avledning. Eksempel: grammar1 PARSING. Jan Tore Lønning

Kapittel 3: Litt om representasjon av tall

Trigonometric Substitution

TDT4117 Information Retrieval - Autumn 2014

Smart High-Side Power Switch BTS730

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF1300 Introduksjon til databaser

Uke 5. Magnus Li INF /

INF5820 Language technological applications

INF1300 Introduksjon til databaser

INF2820 Datalingvistikk V gang, Jan Tore Lønning

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

MAT1030 Diskret matematikk

IN1140: Introduksjon til språkteknologi. Forelesning #13

På oppdagelsesreise etter den tapte informasjonen. Søk og søkemotorer Teoretisk gjennomgang

Et lite oppdrag i bakgrunnen

KONTINUASJONSEKSAMEN I EMNE TDT4195 BILDETEKNIKK ONSDAG 13. AUGUST 2008 KL

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

September 2013 Absorption Report

TMA4240 Statistikk Høst 2013

Felles avslutning Itsy Bitsy Spider Syng sangen sammen og gjør bevegelsene som hører til.

UNIVERSITETET I OSLO

Unneberg skole ÅRSPLAN I ENGELSK. 3. trinn. KOMPETANSEMÅL FRA LÆREPLANEN Eleven skal kunne LOKALE KJENNETEGN FOR MÅLOPPNÅELSE.

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

stjerneponcho for voksne star poncho for grown ups

Python: Løkker. TDT4110 IT Grunnkurs Professor Guttorm Sindre

Øvingsforelesning 5 Python (TDT4110)

MAT1030 Diskret Matematikk

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Dagens tema: Begrepsdannelse Eksterne entydighetsskranker

INF5820. Language technological applications. H2010 Jan Tore Lønning

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

KJENNETEGN PÅ MÅLOPPNÅELSE. Læringsmål Mestringsnivå 1 Mestringsnivå 2. Eleven skal kunne: Eleven skal kunne: Eleven skal kunne:

Hjemmeeksamen 2 i INF3110/4110

MAT1030 Diskret Matematikk

Case 9:12-cv DMM Document 4-5 Entered on FLSD Docket 12/06/2012 Page 1 of 62

Øvingsforelesning 5 Python (TDT4110)

INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

INF2820 Datalingvistikk V Gang Jan Tore Lønning

UNIVERSITETET I OSLO

Dynamic Programming Longest Common Subsequence. Class 27

4.TRINN ENGELSK PERIODEPLAN 1

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

SVM and Complementary Slackness

TMA4240 Statistikk 2014

Trinn 3 Periodeplan 1

Årsplan engelsk 2.trinn 2018/2019

Løse reelle problemer

MAT1030 Diskret Matematikk

Øystein Haugen, Professor, Computer Science MASTER THESES Professor Øystein Haugen, room D

Årsplan engelsk høst 1.trinn 2016

UNIVERSITETET I OSLO

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

Dagens plan. INF3170 Logikk. Kompletthet følger fra modelleksistens. Kompletthet. Definisjon (Kompletthet) Teorem (Modelleksistens)

6. trinn. Målark Chapter 1 Bokmål. Kan godt. Kan litt. Kan ganske godt. Read and listen. Jeg kan lytte til en tekst og forstå hvor handlingen foregår.

INF2820 Datalingvistikk V gang, Jan Tore Lønning

STUDIEPLAN 9. TRINN UKE

UNIVERSITETET I OSLO

norsk grammatikk bok C2FFB2EE7079E5C7671E474DBC1B7657 Norsk Grammatikk Bok

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

Engelsk 4. trinn, halvårsplan haust 2012

Emneevaluering GEOV272 V17

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Mindre studieplanendringer for kommende vårsemester

Årsplan i engelsk - 6. klasse

Den som gjør godt, er av Gud (Multilingual Edition)

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

IN uke 1. Komme i gang med programmering

INF1820: Applikasjoner

SeaWalk No 1 i Skjolden

En diskusjon av SKOS og mapping i henhold til ISO (Information and documentation Thesauri and interoperability with other vocabularies)

Kapittel 3: Litt om representasjon av tall

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

Hvordan løse problemer med programmering?

Hvordan velge lov eller forskrift

MAT1030 Diskret matematikk

UTSKRIFTSVEILEDNING FOR CANON ir-maskiner

Transkript:

Grunnleggende INF5820 H2008 Institutt for Informatikk Universitetet i Oslo 25. september

Outline Grunnleggende 1 Grunnleggende 2 3 4 5

Outline Grunnleggende 1 Grunnleggende 2 3 4 5

Factoide Grunnleggende Merriam-Webster 1 an invented fact believed to be true because of its appearance in print 2 a briefly stated and usually trivial fact Wikipedia A factoid is a spurious unverified, incorrect, or fabricated statement formed and asserted as a fact, but with no veracity. (Mot slutten:) The word factoid is now sometimes also used to mean a small piece of true but valueless or insignificant information, in contrast to the original definition.

Grunnleggende Factoide Spm.-svar Enkle spørsmål som kan besvares med ett eller noen få ord. Hvem er president i Finland? Når ble Finland en selvstendig stat? Hvilke land grenser til Svartehavet?

Trinnene Grunnleggende 1 Prosesser spørsmålet (reformuler, normaliser, ekspander,... ) 2 Finn relevant informasjon for svaret ( passage retrieval ): Finn dokumenter (med enkle IR-metoder) Finn relevant informasjon i dokumentene (evt. med mer avanserte metoder) 3 Formulér svaret

Outline Grunnleggende 1 Grunnleggende 2 3 4 5

Grunnleggende Spørsmålsformulering Kan inngå: For store dokumentmengder (web): Bare trekke ut termer fra spørsmålet og søke på disse Dette kan overlates søkemaskinen hvis vi bruker en standard web-søker Evt. formulere fraser som vi venter å finne i svaret, f.eks. president i Finland er, Finland ble selvstendig stat mer presise søk, mindre søkerom Ved mindre dokumentmengder: Ekspander søket ved f.eks. å ta med hyponymer

Grunnleggende Spørsmålsklassifkasjon En klassifisering er til hjelp for å finne hva slags svar vi er ute etter Svartypetaksonomi, el. spørsmålsontologi Se på spørreordet (hvem, hva, hvor, når, hvilken) og på hovedordet (hvilken by... ) for å klassifisere spørsmålet i forhold til ontologien.

Outline Grunnleggende 1 Grunnleggende 2 3 4 5

Grunnleggende To trinn: 1 Finn relevante dokumenter med vanlig IR-teknikker 2 Se på disse dokumentene og finn relevante passasjer Utelukk de som ikke kan gi et svar, f.eks. Bruk NER (named entity recognition) og utelukk passasjene som ikke inneholder noen av rett type ut i fra spørsmålsontologien 3 Ranger aktuelle passasjer, kombiner informasjon Antall navngitte entiteter antall sprøsmålsnøkkelord lengst eksakte match mellom spørsmålsformulering og svar m.fl.

Outline Grunnleggende 1 Grunnleggende 2 3 4 5

Metoder Grunnleggende 1 Mønstergjenkjenning NE-type mønstergjenkjenning 2 n-gram tiling

NE-type Grunnleggende Ved spørsmålsklassifikasjonen kan vi ha funnet ut hva slags type entitet vi er på utkikk etter, f.eks. HUMAN eller DATO. Vi kjører NER på de innsamlete passasjene og ser om vi finner fraser (navn) av riktig type.

Grunnleggende Mønstergjenkjenning Example Eksempel Mønster Ask er et løvtre <QP> is <AP>... ask, et løvtre... <QP>, <artikkel> <AP>... et løvtre slik som ask... <AP> slik som <QP> Mønster kan konstrueres for hånd, eller læres

Grunnleggende Mønsterlæring 1 Start med en håndbygget liste av korrekt par, f.eks. Gandi:1869, Mozart:1756 2 Finn dokumenter (på web) som inneholder begge termene i et par. 3 Trekk ut setninger som inneholder begge termene. 4 Finn mønster mellom par av term. 5 Se på de mønsterne som er funnet, hvilke som gjentar seg osv.

Grunnleggende N-gram tiling Litt for kort forklart. Vi lar det ligge.

Outline Grunnleggende 1 Grunnleggende 2 3 4 5

Grunnleggende Nye søkemotorer Example Hakia www.hakia.com factoide-søk Example PowerSet www.powerset.com lingvistisk basert (factoide) søk Parser Wikipedia med LFG (Lexical-Functional Grammar) En viss semantisk analyse

Grunnleggende Example Hvem er ordfører i Norges hovedstad? Finner ikke svare direkte, men kan kombinere informasjonsbiter: Oslo er Norges hovedstad. Fabian Stang er ordfører i Oslo En form for slutning ( textual entailment ) Vi er ikke ferdig med å finne dokumenter. Først når vi har funnet at Oslo er Norges hovedstad, kan vi lete etter dokumenter for Oslos ordfører.