Informasjonsgjenfinning

Like dokumenter
Mer om WSD Ordlikhet. Ordlikhet INF5820 H2008. Jan Tore Lønning. Institutt for Informatikk Universitetet i Oslo. 17. september

1. Explain the language model, what are the weaknesses and strengths of this model?

Sammendrag INF5820 H2008. Jan Tore Lønning. 1. oktober. Institutt for Informatikk Universitetet i Oslo

HMM-tagging INF4820 H2008. Jan Tore Lønning. 30. september. Institutt for Informatikk Universitetet i Oslo

Eksamensoppgave i TDT4117 Informasjonsgjenfinning. LØSNINGFORSLAG/Sensurveiledning

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (SENSURVEILEDNING)

TDT4117 Information Retrieval - Autumn 2014

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING

Factoid Spørsmål Svar

3rd Nordic Conference of Computational Linguistics NODALIDA

Eksamensoppgave i TDT4117 Informasjonsgjenfinning

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

Opp til nå har problemstilling vart: Gitt en funksjon f, finn for hvilket verdier av de variabler f tar en bestemt verdi. Ax = b, f(x) = 0.

Plenumsregning 1. MAT1030 Diskret Matematikk. Repetisjon: Algoritmer og pseudokode. Velkommen til plenumsregning for MAT1030

MAT1030 Diskret Matematikk

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Velkommen til plenumsregning for MAT1030. MAT1030 Diskret matematikk. Repetisjon: Algoritmer og pseudokode. Eksempel fra boka. Eksempel

INF5820 H gang, 19.9 Ordmeningsentydiggjøring Word Sense Disambiguation (WSD)

MAT1030 Diskret matematikk

INF2820 Datalingvistikk V gang, Jan Tore Lønning

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Forelesning 30: Kompleksitetsteori

Søkesystemer og thesauri

MAT1030 Plenumsregning 1

INF1820: Applikasjoner

INF2820 Datalingvistikk V2012. Jan Tore Lønning

UNIVERSITETET I OSLO

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING

Plenumsregning 1. Kapittel 1. Roger Antonsen januar Velkommen til plenumsregning for MAT1030. Repetisjon: Algoritmer og pseudokode

Mathilda - et naturlig språk-grensesnitt for reformulering av spørringer

Objektorientert programmering i Python. Resten av semesteret. Innhold uke 9 Mer komplekse strukturer. Referanser og objekter, inkl Mentimeter spørsmål

INF1820: Oppsummering

Fakultet for informasjonsteknologi,

MAT1030 Plenumsregning 3

INF2820 Datalingvistikk V2012. Jan Tore Lønning

3/5/2012. Chart alternativ datastruktur. Fundamentalregelen. Chart-parsing. Bottom-up FORMELL SPRÅKTEORI. Jan Tore Lønning

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

INF5820 Language technological applications

Øvingsforelesning 1 Python (TDT4110)

INF Algoritmer og datastrukturer

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

INF5820 Language technological applications. H2008 Jan Tore Lønning/Stephan Oepen

Forelesning i Matte 3

Man samler i samme artikkel alt som gjelder samme x

Last ned Moderne italiensk grammatikk - Reidar Veland. Last ned

Innhold uke 9. Objektorientert programmering i Python. Om ukens pensum. Referanser og objekter Tema: Mer komplekse strukturer

Informasjonsgjenfinning og visualisering av relasjoner i norsk popmusikk

Dagens plan: INF Algoritmer og datastrukturer. Eksempel. Binære Relasjoner

INF Algoritmer og datastrukturer

buildingsmart Norge seminar Gardermoen 2. september 2010 IFD sett i sammenheng med BIM og varedata

Spørsmålskompilering del 1

Dagens tema: Begrepsdannelse Eksterne entydighetsskranker

Generelle Tips. INF Algoritmer og datastrukturer. Åpen og Lukket Hashing. Hashfunksjoner. Du blir bedømt etter hva du viser at du kan

Kategoriske data, del I: Kategoriske data - del 2 (Rosner, ) Kategoriske data, del II: 2x2 tabell, parede data (Mc Nemar s test)

Romlig datamanipulering

Hvorfor sortering og søking? Søking og sortering. Binære søketrær. Ordnet innsetting forbereder for mer effektiv søking og sortering INF1010 INF1010

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

GEO326 Geografiske perspektiv på mat

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

INF2220: Time 12 - Sortering

Dagens tema: Begrepsdannelse Eksterne entydighetsskranker Representasjon n-1-regelen

Skipsoffisersutdanningen i Norge. Innholdsfortegnelse. 00TM01G - Emneplan for: Matematikk på operativt nivå

INF2820 Datalingvistikk V gang, Jan Tore Lønning

UNIVERSITETET I OSLO SQL. Structured Query Language. (forts.) Institutt for Informatikk. INF Ellen Munthe-Kaas 1

UNIVERSITETET I OSLO

Mengdelære INF1800 LOGIKK OG BEREGNBARHET FORELESNING 2: MENGDELÆRE. Læreboken. Mengder. Definisjon (Mengde) Roger Antonsen

TDT4117 Information Retrieval Exam

Øvingsforelesning 5 Python (TDT4110)

INF oktober Stein Krogdahl. Altså: Hva kan ikke gjøres raskt (med mindre P = NP)

SVM and Complementary Slackness

Masterutdanning i bibliotek- og informasjonsvitenskap

INF1800 LOGIKK OG BEREGNBARHET

INF2820-V2018 Oppgavesett 10 Gruppe 18.4

INF1300 Introduksjon til databaser

Spørsmålskompilering del 1

Last ned Gresk-norsk ordbok til Det nye testamente - Jarl Henning Ulrichsen. Last ned

Øvingsforelesning 5 Python (TDT4110)

INF120: Oblig 3. Yngve Mardal Moe

INF Algoritmer og datastrukturer

UNIVERSITETET I OSLO SQL. Structured Query Language. (forts.) Institutt for Informatikk. INF Ragnar Normann 1

EN Skriving for kommunikasjon og tenkning

IN1140 H2018 gruppeoppgaver Sannsynlighet og språkmodeller

UNIVERSITETET I OSLO

Lineære likningssystemer

MAT1030 Diskret matematikk

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Maps og Hashing. INF Algoritmer og datastrukturer. Map - ADT. Map vs Array

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

in1060: hva & hvorfor prototyping? Tone Bratteteig

MAT1030 Diskret matematikk

INF2220: Forelesning 2

Norsk Grammatikk Oppgaver

2/24/2012. Dynamic Programming. I dag. Example. Example PARSING. Jan Tore Lønning

UNIVERSITETET I OSLO

INF1300 Introduksjon til databaser

IN2110 Obligatorisk innlevering 1a

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF5820 H gang, 10.9 Ordmeningsentydiggjøring Word Sense Disambiguation (WSD)

Transkript:

INF5820 H2008 Institutt for Informatikk Universitetet i Oslo 18. september

Outline 1 Hva er IR? Tradisjonell evaluering Invertert indeks 2 Rangering Evaluering av rangering 3 Grunnleggende egenskaper Vektorer og avstand Termvekting 4 Relasjonen mellom Lingvistisk kunnskap i IR

Hva er IR? Hva er IR? Tradisjonell evaluering Invertert indeks Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). (Manning, Raghavan, Schütze 2008)

Tradisjonelt søk Hva er IR? Tradisjonell evaluering Invertert indeks En samling dokumenter En søkefrase Eksakt søk: et dokument er enten relevant eller ikke relevant Boolske søk: kombiner søketermer med bruk av AND OR NOT osv. Eksempel: en biliotekskatalog, Finn alle bøkene med forfatter: Bjørnson

Eksakt evaluering Hva er IR? Tradisjonell evaluering Invertert indeks Anta at: X er mengden av alle dokumenter. A er de dokumentene i X som er relevante for søket B er dokumentene som systemet finner Nøkkelbegreper Precision: Recall: A B B A B A F-score (vanlig): 2PR R + P F-score (generell): 1 α 1 P + (1 α) 1, for enα [0, 1] R

Precision and recall Hva er IR? Tradisjonell evaluering Invertert indeks Relevant Nonrelevant Retrieved true positives (TP) false positives (FP) Not retrieved false negatives (FN) true negatives (TN) P = TP/(TP + FP) R = TP/(TP + FN)

Invertert indeks Hva er IR? Tradisjonell evaluering Invertert indeks Alle termene som forekommer i dokumentsamlingen Sammen med hver term: id for dokumentene hvor det forekommer Evt. også hvor i dokumentet Termene lagret alfabetisk for rask gjenfinning Hvis dokument-idene har en fast ordning, kan kombinerte søk gå raskt Hvor i dokumentet muliggjør søk på flerordsfraser grønn te

IR og web Hva er IR? Tradisjonell evaluering Invertert indeks Med WWW ble IR mye viktigere. Vi er helt avhengig av det Søk har endret karakter Ikke eksakt match som teller kan være for mange Relevans: Få de mest sentrale først!

Rangering Rangering Evaluering av rangering Precision og recall: Vi sammenlikner alle funnete dokumenter med alle vi skal finne Ikke alltid interessert i alle dokumenter, men i ett (eller flere) som gir et svar Web-søk Anta at vi finner 1000 dokumnter og at 100 av dem er relevante. Forskjell på å få disse først og sist Rank-specific precision and recall, jfr. J& M figure 23.4 Precision-recall graf

Glatting og interpolering Rangering Evaluering av rangering Ser vi på bare et søk, kan vi få en graf som: Er hakkete Kan bli stigende Interpolering: Ta maksimum av fremtidige punkter. Average: Ta gjennomsnitt av flere punkter (= ett tall) Interpolated average : En kombinasjon, Gjennomsnittet for alle punkter med inntil 10% recall, alle med inntil 20% recall osv. Deretter interpolér For å sammenlikne ulike IR-algoritmer må vi se på flere søk og ta gjennomsnitt.

Grunnleggende egenskaper Vektorer og avstand Termvekting Forutsetninger: Et dokument blir sett på som en bag av termer. (Ingen forskjell på The box is in the pen og The pen is in the box) Et søkeuttrykk blir også sett på som en bag av termer Likhet mellom dokumenter måles om de har samme termprofil

Grunnleggende egenskaper Vektorer og avstand Termvekting Example Dokumentnr. antall bass antall fishing Dok1 10 2 Dok2 10 20 Dok3 2 10 Dok4 25 10 Hvilken av de andre likner mest på Dok 1? Liknende dokumenter har liknende relativ fordeling mellom termene

Litt vektorregning Grunnleggende egenskaper Vektorer og avstand Termvekting Repetisjon: Elementær geometri: sinus, cosinus, tangens Vektorer og skalarprodukt Lengden av en vektor Skalarprodukt og cosinus

Vektorlikhet Grunnleggende egenskaper Vektorer og avstand Termvekting Hva skal vi se på? Differanse, eller Skalarprodukt? Differanse Lengden av avstandsvektoren Manhatten: N x i y i i=1 Euklidsk: N (x i y i ) 2 i=1

Produkt Grunnleggende egenskaper Vektorer og avstand Termvekting sim dot-product ( v, w) = v w = N v i w i i=1 sim cosine ( v, w) = v w v w = =1 hvis de peker i samme retning N N i=1 v i w i i=1 v 2 i N i=1 w 2 i

Produkt og differense Grunnleggende egenskaper Vektorer og avstand Termvekting For normaliserte vektorer gir produkt og differanse samme rangering.

IDF Grunnleggende egenskaper Vektorer og avstand Termvekting Skal alle termer telle like mye? Idé: Termer som forekommer i få dokumenter er karakteristiske for de dokumentene hvor de forekommer N er antall dokumenter og n i er de hvor term i forekommer IDF, inverse document frequency: N n i ( ) N idf i = log td-idf-vekting: w i,j = tf i,j idf i der tf i,j antall forekomster av term i i dokumemt j Sentralt i flere anvendelser, som summering. n i

Relasjonen mellom Relasjonen mellom Lingvistisk kunnskap i IR Ser en stort på det er IR en del av NLP, men De har utviklet seg som to uavhengige disipliner, ulikt fokus IR: Vektorer, statistikk NLP/datalingvistikk: grammatikk, parsing To typer tilnærminger: Bruk av lingvistisk kunnskap i IR Økende bruk av statistikk og vektorer i NLP

Hva er en term? Relasjonen mellom Lingvistisk kunnskap i IR Et ord fullform, leksem, noe annet? Tradisjonelt: stemming : kaste, kaster, kastet, kast blir alle kuttet til kast Hva med spiser, spiste, spist skal de gå til spis? Eller hva med glemmer, glemte? går, gikk? En stemmer er the poor man s lemmatizer : Trenger ikke ordbok Ikke perfekt Stemming kan bedre recall, men Gi dårligere presisjon. Slår f.eks. sammen substantiv og verb for løpe

Relasjonen mellom Lingvistisk kunnskap i IR Andre bidrag fra (data)lingvistikk til IR? Eksperimentering, men ikke entydige resultat: Lemmatisering Tagging WSD (Grammatiske) relasjoner, jfr. forskjell på The box is in the pen og The pen is in the box (Kommer!)

Oppsummering Relasjonen mellom Lingvistisk kunnskap i IR Precision og recall Invertert indeks Forutsetningene som ligger under vektormodellen Likhet mellom vektorer: cosinus og skalarprodukt idf Stemming

Noen kilder Relasjonen mellom Lingvistisk kunnskap i IR Ny bok om IR: Manning, Raghaven, Schütze, Introduction to Information Retrieval, 2008 Stor utbredelse de senere år: Baeza-Yates, Ribeiro-Neto, Modern Information Retrieval, 1999 Flere temaer i INF5820: Manning, Schütze, Foundations of Statistical Language Processing, 1999