TDT4117 Information Retrieval - Autumn 2014

Like dokumenter
1. Explain the language model, what are the weaknesses and strengths of this model?

Slope-Intercept Formula

Neural Network. Sensors Sorter

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

EXAM TTM4128 SERVICE AND RESOURCE MANAGEMENT EKSAM I TTM4128 TJENESTE- OG RESSURSADMINISTRASJON

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgave 1a Definer følgende begreper: Nøkkel, supernøkkel og funksjonell avhengighet.

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

Speed Racer Theme. Theme Music: Cartoon: Charles Schultz / Jef Mallett Peanuts / Frazz. September 9, 2011 Physics 131 Prof. E. F.

Mathematics 114Q Integration Practice Problems SOLUTIONS. = 1 8 (x2 +5x) 8 + C. [u = x 2 +5x] = 1 11 (3 x)11 + C. [u =3 x] = 2 (7x + 9)3/2

Databases 1. Extended Relational Algebra

Besvar tre 3 av følgende fire 4 oppgaver.

Exercise 1: Phase Splitter DC Operation

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

UNIVERSITETET I OSLO

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

Emneevaluering GEOV272 V17

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

EN Skriving for kommunikasjon og tenkning

Den som gjør godt, er av Gud (Multilingual Edition)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

1 User guide for the uioletter package

EKSAMENSOPPGAVE I BI2034 Samfunnsøkologi EXAMINATION IN: BI Community ecology

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

Examination paper for TDT4252 and DT8802 Information Systems Modelling Advanced Course

Examination paper for (BI 2015) (Molekylærbiologi, laboratoriekurs)

SRP s 4th Nordic Awards Methodology 2018

Trigonometric Substitution

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

eutdanningsdirektoratet Eksamen ENG1002/ENG1003 Engelsk fellesfag For elevar og privatistar/for elever og privatister Nynorsk/Bokmal

Kartleggingsskjema / Survey

International Economics

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

Windlass Control Panel

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

Fagevalueringsrapport FYS Diffraksjonsmetoder og elektronmikroskopi

Examination paper for BI2034 Community Ecology and Ecosystems

Høgskoleni østfold EKSAMEN. The examination set consists of three assignments. All assignments are to be answered.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Perpetuum (im)mobile

Programmering. Carsten Wulff

Second Order ODE's (2P) Young Won Lim 7/1/14

IN2010: Algoritmer og Datastrukturer Series 2

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Informasjonsgjenfinning

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i GEOG1004 Geografi i praksis Tall, kart og bilder

UNIVERSITETET I OSLO

Eksamensoppgave i TDT4117 Informasjonsgjenfinning. LØSNINGFORSLAG/Sensurveiledning

Generalization of age-structured models in theory and practice

Forbruk & Finansiering

HØGSKOLEN I NARVIK - SIVILINGENIØRUTDANNINGEN

UNIVERSITY OF OSLO. Make sure that your copy of this examination paperis complete before answering.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

MID-TERM EXAM TDT4258 MICROCONTROLLER SYSTEM DESIGN. Wednesday 3 th Mars Time:

Graphs similar to strongly regular graphs

Sensurfrist: 13 *anuar 2013 / Result available: January Hjelpemidler: Skrivesaker, kalkulator, arbeidsmappe med ovinger

Gradient. Masahiro Yamamoto. last update on February 29, 2012 (1) (2) (3) (4) (5)

English Notice! Start your answer to every main question on a new page.

NORGES TEKNISK-NATURVITENSKAPELIGE UNIVERSITET Geografisk institutt

Sammendrag INF5820 H2008. Jan Tore Lønning. 1. oktober. Institutt for Informatikk Universitetet i Oslo

PARABOLSPEIL. Still deg bak krysset

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Eksamensoppgave i GEOG Geografi i praksis - Tall, kart og bilder

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

The exam consists of 2 problems. Both must be answered. English

EXAMINATION PAPER. Exam in: STA-3300 Applied statistics 2 Date: Wednesday, November 25th 2015 Time: Kl 09:00 13:00 Place: Teorifagb.

Innovasjonsvennlig anskaffelse

Elektronisk innlevering/electronic solution for submission:

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Du må håndtere disse hendelsene ved å implementere funksjonene init(), changeh(), changev() og escape(), som beskrevet nedenfor.

GYRO MED SYKKELHJUL. Forsøk å tippe og vri på hjulet. Hva kjenner du? Hvorfor oppfører hjulet seg slik, og hva er egentlig en gyro?

Dynamic Programming Longest Common Subsequence. Class 27

Solutions #12 ( M. y 3 + cos(x) ) dx + ( sin(y) + z 2) dy + xdz = 3π 4. The surface M is parametrized by σ : [0, 1] [0, 2π] R 3 with.

Eksamensoppgave i LITT3000, Litteraturteori og tekstforståelse, 15 sp.

MID-TERM EXAM IN TEP4125 THERMODYNAMICS 2 Friday 28 March 2014 Time: 10:30 11:30

Skjema for spørsmål og svar angående: Skuddbeskyttende skjold Saksnr TED: 2014/S

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Compello Fakturagodkjenning Versjon 10 Software as a service. Tilgang til ny modulen Regnskapsføring

UNIVERSITETET I OSLO

INSTALLATION GUIDE FTR Cargo Rack Regular Ford Transit 130" Wheelbase ( Aluminum )

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Compello Fakturagodkjenning Versjon 10.5 As a Service. Tilgang til Compello Desktop - Regnskapsføring og Dokument import

Eksamensoppgaver til SOSANT1101. Regional etnografi: jordens folk og kulturelt mangfold. Utsatt skoleeksamen 12. desember 2013 kl.

Maple Basics. K. Cooper

FINAL EXAM IN STA-2001

Transkript:

TDT4117 Information Retrieval - Autumn 2014 Assignment 1 Task 1 : Basic Definitions Explain the main differences between: Information Retrieval vs Data Retrieval En samling av data er en godt strukturert kolleksjon av relaterte objekter eller informasjonsdeler, de er ofte atomiske og godt definerte. Data innhenting involverer spørring og uthenting av set med data slik som SQL og databaser. Mens en samling med informasjon kan være løst definerte eller ustrukturerte samlinger av informasjon. En slik samling kan være åpen for tolkning siden de ikke er like veldefinert som data. Informasjonsgjennfinning omhandler uthenting av informasjon skrevet på et naturlig språk som ofte ikke er strukturert og er semantisk utydelige. Structured Data vs Unstructured Data Strukturert data er informasjon som har en høy grad av organisering, gjerne data som er organisert i en relasjons database eller liknende. Informasjon strukturert på denne måten kan hentes ut ved enkle søkemotor algoritmer ol. Ustrukturert data er derimot informasjon som ikke er organisert. Dette gjør søk til en tidskrevende oppgave. Task 2: Term Weighting Distinguish the concepts of: 1. Term Frequency (tf) Hvor mange ganger en term (ett ord) dukker opp i et gitt dokument. 2. Document Frequency (df) Hvor mange dokumenter som inneholder en gitt term.

3. Inverse Document Frequency (idf) Hvis et term forekommer mange ganger i et dokument vekter man dette termet mindre enn term som forekommer få ganger. Dette er fordi man går ut i fra at begrep som forekommer mange ganger er mindre relevant i søket. Task 3: IR Models Assuming the following document collection, which contains only the words from the set O = {Apple, Melon, Grape}. SubTask 1: Boolean Model and Vector Space Model 1. Which of the documents will be returned as the result for the above queries using the Boolean model? Explain your answers and draw a figure to illustrate. The set K of terms: K = {k1 = Apple, k2 =Melon, k3 = Grape, k4 = coconut} c(doc1) = (1, 1, 0, 0), c(doc2) = (1, 0, 1, 0), c(doc3) = (1, 1, 0, 0), c(doc4) = (1, 0, 1, 0), c(doc5) = (0, 0, 1, 0), c(doc6) = (1, 1, 1, 0), c(doc7) = (1, 0, 1, 0), c(doc8) = (0, 1, 0, 0), c(doc9) = (1, 0, 1, 0), c(doc10) = (1, 1, 1, 0) q1 = Apple AND Grape q1dnf = c(q1) = (1, 1, 1, 1) (1, 1, 1, 0) (1, 0, 1, 1) (1, 0, 1, 0) sim(dj, q1) = (0, 1, 0, 1, 0, 1, 1, 0, 1, 1) Dvs at doc2, doc4, doc6, doc7, doc9 og doc10 vil bli gitt tilbake. q2 = Apple AND Coconut q2dnf = c(q2) = (1, 1, 1, 1) (1, 1, 0, 1) (1, 0, 1, 1) (1, 0, 0, 1) sim(dj, q2) = (0, 0, 0, 0, 0, 0, 0, 0, 0, 0) Dette vil ikke gi tilbake noe som helst, ingen dokumenter har både Apple og Coconut. q3 = Apple AND Melon q3dnf = c(q3) = (1, 1, 1, 1) (1, 1, 1, 0) (1, 1, 0, 1) (1, 1, 0, 0) sim(dj, q3) = (1, 0, 1, 0, 0, 1, 0, 0, 0, 1) Dette vil gi tilbake doc1, doc3, doc6 og doc10. q4 = Apple NOT Melon q4dnf = c(q4) = (1, 0, 1, 1) (1, 0, 1, 0) (1, 0, 0, 1) (1, 0, 0, 0) sim(dj, q4) = (0, 1, 0, 1, 0, 0, 1, 0, 1, 0) Vil gi doc2, doc4, doc7 og doc9. De andre dokumentene har enten ikke apple i seg ellers har de melon i seg.

q5 = Apple q5dnf = c(q5) = (1, 1, 1, 1) (1, 1, 1, 0) (1, 1, 0, 1) (1, 1, 0, 0) (1, 0, 1, 1) (1, 0, 1, 0) (1, 0, 0, 1) (1, 0, 0, 0) sim(dj, q5) = (1, 1, 1, 1, 0, 1, 1, 0, 1, 1) Vil gi ut alle dokumentene utenom doc5 og doc8, siden de ikke inneholder termen apple. 2. What is the dimension of the vector space representing this document collection when you use the vector model and how is it obtained? Det er 3 dimensjoner siden det finnes 3 unike termer. 3. Calculate the weights for the documents and the terms using tf and idf weighting. Put these values into a document term matrix. (Tip: use the equations in the book and state which one you used.) TF: Dokument Apple (k1) Melon (k2) Grape (k3) 1 1 2 0 2 1 0 1 3 1 2 0 4 1 0 1 5 0 0 1 6 1 4 3 7 1 0 1 8 0 3 0 9 1 0 2 10 3 1 1

IDF: Term ni IDF = log(n/ni) N=10 1 Apple (k1) 8 0.32 2 Melon (k2) 5 1 3 Grape (k3) 7 0.51 (1 + log(fi,j)) x log (N/ni) Wi,j Apple (k1) Melon (k2) Grape (k3) doc1 0.32 2 0 doc2 0.32 0 0.51 doc3 0.32 2 0 doc4 0.32 0 0.51 doc5 0 0 0.51 doc6 0.32 3 1.33 doc7 0.32 0 0.51 doc8 0 2.58 0 doc9 0.32 0 1.03 doc10 0.83 1 0.51 4. Study the documents 1, 2, 8 and 9 and compare them to document 4. Calculate the similarity between document 4 and these four documents according to Euclidean distance (or any other distance measure, if you choose one other than Euclidean distance explain why).

Euclidiean distance = abs([doc1] [doc2]) 4 1: d = (1 1 )² + (0 2 )² + (1 0)² = 5 2.24 4 2: d = (1 1 )² + (0 0 )² + (1 1 )² = 0 4 8: d = (1 0 )² + (0 3 )² + (1 0)² = 11 3.32 4 9: d = (1 1 )² + (0 0 )² + (1 2 )² = 1 Av dette ser man at dokumentene 4 og 2 er helt like. Dokumentene 4 og 9 har bare en i forskjell siden doc9 har en mer Grape enn doc4 har. Videre ser vi at doc4 er mer lik doc1 enn doc8. 5. Rank the documents by their relevance to the query q5. Dokument Distanse doc2 1.0 doc4 1.0 doc7 1.0 doc9 1.414 doc1 2.449 doc3 2.449 doc8 3.162 doc10 3.162 doc6 4.583

SubTask 2: Probabilistic Models Q1= Grape > q1 = grape Q2 = Apple Coconut > q1 = apple, q2 = Coconut 1. Assuming absence of relevance information, rank the documents according to the two queries, using the BM25 model. Set the parameters of the equation as suggested in the literature. Write clearly all the calculations. Vi antar at K1 = 1, b = 0.5 ni er antall dokumenter der qi forekommer. 2*f(i,j)/ (0.5 + 0.5*(len(doc)/avg_doclen) + f(i, j)) * log((n ni + 0.5)/(ni + 0.5)) simbm25(doc i, Qj) Q1 Q2 doc1 0 1.79 + 0 doc2 1.21 1.95 + 0 doc3 0 1.79 + 0 doc4 1.21 1.95 + 0 doc5 1.33 0 + 0 doc6 1.39 1.28 + 0 doc7 1.21 1.95 + 0 doc8 0 0 + 0 doc9 1.48 1.79 + 0 doc10 0.96 2.47 + 0

2. What are the main differences between BM25 model and the probabilistic model introduced by Robertson Jones? Modellen introdusert av Robertson Jones er hovedsakelig en modell som skulle fungere som et rammeverk for fremtidige former. Rammeverket har flere mangler som gjør at den ikke egner seg som en faktisk algoritme for å vekte dokumenter. Algoritmen er ikke nøyaktig til å estimere første gjennomkjøring sannsynligheter, den har ikke indekseringstermer som er ikke vektet, og termer antas gjensidig uavhengig. BM25 er en samling av mange scoring funksjoner som vekter dokumenter, med forskjellige formler og parameter.