EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING



Like dokumenter
EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (SENSURVEILEDNING)

Eksamensoppgave i TDT4117 Informasjonsgjenfinning. LØSNINGFORSLAG/Sensurveiledning

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING

Eksamensoppgave i TDT4117 Informasjonsgjenfinning

Fakultet for informasjonsteknologi,

Eksamensoppgave i TDT4117 Informasjonsgjenfinning

Informasjonsgjenfinning

TDT4117 Information Retrieval Exam

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

Fakultet for informasjonsteknologi,

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Faglig kontakt under eksamen: Orestis Gkorgkas

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

EKSAMEN I FAG SIF MMI OG GRAFIKK Lørdag 16. august 2003 Tid: kl

1. Explain the language model, what are the weaknesses and strengths of this model?

Oppgave 1 Datamodellering 25 %

Eksamensoppgave i MA0301 Elementær diskret matematikk løsningsforslag

TDT4110 IT Grunnkurs Høst 2014

UNIVERSITETET I OSLO

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

EKSAMENSOPPGAVE I TDT4145 DATAMODELLERING OG DATABASESYSTEMER. Faglig kontakt under eksamen: Svein Erik Bratsberg og Roger Midtstraum

TDT4117 Information Retrieval - Autumn 2014

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Søkesystemer og thesauri

Løsningsforslag for Eksamensoppgave i TDT4190 Distribuerte systemer

BOKMÅL Side 1 av 7. KONTINUASJONSEKSAMEN I FAG TDT4100 Objektorientert programmering / IT1104 Programmering, videregående kurs

EKSAMEN. Emne: Webprogrammering med PHP (kont.) Webprogrammering 1 (kont.) Eksamenstid:

KANDIDATEN MÅ SELV KONTROLLERE AT OPPGAVESETTET ER FULLSTENDIG

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

UNIVERSITETET I OSLO

Eksamensoppgave i TDT4186 Operativsystemer

TDT4102 Prosedyre og Objektorientert programmering Vår 2015

Løsningsforslag for TDT4186 Operativsystemer

Fakultet for informasjonsteknologi, Oppgave 1 Flervalgsspørsmål ( multiple choice ) 15 %

EKSAMENSOPPGAVE. IAI20102 Algoritmer og datastrukturer

KONTINUASJONSEKSAMEN I EMNE. TDT4136 Logikk og resonnerende systemer. Lørdag 8. august 2009, kl

TDT4105 IT Grunnkurs Høst 2014

Løsningsforslag til Eksamensoppgave i TDT4190 Distribuerte systemer

Eksamensoppgåve i TDT4145 Datamodellering og databasesystemer

TDT4102 Prosedyreog objektorientert programmering Vår 2016

TDT4102 Prosedyre og Objektorientert programmering Vår 2014

Løsningsforslag for Eksamen i TDT4190 Distribuerte systemer. Onsdag 23. mai

ALGORITMER OG DATASTRUKTURER

Eksamensoppgave i TDT4225 Lagring og behandling av store datamengder Kontinuasjonseksamen

G høgskolen i oslo. Emne: Algoritmer og datastrukturer. Emnekode: 80131A. Faglig veileder: UlfUttersrud. Gruppe(r) : Dato:

EKSAMEN. Algoritmer og datastrukturer. Eksamensoppgaven: Oppgavesettet består av 11 sider inklusiv vedlegg og denne forsiden.

ALGORITMER OG DATASTRUKTURER

ALGORITMER OG DATASTRUKTURER

Oppgave 1 Datamodellering 22 %

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

HØGSKOLEN I SØR-TRØNDELAG

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Eksamensoppgave i TMA4320 Introduksjon til vitenskapelige beregninger

TDT4100 Objektorientert programmering

Eksamen høst Fag: Produksjon og brønnvedlikehold. Fagkode: BRT Eksamensdato: Kunnskapsløftet. Videregående trinn 2

EKSAMEN I LOGIKK OG RESONNERENDE SYSTEMER (TDT4136)

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

KONTINUASJONSEKSAMEN I EMNE. TDT4136 Logikk og resonnerande system. Laurdag 8. august 2009, kl

Fakultet for informasjonsteknologi, Løsning på kontinuasjonseksamen i TDT4190 Distribuerte systemer 19. august 2006,

AVSLUTTENDE EKSAMEN I. TDT4160 Datamaskiner Grunnkurs. Torsdag 29. November 2007 Kl

Eksamensoppgave i TDT4258 Energieffektive datamaskinsystemer

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Løsningsforslag Eksamen i TDT4190 Distribuerte systemer

TDT4102 Prosedyre og Objektorientert programmering Vår 2014

Avsluttende eksamen i TDT4120 Algoritmer og datastrukturer

EKSAMENSOPPGAVE I SØK 1002 INNFØRING I MIKROØKONOMISK ANALYSE

Eksamensoppgave i TDT4258 Energieffektive Datamaskinsystemer

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

KONTINUASJONSEKSAMEN I EMNE TDT4195 BILDETEKNIKK ONSDAG 13. AUGUST 2008 KL

OPPLÆRINGSREGION NORD. Skriftlig eksamen. DEL2001 Data- og elektronikksystemer. Høst Privatister. VG2 Data og Elektronikk

Faktor - en eksamensavis utgitt av ECONnect

TDT4171 Metoder i kunstig intelligens

Søkeproblemet. Gitt en datastruktur med n elementer: Finnes et bestemt element (eller en bestemt verdi) x lagret i datastrukturen eller ikke?

UNIVERSITETET I OSLO

Løsningsforslag for TDT4186 Operativsystemer

HØGSKOLEN I SØR-TRØNDELAG Avdeling for informatikk og e-læring - AITeL

TDT4225 Lagring og behandling av store datamengder

Mer om WSD Ordlikhet. Ordlikhet INF5820 H2008. Jan Tore Lønning. Institutt for Informatikk Universitetet i Oslo. 17. september

EKSAMEN. Evaluering av IT-systemer. Eksamenstid: kl 0900 til kl 1300

Eksamensoppgave i SØK3006 Valuta, olje og makroøkonomisk politikk

Avsluttende eksamen i TDT4120 Algoritmer og datastrukturer

Eksamensoppgave i SØK3003 Videregående makroøkonomisk analyse

INF1000 HashMap. Marit Nybakken 2. november 2003

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN. Emne: Algoritmer og datastrukturer

Innføring i Programmering Arbeidskrav Frist 1.10 kl 23:59

Fakultet for informasjonsteknologi,

EKSAMENSOPPGAVE I IDRSA1004 Samfunnsvitenskapelig forskningsmetode og analyse

UNIVERSITETET I OSLO

EKSAMEN I EMNE. TDT4136 Logikk og resonnerende systemer. Torsdag 10. desember 2009, kl

Avsluttende eksamen i TDT4125 Algoritmekonstruksjon, videregående kurs

Avsluttende eksamen i TDT4120 Algoritmer og datastrukturer

Eksamensoppgave i SØK1010 Matematikk og mikroøkonomi

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

Løsningsskisse til Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Fakultet for informasjonsteknologi, Kontinuasjonsløsning på TDT4155 Datamaskiner og operativsystemer

INF Algoritmer og datastrukturer

PG 4200 Algoritmer og datastrukturer Innlevering 2

Transkript:

Norges teknisk-naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING Faglig kontakt under eksamen: Heri Ramampiaro Tlf.: 93440 Eksamensdato: 21. desember 2012 Eksamenstid / varighet: 09.00-13.00 / 4 timer Tillatte hjelpemiddel: D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt. Språkform: Bokmål Sensurdato: 18. januar 2013 Det ønskes korte og konsise svar på hver av oppgavene. Les oppgaveteksten meget nøye og vurder hva det spørres etter i hver enkelt oppgave. Begrunn svar på alle oppgaver. Dersom du mener at opplysninger mangler i oppgaveformuleringene, beskriv de antagelsene du gjør. Side 1 av 6

NorwayOil ANS er et stort oljeselskap med noen tusen ansatte. Hver ansatte produserer så mange dokumenter og data fra virksomheten at de nå har bestemt seg for å leie inn en konsulent til å hjelpe dem med organisering og søk av all materiale de har. Disse materialene består av et stort lager med tekstdokumenter, samt multimedia dokumenter som seismiske data i form av bilder som alle ligger i en server. Anta at du er den personen NorwayOil vil ha som konsulent og din oppgave vil være å tilrettelegge å sette opp et system for selskapet som skal lette tilgangen til informasjonen. I denne oppgaven vil vi bruke IR for å forkorte informasjonsgjenfinning. Oppgave I (30%) I denne oppgaven skal vi først fokusere bare på de delene av tekstdokumentene som blir produsert. a) På din første dag på jobb begynner du å undersøke hvilke generelle behov bedriften har i forhold til søk og gjenfinning av dokumenter. En del av dette er å finne ut hvilke typer søk som blir utført. Svaret du får er vi vet ikke. Så du bestemmer deg for å forklare dem 2 alternativer data gjenfinning og informasjonsgjenfinning. Ved å fokusere på karakteristikkene i disse to hvordan ville du forklare alternativene? Svar: Her skal det forklares de viktigste karakteristikkene som kjennetegnes alternativene som full matching vs. delvis match, rangering vs. treff eller ikke treff, og feil toleranse og ikke. (5%) Anta nå at ledelsen går for informasjonsgjenfinning og du får i oppgave å lage et IR-system. b) Ledelsen vil spare penger og ønsker å velge en open source løsning. Du anbefaler Lucene. Forklar hvorfor Lucene ville være egnet til dette. Svar: Her forventes at man forklarer at Lucene støtter rask indeksering og søk, standard tekstoperasjoner som leksikalanalyse via tokenizing, fjerning av stoppord og evt. stemming. (4%) c) Før du i det hele tatt skal kunne indeksere data i systemet må dokumentene behandles med såkalte tekstoperasjoner. Flere av dem er viktigere enn andre. Forklar hvilken operasjon du mener bør minst være utført før du skal utføre selve indekseringsprosessen. Svar: Det er fem operasjoner som vi har behandlet i kurset. Her kan studenten velge en av disse og begrunne hvorfor den er viktig. Jeg ville selv valgt fjerning stoppord her for å redusere indekstørrelsen og for å øke diskrimineringsgraden. (5%) d) Det neste du skal velge er likhetsmodell ( Similarity model ). Forklar kort hvorfor du ikke vil gå, eller evt. vil gå for den bolske modellen ( Boolean similarity model ). Svar: Valgene må begrunnes. Her forventes at man forklarer fordeler og ulemper med den bolske modellen. (7%) e) Anta at du til slutt landet på språkmodellen ( Language Model ) som likhetsmodell. Forklar forskjellene på denne modellen og den sannsynlighetsbaserte modellen ( Probabilistic similarity model )? Svar: Den største forskjellene mellom LM og PM er hvordan sannsynligheten blir beregnet. Mens PM fokuserer mye på sannsynlighet for relevans, er fokuset på LM sannsynlighet for en gitt dokumentmodell generer spørringen man har. (9%) Side 2 av 6

Oppgave II (25%) I denne oppgaven skal du fortsatt fokusere på den tekstlige delen av bedriftens dokumentlager. a) For at ledelsen skal kunne forstå hva du snakker om ønsker du å forklare dem en del typiske informasjonsgjenfinningsbegrep. Følgende skal du få dem til å forstå - dvs. du skal definere følgende begrep: 1. Indeksterm ( Index term ). Svar: Indeksterm er term som blir valgt til å representere et dokument. Man velger i hovedsak termer som mest mulig sier noe om innholdet i dokumentet og de som mest bidrar til høy diskirmineringsgrad (de som får dokumentet til å skille seg mest mulig fra andre dokumenter). (2%) 2. Mean Reciprocal Rank (MRR). Svar: Er et IR evaluaringsmål hvor man i hovedsak er interessert i å finne ut hvor høyt i rangeringsliste for et søkeresultat et relevant treff befinner seg. (2%) 3. Cosinus likhetsfunksjon (Cosine similarity function). Svar: Det er likhetsfunksjonen som brukes av vektor space modellen til å finne likhet mellom spørring og et dokument basert på cosinus-verdien av vinkelen mellom vektorene av vektene for disse to. (2%) 4. Scalar Clusters. Svar: Dette brukes i Local Automatic Analyse til å finne ut relasjoner mellom termer, basert på naboskap, for å bygge et thesaurus. Hovedideen er at jo mer 2 termer opptrer sammen i forskjellige dokumenter, desto mer er de relaterte til hverandre. (2%) 5. Presisjon og recall. Svar: Presision: Andelen av gjenfunnet dokumenter som er relevante. Recall: Andelen av relevante dokumenter totalt som er gjenfunnet. (2%) b) Du angrer litt på at du ikke prøvde de forskjellige likhetsmodellene før du anbefalte språkmodellen i Oppgave I. Du bestemmer deg derfor å gjøre noe lurt og anbefaler å evaluere forskjellige IR-systemer basert på forskjellige likhetsmodeller. 1. Forklar først hvorfor er det lurt med å evaluere et IR-system. Svar: Hensikten med evaluering av et IR-system er for å vurdere dets evne til å oppfylle brukerens informasjonsbehov i for av hvor godt det klarer å finne relevante dokumenter. (2%) 2. Forklar kort minst fire evalueringmål (evaluation measures) du vil bruke. Svar: Her kan man forklare MAP, F-Measure, R-precision, P@n. Det er også ok å bruke precision og recall. (3%) 3. TREC brukes ofte i evalueringer av et IR-system eller søkealgoritmer. Hva er TREC, og hva får du ved å bruke TREC? Svar: TREC står for Text REtrieval Conference og har som mål å tilby test samlinger og infrastruktur for evaluering av IRsystemer og algoritmer. Ved å bruke TREC har man muligheter til å vurdere hvor bra et system er ved å bruke deres sett med spørringer og fasit og standard evalueringsmetrikker. Her har Side 3 av 6

man også muligheten til sammenlikne mot andre systemer som bruker de samme datasettene. (4%) 4. Forklar hvorfor du vil ved å bruke thesaurus, som for eksempel synonymer, oppnå høyere recall men ikke nødvendigvis høyere presisjon. Svar: Ved å bruke thesaurus vil man finne dokumenter som inneholder også synonymene og ikke nødvendigvis bare de ordene man har i spørringen. Med dette vi antall treff øke noe som kan bidra til økt recall. Dokumentene med synonymene er dog ikke nødvendigvis relevant og dermed vil presisjon bli lavere dersom dette er tilfelle. (3%) 5. Anta at i et system fikk du i gjennomsnitt en presisjon på 80 % og en recall på 60 %. Hva blir verdien av f-measure ( Harmonic mean )? Svar: f=2pr/(p+r) = 2*80*60 / (80 +60) = 68.57(3%) Oppgave III (25%) Anta nå at du er klar til å indekser dokumentene dine. a) Forklar minst 3 forskjellige indekseringsmetoder som det går an å bruke til å indeksere dokumenter. Her skal du forklare prinsippet bak metodene. Svar: Her kan studentene forklare Invertert indeks, Suffix tre, og Signaturfil. NB: Suffix Tre og Trie går ikke som 2 forskjellige indekseringsmetoder. (8%) b) I et av Norway Oils dokumenter står følgende: New seismic tools will result in 30 million extra barrels of oil from Snorre and Grane when Norway Oil and its partners now start using permanent reservoir monitoring. 1. Hva er suffiksstrengene for teksten over? Svar: Her holder det at studenten genererer strengene. Det er dog viktig at de forklarer hva de gjør. Anta at vi har fjernet alle stoppord. 5: seismic monitoring 13: tools monitoring... 157: monitoring (4%) 2. Konstruer suffix trie og deretter suffix tree for teksten over. Svar: Deler av treene kan se ut som følgende (7%) Side 4 av 6

3. Hvar fordelene med supra index sammenliknet med suffix array? Svar: Med supra index tar man i utgangspunktet en suffix array og deler den i blokker av et gitt antall lengder b. I supra index en lager man pekere av prefixer av fast lendge k for hvert ord der prefisen endrer seg, og lar denne peke på starten av en blokk bestående av n ord. Fordelen med dette er at man reduserer eksterne aksesser siden denne blir lagret i hovedminnet og dermed øker ytelsen (i forhold til en vanlig suffix array). (6%) Oppgave IV (20%) a) I likhet med andre bedrifter, brukes Web-søk også til finne andre informasjon som er relevant for Norway Oil. Du mener det systemet, dvs. det sentraliserte websøkesystemet, som de fleste bruker i dag er litt oppskrytt. Du mener det søkesystemet med distribuerte arkitektur kunne være bedre. Forklar hvorfor du mener dette. Svar: Her leges det mest vekt på fordelene med distribuerte websøkesystemer og ikke generelle distribuerte systemer: - Man kan fordele viktige oppgaver mellom brokers og dermed minker belastningene på serveren generelt. - Man kan domenespesifikke brokers som da igjen lar oss lage indekser basert på domener (applikasjonsområder, tema, og lignende). (8%) b) Du fikk en ide om at du kan forbedre søkeresultatene ved å gjøre spørringene som sendes til systemet bedre. Det du lander på er å bruke enten Standard Rocchio eller Ide Regular. Hva er hovedideene bak disse? (Tips: fokuser på formål). Hva skiller disse to seg fra hverandre? (6%) Svar: Formålene med begge er søkeforbedring gjennom utvidelse av spørringer når man bruker av vector space model (VSM) likhetsmodell. De to metodene er ganske like bortsett fra Standard Rocchio bruker antall Side 5 av 6

relevante dokumenter og antall irrelevante dokumenter fra svarsettet til å normalisere relevant- og ikke relevantleddet, mens Ide Regular ikke normaliserer disse leddene i det hele tatt. (6%) c) Lag er kanonisk huffman kode av følgende tekst: for oil drilling, a tool is a tool. Svar: Siden dette er et IR-fag er hovedfokuset er ordbasertkomprimering og ikke tegnbasert. Ordsannsynlighetene er som følgende: for: 1/9 oil: 1/9 drilling: 1/9,: 1/9 a: 2/9 is: 1/9 tool : 2/9 Kanonisk skiller seg fra det vanlige treet på den måten at ingen løver med lavere sannsynlighet kan være på høyere side av en node. Dette gir oss treet: Huffmankoden for teksten blir da: 0010 01 0001 0000 10 11 0011 10 11 (6%) Side 6 av 6