EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (SENSURVEILEDNING)

Like dokumenter
EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING

EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (BOKMÅL) SENSURVEILEDNING

Eksamensoppgave i TDT4117 Informasjonsgjenfinning. LØSNINGFORSLAG/Sensurveiledning

Eksamensoppgave i TDT4117 Informasjonsgjenfinning

Fakultet for informasjonsteknologi,

Eksamensoppgave i TDT4117 Informasjonsgjenfinning

TDT4117 Information Retrieval Exam

Informasjonsgjenfinning

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Faglig kontakt under eksamen: Orestis Gkorgkas

Løsningsforslag for Eksamensoppgave i TDT4190 Distribuerte systemer

EKSAMENSOPPGAVE I TDT4145 DATAMODELLERING OG DATABASESYSTEMER. Faglig kontakt under eksamen: Svein Erik Bratsberg og Roger Midtstraum

EKSAMEN I FAG SIF MMI OG GRAFIKK Lørdag 16. august 2003 Tid: kl

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Eksamensoppgåve i TDT4145 Datamodellering og databasesystemer

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

EKSAMEN I FAG TDT MMI Tirsdag 1. juni 2004 Tid: kl

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Fakultet for informasjonsteknologi,

Eksamensoppgave i TDT4258 Energieffektive datamaskinsystemer

Eksamensoppgave i MA0301 Elementær diskret matematikk løsningsforslag

Eksamensoppgave i TDT4186 Operativsystemer

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

1. Explain the language model, what are the weaknesses and strengths of this model?

TDT4117 Information Retrieval - Autumn 2014

Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

Last ned EU- og EØS-relevante tekster. Last ned

TDT4171 Metoder i kunstig intelligens

Løsningsforslag for TDT4186 Operativsystemer

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

EKSAMEN I FAG TMA4260 INDUSTRIELL STATISTIKK

Løsningsforslag for TDT4186 Operativsystemer

Fakultet for informasjonsteknologi, Løsning på kontinuasjonseksamen i TDT4190 Distribuerte systemer 19. august 2006,

ALGORITMER OG DATASTRUKTURER

Løsningsforslag til Eksamensoppgave i TDT4190 Distribuerte systemer

Eksamensoppgave i TKT4124 Mekanikk 3

Eksamensoppgave i SØK2007 Utviklingsøkonomi / Development Economics

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

Eksamensoppgave i TMA4150 Algebra

TDT4100 Objektorientert programmering

KONTINUASJONSEKSAMEN I EMNE. TDT4136 Logikk og resonnerende systemer. Lørdag 8. august 2009, kl

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

EKSAMEN FAG INSTRUMENTERINGSSYSTEMER

UNIVERSITETET I OSLO

Eksamensoppgave i PED3544 Matematikkproblemer

D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt.

EKSAMENSOPPGAVE I FAG TDT4186 OPERATIVSYSTEMER. Faglig kontakt under eksamen: Svein Erik Bratsberg og Arvid Staupe

Eksamensoppgave i TDT4300 Datavarehus og datagruverdrift - Vår 2014 (Sensurveiledning)

TDT4102 Prosedyre og Objektorientert programmering Vår 2015

Eksamensoppgave i TDT4258 Energieffektive Datamaskinsystemer

Eksamensoppgave i TMA4295 Statistisk inferens

ALGORITMER OG DATASTRUKTURER

Eksamensoppgave i TMA4255 Anvendt statistikk

Oppgave 1 Datamodellering 22 %

EKSAMENSOPPGAVE I BI2033 POPULASJONSØKOLOGI

KONTINUASJONSEKSAMEN I EMNE TDT4195 BILDETEKNIKK ONSDAG 13. AUGUST 2008 KL

Eksamensoppgave i POL1003 Miljøpolitikk, energipolitikk og ressursforvaltning

Eksamen i fag SIF8018 Systemutvikling. Fredag 25. mai 2001 kl

Løsningsforslag Eksamen i TDT4190 Distribuerte systemer

Fakultet for informasjonsteknologi, Kontinuasjonsløsning på TDT4155 Datamaskiner og operativsystemer

Løsningsskisse til Eksamensoppgave i TDT4145 Datamodellering og databasesystemer

EKSAMEN I EMNE. TDT4136 Logikk og resonnerende systemer. Torsdag 10. desember 2009, kl

ALGORITMER OG DATASTRUKTURER

Språkform: Bokmål Navn: Truls Gundersen, Energi og Prosessteknikk Tlf.: (direkte) / (mobil) / (sekretær)

Eksamensoppgave i TMA4245 Statistikk

Faktor - en eksamensavis utgitt av ECONnect

Eksamensoppgave i TMA4240 Statistikk

Eksamensoppgave i MA1202/MA6202 Lineær algebra med anvendelser

Språkform: Bokmål Navn: Truls Gundersen, Energi og Prosessteknikk Tlf.: (direkte) / (mobil) / (sekretær)

NTNU Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

EKSAMEN I EMNE TDT4230 VISUALISERING LØRDAG 10. DESEMBER 2005 KL

AVSLUTTENDE EKSAMEN I. TDT4160 Datamaskiner Grunnkurs. Torsdag 29. November 2007 Kl

Test of English as a Foreign Language (TOEFL)

EKSAMENSOPPGAVE I SØK 1002 INNFØRING I MIKROØKONOMISK ANALYSE

EKSAMEN I EMNE TDT4195/SIF8043 BILDETEKNIKK ONSDAG 19. MAI 2004 KL

Eksamensoppgave i TMA4320 Introduksjon til vitenskapelige beregninger

EKSAMEN TTK4175 INSTRUMENTERINGSSYSTEMER. Torsdag 13. Mai 2004 Tid: kl Sensurfrist 3. Juni Totalt 4 timer

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

Eksamensoppgave i PSY3100 Forskningsmetode - Kvantitativ

EKSAMENSOPPGAVE I SØK1012 MAKROØKONOMISK ANALYSE MACROECONOMIC ANALYSIS

Eksamensoppgave i AFR1000 Innføring i Afrikastudier

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

KONTINUASJONSEKSAMEN I EMNE. TDT4136 Logikk og resonnerande system. Onsdag 10. august 2011, kl

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Eksamensoppgåve i Løsningsskisse TMA4245 Statistikk

EKSAMEN I LOGIKK OG RESONNERENDE SYSTEMER (TDT4136)

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

BOKMÅL Side 1 av 7. KONTINUASJONSEKSAMEN I FAG TDT4100 Objektorientert programmering / IT1104 Programmering, videregående kurs

NTNU, TRONDHEIM Norges teknisk-naturvitenskapelige universitet Institutt for sosiologi og statsvitenskap

Eksamensoppgave i MA1201 Lineær algebra og geometri

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

TDT4105 IT Grunnkurs Høst 2012

Eksamensoppgave i PSY2016/PSYPRO4316 Personlighetspsykologi II

Eksamensoppgave i TDT4225 Lagring og behandling av store datamengder Kontinuasjonseksamen

Eksamensoppgave i TTK4175 Instrumenteringssystemer

Eksamensoppgave i ST0103 Brukerkurs i statistikk

Transkript:

Norges teknisk-naturvitenskapelige universitet Institutt for datateknikk og informasjonsvitenskap EKSAMENSOPPGAVE I FAG TDT4117 INFORMASJONSGJENFINNING (SENSURVEILEDNING) Faglig kontakt under eksamen: Heri Ramampiaro Tlf.: 93440 Eksamensdato: 12. desember 2011 Eksamenstid / varighet: 15.00-19.00 / 4 timer Tillatte hjelpemiddel: D: Ingen trykte eller håndskrevne hjelpemiddel tillatt. Bestemt, enkel kalkulator tillatt. Språkform: Bokmål Sensurdato: 3. januar 2012 Det ønskes korte og konsise svar på hver av oppgavene. Les oppgaveteksten meget nøye og vurder hva det spørres etter i hver enkelt oppgave. Begrunn svar på alle oppgaver. Dersom du mener at opplysninger mangler i oppgaveformuleringene, beskriv de antagelsene du gjør. Side 1 av 7

NorSoft AS er en bedrift som har et stort lager av tekstdokumenter, samt multimedia dokumenter bestående av bilder og lydfiler som ligger i en server. Hittil har de ansatte bare gjort manuelle søk basert på filnavn for å finne filer de trenger. Dette mener bedriften er for tidskrevende og bedriften må effektivisere generelt for bl.a. å spare penger. Du er nyansatt søkesjef på NorSoft og har fått i oppdrag å gjøre denne søkejobben enklere for de ansatte. Oppgave I (25%) I denne oppgaven skal du fokusere bare på tekstdokumentene. a) Du har to valg: (1) å strukturere dokumentene og legge dem i en relasjonsdatabase, og (2) å hente ut innhold fra dokumentene og legge dem i et nytt informasjonsgjenfinningssystem. Dersom vi skal fokusere på de tre viktigste karakteristikkene som skille disse, forklar hvorfor valget ditt ville være alternativ 2. Svar: Alt 2. er valgt fordi IR støtter delvis matching, rangering av søkeresultater og er feiltolerent overfor feil is spørringer. b) Ved å fokusere på viktige tekstoperasjoner forklar hvordan du vil gå fram for å forberede dokumentene til indeksering. Svar: Her skal studentene forklare hvordan man gjøre leksikalanalyse, fjerning av stoppord, stemming, thesaurus og valg av indextermer. c) Du er en bevisst medarbeider og ønsker å gi et godt inntrykk faglig overfor ledelsen. For å få til bedre treff på dokumentsøket bestemmer du deg for å undersøke nærmere hvilke metoder som kan benyttes til å rangere resultatene fra et søk. Hvilke metoder er mulig her? Forklar. Svar: Her skal gi en kort oversikt over similaritetsmodeller (som rangerer) som finnes inkludert vektorspacemodellen, tradisjonelle sannsynlighetsmodellen, Okapi BM25, og Språkmodellen for IR. d) Anta at du til slutt landet på vektor-basert likhetsmodellen ( Vector Space Similarity Model ). Forklar hvordan dette fungerer d.v.s. hva er prinsippet bak denne metoden? Svar: Her er det viktig at studentene forklarer at (1) hvert dokument samt spørring modelleres som vektor med elementer av termvekter. (2) Hver termvekt fås ved å bruke TF-IDF. Similaritet mellom et dokument D og en spørring Q kan beregnes deretter ved å beregne cosinus-verdien mellom vektorene for disse. Oppgave II (25%) I denne oppgaven skal du fokusere på multimedia delen av bedriftens dokumentlager. a) Du skal nå designe et systemarkitektur for bedriftens multimediasøkesystem. Forklar hvordan denne arkitekturen kan se ut. Bruk figur som en del av forklaringen din. Side 2 av 7

Svar: Studentene må tegne denne figuren eller tilsvarende b) Du skal forklare sjefen din om hvordan multimedia datamodellen ser ut i virkeligheten slik at han forstår løsningene dine bedre. Tegn opp en figur av denne modellen (dvs datamodelltaxonomy). Hvilke tre lag (layers) består denne modellen av? Gi minst et eksempel på noe som hører til hvert lag. Svar: Studentene skal tegne dette: Her heter lag 2 egentlig Data Format Layer men det er feil i transparenten fra forelesning og dette skal derfor ikke påvirke karakterene til studentene. c) Lydfilene består stortsett av taler men også noen musikkfiler. Forklar hvordan du går fram for å klassifisere disse to. Du kan her bruke en flytkartdiagram (flowchart diagram) i forklaringen din. Svar: Studentene skal tegene denne: Side 3 av 7

d) Anta at vi har tre logobilder i bildedatabasen, alle med størrelse på 9x9 piksler. Anta videre at pikslene kan ha en av disse 9 fargene C 1 til C 9 og er fordelt på følgende måte: Bilde 1: 9 piksler i hver av 9 fargene Bilde 2: 7 piksler i hver av fargene C 1, C 2, C 6, C 7, 11 piksler av fargene C 3 til C 5 og C 8, 9 piksler av C 9. Bilde 3: 3 piksler i hver av fargene C 1 til C 3 og 12 piksler i hver av fargen C 4 til C 9 I. Hva blir histogrammene til bildene over? Svar: H1= (9, 9, 9, 9, 9, 9, 9, 9, 9), H2= (7, 7, 11, 11, 11, 7, 7, 11, 9), H3= (3, 3, 3, 12, 12, 12, 12, 12, 12). II. Vis hvordan du beregner avstanden mellom de tre bildene. Svar: H1 - H2 = 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 0 = 16 H1 - H3 = 6 + 6 + 6 + 3 + 3 + 3 + 3 + 3 + 3 = 36 H2 - H3 = 4 + 4 + 8 + 1 + 1 + 5 + 5 + 1 + 3 = 32 Oppgave III (25%) Anta nå at tekstsøkesystemet er opp og kjører og du er kommet til evalueringen av systemet med hensyn til kvalitet på søkeresultatene. Tabell 1 viser resultat av et dokumentsøk som en av dine medarbeider har utført. Rang Dok ID Score Relevans 1 232 1534 2 111 1240 REL 3 2343 1111 4 332 1022 REL 5 441 1001 6 112 0999 REL 7 22 0555 8 1 0233 REL 9 23 0220 10 334 0100 Tabell 1 Søkeresultater Anta at vi i alt har i alt 8 relevante dokumenter i bedriftens samling for dette søket. Side 4 av 7

a) For at sjefen din skal forstå hvor gode resultatene er forteller du ham at precision og recall kan brukes til å gjøre dette. Hvordan vil du forklare disse begrepene? Hvar er deres verdi, for eksempel, basert på informasjonen over (jfr. Tabell 1). Svar: Precision: andelen av resultatene som er relevante. Recall: andelen av alle relevante dokumenter som er med i resultatsettet. P = 4/10 = 40% mens R = 4/8 = 50% b) Det er to type grupper som utfører søkene i bedriften. Den ene gruppen - A - er de som er mest interessert i å finne mest mulig relevante treff, mens den andre - B - er de som er interessert i å finne alle relevante dokumenter dersom dette er mulig. Forklar hvilken gruppe du kan anbefale precision for som hovedmål og hvilken du kan anbefale recall for. Svar: For A er precision viktigere enn recall da man er mer interessert i at resultatsettet inneholder mest mulig relevante dokementer, men det er ikke viktig å finne alle av dem. Dermot er recall viktig for B da man er mest interessert i å finne alt. c) Hva er R-precision? Regne ut verdien av R-precision for resultatet over. Svar: Presision når R resultater er talt / hentet fram. Dvs. 4/8 = 50%. d) Hva er MAP (Mean Average Precision)? Forklar. Svar: MAP mean average precision er et mål som blir brukt til å måle evnen til er IR-system til å finne relevante dokumenter basert på et sett av queries. For å finne verdien av MAP må man beregne gjennomsnittsverdien av Precision for hver relevant og gjenfunnet dokument. For eksemplet vårt i tabell 1 betyr dette at vi beregner precision på når vi har hentet 2, 4,6, og 8 dokumenter. Deretter regnes snittet (AveP) av dette ut. Dvs. P(2) = 0.5, P(4) = 0.5, P(6)=0.5, og P(8) = 0.5. AveP for denne spørringen er derfor 0.5. Man gjør tilsvarende for alle de andre spøringene og regner en snittverdi for dette og får MAP. Hvor, Q er antall spørringer man har AveP verdien for. e) Hva er E-measure? Svar: E-measure er brukt til å kombinere verdiene av precision og recall. E= (1+b)PR / (b^2p + R), b er parametre brukt til å bestemme om viktigheten av P og/eller R. Side 5 av 7

Oppgave IV (25%) a) I likhet med andre bedrifter, brukes Web-søk også til finne andre informasjon som er relevant for bedriften. Du skal forklare en medarbeider hvordan websøkesystemene ser ut og vil vise henne spesielt den typen arkitektur som er mest brukt, nemlig den sentraliserte typen. Hvordan ser denne ut? Bruk figur i forklaringen din. Svar: Her forventes at studentene skal tegne opp arkitekturen som vist nedenfor og forklare kort hvordan den fungere b) Etter å ha studert søkeresultatene som er gjort en stund klarer du ikke å bli enig med deg selv om den vektorbasert likhetsmodellen faktisk er den beste. Du vil teste noe annet og du lander på den språkmodellen ( Language Model for information retrieval ). Sammenlign denne modellen med vektorbaserte modellen. Fokuser på prinsipp, fordelene og ulempene. Svar: Language modellen er bygd basert på lage dokumentmodeller basert på statistikk, og beregne hvor stor sannsynlighet er det for at hver dok.modell skal generere spørringen. Se figur under. Hovedproblemet med LM er: - LM antar at det er likhet mellom dokument og informasjon. Dette er i seg selv en svakhet - LM baserer seg på en veldig forenkling av språkmodellen - Vanskeligere å bruke URF enn i PM Vanskeligere å integrere frasesøk, spørsmål og svar spørringer, og boolsksøk. Side 6 av 7

c) Du fikk en ide om at du kan forbedre søkeresultatene ved å gjøre spørringene som sendes til systemet bedre. Forklar hva du kan bruke til dette formålet. Tips: Fokuser på søkeforbedringer. Svar: Her spørres det etter URF eller andre typer søkeforbedringer som lokal automatisk analyse og global automatisk analyse. d) Anta at i et av dokumentene du finner i bedriftens base inneholder følgende tekst: Merkel and Sarkozy both said last week that a fiscal pact should be written into the EU treaty. Konstruer et suffix trie og suffix tre basert på denne tekseten. Gjør de antakelsene du finner nødvendige. Svar: Her skal det legges mer vekt på at studentene viser at de har forstått prinsippet enn at de viser detaljekunnskap. Det er nok å vise deler av trie et og treet Side 7 av 7