Fakultet for samfunnsfag Masterutdanning i bibliotek- og informasjonsvitenskap MBIB4230 Informasjonsgjenfinning Skoleeksamen (bokmål / nynorsk) Antall sider (inkl. forside): 8 + 1 vedlegg Hjelpemiddel Alle hjelpemidler tillatt (inkludert bærbar pc) Merknad: Kandidaten må selv kontrollere at oppgavesettet er fullstendig. Besvarelsen skal merkes med kandidatnummer, ikke navn. Emnekode: BIB4230 (ORD) 1
BOKMÅL (nynorsk se s. 6) Oppgave I (ca. 2-2.5 timer) INEX-forskningsssamarbeidet har som mål å eksperimentere med gjenfinning av XML-kodede dokumenter. Artikler fra det digitale leksikonet Wikipedia brukes som datagrunnlag for søkeeksperimentene. Deltakende institusjoner må legge disse dokumentene inn i det søkesystemet de ønsker å eksperimentere med. a) Dokumentsamlingen av Wikipedia-artikler er på over 40 GB, og det er ønskelig å redusere vokabularstørrelsen før artiklene legges inn i søkesystemet. Nevn kort fordeler og ulemper ved følgende mulige metoder for vokabular-reduksjon, med tanke på konsekvenser for automatisk, tekst-basert gjenfinning: a. bruke stoppordliste for å fjerne de mest høyfrekvente termene i samlingen b. fjerne alle termer som forekommer bare en gang i samlingen c. fjerne termer fra dokumenter der de bare forekommer en gang d. identifisere og samle synonymer under en felles betegnelse e. samle grammatikalske varianter av samme ordstamme f. bruke en LSA-basert teknikk b) Systemet skal i de aktuelle eksperimentene kunne gjenfinne de enkelte XML-kodede elementene i tekstene, og det vil dermed også være aktuelt å lage en database der dokumentene det søkes i utgjøres av hvert enkelt avsnitt fra artiklene, ikke hele artikler. Vil det forandret noen av vurderingene du gjorde i spørsmålet over? c) Det har vist seg eksperimentelt at et likhetsmål basert på cosinus-formelen oppnår mer korrekt gjenfinning når det søkes etter hele artikler enn når det søkes etter korte tekstavsnitt. Kan du tenke deg en årsak til det? Hvilken funksjon har de enkelte elementene i cosinus-formelen? d) Mange av Wikipedia-artiklene er illustrert, og det vil også være aktuelt å eksperimentere med gjenfinning av bilder. Hva innebærer innholdsbasert ( content-based ) bildegjenfinning? Drøft kort om og i tilfelle under hvilke forutsetninger innholdsbasert gjenfinning av bildene vil være aktuelt i en slik samling. Wikipedia er som kjent et nettbasert leksikon. Slik du kjenner Wikipedia, hva ser du som naturlige kilder til å hente tekstgrunnlaget for en eventuell tekstbasert bildegjenfinning? 2
e) Eksperimentene skal også omfatte undersøkelse av muligheter for spørsmålsforbedring. En metode for forbedring er såkalt relevance feedback. Rocchio s formel for relevance feedback kan uttrykkes slik: Qm Q D r dd r dj D d j n d jd n Beskriv kort hva de enkelte komponentene i formelen uttrykker. Hva innebærer det å gi en lavere verdi enn og? Hvilke fordeler og ulemper kan det innebære å velge en markant lavere -verdi? f) Spørsmålsforbedring etter Rocchio-formelen krever at bruker aktivt relevansvurderer gjenfunne dokumenter. Foreslå et par mulige metoder for spørsmålsforbedring som ikke krever slik brukermedvirkning. Oppgave II (Ca 1 1 1/2 time) Den binære matrisen nedenfor er en dokument / term-matrise som representerer termer som forekommer over en viss hyppighet i dokumentene, for enkelhets skyld representert binært. Linjene representerer dokumenter, kolonnene termer. 1 2 3 4 5 6 7 8 9 10 1 I I I I 2 I I I I I 3 I I I I I I I I 4 I 5 I I I 6 I 7 I I I I 8 I 9 I I 10 I 1) Vi skal klustre termvektorene for å oppdage eventuelle syntetiske synonymer. Bruk det enkleste likhetsmålet du kan tenke deg, og vis fremgangsmåten for og resultatet av en singlelink-klustring av termene. 2) Hva er den viktigste forskjellen på automatisk klustring og automatisk kategorisering? 3
3) Anta at dokumentene er relevansvurdert i forhold til et gitt spørsmål, og at de tre øverste (dokument 1, 2 og 3) er funnet relevante. Et nytt dokument er representert ved følgende vektor: 1 0 1 0 0 1 0 1 0 0 Ville dette dokumentet blitt frembragt som svar på samme spørsmål i et system basert på probabilistisk gjenfinning? Det er nok å vise beregningsmåten og estimere resultatet du trenger ikke å gjøre regnestykket! Oppgave III (Ca. 1-1 1/2 time) En enkel frasestruktur-grammatikk kan se ut som følger: S => NP VP NP => N N PP NP PP VP => V NP PP => P NP N => gutt mann kart skog V => treffe P => med i a) Vis hvordan denne grammatikken kan gi to ulike syntaktisk korrekt analyse av setningen: Gutten traff mannen med kartet i skogen b) Ville semantisk informasjon hjelpe til med å redusere antall korrekte tolkninger? Hvordan kunne du i tilfelle tenke deg at slik semantisk informasjon kunne gjøres tilgjengelig i et system for automatisk språkanalyse? c) Beskriv kort, eksemplifisert med setningen over, skillet mellom semantikk og pragmatikk. Oppgave IV (Ca. ½ - 1 time) Den vedlagte teksten beskriver et eksperimentelt gjenfinningssystem som har som intensjon å forbedre automatisk gjenfinning blant annet gjennom forbedret vekting av termene i dokumentene. Det er ikke nødvendig at du har satt deg inn i alle de tiltakene artikkelen foreslår, eller har forstått de spesifikke vektingsformlene som foreslås, for å kunne svare på følgende spørsmål: a) Artikkelen hevder (tredje spalte) at Terms that appear in the title or first paragraph are weighted more to improve results [ ] The addition of this module [ ] particularly improves the precision scores at low recall values. Hvorfor tror du dette er tilfelle? 4
b) Artikkelens Fig. 2 viser R/P-kurver og Avg. Prec. (average precision) for to eksperimentelle systemløsninger målt mot et basissystem. Hvordan beregnes average precision og hva er fordelen ved å vise denne verdien sammen med kurvene i figuren? 5
NYNORSK (bokmål sjå s. 2) Oppgåve I (ca 2-2.5 timer) INEX-forskningsssamarbeidet har hatt som mål å eksperimentere med attfinning av XML-koda dokument. Artiklar frå det digitale leksikonet Wikipedia har vore nytta som datagrunnlag for søkeeksperimenta. Deltakande institusjonar har måtta legge desse dokumenta inn i det søkesystemet dei ønskjer å eksperimentere med. g) Dokumentsamlinga av Wikipedia-artiklar er på over 40 GB, og det kan være ønskjeleg å redusere storleiken på vokabularet før artiklane vert lagde inn i søkesystemet. Gjer kort greie for føremoner og eventuelle ulemper ved følgjande moglege metodar for vokabularreduksjon, med tanke på konsekvensar for automatisk, tekst-basert attfinning: g. nytte stoppordliste for å fjerne dei mest høgfrekvente termane i samlinga h. fjerne alle termar som bare førekjem en gong i samlinga i. fjerne termar frå dokument der dei berre førekjem ein gong j. identifisere og samle synonym under ei sams nemning k. samle grammatikalske variantar av same ordstamme l. nytte ein LSA-basert teknikk h) Systemet skal i dei aktuelle eksperimenta kunne finne att dei einskilde XML-koda elementa i tekstene, og det vil dermed og vere aktuelt å lage ein database der dokumenta det vert søkt i vil vere kvart einskild avsnitt frå artiklane, ikkje heile artiklar. Vil det endre nokre av vurderingane du gjorde i spørsmålet over? i) Det har vist seg eksperimentelt at et likskapsmål som er baserte på cosinus-formelen oppnår meir korrekt attfinning når det vert søkt etter heile artiklar enn når det vert søkt etter korte tekstavsnitt. Kan du tenkje deg ei årsak til det? Kva for funksjon har dei einskilde elementa i cosinus-formelen? j) Mange av Wikipedia-artiklane er illustrerte, og det vil og være aktuelt å eksperimentere med attfinning av bilete. Kva tyder innhaldsbasert ( content-based ) attfinning av bilete? Drøft kort om og i tilfelle under kva føresetnader innhaldsbasert attfinning av bileta vil vere aktuelt i ei slik samling. Wikipedia er som kjent eit nettbasert leksikon. Slik du kjenner Wikipedia, kva ser du som naturlege kjelder til å hente tekstgrunnlaget for eventuell tekstbasert attfinning av bilete? 6
k) Eksperimenta skal og omfatte undersøking av mogelegheiter for spørsmålsforbetring. Ein metode for forbetring er såkalla relevance feedback. Rocchio s formel for relevance feedback kan uttrykkast slik: Qm Q D r dd dj D r n d D j d n j Beskriv kort kva dei einskilde komponenta i formelen uttrykker. Kva inneber det å gje ein lågare verdi enn og? Kva for føremonar og ulemper kan det innebere å velje ein markant lågare -verdi? l) Spørsmålsforbetring etter Rocchio-formelen krev at brukar aktivt relevansvurderer attfunne dokument. Gje framlegg om eit par moglege metodar for spørsmålsforbetring som ikkje krev slik brukarmedverking. Oppgåve II (Ca 1 1 1/2 time) Den binære matrisa under er ei dokument / term-matrise som representerer termar som førekjem over en viss hyppighet i dokumenta, for å gjere det enkelt er dei representerte binært. Linja representerer dokument, kolonnane termar. 1 2 3 4 5 6 7 8 9 10 1 I I I I 2 I I I I I 3 I I I I I I I I 4 I 5 I I I 6 I 7 I I I I 8 I 9 I I 10 I 4) Vi skal klustre termvektorane for å oppdage eventuelle syntetiske synonym. Nytt det enklaste likskapsmålet du kan tenkje deg, og vis framgangsmåten for og resultatet av ein single-link-klustring av termane. 5) Kva er den viktigaste skilnaden mellom automatisk klustring og automatisk kategorisering? 6) Sjå for deg at dokumenta er relevansvurderte i høve til eit gitt spørsmål, og at dei tre øvste (dokument 1, 2 og 3) er funne relevante. Eit nytt dokument er representert ved følgjande vektor: 1 0 1 0 0 1 0 1 0 0 7
Ville dette dokumentet ha vorte funne fram som svar på same spørsmål i eit system basert på probabilistisk attfinning? Det er nok å syne reknemåten og estimere resultatet du treng ikkje å gjere reknestykket! Oppgåve III (Ca. 1-1 1/2 time) Ein enkel frasestruktur-grammatikk kan sjå ut som følgjer: S => NP VP NP => N N PP NP PP VP => V NP PP => P NP N => gutt mann kart skog V => treffe P => med i a) Vis korleis denne grammatikken kan gi to ulike syntaktisk korrekt analyse av setninga: Gutten traff mannen med kartet i skogen b) Ville semantisk informasjon hjelpe til med å redusere talet på korrekte tolkingar? Korleis kunne du i det tilfellet tenkje deg at slik semantisk informasjon kunne gjerast tilgjengeleg i eit system for automatisk språkanalyse? c) Beskriv kort, eksemplifisert med setninga over, skiljet mellom semantikk og pragmatikk. Oppgåve IV (Ca. ½ - 1 time) Den vedlagde teksten beskriver eit eksperimentelt attfinningssystem som har som intensjon å forbetre automatisk attfinning blant anna gjennom forbetra vekting av termane i dokumenta. Det er ikkje naudsynt at du har sett deg inn i alle de tiltaka artikkelen gjev framlegg om, eller har forstått de spesifikke vektingsformlane som den nyttar, for å kunne svare på følgjande spørsmål: a) Artikkelen hevdar (tredje spalte) at Terms that appear in the title or first paragraph are weighted more to improve results [ ] The addition of this module [ ] particularly improves the precision scores at low recall values. Kvifor trur du dette er slik? b) Artikkelens Fig. 2 viser R/P-kurver og Avg. Prec. (average precision) for to eksperimentelle systemløyingar målte mot eit basissystem. Korleis vert average precision rekna ut, og kva er føremonen ved å syne denne verdien saman med kurvene i figuren? 8