Masterutdanning i bibliotek- og informasjonsvitenskap

Like dokumenter
Bachelor i bibliotek- og informasjonsvitenskap

Fakultet for samfunnsfag Bibliotek- og informasjonsvitenskap BIB1300 og BIB6300 Kunnskapsorganisasjon og gjenfinning 2

Fakultet for samfunnsfag Bibliotek- og informasjonsvitenskap Kunnskapsorganisasjon 3

Institutt for økonomi og administrasjon

EKSAMENSFORSIDE Skriftlig eksamen med tilsyn

Bibliotek- og informasjonsvitenskap

Kunnskapsorganisasjon og gjenfinning sider (inklusive forside og vedlegg)

EKSAMENSOPPGAVE / EKSAMENSOPPGÅVE

1.8 Binære tal DØME. Vi skal no lære å omsetje tal mellom totalssystemet og titalssystemet.

EKSAMENSOPPGAVE. NB! Det er ikke tillatt å levere inn kladd sammen med besvarelsen

Fakultet for samfunnsfag Bibliotek- og informasjonsvitenskap Kunnskapsorganisasjon og gjenfinning 1.2

Å løyse kvadratiske likningar

Matematikk 1, MX130SKR-B

EKSAMENSFORSIDE Skriftlig eksamen med tilsyn

EKSAMENSOPPGAVE. INF-1100 Innføring i programmering og datamaskiners virkemåte. Teorifagb, hus 3, og og Adm.bygget, Aud.max og B.

LING2112 Metaforteori. Våren 2009

EKSAMENSOPPGAVE. Vil det bli gått oppklaringsrunde i eksamenslokalet? Svar: JA / NEI Hvis JA: ca. kl. 10:30

Eksamen. 25. mai TIP1002 Tekniske tenester/tekniske tjenester. Programområde: Teknikk og industriell produksjon. Fylkeskommunenes landssamarbeid

Skriftlig eksamen. HUD2001 Helsefremmende/ Helsefremjande arbeid. Våren Privatister/Privatistar. VG2 Hudpleie. Utdanningsprogram for

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

Eksamen LGA2004 Produksjon, miljø og kvalitet. Programområde: Landbruk og gartnernæring. Forsøk. Nynorsk/Bokmål

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

Alle barn har rett til å seie meininga si, og meininga deira skal bli tatt på alvor

EKSAMENSOPPGAVE. Ingen. Robert Pettersen. Eksamen i: INF Innf. i progr. og datam. virkem. Dato: Tirsdag 5. desember 2017

Skriftlig eksamen SPED4300, vår Oppgaver Bokmål. Svar på én av disse to oppgavene (enten oppgave 1 eller oppgave 2):

Matematikk 1, 4MX15-10E1 A

Eksamensoppgave i NORD1108 Nordisk litteraturhistorie, 7.5 sp.

Eksamen MED2003 Medieproduksjon. Programområde: Media og kommunikasjon. Nynorsk/Bokmål

Eksamen REA3015 Informasjonsteknologi 2 Elevar/elever og privatistar/privatister. Nynorsk/Bokmål

Eksamen MAT1006 Matematikk 1T-Y. Nynorsk/Bokmål

Fylkeskommunenes landssamarbeid. Eksamen FOT2002 Kommunikasjon og samhandling. Programområde: Fotterapi og ortopediteknikk.

Eksamen. 16.november LGA2001 Produksjon og tenesteyting/produksjon og tjenesteyting

Fylkeskommunenes landssamarbeid. Eksamen. 28.november APO3002 Kommunikasjon og samhandling. Programområde: Apoteknikk.

EKSAMEN I LOGIKK OG RESONNERANDE SYSTEM (TDT4136)

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

Fakultet for samfunnsfag Bibliotek- og informasjonsvitenskap Kunnskapsorganisasjon og gjenfinning 1.2

Fylkeskommunenes landssamarbeid. Eksamen. 13. november MED1001 Mediekommunikasjon. Programområde: Medieproduksjon.

Fylkeskommunenes landssamarbeid. Eksamen MED1001 Mediekommunikasjon. Programområde: Medieproduksjon. Nynorsk/Bokmål

ORDINÆR EKSAMEN FOR 1R BOKMÅL Sensur faller innen

Norges teknisk-naturvitenskapelige universitet Fakultet for samfunnsvitenskap og teknologiledelse Pedagogisk institutt

Eksamen. 15. november FOT2001 Helsefremmende arbeid / Helsefremjande arbeid. Programområde: Fotterapi / ortopediteknikk

MATEMATIKK 1 for 1R, 4MX130SR09-E

Bibliotek- og informasjonsvitenskap. Kunnskapsorganisasjon og gjenfinning 2.1

Eksamen. 24. november DRA2002 Teater og bevegelse 2. Programområde: Musikk, dans, drama. Nynorsk/Bokmål

ORDINÆR EKSAMEN Sensur faller innen

Fylkeskommunenes landssamarbeid. Eksamen TIP1001 Produksjon. Programområde: Teknikk og industriell produksjon.

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

Eksamen. 23. mai HUD 2001 Helsefremmende arbeid/helsefremjande arbeid. Programområde: Hudpleie Vg2. Nynorsk/Bokmål

Eksamensoppgave i SØK3515 / SØK8615 Mikro- og paneldataøkonometri

Skriftlig eksamen. HUD2002 Kommunikasjon og samhandling. Våren Privatister/Privatistar. VG2 Hudpleier/Hudpleiar

Eksamen. 29. mai TRL2002 Transport og logistikk. Programområde: Transport og logistikk. Nynorsk/Bokmål

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

Eksamen NOR1405-NOR1410 Norsk for språklige minoriteter / Norsk for språklege minoritetar NOR1049 Norsk som andrespråk, overgangsordning

Skriftlig eksamen. DRA2002 Teater og bevegelse/rørsle 2. Våren Privatister/Privatistar. VG3 Drama. Utdanningsprogram for Musikk, dans og drama

Eksamen HUD3003 Yrkesutøving / Yrkesutøvelse. Programområde: programområde for Hudpleie Vg3. Fylkeskommunenes landssamarbeid

Eksamen REA3028 Matematikk S2. Nynorsk/Bokmål

Fylkeskommunenes landssamarbeid. Eksamen HUD2001 Helsefremjande arbeid / Helsefremmende arbeid. Programområde: Hudpleie.

Eksamen. 30. mai LBR 3005 Økonomi og driftsledelse. Programområde: Landbruk. Nynorsk/Bokmål

Eksamen LGA2002 Forvalting og drift /Forvaltning og drift. Programområde: Landbruk og gartnarnæring / gartnernæring.

Eksamen. 1. juni DRA2009 Drama og samfunn. Programområde: Drama. Nynorsk/Bokmål

Oppgavesettet er på 3 sider eks. forside, og inneholder 12 deloppgaver: 1abc, 2, 3, 4abc, 5ab, 6ab.

Svar på én av disse to oppgavene (enten oppgave 1 eller oppgave 2):

Fylkeskommunenes landssamarbeid. Eksamen SSS2003 Økonomi og administrasjon. Programområde: Salg, service og sikkerhet.

FAKULTET FOR HUMANIORA OG PEDAGOGIKK EKSAMEN

NY/UTSATT NASJONAL DELEKSAMEN I MATEMATIKK FOR GRUNNSKULELÆRAR - UTDANNINGANE GLU 1 7 OG GLU 5 10

Matematikk 1, 4MX25-10

Eksamen LGA2001 Produksjon og tenesteyting / tjenesteyting. Programområde: Landbruk og gartnarnæring / gartnernæring.

Høgskolen i Telemark EKSAMEN 6102 DATABASER 5602 DATABASER Tid: 9-13 (9-14 for konte-eksamen i 5602) Hjelpemidler:

Fylkeskommunenes landssamarbeid. Eksamen DRA2009 Drama og samfunn. Programområde: Drama. Nynorsk/Bokmål

Eksamen. 01. juni DRA2002 Teater og bevegelse 2. Programområde: Drama. Nynorsk/Bokmål

EKSAMENSOPPGAVE/ EKSAMENSOPPGÅVE

Høyring forslag om overgang frå Vg1 studiespesialiserande til yrkesfaglege programområde på Vg 2

EKSAMEN Bildebehandling

Eksamen REA3015 Informasjonsteknologi 2 Elevar/Elever, Privatistar/Privatister. Nynorsk/Bokmål

Fylkeskommunenes landssamarbeid. Eksamen FOT3002 Kommunikasjon og samhandling. Programområde: Fotterapi.

Eksamen AA6524 Matematikk 3MX Elevar/Elever. Nynorsk/Bokmål

Fylkeskommunenes landssamarbeid. Eksamen MAR2007 Dokumentasjon og kvalitet. Programområde: Maritime fag.

Læreplan i klima- og miljøfag

Fylkeskommunenes landssamarbeid. Eksamen FOT2003 Yrkesutøving / Yrkesutøvelse. Programområde: Fotterapi og ortopediteknikk.

Eksamen REA3015 Informasjonsteknologi 2. Nynorsk/Bokmål

Eksamen. Eksamensdato: 23.mai Fagkode: FOT2001. Fag: Helsefremmende/helsefremjande arbeid. Programområde: Fotterapi og ortopediteknikk

Du kan endre språk i Inspera ved å klikke på tannhjulet øverst til høyre.

Eksamen. 20.mai FOT2001 Helsefremmende arbeid Helsefremmande arbeid. Programområde: Fotterapi og ortopediteknikk.

EKSAMENSOPPGAVE/ EKSAMENSOPPGÅVE

Når du kjem inn i registeret, skal du sjå ei liste over kor du er administrator for. Lista ligg under kategorien lokale organisasjoner i menyen.

Eksamen. Eksamensdato: 1. juni Fagkode: HEA2002 Fagnavn: Kommunikasjon og samhandling. Programområde: Helsearbeiderfag Vg2.

Transkript:

Fakultet for samfunnsfag Masterutdanning i bibliotek- og informasjonsvitenskap MBIB4230 Informasjonsgjenfinning Skoleeksamen (bokmål / nynorsk) Antall sider (inkl. forside): 8 + 1 vedlegg Hjelpemiddel Alle hjelpemidler tillatt (inkludert bærbar pc) Merknad: Kandidaten må selv kontrollere at oppgavesettet er fullstendig. Besvarelsen skal merkes med kandidatnummer, ikke navn. Emnekode: BIB4230 (ORD) 1

BOKMÅL (nynorsk se s. 6) Oppgave I (ca. 2-2.5 timer) INEX-forskningsssamarbeidet har som mål å eksperimentere med gjenfinning av XML-kodede dokumenter. Artikler fra det digitale leksikonet Wikipedia brukes som datagrunnlag for søkeeksperimentene. Deltakende institusjoner må legge disse dokumentene inn i det søkesystemet de ønsker å eksperimentere med. a) Dokumentsamlingen av Wikipedia-artikler er på over 40 GB, og det er ønskelig å redusere vokabularstørrelsen før artiklene legges inn i søkesystemet. Nevn kort fordeler og ulemper ved følgende mulige metoder for vokabular-reduksjon, med tanke på konsekvenser for automatisk, tekst-basert gjenfinning: a. bruke stoppordliste for å fjerne de mest høyfrekvente termene i samlingen b. fjerne alle termer som forekommer bare en gang i samlingen c. fjerne termer fra dokumenter der de bare forekommer en gang d. identifisere og samle synonymer under en felles betegnelse e. samle grammatikalske varianter av samme ordstamme f. bruke en LSA-basert teknikk b) Systemet skal i de aktuelle eksperimentene kunne gjenfinne de enkelte XML-kodede elementene i tekstene, og det vil dermed også være aktuelt å lage en database der dokumentene det søkes i utgjøres av hvert enkelt avsnitt fra artiklene, ikke hele artikler. Vil det forandret noen av vurderingene du gjorde i spørsmålet over? c) Det har vist seg eksperimentelt at et likhetsmål basert på cosinus-formelen oppnår mer korrekt gjenfinning når det søkes etter hele artikler enn når det søkes etter korte tekstavsnitt. Kan du tenke deg en årsak til det? Hvilken funksjon har de enkelte elementene i cosinus-formelen? d) Mange av Wikipedia-artiklene er illustrert, og det vil også være aktuelt å eksperimentere med gjenfinning av bilder. Hva innebærer innholdsbasert ( content-based ) bildegjenfinning? Drøft kort om og i tilfelle under hvilke forutsetninger innholdsbasert gjenfinning av bildene vil være aktuelt i en slik samling. Wikipedia er som kjent et nettbasert leksikon. Slik du kjenner Wikipedia, hva ser du som naturlige kilder til å hente tekstgrunnlaget for en eventuell tekstbasert bildegjenfinning? 2

e) Eksperimentene skal også omfatte undersøkelse av muligheter for spørsmålsforbedring. En metode for forbedring er såkalt relevance feedback. Rocchio s formel for relevance feedback kan uttrykkes slik: Qm Q D r dd r dj D d j n d jd n Beskriv kort hva de enkelte komponentene i formelen uttrykker. Hva innebærer det å gi en lavere verdi enn og? Hvilke fordeler og ulemper kan det innebære å velge en markant lavere -verdi? f) Spørsmålsforbedring etter Rocchio-formelen krever at bruker aktivt relevansvurderer gjenfunne dokumenter. Foreslå et par mulige metoder for spørsmålsforbedring som ikke krever slik brukermedvirkning. Oppgave II (Ca 1 1 1/2 time) Den binære matrisen nedenfor er en dokument / term-matrise som representerer termer som forekommer over en viss hyppighet i dokumentene, for enkelhets skyld representert binært. Linjene representerer dokumenter, kolonnene termer. 1 2 3 4 5 6 7 8 9 10 1 I I I I 2 I I I I I 3 I I I I I I I I 4 I 5 I I I 6 I 7 I I I I 8 I 9 I I 10 I 1) Vi skal klustre termvektorene for å oppdage eventuelle syntetiske synonymer. Bruk det enkleste likhetsmålet du kan tenke deg, og vis fremgangsmåten for og resultatet av en singlelink-klustring av termene. 2) Hva er den viktigste forskjellen på automatisk klustring og automatisk kategorisering? 3

3) Anta at dokumentene er relevansvurdert i forhold til et gitt spørsmål, og at de tre øverste (dokument 1, 2 og 3) er funnet relevante. Et nytt dokument er representert ved følgende vektor: 1 0 1 0 0 1 0 1 0 0 Ville dette dokumentet blitt frembragt som svar på samme spørsmål i et system basert på probabilistisk gjenfinning? Det er nok å vise beregningsmåten og estimere resultatet du trenger ikke å gjøre regnestykket! Oppgave III (Ca. 1-1 1/2 time) En enkel frasestruktur-grammatikk kan se ut som følger: S => NP VP NP => N N PP NP PP VP => V NP PP => P NP N => gutt mann kart skog V => treffe P => med i a) Vis hvordan denne grammatikken kan gi to ulike syntaktisk korrekt analyse av setningen: Gutten traff mannen med kartet i skogen b) Ville semantisk informasjon hjelpe til med å redusere antall korrekte tolkninger? Hvordan kunne du i tilfelle tenke deg at slik semantisk informasjon kunne gjøres tilgjengelig i et system for automatisk språkanalyse? c) Beskriv kort, eksemplifisert med setningen over, skillet mellom semantikk og pragmatikk. Oppgave IV (Ca. ½ - 1 time) Den vedlagte teksten beskriver et eksperimentelt gjenfinningssystem som har som intensjon å forbedre automatisk gjenfinning blant annet gjennom forbedret vekting av termene i dokumentene. Det er ikke nødvendig at du har satt deg inn i alle de tiltakene artikkelen foreslår, eller har forstått de spesifikke vektingsformlene som foreslås, for å kunne svare på følgende spørsmål: a) Artikkelen hevder (tredje spalte) at Terms that appear in the title or first paragraph are weighted more to improve results [ ] The addition of this module [ ] particularly improves the precision scores at low recall values. Hvorfor tror du dette er tilfelle? 4

b) Artikkelens Fig. 2 viser R/P-kurver og Avg. Prec. (average precision) for to eksperimentelle systemløsninger målt mot et basissystem. Hvordan beregnes average precision og hva er fordelen ved å vise denne verdien sammen med kurvene i figuren? 5

NYNORSK (bokmål sjå s. 2) Oppgåve I (ca 2-2.5 timer) INEX-forskningsssamarbeidet har hatt som mål å eksperimentere med attfinning av XML-koda dokument. Artiklar frå det digitale leksikonet Wikipedia har vore nytta som datagrunnlag for søkeeksperimenta. Deltakande institusjonar har måtta legge desse dokumenta inn i det søkesystemet dei ønskjer å eksperimentere med. g) Dokumentsamlinga av Wikipedia-artiklar er på over 40 GB, og det kan være ønskjeleg å redusere storleiken på vokabularet før artiklane vert lagde inn i søkesystemet. Gjer kort greie for føremoner og eventuelle ulemper ved følgjande moglege metodar for vokabularreduksjon, med tanke på konsekvensar for automatisk, tekst-basert attfinning: g. nytte stoppordliste for å fjerne dei mest høgfrekvente termane i samlinga h. fjerne alle termar som bare førekjem en gong i samlinga i. fjerne termar frå dokument der dei berre førekjem ein gong j. identifisere og samle synonym under ei sams nemning k. samle grammatikalske variantar av same ordstamme l. nytte ein LSA-basert teknikk h) Systemet skal i dei aktuelle eksperimenta kunne finne att dei einskilde XML-koda elementa i tekstene, og det vil dermed og vere aktuelt å lage ein database der dokumenta det vert søkt i vil vere kvart einskild avsnitt frå artiklane, ikkje heile artiklar. Vil det endre nokre av vurderingane du gjorde i spørsmålet over? i) Det har vist seg eksperimentelt at et likskapsmål som er baserte på cosinus-formelen oppnår meir korrekt attfinning når det vert søkt etter heile artiklar enn når det vert søkt etter korte tekstavsnitt. Kan du tenkje deg ei årsak til det? Kva for funksjon har dei einskilde elementa i cosinus-formelen? j) Mange av Wikipedia-artiklane er illustrerte, og det vil og være aktuelt å eksperimentere med attfinning av bilete. Kva tyder innhaldsbasert ( content-based ) attfinning av bilete? Drøft kort om og i tilfelle under kva føresetnader innhaldsbasert attfinning av bileta vil vere aktuelt i ei slik samling. Wikipedia er som kjent eit nettbasert leksikon. Slik du kjenner Wikipedia, kva ser du som naturlege kjelder til å hente tekstgrunnlaget for eventuell tekstbasert attfinning av bilete? 6

k) Eksperimenta skal og omfatte undersøking av mogelegheiter for spørsmålsforbetring. Ein metode for forbetring er såkalla relevance feedback. Rocchio s formel for relevance feedback kan uttrykkast slik: Qm Q D r dd dj D r n d D j d n j Beskriv kort kva dei einskilde komponenta i formelen uttrykker. Kva inneber det å gje ein lågare verdi enn og? Kva for føremonar og ulemper kan det innebere å velje ein markant lågare -verdi? l) Spørsmålsforbetring etter Rocchio-formelen krev at brukar aktivt relevansvurderer attfunne dokument. Gje framlegg om eit par moglege metodar for spørsmålsforbetring som ikkje krev slik brukarmedverking. Oppgåve II (Ca 1 1 1/2 time) Den binære matrisa under er ei dokument / term-matrise som representerer termar som førekjem over en viss hyppighet i dokumenta, for å gjere det enkelt er dei representerte binært. Linja representerer dokument, kolonnane termar. 1 2 3 4 5 6 7 8 9 10 1 I I I I 2 I I I I I 3 I I I I I I I I 4 I 5 I I I 6 I 7 I I I I 8 I 9 I I 10 I 4) Vi skal klustre termvektorane for å oppdage eventuelle syntetiske synonym. Nytt det enklaste likskapsmålet du kan tenkje deg, og vis framgangsmåten for og resultatet av ein single-link-klustring av termane. 5) Kva er den viktigaste skilnaden mellom automatisk klustring og automatisk kategorisering? 6) Sjå for deg at dokumenta er relevansvurderte i høve til eit gitt spørsmål, og at dei tre øvste (dokument 1, 2 og 3) er funne relevante. Eit nytt dokument er representert ved følgjande vektor: 1 0 1 0 0 1 0 1 0 0 7

Ville dette dokumentet ha vorte funne fram som svar på same spørsmål i eit system basert på probabilistisk attfinning? Det er nok å syne reknemåten og estimere resultatet du treng ikkje å gjere reknestykket! Oppgåve III (Ca. 1-1 1/2 time) Ein enkel frasestruktur-grammatikk kan sjå ut som følgjer: S => NP VP NP => N N PP NP PP VP => V NP PP => P NP N => gutt mann kart skog V => treffe P => med i a) Vis korleis denne grammatikken kan gi to ulike syntaktisk korrekt analyse av setninga: Gutten traff mannen med kartet i skogen b) Ville semantisk informasjon hjelpe til med å redusere talet på korrekte tolkingar? Korleis kunne du i det tilfellet tenkje deg at slik semantisk informasjon kunne gjerast tilgjengeleg i eit system for automatisk språkanalyse? c) Beskriv kort, eksemplifisert med setninga over, skiljet mellom semantikk og pragmatikk. Oppgåve IV (Ca. ½ - 1 time) Den vedlagde teksten beskriver eit eksperimentelt attfinningssystem som har som intensjon å forbetre automatisk attfinning blant anna gjennom forbetra vekting av termane i dokumenta. Det er ikkje naudsynt at du har sett deg inn i alle de tiltaka artikkelen gjev framlegg om, eller har forstått de spesifikke vektingsformlane som den nyttar, for å kunne svare på følgjande spørsmål: a) Artikkelen hevdar (tredje spalte) at Terms that appear in the title or first paragraph are weighted more to improve results [ ] The addition of this module [ ] particularly improves the precision scores at low recall values. Kvifor trur du dette er slik? b) Artikkelens Fig. 2 viser R/P-kurver og Avg. Prec. (average precision) for to eksperimentelle systemløyingar målte mot eit basissystem. Korleis vert average precision rekna ut, og kva er føremonen ved å syne denne verdien saman med kurvene i figuren? 8