Søkesystemer og thesauri

Søkesystemer og thesauri Information Architecture Peter Morville & Louise Rosenfeld. Kapittel 8 og 9 1

Innhold Når trenger vi søkemuligheter? Kvalitetskriterier Søkesystemers anatomi Algoritmer Presentasjon Design Metadata og thesauri 2

Behov for søkesystemer? Nyttig for store eller fragmenterte nettsteder og nettsteder med dynamisk innhold. Brukerne forventer søkemuligheter Søkeloggene gir nyttig tilbakemelding på brukernes behov Men: Kan ikke erstatte gjennomtenkte navigasjonsmuligheter Krever planlegging, konfigurasjon og optimalisering for å fungere tilfredsstillende Noen ganger er for eksempel en site index et godt alternativ til søkesystemer. 3

Spørsmål du må stille deg: Har nettstedet ditt nok innhold? Må du stjele ressurser fra utvikling av andre mer viktige navigasjonssystemer? Har du tid og vet du hvordan du kan optimalisere et søkesystem? Finnes det andre bedre alternativer? (navigasjon, site index) Vil brukerne dine benytte seg av søkesystemet? 4

Kvalitetskriterier Kvaliteten på søk evalueres etter to nøkkelkriterier: Presisjon Evnen til å rangere relevante dokumenter først Høy presisjon: Vis meg bare de relevante dokumentene Recall (gjenfinningsevne) Evnen til å finne relevante dokumenter Høy recall: Vis meg alle de relevante dokumentene Det ene går gjerne på bekostning av det andre! Hva som er best avhenger av brukerne dine. 5

Presisjon Antall funn i et gitt resultatsett (for eksempel de første 10) som er relevante. Antall relevante dokumenter i resultatsettet Antall dokumenter i resultatsettet Alle relevante: presisjon 1 Ingen relevante: presisjon 0 Kan beregnes uten kjennskap til det totale søkesettet. 6

Recall (gjenfinnelsesevne) Antall relevante dokumenter i resultatsettet Antall relevante dokumenter i søkesettet Krever kjennskap til fasiten, dvs. alle dokumenter Mulig å teste/beregne for interne søk hvis man kjenner nettstedet meget godt 7

Søkesystemers anatomi Grensesnitt Enkel boks Avansert søk Søkemotor Indeksert innhold Algoritmer for å prosessere søk rangere og presentere resultatene 8

Eksterne søkemotorer til eget nettsted Google Custom Search API http://code.google.com/apis/customsearch/ Yahoo!BOSS http://developer.yahoo.com/search/boss/ Lucene: http://lucene.apache.org/ 9

Hvordan indeksere innhold 1. Sette opp søkesoner homogent innhold (grovinndeling) 2. Velge innholdskomponenter som det kan søkes på (detaljeinndeling) 10

Søkesoner Deler av et nettsted som indekseres separat fra resten av nettstedets innhold Gjennom interaksjon med nettstedet velger brukeren en søkesone som passer hans behov. Formål: Avgrense resultatsettet Færre, mer relevante resultater Tar gjerne utgangspunkt i skjema for informasjonsorganisering (publikum, emne, kronologisk, etc.) 11

Øvelse 1: Man kan sette opp søkesoner på mange forskjellige måter. Ofte kan det være lurt å ta utgangspunkt i skjema for informasjonsorganisering. Hvordan har følgende nettsteder satt opp sine søkesoner? Finn.no Aftenposten.no 12

Innholdskomponenter Velg spesifikke komponenter i dokumentene som brukeren kan søke på, for eksempel: Body Tittel Nøkkelord (Keywords) Fritekst URL Bilder Nettstednavn Link Og ikke minst ta bort innholdskomponenter som ikke er meningsfulle. Dette gjør at brukeren får mer spesifikke og presise resultater. 13

Søkealgoritmer Det finnes ingen søkealgoritme som møter alle informasjonskravene til en bruker. De fleste søkealgoritmene er basert på mønstergjenkjenning, der en prøver å finne match mellom brukers forespørsel og indeksert innhold (leter etter samme string med tekst). Når en matchene string er funnet, legges denne i et resultatsett. Mange varianter og konfigurasjonsmuligheter: Automatic stemming: Utvide søketerm slik at termer/ord med samme stamme inkluderes (søkeord: computer stamme: comput andre søkeord: computing, computers, computation, etc.). Øker gjenfinningsevne (recall), men reduserer presisjon. Strukturering av innhold: Felter som forfatter, tittel, etc. vil gi mer presise søk. Fjerne stoppe-ord som f.eks. is, the, he, she, etc. Stavekontroll som godtar stavefeil. Bruk av synonymer eller thesauri. Bruk av metadata. 14

Øvelse 2: Benytter google.com seg av automatic stemming? Eks: Søkeord: computer Stamme: comput Andre søkeord: computing, computers, computation, etc. Hva med stavekontroll? 15

Presentasjon av søkeresultatene 1 Hva skal listes ut? Representativt innhold som artikkeltittel / forfatter? Utdrag av dokumentet? (uthev søkeordet) Gi brukeren valgmuligheter? Antall dokumenter? Vis totalt antall funnet dokumenter. 10 per side er vanlig. 16

Presentasjon av søkeresultatene - 2 I hvilken rekkefølge bør det listes ut? Sortering Alfabetisk (tittel, forfatter, etc.) Kronologisk Numeriske verdier som for eksempel pris. Rangering Relevans Popularitet (google) Brukervurderinger 17

Øvelse 3: Det er to måter å liste søkeresultatene på: 1. Sortere (alfabetisk, kronologisk, etter pris, etc.) 2. Rangere (relevans, popularitet, brukerevalueringer, etc.) Gi eksempler på hver av dem. 18

Algoritmer for relevansrangering Vektet summering av forskjellige faktorer, for eksempel: Hvor mange søkeord som finnes i dokumentet Frekvens av søkeord Avstand mellom søkeordene (samme setning, samme paragraf,.) Hvor søkeordene forekommer (tittel, kroppen, osv.) Populariteten til dokumentet hvor søkeordene forekommer Antall lenker til dokumentet Populariteten til kildene til lenkene 19

Søkegrensesnitt Finnes ikke et universelt vellykket design, avhenger av flere faktorer, som Brukernes kjennskap til språk som brukes til å formulere forespørsler. Best med naturlig språk? Informasjonsbehovet brukeren har. Mengde informasjon det søkes i. Bør være enkelt å bruke Tydelig plassering 20

Ulike søkegrensesnitt http://www.finn.no/ http://www.komplett.no/ 22.01.2015 Håkon Tolsby 21

Metadata Data om data Data elementer: navn, størrelse, datatype Data strukturer: lengde, antall rader, antall kolonner Lokasjon, assosiasjoner, eierskap Kontekst, kvalitet, betingelser, etc. Brukes til å beskrive dokumenter, sider, bilder, software, video, lyd, etc. for å bedre navigasjon og søk Metadata gjør dokumenter med få tilgjengelige ord søkbare Eksempel: <meta name= keywords content= information architecture, user experience > 22

Kontrollerte vokabular Kontrollere betydningen til vokabularet som brukes til å organisere kunnskap for senere gjenfinning. Mange typer Synonymer, foretrukne termer ekvivalensrelasjoner Klassifiseringsskjemaer (taksonomi) hierarkiske relasjoner (bredere, smalere) Thesauri - assosiative relasjoner Verktøy for å Øke gjenfinningsevnen (recall) ved søk Organisere og tagge dokumenter 23

Taksonomi Skjema for klassifisering Hierarkiske sammenhenger i tillegg til ekvivalensrelasjoner. Foretrukket term Varianter Forelder (bredere ) katt pus, pusekatt pattedyr, rovdyr Barn (smalere) rasekatter, huskatter, 24

Anvendelse av taksonomi: Yahoo! 25

Index 22.01.2015 Håkon Tolsby 26

Thesauri Identifiserer: Ekvivalensrelasjoner: Synonymer, varianter Hierarkiske relasjoner: Klassifisering i kategorier og subkategorier Assosiative relasjoner: Meningsfulle koblinger som ikke håndteres med ekvivalensrelasjoner og hierarkiske relasjoner 27

Terminologi Foretrukket term (PT, preferred term): Alle relasjoner er definert med hensyn på foretrukket term. Variant term (VT, non-preferred term): Ekvivalente termer eller løse synonymer til PT. Bredere term (BT): Foreldre til PT ett nivå opp i hierarkiet. Smalere term (NT, narrower term): Barn til PT ett nivå ned i hierarkiet. Relatert term (RT): kobles til foretrukket term (PT) gjennom assosiative relasjoner (se også..). 28

Thesauri: eksempel 29