Workshop om nasjonale retningslinjer for indeksering

Referat sist revidert 14.01.2004 Workshop om nasjonale retningslinjer for indeksering fredag 28. nov. 2003 På Høgskolen i Oslo, avd. for journalist-, bibliotek- og informasjonsfag Formål for workshopen: Samle kompetansepersoner innen bibliotek- og beslektede fagområder for å få kartlagt behov og ønsker innen indeksering, samt skissert et mulig prosjekt med tanke på nasjonale retningslinjer.

Workshop om nye retningslinjer for indeksering Deltakerliste Møteleder: Innledere: Deltakere: [Forfall: Liv Holm (Høgskolen i Oslo) Jon Anjer (Høgskolen i Oslo) Pia Leth (Kungliga Biblioteket i Sverige) Ingeborg Sølvberg (Norges teknisk-naturvitenskapelige universitet) Grete Seland (Høgskolen i Oslo) Knut Hegna (Universitetsbiblioteket i Oslo) Lisbeth Eriksen (Norges Landbrukshøgskole, Biblioteket) Ellen Hjortsæter (Høgskolen i Oslo) Arne Skivenes (Bergen Byarkiv) Ellen Aabakken (Deichmanske bibl.) Nina Karlsen (Bergen offentlige bibl.) Anne Munkebyaune (Den norske katalogkomité, Bibsys) Eirik Gaare (Biblioteksentralen) Torill Redse (ABM-Utvikling, ISO-arbeid) Vidar Ringstrøm (Bibliotek-systemer) Steinar Bjørneset (Museenes datatjeneste)] Observatører: resterende medlemmer av NKKI Referent: Isabella Kubosch (Nasjonalbiblioteket) - 2 -

Program: Workshop om nye retningslinjer for indeksering Fredag 28. november 2003, Høgskolen i Oslo, Eva Balkes hus, rom P469 Møteleder: Liv A. Holm 9.00-9.45: 1. innleder: Jon Anjer, Høgskolen i Oslo: Hvor står vi i dag, hva har vi nå? (30-35 minutter + spørsm. og kommentarer.) kort pause 10.00-10.45: 2. innleder: Pia Leth, Kungliga Biblioteket i Stockholm: Arbeidet med emneord i Sverige, erfaringer og fallgruver, internasjonalt arbeid med emneord og indeksering. (30-35 minutter + spørsm. og kommentarer.) kort pause 11.00-11.45: 3. innleder: Ingeborg Sølvberg, Norges teknisk-naturvitenskapelige universitet i Trondheim: Nye tanker og tendenser innen fagområdet indeksering; ontologier, emnekart etc. I hvilken grad er dette relevant for bibliotek, for ABM-sektoren? På hvilken måte bør vi eventuelt nyttiggjøre oss disse nye verktøyene i nye retningslinjer for indeksering? (30-35 minutter + spørsm. og kommentarer.) LUNSJ 11.45-12.30 12.30-15.00: Bordet rundt/debatt: Deltakerne bes i løpet av 5-10 minutter presentere behov, ønsker og prioriteringer, slik de ser det, og det gis rom for spørsmål og kommentarer. Det tas korte pauser etter behov. 15.00-15.30: Oppsummering. - 3 -

Jon Anjer: Workshopen startet med et innlegg fra Jon Anjer, som beskrev foreliggende ressurser pr. i dag. Lysbildene fra hans presentasjon finnes her: http://www.jbi.hio.no/bibin/konferanser/indeksering/pr031128.ppt Han pekte på foreliggende ressurser i Norge i dag: Ellen Hjortsæters forslag til standard, ny utgave kommer primo 2004 kompendier fra Høgskolen i Oslo (HiO), avd. for journalist-, bibliotek- og informasjonsstudiene (JBI) Norske emneord fra Biblioteksentralen Internasjonale ressurser: ISO-standarder Prinsipper for utforming av Library of Congress Subject Headings (LCSH) Riktlinjer för Svenska ämnesord veiledende prinsipper fra IFLA Guidelines for OPAC displays For å få forbedret søking på tvers av kataloger og andre databaser, kreves det mer samarbeid bibliotekene imellom, og han så for seg flere ulike samarbeidsarenaer; samarbeid mellom fagog folkebibliotek, samarbeidende bibliotek innen bestemte fagområder, samarbeid mellom bibliotek på samme størrelse. Det er dessuten behov for sentrale tjenester, f.eks. en termbank med synonymer, relasjoner, anbefalte varianter. Og til sist et ønske til Nasjonalbiblioteket; kan nasjonalbibliografien også indekseres? Pia Leth: Pia Leth var invitert fra Kungliga biblioteket, for å fortelle om deres arbeid med Svenska ämnesord, samt internasjonalt arbeid må området. Hennes lysbilder finnes her: http://www.jbi.hio.no/bibin/konferanser/indeksering/leth.ppt I Sverige har man tradisjonelt ikke fulgt internasjonale standarder, og dette beklaget Pia. Hun anbefalte derfor at man i Norge fulgte det som finnes av internasjonale standarder, og retningslinjer som har sitt utspring i internasjonalt samarbeid. Svenska ämnesord er: nasjonale retningslinjer for emneordssetting en fritt tilgjengelig database over termer Emneordene brukes i autoritetsfiler i Libris, den svenske samkatalogen. I databasen over emneordene kobles emneord mot den svenske SAB-klassifikasjonen, og i tillegg mappes alle svenske emneord mot LCSH. Det siste gjør det lettere å delta i internasjonalt samarbeid om emneord, fordi LCSH får en standardiserende og samlende rolle. Det er dessuten enklere å sette på korrekt svensk emneord på publikasjoner som allerede er indeksert med LCSH. Databasen gir muligheter for navigering og overblikk, og brukerne gis idéer til videre søking. Første skritt i deres prosess var databasen Svenska ämnesord. Deretter kom retningslinjene som nå er tilgjengelige fra hjemmesiden til Kungliga bibliotekets enhet för bibliografisk utveckling och samordning (KB/BUS), (http://www.kb.se). Status pr. i dag er at ca. 35 bibliotek og bibliografier bruker Svenska ämnesord og så å si alle - 4 -

nasjonalbibliografiske poster får emneord. Av de gjenstående postene i Libris bruker ca. 40-50 % Svenska ämnesord. Svenska ämnesord er stort sett i bruk i fagog forskningsbibliotekene, folkebibliotekene er ikke med i utstrakt grad. Dette er nesten motsatt fra forholdene i Norge, hvor folkebibliotekene relativt mer ensartet bruker emneordene fra Biblioteksentralen, mens fagbibliotekene tradisjonelt har hatt mindre samarbeid. Svenska ämnesord legger til rette for god gjenfinning, men man avventer forbedringer i Libris for å få full nytte av fordelene, bl.a. søkelenke fra Svenska ämnesord til Libris, bedre websøk etc. Ingeborg Sølvberg: Ingeborg Sølvberg presenterte tanker og tendenser innen fagområdet indeksering, og hadde dermed et litt mer overordnet perspektiv. Hennes lysbilder finnes her: http://www.idi.ntnu.no/~ingeborg/klassifisering.ppt Hun viste søkemotorer på nettet, bl.a.: Alltheweb; som gir forslag til andre relevante søketermer, i tillegg til å vise hvordan søkespørsmålet er tolket av søkemotoren SCIRUS (Elsevier); som har samme søkemotor, og gir forslag til standardiserte indekstermer Amazon.com; som nå har bøker gratis søkbare i fulltekst GalleriNor (NBs fotobase). Denne basen har mange fakta registrert, men ikke alle er søkbare. Basen eksemplifiserer også et sterkt behov som Ingeborg ser; et sentralt stedsnavnsregister/en gazetteer med standardiserte navn. Ingeborg presenterte CYC-prosjektet, et nettverk av termer med regler for relasjonene mellom dem, og i tillegg regler for resonnering, f.eks. trær vokser vanligvis ute, døde personer slutter å kjøpe ting, hvis man bærer noe flytende i en beholder, skal åpningen vende oppover etc. Formålet med dette nettverket er bl.a. å få roboter til å gjøre de riktige tingene. Det er et eksperiment rundt det å lære maskiner betydningen av begreper. Til slutt kom hun inn på ulike metoder for indeksering og gjenfinning. semantisk web fremdeles en visjon RDF metadataorientert Emnekart Sistnevnte er svært fleksibelt, kanskje så fleksibelt at det blir vanskelig å bruke. Hun ville ikke anbefale oss å bruke emnekart i dagens system. Ingeborg viste oss at det å indeksere dokumenter for senere gjenfinning opptar IT-verden i stor grad, og man opplever at de nå står overfor de samme problemstillingene som bibliotekverden tradisjonelt har fokusert på. Dette burde kunne åpne for større grad av samarbeid, dersom man får i gang en dialog. ----- * * LUNSJ * * ----- - 5 -

Følgende punktliste var sendt ut før møtet, for å forberede de korte innleggene: Punkter til diskusjonsrunden Nå-situasjonen (kort); Brukes standardiserte verbale emnebeskrivelser og/eller kilder til termer (tesauri, emneordslister) ved registrering? Brukes verbale søkeinnganger på emne av sluttbrukerne? Erfaringer? Hvordan kan vi forbedre gjenfinningen? Bedre navigeringsmuligheter i søkingen (henvisninger, relasjoner)? Bedre verktøy i indekseringen (tesauri, ontologier, emnekart)? Bedre funksjonalitet i datasystemene? Annet? Behov og ønsker for samarbeidstiltak/nasjonale ressurser innenfor området emneord/indeksering? En forutsetning for god gjenfinning er god indeksering. Hvordan bør nye norske retningslinjer for indeksering utformes, og hva bør de inneholde for å imøtekomme vår tids behov? o Eksisterende standarder som bør innarbeides: ISO, IFLA?, andre? Andre ideer/tanker (eventuelt nye tanker etter formiddagens innlegg)? - 6 -

Referatet vil nedenfor kort presentere de ulike innleggene, og deretter sammenfatte noen temaer som det ble fokusert på i diskusjonen. Lisbeth Eriksen; presenterte ulike samarbeidsprosjekt innen landbruk og fiskeri, som har resultert i gode emneordslister og tesauri. Hun omtalte også et ontologiprosjekt basert på Agrovoc. Hennes innlegg kan finnes her. Knut Hegna; etterlyste klare, entydige definisjoner av mye brukte uttrykk som emneord, underemneord, kvalifikator, tid, sted, synspunkt, fasett og aspekt. Det er også behov for en forklaring på hvordan disse skal brukes i MARC-feltene 687/650. I tillegg presenterte han et system for å navigere i tesauri, som han hadde utarbeidet. Systemet er også presentert her: http://heim.ifi.uio.no/%7eknuthe/dok/dtv.html Grete Seland; presenterte et forskningsprosjekt ved Princeton-universitetet i USA som har resultert i WordNet, et elektronisk nettverk av ord som er lenket sammen på ulike måter, og ordnet i sett av synonymer. Hun stilte spørsmålet om ressurser som ligner WordNet kan være et mellomledd mellom indekseringsspråk og spørsmål i naturlig språk. Hennes innlegg kan finnes her. Ellen Hjortsæter; fokuserte på årsakene til svikt i gjenfinningen; mye tyder på at valg og bruk av indekseringsspråk har minst betydning, og vi bør undersøke andre faktorer mer. Hennes bok om emneordskatalogisering har virket standardiserende, og revidert versjon kommer rett over jul. Den bygger fremdeles på internasjonale standarder, og vil dekke mange av de behovene som har kommet frem. Hun mente mange av kortkatalogens fordeler var gått tapt ved innføringen av elektroniske kataloger, bl.a. navigeringsmuligheter i overordnede/underordnete og relaterte termer. Arne Skivenes; vinklet emneordsproblematikken fra arkivenes ståsted, som har en annen faglig tradisjon hvor emneord og indeksering har hatt begrenset betydning. Økt bruk av IT gjør nok at emneord blir mer aktuelt, og samarbeid med biblioteksektoren kan være nyttig. Det er imidlertid viktig at arkivenes tradisjon blir tatt hensyn til, hvor proveniensprinsippet er overordnet alle andre ordningsprinsipper. Lysbildepresentasjonen hans finnes her: http://www.jbi.hio.no/bibin/konferanser/indeksering/emneord03.ppt Anne Munkebyaune; poengterte at katalogposter allerede i dag har muligheter i seg, som ikke i tilstrekkelig grad blir utnyttet av biblioteksystemene. Dette gjelder f.eks. skillet mellom emneord (kontrollerte), nøkkelord (frie), stikkord og registertermer alt blir behandlet som nøkkelord. Hun mente også at søk ikke skulle gi trefflister direkte, men en inngang til å navigere i termlandskapet/emneordstrukturen, og at emnekart-tilnærmingen tar dette inn over seg. Hennes foredrag kan finnes her. - 7 -

Eirik Gaare; presenterte Biblioteksentralens Norske emneord, som inneholder emneord med tilhørende deweynummer. Databasen, og publikasjonen, startet som et emneregister til hjelp for bibliotekene, og Eirik syntes det var interessant at man i Sverige også knytter klassifikasjon til emneordene. For å få til effektiv samsøking i flere kataloger mente han at det var viktig at indekseringen var nokså ensartet, og at man bør ha en standardisering på foretrukne termer på ett og samme emne. Vi kan også lære mye av emnekartmiljøet, bl.a. at man kan bruke browsing i indekstermer mye mer, i stedet for å få trefflister direkte. Ellen Aabakken; mente at strukturerte emneord er viktige; ikke engang bibliotekansatte bruker søk på deweyklasser i særlig grad. Innen litteraturformidling er det dessuten viktig å få emneord på skjønnlitteratur, og her bør man kunne være nokså spesifikk. Hun viste dessuten også til Detektor, Deichmanns emneportal, som er bygget på en emnekartlignende måte, ved at underemner vises først ved søk, og man får ikke treffliste direkte. Ellen fokuserte også på forholdet mellom søkespråk og indekseringsspråk. Man bør alltid vurdere hensiktsmessigheten av emneord som er brukt i forhold til brukerens termbruk; fagterm kontra dagligord, hva med emneord for barn? Kanskje kunne man ha én felles emneordbase, og lage ulike profiler i visningen? Nina Karlsen; fortalte at Bergen offentlige bibl. i sin katalog har valgt å bruke klassifikasjonsdata som kjøpes fra fra Biblioteksentralen (BS) på en annen måte enn de fleste Bibliofil-bibliotek. Emnestrengene fjernes fra den bibliografiske posten og bare deweynumrene lagres der. Et lokalt emneregister kobler klassenumrene til emneord, som hovedsakelig er hentet fra Deweytabellene og emnestrenger fra BS. Det sees klart et behov for nasjonale regler for utarbeidelsen av termer til denslags registre. Torill Redse; fokuserte på at målet for emneordsarbeidet må være at brukere får det lettere i sitt arbeid, og det gjelder alle brukere fra barn til forskere alle skal ha nytte av det. Det er nødvendig med samarbeid og samordnet innsats. Torill presenterte programmet Norsk digitalt bibliotek (NDB), og prosjektet som er igangsatt for å skape et rammeverk for dette. Hun mente at det ville være muligheter for å bruke NDB som paraply for å nå frem med et prosjekt innen retningslinjer og standardisering av indeksering. Vidar Ringstrøm; tok til etterretning at man mente at noe burde komme mellom søk og treffliste, men stilte spørsmålstegn ved hvilke muligheter man hadde m.h.t. copyright til f.eks. å bruke deweybaserte mellomskikt. Han viste også frem eksempler på stor diversitet i hvordan bibliotekene satte emneord på postene, noe også Pia kjente igjen fra Sverige før Svenska ämnesord ble tatt i bruk. For å hjelpe brukere å komme videre ved 0 treff foreslo han en stavekontroll på søketermen, som foreslo korrekt stavemåte. Dette må i tilfelle være godt gjennomarbeidet, for å kunne være til noen hjelp. - 8 -

Noen temaer som det ble fokusert på i diskusjonen, og ulike synspunkter som ble fremsatt: Skal man koble klassifikasjon og emneord? Klassifikasjon kan gi en god struktur for gjenfinning, fordi begrepshierarkiet allerede er etablert. Klassifikasjon kan imidlertid ikke godt vise relasjoner mellom sideordede termer Det å være avhengig av et klassifikasjonssystem som f.eks. Dewey kan være vanskelig med stadig skiftende utgaver, numre som skifter betydning og emner som skifter plassering. Det å mappe gamle og nye numre vil imidlertid kunne være til hjelp. Det vil være svært arbeidskrevende å vedlikeholde et slikt system. Ønsker og behov for retningslinjer: De må følge internasjonale standarder og retningslinjer Klare definisjoner av en del sentrale begreper, som emneord, underemneord, kvalifikator, fasett, aspekt etc., særlig sett i sammenheng med NORMARC-felt 650. Et emneordssystem har behov for langt mer henvisninger enn tilfellet er nå. Man skal være generøs med synonymer, slik at man hjelper brukeren videre. Det bør være et samarbeid med arkivsektoren, men man må ivareta arkivenes særegenheter, bl.a. at proveniensprinsippet er overordnet all annen ordning. Med ny utgave av Emneordskatalogisering vil det ikke være et stort behov for nye retningslinjer. Ønsker og behov for indeksering/emneord: Det bør være langt mer samarbeid og standardisering omkring emneord, og bibliotekene må forsøke å nedtone særegenhetene ved egen institusjon, for å få til felles løsninger. Man bør få til en bedre kobling mellom forespørsler i naturlig språk og indekseringsspråket. Kan det være et aktuelt forskningsprosjekt; å koble søketermer og indekstermer, og bruke søkte termer som synonymer (se-henvisninger)? Indeksering av nasjonalbibliografien. Ønsker og behov for emneorddatabaser: Det bør etableres en standard for foretrukne termer på de samme emnene, hvor termene kan brukes av alle bibliotek. Dette bør utgjøre én felles emneordsbase. Ulike brukergrupper trenger ulikt vokabular, men dette burde kunne profileres i visningsformatet, og ikke i selve basen. Det er et stort behov for en gazetteer; en base over standardtermer for geografisk sted. I litteraturformidlingsarbeidet er det behov for emneord til skjønnlitteratur. Bibliotekene bruker nå ressurser som ligger utenfor katalogen, men denne type hjelpemidler bør integreres i selve bibliotekkatalogen. - 9 -

Ønsker og behov for biblioteksystemer: Søk på emner bør ikke gå rett til en treffliste, men vise underemner og relaterte termer, som man kan søke videre på. Systemene bør gi navigasjonsmuligheter i en emneordsliste/tesaurus, som beskrevet i Guidelines for OPAC displays. Bibliotekene savner kortkatalogens fordeler, og vil ha disse tilbake; f.eks. navigering til overordet term/underordnet term, generelle henvisninger, sideordnede, assosiative forbindelser. Systemet må gi en forklaring på hvorfor man får de treffene man får, en tolkning av søkespørsmålet. Man bør få til en bedre utnyttelse av de dataene som allerede ligger i postene, f.eks. ved å forskjellsbehandle emneord, registertermer og nøkkelord; nå behandles alt som nøkkelord. Systemene må gi gode registreringsverktøy for dem som skal indeksere. Dette innebærer en annen problemstilling enn søkefasiliteter for sluttbrukere. Ønsker og behov for et eventuelt prosjekt: En mulighet er å bruke programmet Norsk digitalt bibliotek og rammeverksprosjektet til å få realisert dette. ----- * * * * * ----- Videre arbeid i NKKI: Evaluering av workshopen; mange gode synspunkter kom frem, og seminaret ble gjennomført på en vellykket måte. Det at vi hadde en ekstern møteleder, gjorde at komitémedlemmene kunne delta friere. Referat fra workshopen legges ut på Internett, og komitéen sender ut informasjon om workshopen på biblioteknorge, med invitasjon til innspill. Vi bør også avvente Ellen Hjortsæters nye utgivelse, slik at vi ser hva som er ivaretatt i denne. NKKI bør samle lenker til ressurser, eksisterende emneordslister etc., og ta initiativ til et prosjekt i 2004. På neste NKKI-møte i februar tas det opp hvordan vi konkret skal arbeide videre med dette. - 10 -

VEDLEGG manus til noen av innleggene Lisbeth Eriksen: Behov: Ja, det er behov for mer standardisert bruk av emneord. Min erfaring fra fagog forskningsbiblioteksektoren er at de fleste søker på emneord. Vi legger også vekt på søking på emneord/keywords ved kurs og opplæring av studenter og ansatte. Min erfaring er at søk på emneord - både kontrollerte og frie - er mer presis (gir bedre gjenfinning) enn å søke på ord i tittel, eller ord i sammendrag (abstract). Kontrollerte emneord (tesauri) Internasjonale landbruks- og fiskeri tesauri: Innenfor disse fagområdene finnes det mange tesauri som er bygget opp av termer på grunnlag av dokumenter som registreres til databasene. Det vil jeg tro gjelder også for andre fagområder. NLHs bibliotek har siden 1975 deltatt i oppbyggingen av FNs matvareorg. FAOs tesaurus AGROVOC. Dette er en flerspråklig (multilingual) tesaurus som dekker områdene landbruk, akvakultur, veterinær, skogbruk, natur, miljø og ernæring. AGROVOC er oversatt til FNs offisielle språk engelsk, fransk, spansk, arabisk og kinesisk og andre land som Finland, Portugal og Tsjekkia har på eget initiativ oversatt den til sine språk. AGROVOC inneholder også vitenskapelige termer. Standardisering er viktig ved utvikling av flerspråklige tesauri. FAO ønsker at AGROVOC oversettes til norsk og de andre skandinaviske språkene. NLH har ikke ressurser til å greie dette alene, men det kunne være aktuelt dersom vi hadde flere interesserte norske partnere og det ble laget et samarbeidsprosjekt. Hvilke andre hjelpemidler brukes ved NLHs bibliotek for indeksering av litteratur til BIBSYS: Norsk Landbruksordbok (nynorsk og bokmål) fra 1979 som også har et register på samisk, svensk, dansk, engelsk, tysk, islandsk, finsk samt vitenskapelige termer. Den grønne ordboka på nettet som har termer på engelsk, norsk, tysk og vitenskapelige termer http://www.nlh.no/biblioteket/ordbok/index.php. Kort om Agricultural Ontology Service (AOS) prosjektet: Prosjektet ble startet av FNs matvareorg., FAO i 2000 for å lette gjenfinning av viktige dokumenter på Internett og i store fulltekst arkiv. Dette er dokumenter som ikke registreres i tradisjonelle fagdatabaser, men ligger på servere spredt over hele verden. I AOS prosjektet er bruk av standardiserte termer viktig, fordi tjenesten skal dekke mange språkområder. Prosjektet har valgt å ta utgangspunkt i eksisterende tesauri og emneordslister for å bygge ontologier innenfor bestemte fagområder. Å følge nye internasjonale standarder for ontologier og metadata har vært viktig. Målsettingen med prosjektet er at det skal være både et indekserings- og søkeverktøy. I Fishery Ontology Service som er den delen av AOS som er utviklet lengst er det gjort forsøk med mapping av termer fra ASFA (Aquatic Science and Fishery Abstract) og AGROVOC tesauriene og fra faglige emneordslister. Rapport om arbeidet med denne delen av AOS er under arbeid og snart klar. Fra FAOs side er det ønskelig med konsortier for å få - 11 -

utviklet ontologier innefor spesielle domener (fagfelt). Det største utfordringen er å få til et samarbeide mellom forskere innenfor fagområdene, bibliotekarer og informasjonsspesialister. Ønsker: Et norsk forum hvor man kan jobbe sammen og få emneord/ontologi/tesauri høyere opp på agendaen innenfor ABM-området. Nasjonalbiblioteket, BIBSYS, fagmiljøene (forskning og utvikling) må også være med, og skal Norge ha en mer kunnskapsbasert industri og næringsliv er det også viktig å samarbeide med næringslivet. Norsk komité for klassifikasjon og indeksering (NKKI) kan ha en rolle som koordinator og pådriver for å få ABM miljøene som er innefor samme fagområde til å samarbeide om felles emneord. NKKI kan også ta kontakt med biblioteksmiljøene og finne ut hva som foreligger på norsk av kunnskapsorganisasjonssystemer (KOS) og emneordslister og se om disse kan brukes i utvikling av en felles norsk database over emneord. Databasen kan etterhvert danne grunnlaget for utvikling ontologier innenfor forskjellige fagområder. Hva trenger vi: Åpne fora og miljøer hvor indeksering og ny ideer omkring bruk av klassifikasjonssystemer, tesauri etc. diskuteres. Det er viktig at biblioteksmiljøene som kjenner til gode klassifikasjonssystemer kommer på banen og deltar aktivt sammen med de nye informasjonsmiljøene hvor ontologier og emnekart nå er høyt oppe på agendaen. Vi trenger nye verktøy som gir bedre og mer presis gjenfinning i store fulltekst arkiv enn dagens boolsk søking, og vi trenger systemer som gir de som søker bedre hjelp underveis i søkeprosessen. Grete Seland: Mitt innlegg er i kategorien belyse internasjonal utvikling og nye tanker og tendenser innenfor fagområdet. 1) Hva er WordNet? 2) Hva er potensialet for bruk av WordNet i indeksering? Mitt navn er Grete Seland, og jeg jobber som stipendiat i kunnskapsorganisasjon og gjenfinning her på JBI. Opprinnelig hadde jeg tenkt å bruke det engelske ordnettet WordNet i avhandlingsarbeidet mitt. Slik prosjektet mitt ser ut nå, er ikke WordNet med lenger - men Jon Anjer oppfordret meg til å orientere kort om WordNet her i dag, siden det har relevans for indeksering. Så mitt innlegg kommer under kategorien belyse internasjonal utvikling og nye tanker og tendenser innenfor fagområdet ifølge invitasjonen til denne idédugnaden. Nå kan det godt hende at mange av dere vet mere om dette enn meg men jeg vil altså prøve å kort si noe om hva WordNet er, og hvilken relevans det kan ha for indeksering. Da jeg ble oppmerksom på WordNet i fjor våres, syntes jeg det var svar på behovet for et universelt strukturert vokabular, en universal entry vocabulary, som Svenonius etterlyser i sin bok The intellectual foundation of knowledge organization. WordNet er resultatet av et forskningsprosjekt ved Princeton-universitetet i USA. Der har man prøvd å modellere det mentale leksikonet til morsmålsbrukere av engelsk, og resultatet er et stort elektronisk nettverk med 140.000 ord som er lenket sammen på alle mulige måter hymonymer, meronymer osv. WordNet består av fire adskilte deler, som inneholder hhv. substantiver, verb, adjektiver og adverb. Informasjonen i WordNet er organisert i sett av synonymer. Hver synonymgruppe består av en liste av synonyme - 12 -

ordformer og pekere som beskriver betydningsrelasjonen mellom den aktuelle synonymgruppen og andre synonymgrupper. Til sammen utgjør det hele et enormt elektronisk nettverk hvor det ligger lagret informasjon om betydning både i tilknytning til det enkelte ordet i nettverket, og i relasjonene mellom synonymgruppene. WordNet er altså et nett av ord og sammenhengen mellom disse ordene. Selv om relasjonene mellom ordene i WordNet kan minne om tesaurusrelasjoner, er en vesentlig forskjell mellom WordNet og tesauri i kunnskapsorganisatorisk forstand at WordNet ikke har noe skille mellom autoriserte/foretrukne termer og ikke-autoriserte termer. Opprinnelig ble WordNet laget til bruk i psykolingvistisk testing av barns språklæring men interessen for WordNet har vært vel så stor fra gjenfinningsmiljøet og de som jobber med automatisert oversettelse. Det engelske WordNet har blitt laget manuelt eller skal vi heller si intellektuelt - av leksikografer gjennom mer enn 10 år, så det er et enormt arbeid som er nedlagt. I mange europeiske land er det store WordNet-prosjekter på gang, der man kobler f.eks. det spanske ordnettet sammen med det engelske WordNet på synonymgruppenivå, med de mulighetene man da kan tenke seg for flerspråklig gjenfinning og automatisert oversettelse. Samtidig er det noen som er kritiske til denne koblingen i EuroWordNet-prosjektet fordi engelsk brukes som malen for alle språk - det er jo faktisk ikke slik at det er et én-til-énforhold mellom verken ordplanet eller begrepsplanet i ulike språk. Det foregår masse forskning på feltet, og man har tom. opprettet Global WordNet Association som hadde sin første verdenskonferanse i januar i fjor. Det finnes ikke noe norsk WordNet, eller altså ordnett, pr i dag. Det er imidlertid et prosjekt på gang ved lingvistisk institutt i Bergen. Målet for dette prosjektet er å teste ut om det lar seg gjøre å utlede et norsk ordnett automatisk, med utgangspunkt i et norsk-engelsk parallellkorpus. Det ville i så fall være ekstremt arbeidsbesparende. Hvis det norske prosjektet skulle lykkes, vil jeg anta at det uansett er langt fram til vi har et fullstendig ordnett for det norske språket. Men jeg tror vi vil få det på sikt og det vil jo i så fall være interessant for indekserings- og gjenfinningsmiljøet i Norge. Et ønske jeg har, er at gjenfinningsmiljøet tar initiativ til at miljøene som jobber med WordNet i Norge får kontakt med hverandre - lingvister, datalingvister, leksikografer og de som jobber med indeksering bør kjenne til hverandres forskning. Det foregår også et interessant ordnett-aktig prosjekt ved Universitetet i Oslo som er et samarbeid mellom leksikografisk institutt og tekstlaboratoriet der. Så hvordan kan et ordnett utnyttes i gjenfinning? Veldig mange av de prosjektene jeg har lest om, handler om automatisert gjenfinning, og at det altså ikke involverer noe indekseringsspråk eller intellektuell indeksering. Jeg vil nevne to anvendelsesområder som ser ut til å være i fokus: Det første gjelder fulltekstsøking, og går ut på at man utnytter strukturen i ordnettet til å måle semantisk avstand altså at man måler avstanden i betydning mellom ord. Denne avstanden i betydning mellom to ord måles som antall noder to ord er fra hverandre i nettverket. Så utnytter man dette til å måle den semantiske avstanden mellom søkestrenger og dokumenter. Og dette er jo en helt annen innfallsvinkel enn f.eks. termvekting og andre metoder brukt i fulltekstsøking. Et annet anvendelsesområde man forsker på, er utvidelse av søkestrenger at man f.eks. utvider et søk med alle ord som står i ett trinns avstand fra det ordet man startet med i det semantiske nettverket. Dette kan gjøres automatisk, eller at brukeren tilbys å utvide søke sitt med de semantisk relaterte ordene. Det er også naturlig å sette seg inn i potensialet til WordNet for dem som jobber med indekseringsspråk. Man kunne f.eks. se på om WordNet kan stå i en mellomstilling mellom et indekseringsspråk og det naturlige talte språket altså at WordNet f.eks. kunne være et bindeledd mellom en sluttbruker og et indekseringsspråk brukeren ikke kjenner. Ett av innleggene i rapporten fra WordNet-konferansen i fjor (Iyer, H. & Sharada, B.A. (2002). The WordNet as a vocabulary management tool for indexing language), tar for seg hvordan - 13 -

WordNet kan brukes i kombinasjon med indekseringsspråk. De indiske forfatterne har brukt WordNet sammen med Colon-klassifikasjonsskjemaet til å utvide klassifikasjonsskjemaet og oppdatere det med hierarkiske termer. De har også prøvd å bruke WordNet som en slags søketesaurus som innfallsport til klassifikasjonsskjemaet. Forfatterne forslår også at WordNet kan brukes som en terminologisk hjelp i forberedelsen av et søk, ved at man kan bevege seg rundt omkring i det semantiske hierarkiet. Et par ord om hvordan jeg selv så for meg bruk av ordnett i en tidlig fase av prosjektet mitt: Jeg ønsket å se på om avstanden mellom forespørsler i naturlig språk og resultater i form av indekstermer kunne uttrykkes som en sti gjennom et ordnett. Man kunne f.eks. ta for seg Spør biblioteket-logger som inneholder brukernes henvendelser i naturlig språk, pluss bibliotekarens svar i form av f.eks. en bibliografisk post med emneord. Kan man komme fra det ene til det andre via et ordnett? Det er for tidlig å teste ut dette på norsk, siden vi mangler en norsk utgave av WordNet, men man kunne sett for seg et slikt prosjekt gjennomført med engelske Ask the library -logger. Det knytter seg selvsagt mange problemer til utnyttelsen av WordNet i indeksering og gjenfinning, og dette innlegget var ikke ment som noe uforbeholdent reklameinnlegg. Men jeg synes det er interessant å kjenne til hva WordNet dreier seg om, og hvilke utnyttelsesmuligheter som forskerne ser for seg at det kan ha innen vårt fagfelt. Anne Munkebyaune: Det er jo litt interessant at ordet indeksering betyr så forskjellige ting i forskjellige faglige miljøer, datamiljøet og det bibliotekfaglige. Ikke nok med det, men innen bibliotekfag betyr det også to forskjellige ting: Å sette emneord på og å analysere tidsskrift. Innen datafag betyr det å gjøre noe søkbart for å si det enkelt. Emnekart. Dette med emnekart er jo veldig interessant, men jeg synes ikke det er noe oppsiktsvekkende nytt. Slik jeg ser det, er det et litt avansert emneordssystem, men allikevel bare et emneordssystem. Som det ble sagt på K.org-dagene nylig, kan en godt legge en emnekartstruktur oppå en tesaurus. Jeg er sikker på at mye avansert teknologi også kunne vært lagt oppå et hvilket som helst emneordssystem eller et klassifikasjonssystem hvis noen hadde fattet rette interessen for det. Jeg kunne godt tenkt meg et prosjekt som hadde utforsket og eksperimentert med slikt med tanke på både de som registrerer (indekserer) og sluttbrukerne. Jeg synes det er rart at det ikke har vært fattet større interesse for disse tidligere. Det er også litt rart, men kanskje ikke overraskende lenger, at det måtte til et nytt ord (emnekart) godt innpakket i teknologi før det begynte å skje noe. Sortering. En av mine gamle kjepphester, som jeg ikke har sluppet taket i enda helt, er at søkemulighetene i de bibliografiske dataene blir for dårlig utnyttet. Dette gjelder ikke minste emne- og klassifikasjonsdata. En ting som onlinekatalogene har vært og fremdeles er veldig dårlige på, er sortering. Jeg har ikke helt fått tak på årsaken, men en forklaring er at maskinene ikke har kapasitet til å gjøre det. Faktum er at måten emnegjenfinningen fungerer på reint teknologisk, er som et nøkkelordsystem (ukontrollerte termer). Det vil si som endimensjonale ord-indekser. Selve strukturen som ligger i et emneordssystem blir ikke utnyttet. Det kan virke som at man tror at alt bare er en haug med ord, enten det er nøkkelord eller emneord. I alle fall blir det indeksert (i databetydning av ordet) som om alt var nøkkelord. - 14 -

Bruk av terminologien er også ganske avslørende. Alt blir kalt emneord, enten det er nøkkelord, stikkord, emneord eller registertermer (også kalt indeks-termer). Det blir ofte argumentert med at sluttbrukerne ikke vet forskjell likevel, men det er ikke hva vi kaller ting i sluttbrukergrensesnittene dette handler om, men om hva vi gjør med termene i søkesystemene vi lager. Nøkkelord, emneord og registertermer krever forskjellig teknologi. Et oppløftende trekk ved emnekartene, er at de ikke skal gi oss trefflister direkte, men vise oss en mulighet til å navigere mellom termer. Dette ser jeg på som et framskritt. Jeg har prøvd å søke på sosiologi i noen forskjellige systemer og de gir meg på hundrer eller tusener av treff uten muligheter til å orientere meg i en emneordsstruktur etter hva jeg egentlig leter etter. Et godt gjenfinningssystem burde gi oss mulighet til å orientere oss fram til det vi leter etter uten å måtte lage intrikate søkesetninger eller bare kunne søke på helt spesifikke ting hvor samsvaret mellom søkeordene vi bruker og indekstermene som er brukt på dokumentene stemmer mer eller mindre tilfeldig overens. Viktigheten av å lage gode registreringsredskaper for de som registrerer, kan heller ikke undervurderes. Oftere og oftere ser en at emneordene som settes på, mer bærer preg av å være nøkkelord enn emneord, selv om de nok har vært tenkt brukt som emneord. Men så lenge gjenfinningsredskapene ikke bruker emneordene som emneord, men mer som om de var nøkkelord, ser heller ikke indeksererne nytten eller vitsen med å bruke emneordssystemene. En annen ting som jeg har lurt på er dette med samsøk. I BIBSYS så er det slik at bibliotekene helst vil benytte sine egne emneordslister eller klassifikasjonssystemer som er spesielt tilpasset deres egne samlinger. Det er jo vel og bra det, men hvordan vil disse fungere i samsøk? Til og med de som bruker dewey, vil bruke dewey på hver sine måter spesielt tilpasset egne samlinger, men vil dette kunne uttrykkes i samsøk? Ellen Aabakken: Emneord i bok- og mediabasen: Historisk: DB benyttet ikke katalogkort fra Biblioteksentralen. Vårt emneordsapparat er derfor forskjellig fra Biblioteksentralen sitt. Det vil være en for stor jobb å justere våre emneord til Biblioteksentralens. Siden vår samling er mye større en andre norske folkebiblioteks er det heller ikke hensiktsmessig for gjenfinningen. Det har likevel skjedd en tilnærming til BS-emnene. Vårt emneordsapparat er i stor grad foreldet. Det skjer stadig opprettinger, men det tar tid. Både for å spare tid og på grunn av samsøk forsøker vi i dag både ved opprettinger og ved nye emneord å tilpasse oss BS. Hvis vi ikke finner det brukte emneordet hensiktsmessig, forsøker vi å bruke samme ordstamme eller å utvide det brukte emneordet. Det er et ønske å kunne vise den hierarkiske strukturen bedre og å bruke visning av nabotermlister i større grad (ønsker innenfor dagens system). For sluttbruker og ansatte: Søk på dewey er lite brukt også blant ansatte. Emneord er derfor en svært viktig kilde til gjenfinning. Dagens emneordsapparat og søkesystem gjør at denne typen søk ofte er svært utilfredsstillende. Søkesystemet har utviklet seg positivt og det skjer stadig utvikling. Men for å få en effektiv og moderne gjenfinning kreves det helt nye metoder. - 15 -

Noen punkter: Brukeren møtes med tomme felt (må selv tenke ut og skrive inn begrep) Brukeren får for liten hjelp av henvisninger Brukeren får for liten hjelp ved store treffmengder. F.eks. Søk på Historie gir 16 856 treff. Emneordene er ikke alltid tilpasset brukernes begrepsapparat Emneord i emneportalen: Bruker samme ord som i Bok- og mediabasen for å muliggjøre samsøk. Bruker i liten grad emneord i strenger. Ikke stor forskjell på å sette emneord på en fagressurs på internett og en trykt kilde. Forskjellen ligger i størrelsen på basene Hierarkisk oppbygging med overemner og underemner Navigering og browsing fra lister over emneord og i hierarkiet Savner frie relasjoner og en del smarte løsninger, - men for eksempel emnekart eller heller en emenkartlignende tilnærming, vil trolig kunne løse de fleste av disse problemene Emneord på skjønnlitteratur: Brukt i liten grad på voksenlitteratur Problematisk å «stemple» skjønnlitteratur med emneord Emneordene bør også være et formidlingsverktøy Formidlingsord vil ikke nødvendigvis være det samme som et emneord. Løsning: Legge på emneord som ikke vises i hovedkatalogen, men som vises i eget søk (egen inngang/instans hvor man har større mulighet til å bruke nedtrekksmenyer bl.a.)? Noen spørsmål: Hva skal standarden løse når det gjelder gjenfinning og hva skal søkesystemene løse? Trenger vi en helt ny tilnærmingsmåte? Bør standarden også sette krav til visningen? Utviklingstakt mellom standard og system? Hvilken informasjon skal ligge på dokumentnivå, hvilken skal ligge på emnenivå? (Eksempel: «perspektiv» som det virker som om emnekart vil knytte til emnenivå. Herunder også forholdet til katalogiseringen (marcformatet)). Skjer det så mye så fort at en ny standard vil være foreldet raskt etter at den er publisert? Ønske: En nasjonal ontologi? En nasjonal termbank? (med både faguttrykk, allmenne uttrykk og uttrykk for spesielle brukergrupper. F.eks. barn). Bør vise emneordets plassering hierarkisk og vise relasjoner mellom emner. Kun emner knyttet til dokumenter som biblioteket har er synlige/søkbare i den lokale katalogen. Biblioteket (eller brukerne?) kan selv velge hvilke termer de vil ha synlige. Alle er søkbare (og ev.«browsbare» i spesielle lister?). Systemene står for visning av ontologien. Hvordan kan dette gjennomføres? Dugnadsarbeid? Ulike bibliotek har ansvar for «sine faggrupper»? Sentral redaksjon, men med mulighet for å legge inn forslag? Må være fleksibel og raskt få nye uttrykk på plass. Må ikke bli en bremsekloss for systemleverandører og systembrukere. Det er viktig at alle typer bibliotek støtter og benytter termbanken. Termbanken må være «systemuavhengig» (eller snarere lages som et samarbeid mellom alle de store systemleverandørene) slik at den kan benyttes av alle systemer. - 16 -

Hvilken standard skal disse nasjonale basene/registrene lages etter? Hvordan skape eierskap? Unngå bruk av særløsninger? (Enkelte fagmiljøer vil ønske internasjonalt samarbeid.) - 17 -