Import av bibliografiske data. Versjon 9, 2004-11-01 Oppdatert: 2006-05-23 Jan Erik Garshol Arnvid Hellebust Innholdsfortegnelse Innledning... 2 1. Nye bibliotek/samlinger og import... 3 2. Gangen i en import, trinn for trinn... 5 2.1 Innledende rydding og importsøknad... 5 2.2 Godkjenning av søknad og importavtale... 5 2.3 Avlevering og konvertering.... 5 2.4 Import og etterarbeid... 5 Vedlegg A... 6 Hvorfor det er nødvendig å rydde i bibliografiske data.... 6 Retningslinjer for rydding i bibliografiske data ved import til BIBSYS.... 6 Ryddeliste... 7 Poster som skal importeres må i utgangspunktet minimum tilfredsstille følgende krav:... 7 Vedlegg B... 8 Hva skjer ved import av bibliografiske data.... 8 Fil med data for strekkodeetiketter... 10 Vedlegg C... 11 Behandling av importdata fra Micromarc (NORMARC), 2004-20-12... 11 Vedlegg D... 12 Spesifikasjon av samlingskoder/utlånskoder... 12
Innledning BIBSYS importerer hvert år bibliografiske data. Hovedtyngden utgjøres av nye bibliotek, men vi importerer også data fra samlinger ved eksisterende BIBSYS-bibliotek. Denne tilveksten utgjør opptil 50 000 nye objektposter hvert år. BIBSYS stiller strenge krav til bibliografiske data for import. Det betyr at det enkelte bibliotek bør kvalitetssikre sine data før en ev. import og ellers være kjent med hvordan BIBSYS legger opp arbeidet med import av bibliografiske data. Kostnaden ved en import er direkte knyttet til kvaliteten på importdataene og andelen av MARC standarden som er tatt i bruk. Dette dokumentet beskriver hvilke krav vi stiller til bibliotek som ønsker å få sine bibliografiske data importert til BIBSYS-basen. Dersom biblioteket av forskjellige årsaker ikke kan etterkomme disse kravene evtentuelt ikke ønsker import til BIBSYS-basen, men til egen spesialdatabase, eller ikke kan levere gode nok import data, så må det utarbeides særskilte avtaler. Normen er at BIBSYS må rydde alle importdata manuelt.
1. Nye bibliotek/samlinger og import Når en ny institusjon blitt tatt opp som deltager i BIBSYS-samarbeidet og får rett til å bruke BIBSYS Biblioteksystem, kan BIBSYS importere bibliotekets eksisterende database til Bibliotekbasen. BIBSYS kan også importere bibliografiske data for bibliotek som allerede har tatt i bruk BIBSYS Biblioteksystem. Bibliografiske data som ønskes importert til Bibliotekbasen, må tilfredsstille følgende krav: de må leveres i ett av følgende formater: BIBSYSMARC, NORMARC eller MARC21 de må ha tilfredsstillende kvalitet, både med tanke på bibliografisk innhold (Katalogiseringsregler) og MARC standarden brukt ved registrering i henhold til BIBSYSMARC. de må leveres i henhold til ISO-2709 eller NORMARC linjeformat (formattering) de må være lagret med Unicode UTF-8, ISO 8859-1 eller DOS Codepage 850 (tegnsett) For at BIBSYS skal kunne tilby en standard importavtale, i henhold til styrevedtak s-2003/14, så må de dataene som ønskes importert foreligge i BIBSYSMARC ferdig rydda fra biblioteket. Dersom dataene ikke foreligger i BIBSYSMARC og BIBSYS må utføre rydding/konvertering, må det inngås en spesialavtale for import. Bibliografiske data som ikke foreligger i formatene BIBSYSMARC, NORMARC eller MARC21 kan vurderes for import dersom det foreligger en konverteringstabell mellom dette formatet og BIBSYSMARC. Bibliotek som ønsker import av bibliografiske data må avlevere en kopi av basene sine slik at BIBSYS kan vurdere om de kan tilby en standard importavtale, eller om det må inngås en spesialavtale for import. Importavtalen regulerer tidsfristen for bibliotekets avlevering av data, og tidsfristen for når importen skal være gjennomført og hvilke kostnader som vil påløpe. Alle poster som ikke kan godtas uten større endringer/rettinger tas ut og returneres for manuell registrering ved biblioteket. Hele prosessen er skjematisk framstilt på fig. 1.1.
Figur 1.1: Skjematisk framstilling av gangen ved import av bibliografiske data. (Det har ennå ikke forekommet data som ikke har blitt godkjent for import, men dårlig kvalitet på data vil medføre høyere pris.)
2. Gangen i en import, trinn for trinn. 2.1 Innledende rydding og importsøknad Når biblioteket har fått innvilget deltakelse i BIBSYS og ønsker import, må de begynne å forberede en prøveavlevering ved å rydde i basen ut fra de retningslinjene vi har gitt i vedlegg A. Etter at den innledende ryddingen er ferdig, tar biblioteket kontakt med BIBSYS for testavlevering av sine bibliografiske poster som ønskes importert. 2.2 Godkjenning av søknad og importavtale. BIBSYS vurderer de medfølgende bibliografiske postene. Dersom kvaliteten på de bibliografiske postene er tilfredstillende, utarbeides en importavtale hvor tidsfrister, ansvarsforhold og pris m.m. inngår. 2.3 Avlevering og konvertering. Biblioteket avleverer til avtalt tidspunkt dataene i det format og den kvalitet som er avtalefestet. Biblioteket må også fylle ut skjema for samlingskoder (hvis slike ønskes) og innholdskoder. Det er viktig at disse skjemaene er riktig utfyllt, da opplysningene som er gitt benyttes til å skille ut aktuelle poster for spesialbehandling. Skjemaene er vist i vedlegg D. Under forutsetning av at biblioteket leverer dataene til avtalt tidspunkt, vil BIBSYS utføre arbeidet med å konvertere og importere dataene i henhold til den tidsrammen som er angitt i avtalen. NB: Dersom biblioteket ikke klarer å avlevere dataene innen fristen, risikerer det å havne sist i importkøen for å unngå forsinkelser av andre importer. Så lenge BIBSYS holder på med konverteringen, må biblioteket stille til rådighet en eller flere kontaktpersoner som BIBSYS kan kontakte når akutte problemstillinger dukker opp. Det forutsettes at disse personene har god kjennskap til egen base og har kompetanse i bruk av BIBSYS. Poster som fremdeles ikke tilfredsstiller våre krav, vil under konverteringen bli skilt ut og disse returneres senere samlet til biblioteket for manuell registrering. Når konverteringen er ferdig, sendes et utvalg poster både i original og konvertert form til biblioteket for kontroll. 2.4 Import og etterarbeid. Etter at dataene er importert til BIBSYS-basen, sender vi lister over poster som er importert, men som må duplikatsjekkes manuelt. Denne duplikatsjekken skal biblioteket være ferdig med innen tre måneder etter importdato. For de bibliotekene som ønsker det, kan vi også levere filer med data for strekkodeetiketter for de importerte postene, men selve etikettene blir ikke lenger laget av BIBSYS. Alle poster som sendes i retur, må biblioteket registrere manuelt, men her opererer vi ikke med noen tidsfrister. Se ellers vedlegg B.
Vedlegg A Hvorfor det er nødvendig å rydde i bibliografiske data. Baser som skal importeres vil i utgangspunktet i større eller mindre grad være beheftet med en rekke feil, mangler og inkonsekvent registrering. I tillegg vil slike baser som regel komme fra et lokalt system (Mikromarc, Bibliofil, SIFT m.m.) og registreringspraksisen vil derfor være avvikende fra det som kreves av et felles system som BIBSYS. Årsakene til at det forekommer feil og uregelmessigheter i baser som skal importeres skyldes hovedsakelig: Det lokale systemet foretar ingen sjekk av marckoder og delfelt (slik BIBSYS-systemet gjør). Dette åpner for både registrering av skrivefeil og "fri" bruk av marckoder og delfelt. Det lokale systemet er bare brukt av biblioteket internt. Lokale noter og anmerkninger kan derfor forekomme i felt som i BIBSYS-systemet kun skal inneholde generell informasjon. NORMARC standaren tillater innhold i «Lokale noter»-felt som må ligge i eit lukket felt i BIBSYSMARC, for eksempel må alle 5XX-felt med «Biblioteket har (...)», «I kasse merket (...)» etc. flyttes. Dersom flere personer står/har stått for registreringen, forekommer ofte "personlige vrier" som vanskeliggjør en systematisk bearbeidelse av dataene senere. For eksempel ulik bruk av forkortelser i oppstillingssignaturer og bruk av forskjellige navneformer, ja endog forskjellig bruk av marcfelt. Flerbindsverk blir registrert med alle bind på en og samme post. I BIBSYS skal flerbindsverk lenkes på to eller flere nivå. Registrering av analytter på hovedposten. I BIBSYS skal analytter registreres som egne poster og linkes til hovedposten. Noen av postene har tidligere vært importert fra en eldre versjon av det lokale systemet eller fra et annet system. Retningslinjer for rydding i bibliografiske data ved import til BIBSYS. Her er noen generelle retningslinjer for rydding, med utgangspunkt i data som er registrert i NORMARC. Dersom det i tillegg forekommer feil og mangler av mer spesiell art, må BIBSYS informeres om dette, slik at vi kan komme med forslag og innspill til hva som i tilfelle må gjøres. En oversikt over BIBSYSMARC kan også være til hjelp i forbindelse med ryddingen. (BIBSYSMARC fullversjon finnes på http://www.bibsys.no/handbok/marc/) Til syvende og sist vil det uansett være poster som ikke lar seg konvertere/importere etter avlevering, men må returneres for å legges inn manuelt. Eksempel på dette er ikke-fysiske eksemplar (I-analytter og musikk-kutt) og ellers poster hvor man må ha tilgang til selve dokumentet for å kunne finne data for manglende obligatoriske felt. Hvor stor del av dataene som kan importeres, avhenger av hvor godt ryddearbeidet er blitt utført.
Ryddeliste 1. Poster som representerer tapt eller slettet materiale skal i utgangspunktet ikke leveres med importdataene. I tilfelle slikt materiale er med, skal det kunne spesifiseres på en entydig og enkel måte hvordan det skal identifiseres. 2. Feil marcfelt og delfelt som skyldes feilinntastinger skal rettes opp. 3. Dersom postene gjenspeiler forskjellig praksis i registreringen, skal dette rettes opp og standardiseres. 4. Marcfelt som er obligatoriske for import må være registrerte. Disse feltene er 245 $a (tittel), minst ett av feltene 260 $a, $b eller $c (sted, forlag, år) og 008 $a Fysisk form, $b Innholds kode. 5. Lokale noter skilles ut i egne felt. 6. Flerbindsverk må ikke være registrert med flere bind på samme post. Flerbindsverk skal være registrert med en post pr. bind, samt en post for selve verket. For slike poster skal identifikatorverdien i 760 og 762 følge med postene. 7. Eksemplardata som representerer forskjellige utgaver eller forlag m.m. skal ikke være registrert på samme post. 8. Poster som representerer analytter importeres ikke. (Tilsvarende importeres ikke kutt (sporposter) ved import av musikkposter.) Slike poster må fjernes eller gis en entydig identifikasjon. 9. Dersom det skal tas vare på lokale noter i eksemplardataene, må notene være registrert i samme delfelt på alle postene. 10. Navneformer i hoved- og biinnførsler standardiseres, slik at for eksempel en og samme forfatter alltid er registrert med samme navneform. 11. Postene må ha korrekt og identifiserbar angivelse av fysisk form og materiale (300 $a, 245 $h). 12. Innførsler på personnavn og korporasjon skal være registrert i hhv. marcfelt 100, 600, 700 og 110, 610, 710. 13. Hvis ISBN eller ISSN forekommer, må numrene være korrekte og være angitt i riktig MARC-delfelt. Poster som skal importeres må i utgangspunktet minimum tilfredsstille følgende krav: Objektposten må representere et fysisk dokument, analytter eller musikk-kutt (sporposter) importeres ikke, da disse må lenkes til en vertspost (det fysiske eksemplaret). Alternativ så må denne lenkingen utføres i etterkant, enten automatisk og/eller manuelt. Alle eksemplardata som er tilknyttet objektposten må representere samme type dokument (samme fysiske form, samme utgave). Dersom dette ikke er tilfelle, må det opprettes nye objektposter med bibliografiske data for dokumenter som ikke er av samme type. Flerbindsverk skal være registrert med en objektpost for hvert bind. Identiske eksemplarer må være tilknyttet samme objektpost og ikke være registrert som dubletter. Tittel (245 $a) og minst ett av feltene 260 $a, $b, $c må være registrert. Innholdet i hvert marcfelt må være entydig og følge de spesifikasjonene som er gitt. Dersom for eksempel 100 $a er spesifisert for personnavn, må ikke annen type informasjon finnes i dette feltet. Lokale noter på objektposten skal være skilt fra ut fra generelle noter og ligge i egne felt.
Vedlegg B Hva skjer ved import av bibliografiske data. Med tanke på det etterarbeidet som biblioteket må utføre etter importen, kan det være nyttig å vite hva som skjer ved en import og hvorfor dette etterarbeidet må gjøres. De bibliografiske dataene i BIBSYS-basen er inndelt i to nivå, objektposter og dokumentposter. Objektposten inneholder bibliografiske data som er felles for alle bibliotek (for eksempel forfatter, tittel, sideantall, ISBN, etc.). Objektposten inneholder i tillegg emnedata der hvert bibliotek har sine egne emnedata (for eksempel Dewey, lokal klassifikasjon, lokale emneord, etc.). Til alle objektposter er det tilknyttet en eller flere dokumentposter. Dokumentpostene representerer selve eksemplarene i de enkelte bibliotek og inneholder opplysninger om eierbibliotek, avdeling, samling, oppstillingssignatur m.m. Objektpostene og dokumentpostene har unike ID-nummer som vi kaller hhv., OBJEKTID og DOKID (se fig. B.1.) Figur B.1: Sammenhengen mellom objektposter og dokumentposter.
Hver post i importdataene inneholder både bibliografiske data (fellesdata), emnedata og eksemplardata (data for dokumentposter). I og med at de bibliografiske dataene er fellesdata, må vi først sjekke om objektposten finnes fra før. Finnes objektposten fra før, er de bibliografiske dataene alt registrert, finnes ikke objektposten fra før, må vi opprette en ny objektpost med bibliografiske data fra importposten. Emnedata og eksemplardata er ikke fellesdata, importpostens emnedata kopieres inn på objektposten og det opprettes en ny dokumentpost for hvert sett eksemplardata. Disse dokumentpostene blir tilknyttet objektposten og kommer i tillegg til de som ev. finnes fra før. NB: Dersom objektposten finnes fra før i BIBSYS vil importpostens status avgjøre om den skal erstatte BIBSYS-posten. Importposten vil erstatte BIBSYS-posten kun i de tilfellene importpostens status er høyest. Normalt settes importpostens status så lavt at kun et fåtall av importpostene vil erstatte BIBSYS-postene. Dersom kvaliteten på de importerte postene er svært god, kan vi imidlertid gi importpostene en høyere status. Ved importen leses en og en importpost og det sjekkes først om denne finnes fra før eller ikke. Ovenfor har vi beskrevet hva som skjer dersom posten enten finnes eller ikke finnes fra før i basen. Ofte vil imidlertid en slik automatisk dublettsjekk ikke kunne avgjøre helt sikkert om posten finnes eller ikke. En finner mange poster som ligner, men ingen som er "helt lik". I slike tilfelle opprettes det en ny objektpost med tilhørende dokumentposter (som i det tilfellet posten ikke finnes fra før), men disse objektpostene får en egen status, imp. I tillegg genereres det en liste over alle postene som har fått status imp. Etter importen må biblioteket gå gjennom disse listene manuelt post for post for å avgjøre om posten skal knyttes til en annen post eller om posten skal være som den er (men få status endret fra imp til ukatm.) Denne duplikatkontrollen skal biblioteket normalt være ferdig med innen tre måneder fra importdato.
Fil med data for strekkodeetiketter Dersom biblioteket ønsker å klistre etiketter der dokumentets DOKID er gitt som strekkode, kan BIBSYS levere de dataene som er nødvendige for dette. Dataene leveres på en fil der hver post representerer ett dokument. Posten består av tre linjer, der første linje inneholder dokumentets DOKID, andre linje dokumentets oppstillingssignatur (avdelingskode, samlingskode og hyllesign m.m.) og tredje linje inneholder dokumentets tittel, forfatter og årstall. Det er viktig at hver enkelt strekkodeetikett klistres på riktig dokument og for å gjøre det lettere å kontrollere dette, skrives dokumentets ID (hvis det eksisterer) fra det gamle systemet ut i slutten av linje to på formen (k<id>) (se fig. B.2). Strekkodeetikettene kan dermed produseres med gammelt ID synlig på etiketten. I tillegg vil gammelt ID på samme form bli vist bak dokumentene i BIBSØK og Bibsøk Nett, sammen med det gamle systemets objektid på formen (t< objektid >) (se fig. B.3) Dataene på fila leveres sortert etter samling og oppstillingssignatur. NB: Når biblioteket ikke lenger trenger gamle ID i visningsskjermer, lar en BIBSYS få beskjed om dette, slik at vi kan fjerne dem maskinelt. Figur B.2: Eksempel på data for strekkodeetiketter for importerte poster. Eksemplarener IDnummer fra gammelt system er her vist med uthevet skrift. Figur B.3: Eksempel på visning av importerte poster i bibsøk. Eksemplet viser de samme eksemplarene som det er vist strekkodedata for i B.2
Vedlegg C Behandling av importdata fra Micromarc (NORMARC), 2004-20-12 Standard behandling av enkelte MARCID/DELFELT (MARCID i kursiv gjelder kun musikkposter). 008 $a, $b er obligatoriske og må være registrerte for at posten skal kunne bli importert. 020 $a, $b og $z beholdes. $g kan beholdes. 022 $a beholdes (hvis korrekt). $z flyttes til $y. 024 $a, $g, $x* og $z beholdes. (musikk) (*I BIBSYS marc er $x obligatorisk) 028 $a beholdes. (Må også registreres som note i 500 $a) (musikk) 041 $a overføres til 008 $c 045 $a beholdes. Ved repeterte $a, slås innholdet sammen med skilletegn " ; ". 080 $a beholdes hvis $z = h. Ved repeterte 080 vil andre $a overføres til $b. 082 $a behandles som for 080. $x beholdes. 096 $a overføres til 096 $c (hyllesignatur). 099 $b overføres til 096 $e (eks.nr.) og fortekst fjernes. BIBSYS-dokid (vanligvis $k) legges i 096 $n og beholdes ved import. 100 $a, $b, $c, $d, $q og $w beholdes. $e fjernes (for musikkposter benyttes $e for instrument). 110 $a, $b, $c, $d, $g, $n, $q og $w beholdes. $e fjernes. 111 $a, $c, $d, $g, $n, $q og $w beholdes. 130 $a, $d, $f, $k, $l, $m, $n, $o, $p, $q, $r, $s og $w beholdes. 240 $a, $d, $g, $i, $k, $l, $m, $n, $o, $p, $q, $r, $s og $w beholdes. 245 $a, $b, $c, $h, $n, $p og $w beholdes. $t overføres til 246 $a 246 $a, $b, $c og $w beholdes. 250 $a og $b beholdes. 260 $a, $b, $c og $f beholdes. 300 $a, $b, $c og $e beholdes. 440 $a, $n, $p, $v og $w beholdes. $b/$c hektes på $a med skilletegn f.eks. " / ". $x fjernes. 490 $a beholdes. 5xx $a endres til 500 $a. Unntak: Lokale noter fjernes. Originaltittel (vanligvis 572 eller 574) overføres til 241, hvis det er mulig å skille dem ut. 505 konverteres til 740, hvis mulig (noter). 511 konverteres til 700/710, hvis mulig (innspilt musikk). 600 $a, $b, $c, $d, $i, $m, $n, $o, $p, $q, $r, $s, $t, $u og $w beholdes. 610 $a, $b, $c, $d, $n, $q, $t, $u og $w beholdes. 611 $a, $c, $d, $n, $q, $t, $u og $w beholdes. 630 $a, $b, $d, $f, $k, $l, $m, $n, $o, $p, $q, $r, $s og $w beholdes. 65X Dersom emneordene er kontrollerte kan vi overføre til 687. $a til $a, $c/$y til $y, $d/$z til $z, $w til $w, $x til $b, $v til $x og $0 til $c. For ukontrollerte emneord foretrekker vi å overføre til 691 $a. 652 $a og $w beholdes (musikk) 655 $a og $w beholdes (musikk) 658 $a, $b og $w beholdes (musikk) 700 $a, $b, $c, $d, $i, $k, $l, $m, $n, $o, $p, $q, $r, $s, $t, $u og $w beholdes. $e fjernes. (for innspilt musikk beholdes $e). 710 $a, $b, $c, $d, $g, $n, $q, $t, $u og $w beholdes. $e fjernes. 711 $a, $c, $d, $g, $n, $q, $t, $u og $w beholdes. 730 $a, $b, $d, $f, $k, $l, $m, $n, $o, $p, $q, $r, $s og $w beholdes. 740 $a, $n, $p og $w beholdes. 830 $a, $n, $p, $q, $v og $w beholdes. Dersom det er viktig for biblioteket å få med opplysninger som ligger i andre marcid/delfelt enn de som er spesifisert over, må dette avtales spesielt.
Vedlegg D Spesifikasjon av samlingskoder/utlånskoder Skjema for spesifikasjon av samlingskoder/utlånskoder (BIBSYSMARC 096 $b/096 $h). Disse marcfeltene vil legges til dokumentposter som tilfredsstiller de kriteriene som blir gitt i skjemaet. Nederst i skjemaet er det vist eksempel på korrekt utfylling. Figur D.1: Eksemple på hvordan vise hvilke deler av sammlingen som skal ha hva sammlingskode.
Skjema for spesifikasjon av informasjonskoder (BIBSYSMARC 008 $a/008 $b). Disse marcfeltene vil legges til poster som tilfredsstiller de kriteriene som blir gitt i skjemaet. Nederst i skjemaet er det vist eksempel på korrekt utfylling. Før skjema fylles ut, må en sjekke sist oppdaterte versjon av kodene som finnes her: http://www.bibsys.no/handbok/marc/marc-04.htm#p751_21276 Figur D.2: Eksemple på hvordan vise hvilke deler av sammlingen som skal ha hva 008 koder.