Nye runder mot mål

I de siste ukene har vi kjørt nye runder på flere områder for å forbedre tjenesten. Etter at den første runden med deduplisering var kjørt, så vi at vi hadde flere dubletter enn vi var fornøyd med.Vi endret da parametrene for deduplisering, gjorde dem mindre strenge. Dette førte til en kraftig reduksjon av antall poster i tjenesten (ca 160 000 poster), og dermed av antall dubletter.

En del dubletter får vi ikke gjort noe med fordi datagrunnlaget er for dårlig, feil i dataene eller ulik registreringspraksis slår ut. Et eksempel er at noen bibliotek legger inn en egen post i basen med  ”hurtiglån” som en del av tittelen. Da blir ikke denne slått sammen med de andre postene, det finnes poster både med ”hurtiglån”, ”ekspresslån” og ”ukeslån” i tjenesten. Slike data hører ikke hjemme i tittelfeltet i en katalogpost, det bør være mulig for biblioteksystemene å håndtere denne type lån på eksemplarnivå. Vi håper at vi etter hvert skal få luket ut slike poster bra Biblioteksøk.

Noen feil oppstår fordi vi ikke greier å identifisere og koble materialtyper riktig. Pga ulik registreringspraksis har noen titler fått tilordnet feil materialtype, noen lydbøker er for eksempel blitt bøker.  Disse titlene blir helt riktig ikke slått sammen med den trykte utgaven, men i trefflisten framstår de som en dublett. Her må vi gå en ny runde med dataene og prøve å finne andre dataelement enn det vi har brukt til nå, for å bestemme materialtypen.

Vi har lagt til nye fasetter som gir avgrensningsmulighet på språk og år. Igjen ser vi at vi at feil i datagrunnlaget gir utslag i grensesnittet. Språk representeres  i katalogpostene med koder som oversettes til naturlig språk i grensesnittet. Når koder registreres feil, blir også visningen feil.

Innhøsting av data går også framover. Alle BIBSYS-bibliotek er høstet, 48 Bibliofil-bibliotek er høstet. Av disse er det faktisk 22 bibliotek som tidligere ikke leverte til Samkatalogen for bøker. I tillegg har noen Mikromarc og Tidemann-bibliotek kommet med. Disse bibliotekene leverer via FTP i påvente av at systemene skal få OAI-PMH på plass. Her har mange mindre bibliotek gjort mye velvillig innsats for å eksportere data til Biblioteksøk.

Vi fortsetter å laste inn data fra en del bibliotek som ligger i kø, og nye som kommer til, men nå skal de fleste data fra bibliotekene som har levert, være tilgjengelig i tjenesten.

Fjernlånet virker, og er testet mot et lite antall bibliotek. Det gjenstår fortsatt noe testing og feilretting før all visning av eierbibliotek er i orden, men de som ønsker kan nå sende reelle fjernlånsbestillinger gjennom tjenesten. Ta et lite forbehold for feil og mangler så lenge tjenesten er under utvikling. Bestillingene mottas på samme måte som bestillinger fra Samkatalogen for bøker.

I det hele tatt, nå er tjenesten så noenlunde der den skal være i første runde. Vi fortsetter litt til med feilretting og finpussing før vi når første milepæl, å avslutte Samkatalogen for bøker.

I dag presenteres Biblioteksøk på Biblioteklederkonferansen 2011 i Mo i Rana.

Dette innlegget ble publisert i Biblioteksøk. Bokmerk permalenken.

2 kommentarer til Nye runder mot mål

  1. Vidar Lund sier:

    Eg ser ved søk i Biblioteksøk at dette framleis er eit problem. Er det verkeleg slik at bibliotek registrerer “Hurtiglån” m.m. i *24510$a?? Eller legg dei inn det i $b? Elles bør det vera mogleg å bruke BIBBI- eller Norbok-postane som utgangspunkt og slå saman v.h.a. ISBN og 6 fyrste teikn i 245 $a.

  2. trineaa sier:

    Det er riktig at vi ser varianter på ”Hurtiglån” og lignende i 245 $a. ISBN er en av parametrene i dedupliseringsalgoritmen som benyttes. Det å benytte et bestemt antall tegn fra 245 $a ville vært ideelt hvis alle titler hadde hatt ISBN eller annen standardnummerering i tillegg. Vi har med overlegg valgt å holde dedupliseringsalgoritmen forholdsvis rigid inntil videre. Årsaken er at datagrunnlaget er mye mer variert enn først antatt og vi så raskt faren for at poster som ikke skal dedupliseres ble det. BIBBI- og Norbok-poster kommer indirekte inn i Bibliotkesøk via de ulike biblioteksystemene. Uansett hvilke poster som defineres som master, må de øvrige postene sammenlignes med disse og utfordringen med variasjoner i katalogpraksis møter vi likevel.

Legg igjen et svar

Din e-post vil ikke bli publisert. Obligatoriske felt er merket med *

*

Du kan bruke disse HTML-kodene og -egenskapene: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>