Bokhylla - NBdigital

   
Søk i alle bøker i NBdigital.      hjelp

 
 

 

Digitalisering av bøker i Nasjonalbiblioteket

Svein Arne Solbakk



Digitalisering av bøker
I denne artikkelen får du en kort oversikt over tenkning og produksjonsløyper i digitaliseringsprosjektet. Hele artikkelen finner du her.

Produksjonslinjene
Arbeidsprosessene i produksjonslinja for digitalisering av bøker består av mange sammenhengende steg, fra utvalg til bestilling, uthenting av materiale fra magasin, transport til digitalisering, henting av metadata fra katalog, digitalisering, OCR-behandling og strukturanalyse, etterprosessering av digitalt bilde, formatkonvertering, generering av bevaringsobjekt, innlegging i Digitalt sikringsmagasin, varsling til katalog om digitalt objekt og indeksering av OCR-tekst og metadata i søkemotoren.

Automatlageret

Vi har ønsket å automatisere så mye som mulig av dataflyt og behandling av den digitale boka.

Prioriteringer
Basis for digitaliseringen er det systematiske uttaket. Vi har valgt å starte med det eldste materialet for raskt å få materialet som har falt i det fri ut i vårt digitale bibliotek. I tillegg til det systematiske uttaket prioriteres materiale spesielt med utgangspunkt i interne behov og eksterne forespørsler. Spesielt prioritert materiale gis prioritet foran det systematiske uttaket. I forbindelse med Bokhylla-satsingen er materiale fra 1690-1699, 1790-1799, 1890-1899 og 1990-1999 gitt spesiell prioritet.

Bestilling og uttak fra magasin
For å effektivisere uttak av materiale til digitalisering, er det utviklet en egen funksjonalitet for dette i Bibsys som er vårt katalogsystem for bøker. Her kan vi bestille ut et gitt antall titler til demontering, der systemet automatisk velger titler vi har mange nok eksemplar av, og starter med det eldste. I tillegg kan vi bestille ut enkelttitler som skal prioriteres spesielt (både ved uttak fra magasin og gjennom hele produksjonslinjen). Det er også gjort tilpassinger i programvaren som styrer vårt automatlager for bøker, slik at operatørene kan prioritere fjernlån først, og deretter ta ut bøker til digitalisering. Dette systemet er integrert med katalogen, slik at bøkene som bestilles til digitalisering, automatisk dukker opp i grensesnittet til operatørene av automatlagret.

Automatisk bladskanner

Det er brukt mer enn ett årsverk til systemtilpassinger av katalogen og programvaren for automatlagret.

Digitaliseringen
For bøkene som demonteres, har vi i dag to hydrauliske sakser, tre permskannere (i2s Copibook) og to skannere med automatisert fremtrekk (Agfa S 655). For bla-skanningen brukes i2s Digibook Suprascan. Der har vi fem A2-skannere for normal bla-skanning og en A0-skanner for spesielt materiale. A0-skanneren brukes av konservatorer. I tillegg har vi en skanner som blar automatisk (4digitalBooks DL3000).

Før permene skannes, hentes alle metadata om boka inn fra katalogen (Bibsys) ved å bruke en strekkode som finnes på alle bøkene som er registrert i Bibsys. Det genereres da en digital id for boken som legges inn i en XML-fil sammen med de metadataene som er hentet fra katalogen.

For autoskanningen skrives det etter permskanningen ut et ark med en ny strekkode som inneholder bokens digitale id. Dette arket legges øverst i bunken med den demonterte boka. Når strekkoden senere kjøres gjennom autoskanneren, identifiseres strekkoden. Dermed koples sidene i boken automatisk til metadatafilen og den innskannede permen.

Normal blad-skanning

For bla-skanningen skannes permen og innholdet i boka på samme skannerutstyr. Også i denne prosessen hentes metadata fra katalogen, og det genereres en XML-fil med metadata som følger boka videre i prosessen.

OCR/DSA
Etter digitaliseringen legges den digitale boka med tilhørende metadata i et temporært lager klar for videre prosessering. Bøkene må importeres manuelt inn i programvaren docWorks, men derfra er prosesseringen av de fleste bøkene helautomatisert. Manuelle operatører brukes kun til verifisering av tagging av innholdsfortegnelse og ved avvikshåndtering når programvaren melder om feil i behandlingen av boka (dvs. at behandlingen ikke lyktes innenfor definerte grenseverdier for feiltoleranse, eller at det varsles om inkonsistens i sidenummer).

I tillegg brukes operatører til kvalitetskontroll for spesielle deler av samlingen som vi ønsker å behandle utover det normale.

Fargekorrigering
Bøkene som behandles av manuelle skannere eller skannere som blar automatisk, gis et autentisk uttrykk ved at fargene i den digitale boka skal være lik fargene i originalen.

Bøkene som demonteres og skannes i automatiserte skannere fargekorrigeres etter skanning. Målet der er å bringe bøkene nært opp mot bokas tilstand når den ble utgitt, og at det dermed skapes et uniformt uttrykk for disse bøkene. Color Factory brukes til fargekorrigeringen.

Etter OCR, dokumentstrukturanalyse og evt. fargekorrigering, genereres tapsfritt komprimerte JPEG2000-filer for bevaring og JPEG-filer for formidling av alle bildefilene i boka.

Digital bevaring
NÃ¥r bevaringsformatet er klart genereres et METS-objekt med metadata, den digitale boka, den OCR-behandlede teksten og strukturinformasjon. Dette objektet legges inn i NBs digitale sikringsmagasin for bevaring.

Samtidig oppdateres katalogen med bokas digitale id.

Indeksering
Det gjøres jevnlig en OAI-import av data fra katalogen. Hvis denne importen avdekker at en bok er blitt oppdatert med digital id, iverksettes en prosess som henter metadata og teksten til boka fra det digitale sikringsmagasinet og indekserer begge deler slik at boka blir tilgjengelig for søk i NBdigital.


Teknologi i Bokhylla-prosjektet

For å håndtere Bokhylla-prosjektet brukes 46 servere, 50 Terabyte disk til mellomlagring, 10 skannere og 6 arbeidsstasjoner