Arkiv for 23. mars, 2011

Vil Nasjonalbiblioteket tilby epub-filer av bøker som er fri?

8 Kommentarer

Her er svaret nei. Det vil bli en nærmest uoverkommelig oppgave.
Når bøker er ”falt i det fri”, som det heter på bibliotekspråket, altså ikke er belagt med rettigheter, vil det være mulig å laste ned en PDF med teksten fra Bokhylla.no. Denne PDFen har såkalt ”hidden text.” Når boka blir digitalisert, blir den OCR-behandla (det skanna bildet av sida ”oversettes” til tekst av en programvare) og strukturbehandla ( en annen programvare finner ut hva som innholdsfortegnelse, avsnitt, overskrifter, og lignende) Det er dette som gjør at alle enkeltbildene ser ut som ”ei bok” på nett, ikke bare et kaos av bilder, at det mulig å søke i teksten, og å gå til ei bestemt side. Det er for så vidt ganske enkelt å ta denne ”skjulte teksten” ut av PDF’en og gjøre den om til epub-format, men OCR- og strukturprogramvare vil aldri bli perfekt, og de eksperimentene for eksempel jeg har gjort med å lage ebøker av råteksten (og gratisprogramvare fra nett), har ikke blitt bra. Vi har eksempler på at andre klarer det helt fint, se for eksempel disse to Fridtjof Nansen-bøkene som er laga med utgangspunkt i Nasjonalbibliotekets nedlastbare PDFer.
Men dette er for arbeidskrevende håndarbeid til at NB kan prioritere det, vi har 450.000 bøker å digitalisere og er ferdig med 160.000 så langt. Du må gjerne prøve deg som ebok-produsent vha dertil egna programvare. Fortell oss i så fall hvordan det gikk

Jeg henger ved en mer teknisk korrekt begrunnelse for valget vi har gjort:

Selv om bøkene i Bokhylla er OCR-behandlet så vil det alltid bli en del feil i teksten. Dette er et marginalt problem for søking, siden en veldig stor prosentandel av ordene tross alt er korrekte. Mange vil imidlertid oppfatte dette som mer skjemmende i en tekst som skal leses, som jo vil være tilfelle hvis vi bruker den OCR-behandlede teksten til å lage en bok i epub-formatet. Forsøk hos oss har vist at det krever en god del innsats å gå gjennom en OCR-behandlet tekst for å korrekturlese denne 100%. Siden Nasjonalbiblioteket digitaliserer ca 1000 bøker hver uke så er det en helt uoverkommelig oppgave for oss å gjøre korrekturlesing. Det ville krevd flere hundre årsverk per år. I tillegg kommer arbeidet med å inkludere grafiske elementer i en eventuell epub-versjon. Disse må klippes ut av det digitaliserte dokumentet og plasseres inn i epub-formatet på en fornuftig måte.

Dette er en type jobb som det ikke er naturlig for Nasjonalbiblioteket å gjøre.