Vil Nasjonalbiblioteket tilby epub-filer av bøker som er fri?
Her er svaret nei. Det vil bli en nærmest uoverkommelig oppgave.
Når bøker er ”falt i det fri”, som det heter på bibliotekspråket, altså ikke er belagt med rettigheter, vil det være mulig å laste ned en PDF med teksten fra Bokhylla.no. Denne PDFen har såkalt ”hidden text.” Når boka blir digitalisert, blir den OCR-behandla (det skanna bildet av sida ”oversettes” til tekst av en programvare) og strukturbehandla ( en annen programvare finner ut hva som innholdsfortegnelse, avsnitt, overskrifter, og lignende) Det er dette som gjør at alle enkeltbildene ser ut som ”ei bok” på nett, ikke bare et kaos av bilder, at det mulig å søke i teksten, og å gå til ei bestemt side. Det er for så vidt ganske enkelt å ta denne ”skjulte teksten” ut av PDF’en og gjøre den om til epub-format, men OCR- og strukturprogramvare vil aldri bli perfekt, og de eksperimentene for eksempel jeg har gjort med å lage ebøker av råteksten (og gratisprogramvare fra nett), har ikke blitt bra. Vi har eksempler på at andre klarer det helt fint, se for eksempel disse to Fridtjof Nansen-bøkene som er laga med utgangspunkt i Nasjonalbibliotekets nedlastbare PDFer.
Men dette er for arbeidskrevende håndarbeid til at NB kan prioritere det, vi har 450.000 bøker å digitalisere og er ferdig med 160.000 så langt. Du må gjerne prøve deg som ebok-produsent vha dertil egna programvare. Fortell oss i så fall hvordan det gikk
Jeg henger ved en mer teknisk korrekt begrunnelse for valget vi har gjort:
Selv om bøkene i Bokhylla er OCR-behandlet så vil det alltid bli en del feil i teksten. Dette er et marginalt problem for søking, siden en veldig stor prosentandel av ordene tross alt er korrekte. Mange vil imidlertid oppfatte dette som mer skjemmende i en tekst som skal leses, som jo vil være tilfelle hvis vi bruker den OCR-behandlede teksten til å lage en bok i epub-formatet. Forsøk hos oss har vist at det krever en god del innsats å gå gjennom en OCR-behandlet tekst for å korrekturlese denne 100%. Siden Nasjonalbiblioteket digitaliserer ca 1000 bøker hver uke så er det en helt uoverkommelig oppgave for oss å gjøre korrekturlesing. Det ville krevd flere hundre årsverk per år. I tillegg kommer arbeidet med å inkludere grafiske elementer i en eventuell epub-versjon. Disse må klippes ut av det digitaliserte dokumentet og plasseres inn i epub-formatet på en fornuftig måte.
Dette er en type jobb som det ikke er naturlig for Nasjonalbiblioteket å gjøre.
Diskusjon
Du kan legge igjen en kommentar, eller trackback fra din egen side. Om du ønsker å bruke
OpenID kan du fylle inn feltet merket Nettsted med din
OpenID i tillegg til at du legger igjen en kommentar.

23/03/2011, klokken 13:53
Takk for en svært instruktiv oppklaring!
23/03/2011, klokken 23:42
Selv om det ikke er en oppgave for NB korrekturlese OCR-behandla bøker, er det oppgave som kan settes ut til frivillige på nettet (“crowdsources”). Prosjekt Gutenberg og Prosjekt Runeberg har mange år latt frivillige ta seg av korrekturlesing av skannede sider ved hjelp av wiki-programvaren Distributed Proofreaders.
Slik ser f.eks. en side av Nansens bok fra 1888 ut skan+tekst
http://runeberg.org/paaski/0314.html
http://en.wikipedia.org/wiki/Distributed_Proofreaders
24/03/2011, klokken 10:45
Takk for innspillet. Vi er opptatt av at materialet i Nasjonalbiblioteket skal bli mest mulig brukt, og har diskutert løsninger som Gutenberg og Runeberg bruker. Hva som skal være Nasjonalbibliotekets rolle, er imidlertid ikke selvinnlysende. Vi ønsker at brukerne skal finne materiale som er fritt, der brukerne er; derfor legger vi for eksempel fotografier ut på flickr, leverer filer til Runeberg og oppfordrer brukerne til å ta materialet i bruk på sin måte. Det er et åpent spørsmål om Nasjonalbiblioteket skal ha en aktiv rolle feks i forhold til korrekturlesing på nettet. Kanskje er Runeberg best rusta til det?
24/05/2011, klokken 23:00
Jeg har laget noen epub-versjoner av bøker fra NBDigital, inkludert Nansen-bøkene refert til tidligere i denne tråden. Kvaliteten på OCR i bøkene varierer; på sitt beste er den svært god. I disse tilfellene ville det vært forholdsvis enkelt og lite tidkrevende å formatere bøkene til epub hvis det ikke hadde vært for en særegenhet ved NB sin OCR: Bindestreker for enden av linjer blir fjernet. Å legge disse inn igjen er helt klart den mest tidkrevende delen av tilretteleggingen for epub. Resten, slik som gjenkjenning av avsnitt, fot- og bunn-tekster, fotnoter, og overskrifter kan helt eller delvis automatiseres med kreativ bruk av søkemønstre.
Når det gjelder kvaliteten på korrekturlesingen har jeg ikke strebet etter 100%, men nøyd meg med et nivå hvor jeg selv føler at mengden feil ikke er til konstant sjenanse under lesing.
Forøvrig har jeg i tillegg til “Paa ski over Grønland” og “Eskimoliv” også laget ebok-versjoner av Mathias Skard sin (heller forkortede) versjon av Gunnlaug Ormstunges Soge, og gjort mitt lille bidrag til 100-års jubileet for erobringen av sydpolen i form av en elektronisk versjon av Amundsens beretning om ekspedisjonen. I likhet med Nansen-bøkene er de basert på PDF-filene tilgjengelig fra NB, og er lagt ut på http://www.mobileread.com/.
09/06/2012, klokken 23:26
Takk til Nasjonalbiblioteket for å ha lagt ut en versjon av “Jernvognen” av Stein Riverton som har falt i det fri! Jeg har laget en ebok-versjon av den, som vanlig tilgjengelig på mobileread.com, http://www.mobileread.com/forums/showthread.php?t=180900
23/08/2012, klokken 21:08
Vil også nevne Wikikilden – et av Wikipedias søsterprosjekt – for den som leter etter transkriberte bøker.
29/08/2012, klokken 01:22
Hvorfor ikke bare starte med å lage ikke-korrekturleste ePub av de bøkene som ikke har noen grafikk-elementer og så legge dem ut med en advarsel om at “denne kan inneholde skrivefeil” (med link til en tekst som forklarer hvorfor). Hvis dere gjør det kan dere be alle som finner feil om å sende inn info om det, og så kan dere fikse de feilene uten å måtte ansette masse folk for å finne dem. Kan sikkert lage et automatisk system for å fikse feil hvis X antall personer sier fra om den nøyaktig samme feilen også…?
Hadde ikke det vær kult da? Cory Doctorow gjorde dette med sin bok With a little help. Han fikk raskt masse tips om skrivefeil og fikk retta dem. Han brukte som incentiv til å sende inn tips at du ville få navnet ditt på en egen takke-side. Det kan jo dere og bruke.
08/10/2012, klokken 22:17
Som artikkelen påpeker, så brukes allerede NBD til å lage transkriberte utgaver av norske bøker – på andre nettsider. Det er et par problemer man møter på når man holder på med dette:
1. For noen bøker, er kvaliteten på OCR særdeles lav, dette gjelder særlig for bøker skrevet med fraktur (‘gotisk skrift’): OCR fra NBD inneholder da gjerne så mange feil at det er raskere å skrive inn teksten selv, heller enn å rette den opprinnelige OCR-en.
2. Siden det er flere nettsider som driver med slik produksjon, som nevnt, Project Gutenberg, Runeberg, Wikikilden, i tillegg til personer som gjør det på individuell basis, er det en viss fare for duplikasjon av innsatsen (samme OCR korrekturleses kanskje 4 ganger av 4 personer på forskjellige nettsider).
3. Norsk er et lite språk, og det er derfor få som potensielt kan bidra til slik korrekturlesning av OCR fra NBD, det er enda færre som faktisk gjør det. Jeg har allerede nevnt problemet med at flere kan gjøre korrekturlese den samme boken flere ganger – dette fører til at masse (frivillig) tid brukes til å utføre ett stykke arbeid, mens den samme mengden tid kunne blitt brukt til å korrekturlese mange bøker.
4. Dette har ingenting med selve korrekturlesningen av OCR og publisering av e-bøker, men for meg virker det som at NB er svært restriktive med sine e-bøker, og at flere e-bøker som (øyensynlig) er falt i det fri, likevel ikke er tilgjengelige for nedlasting.