Fritt tilgjengelige tekster, versjon 1 Det foreliggende materiale består av tekster fra NB Digital som ikke er underlagt opphavsrettslige restriksjoner (lenger). Materialet består av 26344 OCR-behandlede tekster fordelt på 10756 ulike forfattere og andre tekstprodusenter (f.eks. offentlige institusjoner). Tekstene i NB Digital er digitaliserte versjoner av papirutgavene, produsert for lesing på skjerm. Det man ser på skjermen er et fotografi av hver enkelt bokside, og hver side er koblet til xml-data som blant annet inneholder den OCR-behandlede teksten (denne teksten danner grunnlaget for søket i det digitale Nasjonalbiblioteket). Den foreliggende tekstsamlingen er basert på disse xml-dataene. Materialet kan lastes ned som komprimerte tar.gz-filer som inneholder tekstene i to formater: html- og tekstfiler uten noen koding. Tegnkodingen er UTF-8 for begge formatene. Utpakking av de komprimerte filene inneholder et nivå med mapper gruppert etter forfatter. Hver mappe inneholder alle tekstene fra én forfatter. Filnavnene inneholder en del metainformasjon. Her er et filnavn fra Henrik Ibsens verker, der hvert felt er skilt med bindestrek: digibok_2009032603016-1898-nob-876-Ibsen_Henrik-Brand_et_dramatisk_digt.txt Det første feltet er strengen digibok_2009032603016 som er en identifikator for å finne teksten i NB-digital. Bygg opp en URL til NB-digital slik: http://urn.nb.no/URN:NBN:no-nb_digibok_ 2009032603016 Andre felt er utgivelsesår, og tredje er en trebokstavskode for språk (ISO-standard). Fjerde felt representerer et desimaltall, og skal leses 0.876. Tallet måler konfidensen OCR-programvaren har til kvaliteten på teksten. Jo høyere, jo bedre. Femte felt er forfatternavnet, og sjette og siste felt er starten på tittelen. Navn og tittel er omkodet til ikke å inneholde annet enn tegn fra ASCII. Ekstensjonen på filnavnet er enten .txt, for rene tekstfiler, eller .html for filer kodet som HTML. HTML-filene har også et eget
-element som koder metadatainformasjonen, og som ikke er begrenset av lengde eller omkoding av norske tegn. Den inneholder også en lenke til teksten i NB-digital

0.87618929249199

http://urn.nb.no/URN:NBN:no-nb_digibok_2009032603016

Brand et dramatisk digt

Ibsen, Henrik

1898

nob

Kvaliteten på tekstene er varierende avhengig av hvor god OCR-lesingen er. Samlingen inneholder tekster på mange språk. Dataene i tabellen under er automatisk generert og kan inneholde feil. Se http://en.wikipedia.org/wiki/ISO_639-3 for forklaring av språkkodene: Språk Antall (iso639-3) tekster ------------------------- nob 13708 dan 2112 1824 nno 977 und 888 eng 371 ger 347 mul nob eng 180 lat 160 swe 126 fre 100 mul eng nob 75 nob eng 43 mul nob nno 38 fre eng 37 mul nob ger 35 dut 24 mul nno nob 24 sme 23 mul ger nob 21 non 21 mul nob fre 18 fin 14 mul fre nob 13 ita 12 mul lat nob 12 mul nob swe 10 mul nob dan 9 mul nob lat 8 nob ger 8 ice 8 rus 8 swe nob 7 mul dan nob 7 mul sme nob 7 mul nob non 6 mul dan fre 5 mul lat dan 5 nob swe 5 dan lat 4 eng lat 4 cze 4 grc 4 nob fre 4 nno ger 4 tib 4 mul nob eng ger 4 mul nob sme 4 mul dan lat 4 spa 3 mul dan ger 3 swe dan 3 eng fre 3 mul eng nno 3 gre 3 mul nob dan swe 3 swe ger 3 fre dan 3 eng nob 3 mul nob swe dan 3 swe fre 2 sme nob 2 mul non dan 2 mul dan swe 2 ger nob 2 nno nob 2 dan swe 2 mul dan ger nob 2 mul swe fre 2 nno eng 2 fin nor 2 hun 2 mul eng dan 2 mul swe nob 2 dan ger 2 und nob 2 mul den lat 1 mul grc nob 1 mul sme lat swe 1 mul non dan lat 1 mul nob got 1 mul nob eng fre 1 mul ger lat 1 mul ice dan 1 mul gre dan 1 mul non nno 1 den 1 pol 1 mul nno eng 1 mul fre ger ita 1 mul nno dan eng 1 mul nno sme 1 mul nob eng eng 1 mul dan nob eng 1 dan nob 1 nob grc 1 mul nob ice fao 1 mul nob nno lat ger 1 mul nob dan swe eng 1 mul nob lat ger 1 mul ice nob 1 ger dan 1 cze nob 1 hun nob 1 mul nno dan 1 mul sme nob lat 1 dut lat 1 mul sme dan 1 mul ice swe lat 1 mul non nob 1 ger eng 1 mul ice nob nno 1 mul eng ger 1 por 1 mul nno nob eng 1 mul dan dan 1 mul nob swe ger 1 mul nno nob dan swe 1 ger fre 1 lat grc 1 dan fre 1 mul nob eng dan swe 1 zxx 1 ger lat 1 mul lat ger 1 mul nob grc 1 mul nob swe sme 1 mul eng lat 1 mul nob dan ger 1 mul ger dan 1 mul dan eng swe nob 1 mul nob eng fin 1 nob ara 1 mul lat heb 1 mul dan eng 1 sma 1 epo 1 mul nob gre 1 und nno 1 mul dan nob swe 1 eng dan 1 mul nob fre eng ger 1 rus ger nob 1 mul fre dan 1 mul dan ice 1 mul spa aym 1 mul nob eng swe dan nno 1 dut nor 1 nob dan 1 mul 1 mul nob eng dan 1 mul swe dan 1 mul sme nno 1 swe lat 1 lav 1 mul lat gre heb 1 kal 1 san 1 Nasjonalbiblioteket, 2015-05-26