Hopp til innhold

N-gram frå NBdigital

Dette korpuset inneheld n-gram – unigram, bigram og trigram – frå alle bøker og aviser som var digitaliserte ved Nasjonalbiblioteket fram til september 2013. Dei er laga på basis av eit material på om lag 220.000 bøker og 540.000 aviser.

N-gramma finst i to format, CSV og SQLite: CSV vil vera mest interessant for dei fleste utviklarar, sidan det er lett å importere desse inn i vanleg programvare. SQLite-filene inneheld ferdig indekserte SQL-databasar som vert brukte i tenesta NB N-gram. Brukarar som ynskjer å bidra i utviklinga av NB N-gram kan laste ned kjeldekoden på GitHub og SQLite-databasane frå denne sida.

Ei ordteljing fordelt på kjelde (avis/bok) og språkform (bokmål/nynorsk) finst i json-fila.

Dette korpuset inneheld n-gram – unigram, bigram og trigram – frå alle bøker og aviser som var digitaliserte ved Nasjonalbiblioteket fram til september 2013. Dei er laga på basis av eit material på om lag 220.000 bøker og 540.000 aviser.

N-gramma finst i to format, CSV og SQLite: CSV vil vera mest interessant for dei fleste utviklarar, sidan det er lett å importere desse inn i vanleg programvare. SQLite-filene inneheld ferdig indekserte SQL-databasar som vert brukte i tenesta NB N-gram. Brukarar som ynskjer å bidra i utviklinga av NB N-gram kan laste ned kjeldekoden på GitHub og SQLite-databasane frå denne sida.

Ei ordteljing fordelt på kjelde (avis/bok) og språkform (bokmål/nynorsk) finst i json-fila.

Utvidet metadata

Last ned ressurser

Last ned metadata