Hopp til innhold

N-grammer fra NBdigital 2022

Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per 15. juli 2022. N-grammene er laget på basis av et materiale bestående av om lag 610.000 bøker og 4.000.000 aviser, til sammen ca. 138,5 milliarder «tokens» (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).

Kolonnene i CSV-filene med n-grammer er som følger:
– first – det første ordet i n-grammet (i unigram, bigram og trigram)
– second – det andre ordet i n-grammet (i bigram og trigram)
– third – det tredje ordet i n-grammet (i trigram)
– lang – språkkode for n-grammet (bare i bøker, aviser har ingen språkklassifikasjon per nå)
– freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser
– json – et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.

metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Se dokumentasjonsfilene for mer informasjon.

Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per 15. juli 2022. N-grammene er laget på basis av et materiale bestående av om lag 610.000 bøker og 4.000.000 aviser, til sammen ca. 138,5 milliarder «tokens» (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).

Kolonnene i CSV-filene med n-grammer er som følger:
– first – det første ordet i n-grammet (i unigram, bigram og trigram)
– second – det andre ordet i n-grammet (i bigram og trigram)
– third – det tredje ordet i n-grammet (i trigram)
– lang – språkkode for n-grammet (bare i bøker, aviser har ingen språkklassifikasjon per nå)
– freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser
– json – et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.

metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Se dokumentasjonsfilene for mer informasjon.

Utvidet metadata

Last ned ressurser

Last ned metadata