Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder «tokens» (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).
Kolonnene i CSV-filene med n-grammer er som følger:
– first – det første ordet i n-grammet (i uni-, bi- og trigrammer)
– second – det andre ordet i n-grammet (i bi- og trigrammer)
– third – det tredje ordet i n-grammet (i trigrammer)
– lang – språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
– freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser
– json – et dictionary med råfrekvens per år
totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.
metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.
Se dokumentasjonsfilene for mer informasjon.
Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder «tokens» (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).
Kolonnene i CSV-filene med n-grammer er som følger:
– first – det første ordet i n-grammet (i uni-, bi- og trigrammer)
– second – det andre ordet i n-grammet (i bi- og trigrammer)
– third – det tredje ordet i n-grammet (i trigrammer)
– lang – språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
– freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser
– json – et dictionary med råfrekvens per år
totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.
metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.
Se dokumentasjonsfilene for mer informasjon.
Utvidet metadata
resource Common Info:
resource Type: corpus
identification Info:
resource Name: N-grammer fra NBdigital 2021
resource Name: N-grams from NBdigital 2021
description: Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder "tokens" (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).
Kolonnene i CSV-filene med n-grammer er som følger:
– first – det første ordet i n-grammet (i uni-, bi- og trigrammer)
– second – det andre ordet i n-grammet (i bi- og trigrammer)
– third – det tredje ordet i n-grammet (i trigrammer)
– lang – språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
– freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser
– json – et dictionary med råfrekvens per år
totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.
metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.
Se dokumentasjonsfilene for mer informasjon.
description: This resource contains n-grams – i.e. unigrams, bigrams and trigrams – from all books and newspapers that had been digitized at the National Library of Norway up to July 2021. The n-grams have been extracted from a material consisting of approximately 580,000 books and 3,400,000 newspapers, amounting to a total of 122 billion tokens (words and punctuation). The n-grams are offered as CSV files (UTF-8-encoded).
Columns in the n-gram CSV files:
– first – the first word (in uni-, bi- and trigrams)
– second – the second word (in bi- and trigrams)
– third – the third word (in trigrams)
– lang – the language of the n-gram (only regarding books, newspapers have no language classification as for now)
– freq – the total frequency of the n-gram in the collection of books or newspapers
– json – a dictionary with raw frequency for each year
totals.json contains aggregated frequencies per year in the book and newspaper corpora. Using these numbers, relative frequencies can be calculated in order to compare frequencies over time as in NB N-gram.
metadata-digibok.csv and metadata-digavis.csv contain simple metadata for the books and newspapers. If you need more extensive metadata, you could use Oria or the APIs at https://api.nb.no/.
See the documentation files for further information.
multilinguality Type Details: Independent text in several languages
language Info:
language Id: nb
language Name: Norwegian Bokmål
language Info:
language Id: nn
language Name: Norwegian Nynorsk
language Info:
language Id: se
language Name: Northern Sami
language Info:
language Id: sma
language Name: Southern Sami
language Info:
language Id: smj
language Name: Lule Sami
language Info:
language Id: fkv
language Name: Kven
modality Info:
modality Type: writtenLanguage
modality Type Details: Text from digitized books and newspapers.
size Per Modality:
size Info:
size: 121834422207
size Unit: tokens
size Info:
size: 3980000
size Unit: texts
size Info:
size: 121834422207
size Unit: tokens
size Info:
size: 3980000
size Unit: texts
time Coverage Info:
time Coverage: 1800-2021
dc:type
corpus
dc:title
N-grammer fra NBdigital 2021
dc:identifier
oai:nb.no:sbr-70
dc:description
Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder "tokens" (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).
Kolonnene i CSV-filene med n-grammer er som følger:
– first – det første ordet i n-grammet (i uni-, bi- og trigrammer)
– second – det andre ordet i n-grammet (i bi- og trigrammer)
– third – det tredje ordet i n-grammet (i trigrammer)
– lang – språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
– freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser
– json – et dictionary med råfrekvens per år
totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.
metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.
Se dokumentasjonsfilene for mer informasjon.