2024-03-28T15:48:33.079Z
https://www.nb.no/sprakbanken/oai
Arne Martinus Lindstad
2021-10-30
https://www.nb.no/sprakbanken/oai?verb=GetRecord&identifier=oai:nb.no:sbr-76&metadataPrefix=cmdi
clarin.eu:cr1:p_1407745711925
Språkbanken NB
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-digavis-unigram.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-digavis-bigram.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-digavis-trigram.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-digibok-unigram.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-digibok-bigram.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-digibok-trigram.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-metadata-digavis.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-metadata-digibok.csv.gz
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-totals.json
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-README-eng.md
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/ngram-2022-README-nob.md
Resource
https://www.nb.no/sbfil/ngram/ngram_2022/2022_NBngram.pdf
corpus
N-grammer fra NBdigital 2022
N-grams from NBdigital 2022
Dette korpuset inneholder n-grammer – uni-, bi- og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per 15. juli 2022. N-grammene er laget på basis av et materiale bestående av om lag 610.000 bøker og 4.000.000 avishefter, til sammen ca. 138,5 milliarder "tokens" (ord og tegnsetting). Filformatet er UTF-8-kodert CSV.
Kolonnene i CSV-filene med n-grammer er som følger:
- first - det første ordet i n-grammet (i uni-, bi- og trigram)
- second - det andre ordet i n-grammet (i bi- og trigram)
- third - det tredje ordet i n-grammet (i trigram)
- lang - språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
- freq - den totale frekvensen for n-grammet i samlingen av bøker eller aviser
- json - et dictionary med råfrekvens per år
totals.json inneholder totalfrekvenser innenfor årganger i hhv. bok- og avismaterialet. Med disse kan man lett regne ut relativfrekvenser for sammenligning på tvers av år som i NB N-gram.
metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.
Se dokumentasjonsfilene for mer informasjon.
This resource contains n-grams - i.e. uni-, bi- and trigrams - from all books and newspapers that had been digitized at the National Library of Norway up to July 15 2022. The n-grams have been extracted from a material consisting of approximately 610,000 books and 4,000,000 newspapers, amounting to a total of 138.5 billion tokens (words and punctuation). The file format is UTF-8-encoded CSV.
Columns in the n-gram CSV files:
- first - the first word (in uni-, bi- and trigrams)
- second - the second word (in bi- and trigrams)
- third - the third word (in trigrams)
- lang - the language of the n-gram (only for books, the newspapers have no language classification as yet)
- freq - the total frequency of the n-gram in the collection of books and newspapers
- json - a dictionary with raw frequency for each year
totals.json contains aggregated frequencies per year in the book and newspaper corpora. Using them, relative frequencies can be calculated in order to compare frequencies over time as in NB N-gram.
metadata-digibok.csv and metadata-digavis.csv contain simple metadata for the books and newspapers. More extensive metadata can be obtained through Oria or the APIs at https://api.nb.no/.
See the documentation files for further information.
NBngram2022
NBngram2022
https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-76/
hdl:21.11146/76
sbr-76
Public
downloadable
https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-76/
Creative Commons (CC)
Creative_Commons-ZERO (CC-ZERO)
https://creativecommons.org/publicdomain/zero/1.0/
organization
Licensor
Nasjonalbiblioteket
National Library of Norway
NB
NLN
Språkbanken
The Language Bank
sprakbanken@nb.no
https://www.nb.no/sprakbanken/
P.O. Box 2674 Solli
0203
Oslo
Oslo
Norway
organization
Contact
Nasjonalbiblioteket
National Library of Norway
NB
NLN
Språkbanken
The Language Bank
sprakbanken@nb.no
https://www.nb.no/sprakbanken/
P.O. Box 2674 Solli
0203
Oslo
Oslo
Norway
2022-12-21
English
en
2023-08-08
person
Metadata Creator
Lindstad
Arne Martinus
Nasjonalbiblioteket
National Library of Norway
NB
NLN
Språkbanken
The Language Bank
sprakbanken@nb.no
https://www.nb.no/sprakbanken/
P.O. Box 2674 Solli
0203
Oslo
Oslo
Norway
2022
2022-12-21
documentation
Documentation files in English and Norwegian. Metadata files accompanying the data.
2022-07-15
2022-12-21
person
Resource Creator
Birkenes
Magnus Breder
Nasjonalbiblioteket
National Library of Norway
NB
NLN
Språkbanken
The Language Bank
sprakbanken@nb.no
https://www.nb.no/sprakbanken/
P.O. Box 2674 Solli
0203
Oslo
Oslo
Norway
person
Rsource Creator
Johnsen
Lars
Nasjonalbiblioteket
National Library of Norway
NB
NLN
Språkbanken
The Language Bank
sprakbanken@nb.no
https://www.nb.no/sprakbanken/
P.O. Box 2674 Solli
0203
Oslo
Oslo
Norway
Ngram Corpus
textNgram
word
3
text/csv
8
files
138446410995
tokens
47,6
gb
application/json
1
files
21
kb
UTF-8
multilingual
other
N-grams extracted from text in several languages. Text from digitized books of varying genre and newspapers.
nb
Norwegian Bokmål
nn
Norwegian Nynorsk
se
Northern Sami
sma
Southern Sami
smj
Lule Sami
fkv
Kven
writtenLanguage
Text from digitized books and newspapers.
138446410995
tokens
4610000
other
138446410995
tokens
4610000
other
1800-2022