N-grammer fra NBdigital 2021

Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder «tokens» (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert).

Kolonnene i CSV-filene med n-grammer er som følger:
– first – det første ordet i n-grammet (i uni-, bi- og trigrammer)
– second – det andre ordet i n-grammet (i bi- og trigrammer)
– third – det tredje ordet i n-grammet (i trigrammer)
– lang – språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå)
– freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser
– json – et dictionary med råfrekvens per år

totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.

metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/.

Se dokumentasjonsfilene for mer informasjon.

totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram.

Se dokumentasjonsfilene for mer informasjon.

Last ned ressurser

Utvidet metadata

Last ned metadata (CMDI XML)

Last ned metadata (CMDI XML) https://www.nb.no/sprakbanken/oai?verb=GetRecord&identifier=oai:nb.no:sbr-70&metadataPrefix=cmdi

dc:type	corpus
dc:title	N-grammer fra NBdigital 2021
dc:identifier	oai:nb.no:sbr-70
dc:description	Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på basis av et materiale bestående av om lag 580.000 bøker og 3.400.000 aviser, til sammen ca. 122 milliarder "tokens" (ord og tegnsetting). N-grammene finnes på CSV-format (UTF-8-kodert). Kolonnene i CSV-filene med n-grammer er som følger: – first – det første ordet i n-grammet (i uni-, bi- og trigrammer) – second – det andre ordet i n-grammet (i bi- og trigrammer) – third – det tredje ordet i n-grammet (i trigrammer) – lang – språkkode for n-grammet (gjelder kun bøker, avisene har ingen språkklassifikasjon per nå) – freq – den totale frekvensen for n-grammet i samlingen av bøker eller aviser – json – et dictionary med råfrekvens per år totals.json inneholder totalfrekvenser innenfor årganger i bok- og aviskorpuset. Med disse kan man lett regne ut relativfrekvenser for sammenlikning på tvers av år som i NB N-gram. metadata-digibok.csv og metadata-digavis.csv inneholder enkle metadata for alle bøkene og avisene som inngår i bok- og aviskorpuset. Hvis du er interessert i mer utførlige metadata, henviser vi til Oria eller NBs APIer under https://api.nb.no/. Se dokumentasjonsfilene for mer informasjon.
dc:publisher
dc:format	downloadable
dc:date	2021-06-01
dc:date	2021-10-28
dc:rights	Public
dc:rights	Creative Commons (CC)
dc:rights	Creative_Commons-ZERO (CC-ZERO)
dc:rights	https://creativecommons.org/publicdomain/zero/1.0/
dc:creator	Magnus Breder Birkenes
dc:creator	Lars Johnsen
dc:lang	bokmål
dc:lang	nynorsk
dc:lang	nordsamisk
dc:lang	sørsamisk
dc:lang	lulesamisk
dc:lang	kvensk

N-grammer fra NBdigital 2021

Last ned ressurser

Utvidet metadata

Dublin Core (DC)

Last ned metadata (CMDI XML)