Tekst  28.10.2021

N-grammer fra NBdigital 2021

Dette korpuset inneholder n-grammer – unigrammer, bigrammer og trigrammer – fra alle bøker og aviser som var blitt digitalisert ved Nasjonalbiblioteket per juli 2021. N-grammene er laget på …

  • Språk: Norwegian Bokmål, Norwegian Nynorsk, Northern Sami, Southern Sami, Lule Sami, Kven
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Leksikon  28.09.2021

ONOMASTICA uttaleleksikon 2

ONOMASTICA versjon 2 er ein oppdatert versjon av ONOMASTICA. For å gjere uttaleleksikonet enklare tilgjengeleg, har Språkbanken parsa dei originale .on-filene og generert ei fil i .csv-format. Fila …

  • Språk: Norwegian
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-BY (CC-BY)
Tekst  09.09.2021

Omsetjingsminne frå Nynorsk pressekontor

Dette korpuset inneheld omsetjingar frå bokmål til nynorsk av nyhendetekst frå Norsk telegrambyrå (NTB). Tekstene er omsette av Nynorsk pressekontor (NPK), som nyttar den såkalla Nynorskroboten …

  • Språk: Norwegian Bokmål, Norwegian Nynorsk
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tale  09.09.2021

Stortingskorpuset

Dette er den første stabile versjonen (versjon 1.0) av Stortingskorpuset (engelsk forkorting NPSC). Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av …

  • Språk: Norwegian
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tekst  18.08.2021

Omsetjingsminne frå EFTA

Desse omsetjingsminna er laga ved EEA Coordination Division ved Det europeiske frihandelsforbundet EFTAs sekretariat i Brussel, som mellom anna arbeider med omsetjing og publikasjonar i EFTA. …

  • Språk: English, Norwegian Bokmål, Norwegian Nynorsk
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tekst  29.06.2021

LIA-trebanken

LIA-trebanken består av 5250 talemålssegment og 55 410 ord/token frå talespråkskorpuset LIA norsk. Trebanken er annotert morfologisk og syntaktisk og manuelt korrigert. Trebanken er tilgjengelig …

  • Språk: Norwegian, Norwegian Nynorsk
  • Opphav: CLARINO Text Laboratory Centre
  • Lisens: Creative_Commons-BY-NC-SA (CC-BY-NC-SA)
Tale  14.06.2021

NST dansk ATG-database (16 kHz) – reorganisert

Denne databasen er laget av Nordisk språkteknologi som datagrunnlag for talegjenkjenning og diktering på dansk. I denne versjonen er dataene strukturert på nytt, slik at databasen enklere kommer …

  • Språk: Danish
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tale, Tekst  04.05.2021

TAUS – Talemålsundersøkelsen i Oslo

Materialet fra Talemålsundersøkelsen i Oslo (TAUS) er basert på uformelle intervjuer med folk fra Oslo, som ble gjort i 1971-73. Informantene er hovedsakelig fra to østlige bydeler (Vålerenga og …

  • Språk: Norwegian, Norwegian Bokmål
  • Opphav: CLARINO Text Laboratory Centre
  • Lisens: CLARIN_ACA-NC-LOC-PRIV-ND-*
Tekst  04.05.2021

TAUS – nedlastbare transkripsjoner

TAUS (Talemålsundersøkelsen i Oslo) v.3 er et talespråkskorpus med 86 talere og 387 551 tokens. Denne nedlastbare versjoner inneholder transkripsjonene, cirka 44 300 tokens. Alle transkripsjonene …

  • Språk: Norwegian, Norwegian Bokmål
  • Opphav: CLARINO Text Laboratory Centre
  • Lisens: Creative_Commons-BY-NC-SA (CC-BY-NC-SA)
Tekst  30.04.2021

Målfrid 2021 – Fritt tilgjengelege tekster frå norske statlege nettsider

Dette korpuset inneheld dokument frå 339 internettdomene tilknytta norske, statlege institusjonar. Totalt består materialet av omlag 4,1 milliardar "tokens" (ord og spørsmålsteikn, punktum osb.), …

  • Språk: Norwegian Bokmål, Norwegian Nynorsk, Northern Sami, Southern Sami, Lule Sami, English
  • Opphav: Språkbanken
  • Lisens: Norwegian Licence for Open Government Data (NLOD)