Tale  23.10.2020

Stortingskorpuset

Dette er ein betaversjon (versjon 0.1) av Stortingskorpuset (engelsk forkorting NPSC). Korpuset er under oppbygging ved Språkbanken på Nasjonalbiblioteket i perioden 2019-2020. NPSC er samansett av …

  • Språk: Norwegian
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tale  31.07.2020

NST norsk ATG-database (16 kHz) – reorganisert

Denne databasen er laget av Nordisk språkteknologi som datagrunnlag for talegjenkjenning og diktering på norsk. I denne versjonen er dataene strukturert på nytt, slik at databasen enklere kommer …

  • Språk: Norwegian
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tale  15.07.2020

NST svensk ATG-database (16 kHz) – reorganisert

Denne databasen er laget av Nordisk språkteknologi som datagrunnlag for talegjenkjenning og diktering på svensk. I denne versjonen er dataene strukturert på nytt, slik at databasen enklere kommer …

  • Språk: Swedish
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tale  01.07.2020

NST dansk ATG-database (16 kHz) – reorganisert

Denne databasen er laget av Nordisk språkteknologi som datagrunnlag for talegjenkjenning og diktering på dansk. I denne versjonen er dataene strukturert på nytt, slik at databasen enklere kommer …

  • Språk: Danish
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tekst  12.06.2020

The Abkhaz National Corpus

The Abkhaz National Corpus is a comprehensive and open, grammatically annotated text corpus. It makes the Abkhaz language accessible to scientific investigations from various perspectives …

  • Språk: Abkhaz
  • Opphav: CLARINO Bergen
  • Lisens: CLARIN_PUB-BY-NC-ND
Verktøy  01.06.2020

Grafem-til-fonem-modeller for norsk

Denne ressursen innegolder grafem-til-fonem-modeller (G2P-modeller) for norsk som er tilpassa G2P-systemet Phonetisaurus (https://github.com/AdolfVonKleist/Phonetisaurus). G2P-modellene brukes til å …

  • Språk: Norwegian Bokmål
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Verktøy  27.05.2020

NoFA – Forced Alignment for bokmål

NoFA er en såkalt Forced Alignment-modell for norsk (bokmål), laget av Nate Young (https://www.nateyoung.se/) på oppdrag fra Språkbanken. Modellen er laget for Forced Alignment-verktøyet Montreal …

  • Språk: Norwegian Bokmål
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tekst  20.04.2020

Norsk aviskorpus

Denne versjonen av tekstene fra Norsk aviskorpus inneholder tekst fra 1998-2019. Korpuset inneholder omlag 1,68 milliarder ord for bokmål og 68 millioner ord for nynorsk. Det finnes også en …

  • Språk: Norwegian Bokmål, Norwegian Nynorsk
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-BY-NC (CC-BY-NC)
Tekst  17.04.2020

Omsetjingsminne frå Nynorsk pressekontor

Dette omsetjingsminnet inneheld omsetjingar frå bokmål til nynorsk av nyhendetekst frå Norsk telegrambyrå (NTB). Tekstene er omsette av Nynorsk pressekontor. Materialet skriv seg frå perioden …

  • Språk: Norwegian Bokmål, Norwegian Nynorsk
  • Opphav: Språkbanken
  • Lisens: Creative_Commons-ZERO (CC-ZERO)
Tekst  02.04.2020

LIA sápmi – LIA-korpuset for samiske dialekter

The LIA Sápmi corpus is a speech corpus with recordings from 1960 - 1990 of Sami dialects from the northern part of Norway, Finland and Sweden, some recordings from NRK sami radio and some from UiT, …

  • Språk: Northern sami
  • Opphav: Tekstlab
  • Lisens: CLARIN_ACA-NC-LOC-PRIV-ND-*