Ressurser fra ressursbanken Archive - Språkbanken

Nasjonalbiblioteket Språkbanken

I samarbeid med

Innbyggjarnamn

Dette datasettet inneheld innbyggjarnamn frå ulike stader i Noreg. Det er basert på innbyggjarnamn-tabellen frå nettsida til Språkrådet: …

Språk:
norsk
Distribuert av:
Språkbanken
Lisens:
Norwegian Licence for Open Government Data (NLOD)
Type:
Leksikon
Oppdatert:
03.11.2025
SNOMED CT – engelske termer med oversettelse til bokmål og nynorsk

SNOMED CT er en systematisk samling av helsefaglige begreper som blir brukt til å dokumentere og dele opplysninger i pasientbehandling i helse- og omsorgstjenesten. Terminologien omfatter …

Språk:
engelsk, bokmål, nynorsk
Distribuert av:
Språkbanken
Lisens:
Creative_Commons-ZERO (CC-ZERO)
Type:
Leksikon
Oppdatert:
03.07.2025
Forvaltningsrettslige begreper på norsk tegnspråk

Dette datasettet består av 32 filmer med forklaringer av sentrale forvaltningsrettslige begreper på norsk tegnspråk. Filmene er produsert ved Institutt for offentlig rett, Juridisk fakultet, …

Språk:
Norwegian Sign Language
Distribuert av:
Språkbanken
Lisens:
Creative_Commons-BY-NC (CC-BY-NC)
Type:
Tekst, Video
Oppdatert:
06.05.2025
Norsk aviskorpus annotert (2001-2009)

This is a subpart of the Norwegian Newspaper Corpus for bokmål, grammatically annotated with information about each word’s lemma, part of speech (word class) and morphological analysis based on an …

Språk:
norsk, bokmål
Distribuert av:
CLARINO Bergen
Lisens:
Creative_Commons-BY-NC (CC-BY-NC)
Type:
Tekst
Oppdatert:
16.04.2025
Norsk aviskorpus nynorsk

Norsk Aviskorpus (nynorsk) er eit ope tilgjengeleg tekstkorpus som representerer moderne norsk i skriftvarianten nynorsk. Per i dag inneheld korpuset ca. 21 millinonar ord fra 1998 til 2020, og du kan …

Språk:
norsk, nynorsk
Distribuert av:
CLARINO Bergen
Lisens:
Creative_Commons-BY (CC-BY)
Type:
Tekst
Oppdatert:
14.04.2025
Målfrid 2025 – Fritt tilgjengelege tekster frå norske statlege nettsider

Dette korpuset inneheld dokument frå 493 internettdomene tilknytta norske statlege institusjonar. Totalt består materialet av omlag 2,4 milliardar "tokens" (ord og teiknsetting). I tillegg til …

Språk:
bokmål, nynorsk, engelsk, nordsamisk, sørsamisk, lulesamisk
Distribuert av:
Språkbanken
Lisens:
Norwegian Licence for Open Government Data (NLOD)
Type:
Tekst
Oppdatert:
31.01.2025
Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk

Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage 'rene' …

Språk:
Distribuert av:
Språkbanken
Lisens:
Creative_Commons-BY (CC-BY)
Type:
Verktøy
Oppdatert:
28.01.2025
OCR-modeller for samiske språk

Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på …

Språk:
Distribuert av:
Språkbanken
Lisens:
Creative_Commons-BY (CC-BY)
Type:
Verktøy
Oppdatert:
22.01.2025
Norske idiomer

Dette datasettet består av 3537 norske idiomer og fraser som forekommer flere enn 100 ganger i Nettbiblioteket. Det er 3455 idiomer på bokmål og 88 på nynorsk. I fremtiden vil vi prøve å legge …

Språk:
bokmål, nynorsk
Distribuert av:
Språkbanken
Lisens:
Creative_Commons-ZERO (CC-ZERO)
Type:
Tekst
Oppdatert:
10.10.2024
Pressekonferanser fra DSS

Dette korpuset består av omlag 138 timers tale generert fra lyd med tidsjusterte undertekster fra pressekonferanser publisert av Departementenes sikkerhets- og serviceorganisasjon (DSS). Datasettet …

Distribuert av:
Språkbanken
Lisens:
Norwegian Licence for Open Government Data (NLOD)
Type:
Tale
Oppdatert:
10.07.2024