Leksikalske ressursar

.

Denne sida inneheld informasjon om og lenkjer for nedlasting av ulike leksikalske ressursar som Språkbanken distribuerer.

Nye ressursar (sjå lengre ned på sida for meir om desse):

  • 2013-06-28: Ni ordlister laga av Språkrådet
  • 2013-04-09: Norsk ordvev, versjon 1.1.0
  • 2012-12-21: Termane frå termdatabasen SNORRE

 

Språkbanken kan per i dag tilby følgjande leksikalske ressursar for nedlasting:

  • Termane frå termdatabasen SNORRE
  • Ulike ordlister laga av Språkrådet
  • Norsk ordvev for bokmål og nynorskunder utvikling hos Kaldera språkteknologi AS
  • Norsk ordbank (nynorsk og bokmål), utvikla ved Universitetet i Oslo
  • SCARRIE, fullformsordliste (bokmål), utvikla ved Universitetet i Bergen
  • Leksikalsk database for norsk, utvikla av Nordisk språkteknologi (NST)
  • Leksikalsk database for svensk, utvikla av Nordisk språkteknologi (NST)
  • Leksikalsk database for dansk, utvikla av Nordisk språkteknologi (NST)

Spørsmål og attendemeldingar i samband med desse ressursane kan sendast til sprakbanken@nb.no .

 

Termane frå termdatabasen SNORRE - 2012-12-21

Språkbanken har fått løyve til å distribuere termane frå termdatabasen SNORRE. SNORRE er ein database som inneheld terminologi frå mange fagområde. Databasen er utvikla av Standard Norge i samarbeid med Språkrådet, og er resultatet av eit standardiseringsarbeid for terminologi. SNORRE inneheld fagomgrep på bokmål, nynorsk, engelsk, fransk og tysk, i tillegg til synonym og forkortingar. Versjonen som Språkbanken tilgjengeleggjer er ein dump av termane i SNORRE, parallellstilt for bokmål, nynorsk, engelsk, fransk og tysk. Totalt inneheld listene omlag 53500 omgrep. Filformat: tabulatorseparert tekst.

Innhald termar synonym forkortingar
bokmål 49678 2257 945
nynorsk 48875 3448 900
engelsk 48213 3012 1024
fransk 17623 843 423
tysk 18749 876 203

 

Språkbanken sine brukarar kan fritt nytte ordlista frå SNORRE, men informasjon om at Standard Norge har utviklet ordlistene basert på termdatabasen SNORRE skal følge lista ved bruk, Standard Norge skal alltid krediterast.

 

Ordlister frå Språkrådet - 2013-06-28

Dette er ei samling med ordlister laga av Språkrådet. Språkbanken har tatt utgangspunkt i html-filene på http://www.språkrådet.no/ (sjå detaljerte lenkjer under), fjerna html-kodinga, og lagt listene til rette for distribusjon, førebels som tabulatordelt tekst. Språkbanken tek atterhald om at det enno er feil i listene. Gjer oss gjerne merksame på feil.

Ordlistene kan kun nyttast til språkvitskapleg og språkteknologisk forsking og utvikling.

Det er Språkrådet som har opphavsretten til desse listene, og Språkrådet skal alltid krediterast ved bruk av listene.

Følgjande lister er publiserte her (lenkjene er til Språkrådet sine versjonar av listene på web):

 

Norsk ordvev - 2013-01-24

Kaldera språkteknologi AS har utvikla ordvevar for bokmål og nynorsk for Språkbanken. Evalueringsarbeidet med versjon 1.1.0 er no i gang.  Informasjon om utviklingsarbeidet med ordvevane finst på Prosjekt-sida.

Ein nettversjon av ordvevane med visualisering av dei semantiske relasjonane, ligg på nettsidene til Kaldera, sjå https://gamma.kaldera.no/nwn .

 

Norsk ordbank, utvikla ved Universitetet i Oslo

Norsk ordbank er i prinsippet sett saman av ei grunnordliste og eit sett av bøyingsmønster. Kvart ord i grunnordlista har eitt eller fleire bøyingsmønster. Kvart bøyingsmønster inneheld ei linje for kvar enkelt bøygde form av grunnordet. Ei linje inneheld eit omformingsmønster og informasjon om morfologisk kategori og morfologiske trekk. Mønstret syner korleis grunnordet kan verte ekspandert til ei bøygd form.

Dataa er lagra i seks tabellar. Det er eitt tabellsett for kvar av målformene bokmål og nynorsk.

Tabellen ”lemma” inneheld alle oppslagsorda i Bokmålsordboka og Nynorskordboka med spesifikasjon av artikkelnummeret. Fullformslista inneheld alle moglege bøygde former av oppslagsorda i tråd med rådande rettskriving. Denne tabellen kan verte generert med alle tenkjelege former (t.d. gradbøying av alle slags adjektiv, som fantastisk) eller alle tilrådde former basert på ei grov fråsiling  av lite aksepterte former slik det vert gjort i nettutgåvene av Bokmålsordboka og Nynorskordboka.

Tabellane ”lemma_paradigme”, ”paradigme”, ”paradigme_boying”, ”boyingsgruppe” og ”boying” inneheld den informasjonen som er naudsynt for å generere fullformene basert på grunnordlista (”lemma”). Dei inneheld med andre ord koplinga mellom grunnord og bøyingsmønster, reglar og informasjon om kategoriar.

Før det vert gitt tilgang til Norsk ordbank, må ein skrive under på vilkåra for bruk. Signér på skjemaet under og send dette til Språkbanken, så får du ein e-post i løpet av kort tid med nedlastingsinformasjon. Skjemaet kan skannast og sendast som vedlegg til ein e-post til sprakbanken@nb.no , eller i vanleg brevpost til Språkbanken, Nasjonalbiblioteket, Postboks 2674 Solli, 0203 Oslo.

 

SCARRIE, fullformsordliste for norsk bokmål

Denne fullformsordlista vart laga som ein lekk i utviklinga av eit automatisk korrekturprogram for norsk bokmål.

Ordformene i SCARRIE-leksikonet er tagga med informasjon om grunnform (lemma), standardisering, stilnivå, morfosyntaktiske trekk og alternative former. Hovudleksikonet inneheld ord frå dei opne ordklassene (adjektiv, adverb, substantiv og verb). I alt inneheld leksikonet om lag 361.000 fullformer (72.500 grunnformer).

Kortfatta informasjon om leksikonet (format, lisens osb.) finst i beskrivinga under, på norsk og engelsk. Rapporten "SCARRIE Deliverable 3.3.1" gir ei meir utførlig beskriving av m.a. taggsettet som er nytta i leksikonet. Denne rapporten finst berre på engelsk.

 

Leksikalsk database for norsk, opphavleg produsert av NST

Denne fullformsordlista vart opphavleg produsert av Nordisk språkteknologi holding AS (NST), og inneheld om lag 785.000 oppslag. Ordlista er spesifikt utarbeidd med tanke på utvikling av taleteknologi, og tek utgangspunkt i dei 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.

Heile leksikonet ligg føre som ei stor fil i rein tekst-format. Kvart oppslag er på ei line, det er 51 postar tilgjengeleg på kvar line, og postane er skilde med semikolon. Ikkje alle postane er like relevante for alle føremål, men gitt formatet er det lett å hente ut den informasjonen ein treng.

Leksikonet inneheld mellom anna informasjon om dekomponeringsledd i samansettingar, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av ein inflektor, og dette er delvis stikkprøvekontrollert. Sjølve inflektoren, og anna leksikalsk verktøy som kan nyttast til å handsame leksikonet, kan lastast ned på ei eiga lenkje under.

Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Sjå http://www.phon.ucl.ac.uk/home/sampa/index.html for nærare informasjon om dette transkripsjonsformatet.

Denne ressursen kan nyttast fritt til språkteknologisk forsking og utvikling. Last ned beskrivinga under for ei nærare skildring av databasen.

 

Leksikalsk database for svensk, opphavleg produsert av NST

Denne fullformsordlista vart opphavleg produsert av Nordisk språkteknologi holding AS (NST), og inneheld om lag 927.000 oppslag. Ordlista er spesifikt utarbeidd med tanke på utvikling av taleteknologi, og tek utgangspunkt i dei 100.000 mest frekvente ordformene i det svenske tekstkorpuset til NST.

Heile leksikonet ligg føre som ei stor fil i rein tekst-format. Kvart oppslag er på ei line, det er 51 postar tilgjengeleg på kvar line, og postane er skilde med semikolon. Ikkje alle postane er like relevante for alle føremål, men gitt formatet er det lett å hente ut den informasjonen ein treng.

Leksikonet inneheld mellom anna informasjon om dekomponeringsledd i samansettingar, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av ein inflektor, og dette er delvis stikkprøvekontrollert. Sjølve inflektoren, og anna leksikalsk verktøy som kan nyttast til å handsame leksikonet, kan lastast ned på ei eiga lenkje under.

Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Sjå http://www.phon.ucl.ac.uk/home/sampa/index.html for nærare informasjon om dette transkripsjonsformatet.

Denne ressursen kan nyttast fritt til språkteknologisk forsking og utvikling. Last ned beskrivinga under for ei nærare skildring av databasen.

 

Leksikalsk database for dansk, opphavleg produsert av NST

Denne fullformsordlista vart opphavleg produsert av Nordisk språkteknologi holding AS (NST), og inneheld om lag 238.000 oppslag. Ordlista er spesifikt utarbeidd med tanke på utvikling av taleteknologi, og tek utgangspunkt i dei 100.000 mest frekvente ordformene i det danske tekstkorpuset til NST.

Heile leksikonet ligg føre som ei stor fil i rein tekst-format. Kvart oppslag er på ei line, det er 51 postar tilgjengeleg på kvar line, og postane er skilde med semikolon. Ikkje alle postane er like relevante for alle føremål, men gitt formatet er det lett å hente ut den informasjonen ein treng.

Leksikonet inneheld mellom anna informasjon om dekomponeringsledd i samansettingar, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av ein inflektor, og dette er delvis stikkprøvekontrollert. Sjølve inflektoren, og anna leksikalsk verktøy som kan nyttast til å handsame leksikonet, kan lastast ned på ei eiga lenkje under.

Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Sjå http://www.phon.ucl.ac.uk/home/sampa/index.html for nærare informasjon om dette transkripsjonsformatet.

Denne ressursen kan nyttast fritt til språkteknologisk forsking og utvikling. Last ned beskrivinga under for ei nærare skildring av databasen.

samlingen nettsidene