Denne sida innheld informasjon om og lenkjer for nedlasting av ulike leksikalske ressursar som Språkbanken distribuerer.
Språkbanken kan per i dag tilby følgjande leksikalske ressursar for nedlasting:
Spørsmål og attendemeldingar i samband med desse ressursane kan sendast til sprakbanken@nb.no.
Ordnett for norsk (testversjon)
Kaldera språkteknologi AS utvikler for tida ordnett for norsk (bokmål og nynorsk). Dette er ein førebels versjon av ordnettet for bokmål, i eit forenkla format (tab-separert tekst). Send oss gjerne attendemeldingar om ordnettet. Pdf-fila under gir ei kort beskriving av innhaldet i ordnettet, litt meir omfattande informasjon vert lagt ut om kort tid. Informasjon om utviklingsarbeidet med ordnettet finst på Prosjekt-sida.
Norsk ordbank, utvikla ved Universitetet i Oslo
Norsk ordbank er i prinsippet sett saman av ei grunnordliste og eit sett av bøyingsmønster. Kvart ord i grunnordlista har eitt eller fleire bøyingsmønster. Kvart bøyingsmønster inneheld ei linje for kvar enkelt bøygde form av grunnordet. Ei linje inneheld eit omformingsmønster og informasjon om morfologisk kategori og morfologiske trekk. Mønstret syner korleis grunnordet kan verte ekspandert til ei bøygd form.
Dataa er lagra i seks tabellar. Det er eitt tabellsett for kvar av målformane bokmål og nynorsk.
Tabellen ”lemma” inneheld alle oppslagsorda i Bokmålsordboka og Nynorskordboka med spesifikasjon av artikkelnummeret. Fullformslista inneheld alle moglege bøygde former av oppslagsorda i tråd med rådande rettskriving. Denne tabellen kan verte generert med alle tenkjelege former (t.d. gradbøying av alle slags adjektiv, som fantastisk) eller alle tilrådde former basert på ei grov fråsiling av lite aksepterte former slik det vert gjort i nettutgåvene av Bokmålsordboka og Nynorskordboka.
Tabellane ”lemma_paradigme”, ”paradigme”, ”paradigme_boying”, ”boyingsgruppe” og ”boying” inneheld den informasjonen som er naudsynt for å generere fullformene basert på grunnordlista (”lemma”). Dei inneheld med andre ord koplinga mellom grunnord og bøyingsmønster, reglar og informasjon om kategoriar.
Før det vert gitt tilgang til Norsk ordbank må ein skrive under på vilkåra for bruk. Signér på skjemaet under og send dette til Språkbanken, så får du ein e-post i løpet av kort tid med nedlastingsinformasjon. Skjemaet kan skannast og sendast som vedlegg til ein e-post til sprakbanken@nb.no, eller i vanleg brevpost til Språkbanken, Nasjonalbiblioteket, Postboks 2674 Solli, 0203 Oslo.
SCARRIE, fullformsordliste for norsk bokmål
Denne fullformsordlista vart laga som ein lekk i utviklinga av eit automatisk korrekturprogram for norsk bokmål.
Ordformene i SCARRIE-leksikonet er tagga med informasjon om grunnform (lemma), standardisering, stilnivå, morfosyntaktiske trekk og alternative former. Hovudleksikonet innheld ord frå dei opne ordklassene (adjektiv, adverb, substantiv og verb). I alt innheld leksikonet om lag 361.000 fullformer (72.500 grunnformer).
Kortfatta informasjon om leksikonet (format, lisens osb.) finst i beskrivinga under, på norsk og engelsk. Rapporten "SCARRIE Deliverable 3.3.1" gir ei meir utførlig beskriving av m.a. taggsettet som er nytta i leksikonet. Denne rapporten finst berre på engelsk.
Leksikalsk database for norsk, opphavleg produsert av NST
Denne fullformsordlista vart opphavleg produsert av Nordisk språkteknologi holding AS (NST), og inneheld om lag 785.000 oppslag. Ordlista er spesifikt utarbeidd med tanke på utvikling av taleteknologi, og tek utgangspunkt i dei 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.
Heile leksikonet ligg føre som ei stor fil i rein tekst-format. Kvart oppslag er på ei line, det er 51 postar tilgjengeleg på kvar line, og postane er skilde med semikolon. Ikkje alle postane er like relevante for alle føremål, men gitt formatet er det lett å hente ut den informasjonen ein treng.
Leksikonet inneheld mellom anna informasjon om dekomponeringsledd i samansettingar, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av ein inflektor, og dette er delvis stikkprøvekontrollert. Sjølve inflektoren, og anna leksikalsk verktøy som kan nyttast til å handsame leksikonet, kan lastast ned på ei eiga lenkje under.
Transkripsjonsformatet er Speech Assessment Methods Phonetic Alphabet (SAMPA). Sjå http://www.phon.ucl.ac.uk/home/sampa/index.html for nærare informasjon om dette transkripsjonsformatet.
Denne ressursen kan nyttast fritt til språkteknologisk forsking og utvikling. Last ned beskrivinga under for ei nærare skildring av databasen.
Leksikalsk database for svensk, opphavleg produsert av NST
Denne fullformsordlista vart opphavleg produsert av Nordisk språkteknologi holding AS (NST), og inneheld om lag 927.000 oppslag. Ordlista er spesifikt utarbeidd med tanke på utvikling av taleteknologi, og tek utgangspunkt i dei 100.000 mest frekvente ordformene i det svenske tekstkorpuset til NST.
Heile leksikonet ligg føre som ei stor fil i rein tekst-format. Kvart oppslag er på ei line, det er 51 postar tilgjengeleg på kvar line, og postane er skilde med semikolon. Ikkje alle postane er like relevante for alle føremål, men gitt formatet er det lett å hente ut den informasjonen ein treng.
Leksikonet inneheld mellom anna informasjon om dekomponeringsledd i samansettingar, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av ein inflektor, og dette er delvis stikkprøvekontrollert. Sjølve inflektoren, og anna leksikalsk verktøy som kan nyttast til å handsame leksikonet, kan lastast ned på ei eiga lenkje under.
Transkripsjonsformatet er Speech Assessment Methods Phonetic Alphabet (SAMPA). Sjå http://www.phon.ucl.ac.uk/home/sampa/index.html for nærare informasjon om dette transkripsjonsformatet.
Denne ressursen kan nyttast fritt til språkteknologisk forsking og utvikling. Last ned beskrivinga under for ei nærare skildring av databasen.
Leksikalsk database for dansk, opphavleg produsert av NST
Denne fullformsordlista vart opphavleg produsert av Nordisk språkteknologi holding AS (NST), og inneheld om lag 238.000 oppslag. Ordlista er spesifikt utarbeidd med tanke på utvikling av taleteknologi, og tek utgangspunkt i dei 100.000 mest frekvente ordformene i det danske tekstkorpuset til NST.
Heile leksikonet ligg føre som ei stor fil i rein tekst-format. Kvart oppslag er på ei line, det er 51 postar tilgjengeleg på kvar line, og postane er skilde med semikolon. Ikkje alle postane er like relevante for alle føremål, men gitt formatet er det lett å hente ut den informasjonen ein treng.
Leksikonet inneheld mellom anna informasjon om dekomponeringsledd i samansettingar, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av ein inflektor, og dette er delvis stikkprøvekontrollert. Sjølve inflektoren, og anna leksikalsk verktøy som kan nyttast til å handsame leksikonet, kan lastast ned på ei eiga lenkje under.
Transkripsjonsformatet er Speech Assessment Methods Phonetic Alphabet (SAMPA). Sjå http://www.phon.ucl.ac.uk/home/sampa/index.html for nærare informasjon om dette transkripsjonsformatet.
Denne ressursen kan nyttast fritt til språkteknologisk forsking og utvikling. Last ned beskrivinga under for ei nærare skildring av databasen.