Denne sida inneheld informasjon om og lenkjer for nedlasting av tekstressursar som Språkbanken distribuerer.
Spørsmål og attendemeldingar i samband med desse ressursene kan sendast til sprakbanken@nb.no.
Tekstversjon av Norsk aviskorpus (versjon 0.9)
Denne versjonen av tekstene frå Norsk aviskorpus er uferdig, og tekstene ligg føre i tre ulike format. I løpet av 2012 og 2013 skal det ryddast opp i tekstene, og dei vil liggje føre i eit einskapleg xml-format. Korpuset er oppdatert per 28.12.2011.
Aviskorpuset vert gjort tilgjengeleg for brukarane til Språkbanken, og kan berre nyttast til språkteknologisk forsking og utvikling. Brukarane av korpuset har ikkje lov til å vidareformidle eller publisere nokon del av tekstene, kun kunnskap og produkt utarbeidde med utgangspunkt i tekstene.
N-gram for nynorsk
Med utgangspunkt i dei nynorske tekstene i Norsk aviskorpus og det som fanst av nynorsk tekst i tekstkorpuset til Nordisk språkteknologi har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 60 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.
Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.
N-gram for bokmål
Desse n-gramma er laga med utgangspunkt i tekstene i Norsk aviskorpus (24 nettaviser) og delar av tekstkorpuset etter Nordisk språkteknologi (NST). Materialet er delt inn i to delar, men ligg òg føre i ein samanfletta del. Samla tekstgrunnlag for heile materialet er 1175 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.
Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.
N-gram for dansk og svensk
Med utgangspunkt i dei danske og svenske tekstene i tekstkorpuset til Nordisk språkteknologi holding AS har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 290 millionar ord for dansk og 400 millionar ord for svensk. Dette vert tilgjengeleggjort i to versjonar, ein lett versjon der berre dei 1000 mest frekvente n-gramma er samla, og ein full versjon der alle n-gramma er samla og sortert etter ulike kriterium. I tillegg ligg det svenske materialet føre i eit tredje format der ein kan velje kva tekster ein ønskjer å ta med. Denne versjonen innheld nokre fleire tekster og er til saman på ca. 437 millionar ord. Sjå beskrivingane under for detaljar. N-gramma kan nyttast fritt til språkteknologisk forsking og utvikling.
Digitaliserte bøker i xml-format
Nasjonalbiblioteket er i ferd med å digitalisere heile samlinga si. Denne digitaliseringa generer ei stor mengde xml-filer som innheld all informasjon om objektet som er digitalisert (bibliografiske metadata, strukturanalyse (kapittelinndeling, sideinndeling, avsnitt), OCR-analyse osb.)
På lenkjene under kan ein laste ned xml-versjonar av det digitaliserte skriftlege materialet (for det meste bøker) som kan distribuerast fritt. Dette dreier seg om eldre materiale som har falle i det fri og offentlege publikasjoner av nyare dato. Per i dag innheld materialet omlag 9000 titlar. Materialet kan nyttast fritt til språkteknologisk forsking og utvikling.
Indeksen gir eit oversyn over innhaldet i dette materialet. Indeksen er i rein tekst-format (tabulatordelt) med følgjande kolonnar:
Filer: