Denne sida inneheld informasjon om og lenkjer for nedlasting av tekstressursar som Språkbanken distribuerer. Spørsmål og tilbakemeldingar i samband med desse ressursane kan sendast til sprakbanken@nb.no .
Nye ressursar (sjå lengre ned på sida for meir om desse):
- 2013-04-12: Ny versjon av gullkorpuset: manuelt annotert tekstkorpus for bokmål og nynorsk.
- 2013-01-02: Tillegg til Norsk aviskorpus: artiklar frå VG for 2012.
- 2012-12-21: Tillegg til Norsk aviskorpus: artiklar frå Bergens Tidende for 2012.
- 2012-12-03: Omsetjingar av delar av Acquis Communautaire (EU-retten).
Språkbanken sitt manuelt annoterte tekstkorpus (gullkorpus), versjon 0.4 - 2013-04-12
Dette er to separate tekstkorpus, med tekster på bokmål og nynorsk, annotert morfologisk og syntaktisk. Den morfologiske analysen følgjer Norsk referansegrammatikk, medan dependensgrammatikk vert nytta for den syntaktiske analysen. Annoteringa vert gjort maskinelt, men er kvalitetssjekka og manuelt korrigert av to lingvistar, og held såleis ein gullstandard. Les meir om prosjektet på denne lenkja.
Meir informasjon finn du i annotasjonsrettleinga.
- Versjon 0.4 - last ned (5.3 MB) - 2013-04-12 - Retningsliner for annotasjon (pdf)
- Versjon 0.3 - last ned (4.6 MB) - 2013-02-08
- Versjon 0.2 - last ned (1.5 MB) - 2012-11-20
- Versjon 0.1 - last ned (1.2 MB) - 2012-08-06
Les Per Erik Solberg sin presentasjon av gullkorpuset på NODALIDA 2013 i Oslo: artikkel (pdf), poster (pdf)
Tekstversjon av Norsk aviskorpus (versjon 0.9) - 2013-01-02
Denne versjonen av tekstene frå Norsk aviskorpus er uferdig, og tekstene ligg føre i tre ulike format. I løpet av 2012 og 2013 skal det ryddast opp i tekstene, og dei vil liggje føre i eit einskapleg xml-format. Korpuset er oppdatert per 28.12.2011.
- 2012-12-21: korpuset supplert med artiklar frå Bergens Tidende frå 2012. Ca. 11.4 millionar ord for bokmål og 277.000 ord for nynorsk.
- 2013-01-02: korpuset supplert med artiklar frå VG frå 2012. Ca. 11.9 millionar ord for bokmål og 1200 ord for nynorsk.
Korpuset ligg òg føre i ein rein tekstversjon (separate korpus for nynorsk og bokmål), der alle metadata er fjerna. Materialet er reinska opp i, slik at kvar setning berre kjem føre ein gong, og setningane er ordna alfabetisk. Skilleteikn er separert frå orda, unnateke punktum ved vanlege forkortingar, initialar og ordenstal. Setningane er skilde med <s> og </s>.
Aviskorpuset vert gjort tilgjengeleg for brukarane til Språkbanken, og kan berre nyttast til språkteknologisk forsking og utvikling. Brukarane av korpuset har ikkje lov til å vidareformidle eller publisere nokon del av tekstene, kun kunnskap og produkt utarbeidde med utgangspunkt i tekstene.
- Norsk aviskorpus, beskriving av format og innhald (pdf)
- Norsk aviskorpus (2.8 GB)
- Supplement - Bergens Tidende 2012 (33 MB)
- Supplement - VG 2012 (33 MB)
- Norsk aviskorpus (nynorsk), rein tekstversjon, tokenisert på setningsnivå (115 MB)
- Norsk aviskorpus (bokmål), rein tekstversjon, tokenisert på setningsnivå (2.6 GB)
Omsetjingar av Acquis Communautaire (EU-retten) - 2012-12-03
Utanriksdepartementet (UD) har omsatt delar av Acquis Communautaire (EU-retten - lovtekster og domsavgjerder) til norsk. UD har gjeve løyve til at dette materialet kan nyttast til språkteknologisk forsking og utvikling. Universitetet i Bergen har lagt materialet til rette, og det er no tilgjengeleg via Språkbanken. Vi har gjort materialet tilgjengelig i to versjonar. Ein versjon med reine tekstfiler, og ein annan versjon der tekstfilene er dupliserte med filer i MS-format. I den andre versjonen finst og ein tagga og tokensiert versjon av kvar enkelt fil. Det finst ca. 5400 filer, med ei samla tekstmengd på i overkant av 14. millionar ord. Gjennom filnamnet er dokumenta parallellstilte med dokumenta i JRC-Acquis-korpuset, men dei norske tekstene er ikkje integrerte i dette korpuset. Les meir om JRC-Acquis .
- Norske omsetjingar av Acquis Communautaire, rein tekst (25 MB)
- Norske omsetjingar av Acquis Communautaire, versjon med filer i fleire format (205 MB)
N-gram for nynorsk
Med utgangspunkt i dei nynorske tekstene i Norsk aviskorpus og det som fanst av nynorsk tekst i tekstkorpuset til Nordisk språkteknologi har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 60 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.
Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.
- N-gram for nynorsk, beskriving av format og innhald (pdf)
- Dei 1000 mest frekvente n-gramma (42 KB)
- Alle enkeltorda (1-gram), sortert alfabetisk (5 MB)
- Enkeltord (1-gram) med frekvens større enn 1, sortert etter fallande frekvens (2 MB)
- Enkeltord (1-gram) med frekvens større enn 1, sortert alfabetisk (2 MB)
- Heile n-gram-samlinga for nynorsk (1.8 GB)
N-gram for bokmål
Desse n-gramma er laga med utgangspunkt i tekstene i Norsk aviskorpus (24 nettaviser) og delar av tekstkorpuset etter Nordisk språkteknologi (NST). Materialet er delt inn i to delar, men ligg òg føre i ein samanfletta del. Samla tekstgrunnlag for heile materialet er 1175 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.
Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.
- N-gram for bokmål, basert på Norsk aviskorpus og nyhendetekst frå NST (1175 millionar ord)
- N-gram for bokmål, basert på Norsk aviskorpus (665 millionar ord)
- N-gram for bokmål, basert på nyhendetekst frå NST (510 millionar ord)
N-gram for dansk og svensk
Med utgangspunkt i dei danske og svenske tekstene i tekstkorpuset til Nordisk språkteknologi holding AS har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 290 millionar ord for dansk og 400 millionar ord for svensk. Dette vert tilgjengeleggjort i to versjonar, ein lett versjon der berre dei 1000 mest frekvente n-gramma er samla, og ein full versjon der alle n-gramma er samla og sortert etter ulike kriterium. I tillegg ligg det svenske materialet føre i eit tredje format der ein kan velje kva tekster ein ønskjer å ta med. Denne versjonen innheld nokre fleire tekster og er til saman på ca. 437 millionar ord. Sjå beskrivingane under for detaljar. N-gramma kan nyttast fritt til språkteknologisk forsking og utvikling.
- N-gram for dansk, beskriving av format og innhald (pdf)
- Last ned dei 1000 mest frekvente n-gramma for dansk (45 KB)
- Last ned heile n-gram-samlinga for dansk (8 GB)
- N-gram for svensk, beskriving av format og innhald (pdf)
- Last ned dei 1000 mest frekvente n-gramma for svensk (48 KB)
- Last ned heile n-gram-samlinga for svensk, 400 millionar ord (11 GB)
- Last ned heile n-gram-samlinga for svensk, 437 millionar ord (13 GB)
Digitaliserte bøker i xml-format
Nasjonalbiblioteket er i ferd med å digitalisere heile samlinga si. Denne digitaliseringa generer ei stor mengde xml-filer som innheld all informasjon om objektet som er digitalisert (bibliografiske metadata, strukturanalyse (kapittelinndeling, sideinndeling, avsnitt), OCR-analyse osb.)
På lenkjene under kan ein laste ned xml-versjonar av det digitaliserte skriftlege materialet (for det meste bøker) som kan distribuerast fritt. Dette dreier seg om eldre materiale som har falle i det fri og offentlege publikasjoner av nyare dato. Per i dag innheld materialet omlag 9000 titlar. Materialet kan nyttast fritt til språkteknologisk forsking og utvikling.
Indeksen gir eit oversyn over innhaldet i dette materialet. Indeksen er i rein tekst-format (tabulatordelt) med følgjande kolonnar:
- Digibok_ID: Denne identifikasjonen kan nyttast for å finne att kvar enkelt tittel i datafilene (døme: digibok_2009073101106).
- Utgivingsår: Dei fire første tala her angir året den aktuelle boka/publikasjonen kom ut (døme: 20011231). Dei fire siste tala er alltid 1231. Viss dei fire første tala er 9999 tyder det at publikasjonsår er ukjend.
- Tittel: Tittelen til publikasjonen (døme: Ny livsforsikringslovgivning: utredning nr 7 fra Banklovkommisjonen: utredning fra Banklovkommisjonen oppnevnt ved kongelig resolusjon 6. april 1990: avgitt til Finansdepartementet 29. juni 2001).
- Forfattar: Namn på forfatter eller institusjon (døme: Finansdepartementet).
- Utgivar: Forlag eller institusjon (døme: Statens forvaltningstjeneste, Informasjonsforvaltning).
Filer:
- Leksikalske ressursar
- Taledatabasar
- Tekstressursar
- Eksterne ressursar



