Tekstressursar

Denne sida inneheld informasjon om og lenkjer for nedlasting av tekstressursar som Språkbanken distribuerer. Spørsmål og tilbakemeldingar i samband med desse ressursane kan sendast til  sprakbanken@nb.no .

Nye ressursar (sjå lengre ned på sida for meir om desse):

  • 2014-10-16: Lisensinformasjon for Norsk dependenstrebank (NDT) har blitt oppdatert. Les mer her.
  • 2013-12-12: "Utstillingskorpuset": korpus med korte tekster omsette til teiknspråk og lesne inn.

 

Norsk dependenstrebank (NDT, tidlegare kalla "Gullkorpuset"), versjon 1.0.1 - 2014-03-28

Dette er to separate trebankar, med tekster på bokmål og nynorsk, annotert morfologisk og syntaktisk. Kvar trebank innheld 300 000 "tokens" (ordformer inkl. teiknsetjing). Den morfologiske analysen følgjer Norsk referansegrammatikk, medan dependensgrammatikk vert nytta for den syntaktiske analysen. Annoteringa er gjort maskinelt, men er kvalitetssjekka og manuelt korrigert av to lingvistar, og held såleis ein gullstandard.

I versjon 1.0.1 er det ingen endringar i sjølve korpusa frå den førre versjonen, men dokumentasjonen er oppdatert, og det ligg føre ein engelsk versjon av retningslinjene for annotasjon.

Meir informasjon finn du i annotasjonsrettleinga og i dokumentasjonsfilene.

Les Per Erik Solberg sin presentasjon av Norsk dependenstrebank/gullkorpuset på NODALIDA 2013 i Oslo:  artikkel  (pdf),  poster  (pdf)

 

"Utstillingskorpuset" - tekst, lyd og teikn - 2013-12-12

I samband med Språkåret 2013 hadde Nasjonalbiblioteket utstillinga «Leve språket». Målet med utstillinga var å spegle det språklege mangfaldet i Noreg, og ho tok mellom anna føre seg emne som språkstriden, nabospråkforståing og språkleg humor. Målgruppa var skuleungdom, og utstillingstekstene er formulerte deretter. Tekstene vart omsette til teiknspråk og lesne opp for audioguide. Teiknspråkfilmane vart produserte av Rycon AS, med Knut Bjarne Kjøde som omsetjar, lydfilene av Sondre Larssen Produksjon.

Materialet er sett saman av 23 korte tekster på både bokmål og nynorsk. Det er ingen restriksjonar på bruk av materialet.

 

Tekstversjon av Norsk aviskorpus (versjon 0.9) - 2013-01-02

Denne versjonen av tekstene frå Norsk aviskorpus er uferdig, og tekstene ligg føre i tre ulike format. I 2015 kjem ein oppdatert versjon av korpuset, med tekster frå 1998 til og med 2014. Korpuset er oppdatert per 28.12.2011.

  • 2012-12-21: korpuset supplert med artiklar frå Bergens Tidende frå 2012. Ca. 11.4 millionar ord for bokmål og 277.000 ord for nynorsk.
  • 2013-01-02: korpuset supplert med artiklar frå VG frå 2012. Ca. 11.9 millionar ord for bokmål og 1200 ord for nynorsk.

Korpuset ligg òg føre i ein rein tekstversjon (separate korpus for nynorsk og bokmål), der alle metadata er fjerna. Materialet er reinska opp i, slik at kvar setning berre kjem føre ein gong, og setningane er ordna alfabetisk. Skilleteikn er separert frå orda, unnateke punktum ved vanlege forkortingar, initialar og ordenstal. Setningane er skilde med <s> og </s>.

Aviskorpuset vert gjort tilgjengeleg for brukarane til Språkbanken, og kan berre nyttast til språkteknologisk forsking og utvikling. Brukarane av korpuset har ikkje lov til å vidareformidle eller publisere nokon del av tekstene, kun kunnskap og produkt utarbeidde med utgangspunkt i tekstene.

 

Omsetjingar av Acquis Communautaire (EU-retten) - 2012-12-03

Utanriksdepartementet (UD) har omsatt delar av Acquis Communautaire (EU-retten - lovtekster og domsavgjerder) til norsk. UD har gjeve løyve til at dette materialet kan nyttast til språkteknologisk forsking og utvikling. Universitetet i Bergen har lagt materialet til rette, og det er no tilgjengeleg via Språkbanken. Vi har gjort materialet tilgjengelig i to versjonar. Ein versjon med reine tekstfiler, og ein annan versjon der tekstfilene er dupliserte med filer i MS-format. I den andre versjonen finst og ein tagga og tokensiert versjon av kvar enkelt fil. Det finst ca. 5400 filer, med ei samla tekstmengd på i overkant av 14. millionar ord. Gjennom filnamnet er dokumenta parallellstilte med dokumenta i JRC-Acquis-korpuset, men dei norske tekstene er ikkje integrerte i dette korpuset. Les meir om JRC-Acquis .

 

N-gram for nynorsk

Med utgangspunkt i dei nynorske tekstene i Norsk aviskorpus og det som fanst av nynorsk tekst i tekstkorpuset til Nordisk språkteknologi har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 60 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.

Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.

 

N-gram for bokmål

Desse n-gramma er laga med utgangspunkt i tekstene i Norsk aviskorpus (24 nettaviser) og delar av tekstkorpuset etter Nordisk språkteknologi (NST). Materialet er delt inn i to delar, men ligg òg føre i ein samanfletta del. Samla tekstgrunnlag for heile materialet er 1175 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.

Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.

 

N-gram for dansk og svensk

Med utgangspunkt i dei danske og svenske tekstene i tekstkorpuset til Nordisk språkteknologi holding AS har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 290 millionar ord for dansk og 400 millionar ord for svensk. Dette vert tilgjengeleggjort i to versjonar, ein lett versjon der berre dei 1000 mest frekvente n-gramma er samla, og ein full versjon der alle n-gramma er samla og sortert etter ulike kriterium. I tillegg ligg det svenske materialet føre i eit tredje format der ein kan velje kva tekster ein ønskjer å ta med. Denne versjonen innheld nokre fleire tekster og er til saman på ca. 437 millionar ord. Sjå beskrivingane under for detaljar. N-gramma kan nyttast fritt til språkteknologisk forsking og utvikling.

 

Digitaliserte bøker i xml-format

Nasjonalbiblioteket er i ferd med å digitalisere heile samlinga si. Denne digitaliseringa generer ei stor mengde xml-filer som innheld all informasjon om objektet som er digitalisert (bibliografiske metadata, strukturanalyse (kapittelinndeling, sideinndeling, avsnitt), OCR-analyse osb.)

På lenkjene under kan ein laste ned xml-versjonar av det digitaliserte skriftlege materialet (for det meste bøker) som kan distribuerast fritt. Dette dreier seg om eldre materiale som har falle i det fri og offentlege publikasjoner av nyare dato. Per i dag innheld materialet omlag 9000 titlar. Materialet kan nyttast fritt til språkteknologisk forsking og utvikling.

Indeksen gir eit oversyn over innhaldet i dette materialet. Indeksen er i rein tekst-format (tabulatordelt) med følgjande kolonnar:

  1. Digibok_ID: Denne identifikasjonen kan nyttast for å finne att kvar enkelt tittel i datafilene (døme: digibok_2009073101106).
  2. Utgivingsår: Dei fire første tala her angir året den aktuelle boka/publikasjonen kom ut (døme: 20011231). Dei fire siste tala er alltid 1231. Viss dei fire første tala er 9999 tyder det at publikasjonsår er ukjend.
  3. Tittel: Tittelen til publikasjonen (døme: Ny livsforsikringslovgivning: utredning nr 7 fra Banklovkommisjonen: utredning fra Banklovkommisjonen oppnevnt ved kongelig resolusjon 6. april 1990: avgitt til Finansdepartementet 29. juni 2001).
  4. Forfattar: Namn på forfatter eller institusjon (døme: Finansdepartementet).
  5. Utgivar: Forlag eller institusjon (døme: Statens forvaltningstjeneste, Informasjonsforvaltning).

Filer:

samlingen nettsidene