Fag
Tekstressursar


Denne sida inneheld informasjon om og lenkjer for nedlasting av tekstressursar som Språkbanken distribuerer.



Spørsmål og attendemeldingar i samband med desse ressursene kan sendast til sprakbanken@nb.no.

Tekstversjon av Norsk aviskorpus (versjon 0.9)

Denne versjonen av tekstene frå Norsk aviskorpus er uferdig, og tekstene ligg føre i tre ulike format. I løpet av 2012 og 2013 skal det ryddast opp i tekstene, og dei vil liggje føre i eit einskapleg xml-format. Korpuset er oppdatert per 28.12.2011.

Aviskorpuset vert gjort tilgjengeleg for brukarane til Språkbanken, og kan berre nyttast til språkteknologisk forsking og utvikling. Brukarane av korpuset har ikkje lov til å vidareformidle eller publisere nokon del av tekstene, kun kunnskap og produkt utarbeidde med utgangspunkt i tekstene.

N-gram for nynorsk

Med utgangspunkt i dei nynorske tekstene i Norsk aviskorpus og det som fanst av nynorsk tekst i tekstkorpuset til Nordisk språkteknologi har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 60 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.

Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.

N-gram for bokmål

Desse n-gramma er laga med utgangspunkt i tekstene i Norsk aviskorpus (24 nettaviser) og delar av tekstkorpuset etter Nordisk språkteknologi (NST). Materialet er delt inn i to delar, men ligg òg føre i ein samanfletta del. Samla tekstgrunnlag for heile materialet er 1175 millionar ord løpande tekst. Materialet vert tilgjengeleggjort i litt ulike former, først som ein oversikt over dei 1000 mest frekvente n-gramma (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram), og ein full versjon der alle-n-gramma er samla og sorterte etter ulike kriterium. Vi har òg lagt ut frekvenslister over enkeltorda (1-gram) i materialet. Sjå beskrivinga under for detaljar.

Desse ressursane kan nyttast fritt til språkteknologisk forsking og utvikling.

N-gram for dansk og svensk

Med utgangspunkt i dei danske og svenske tekstene i tekstkorpuset til Nordisk språkteknologi holding AS har Språkbanken fått produsert n-gram (1-gram, 2-gram, 3-gram, 4-gram, 5-gram og 6-gram) for ei tekstmengd på ca 290 millionar ord for dansk og 400 millionar ord for svensk. Dette vert tilgjengeleggjort i to versjonar, ein lett versjon der berre dei 1000 mest frekvente n-gramma er samla, og ein full versjon der alle n-gramma er samla og sortert etter ulike kriterium. I tillegg ligg det svenske materialet føre i eit tredje format der ein kan velje kva tekster ein ønskjer å ta med. Denne versjonen innheld nokre fleire tekster og er til saman på ca. 437 millionar ord. Sjå beskrivingane under for detaljar. N-gramma kan nyttast fritt til språkteknologisk forsking og utvikling.

Digitaliserte bøker i xml-format

Nasjonalbiblioteket er i ferd med å digitalisere heile samlinga si. Denne digitaliseringa generer ei stor mengde xml-filer som innheld all informasjon om objektet som er digitalisert (bibliografiske metadata, strukturanalyse (kapittelinndeling, sideinndeling, avsnitt), OCR-analyse osb.)

På lenkjene under kan ein laste ned xml-versjonar av det digitaliserte skriftlege materialet (for det meste bøker) som kan distribuerast fritt. Dette dreier seg om eldre materiale som har falle i det fri og offentlege publikasjoner av nyare dato. Per i dag innheld materialet omlag 9000 titlar. Materialet kan nyttast fritt til språkteknologisk forsking og utvikling.

Indeksen gir eit oversyn over innhaldet i dette materialet. Indeksen er i rein tekst-format (tabulatordelt) med følgjande kolonnar:

  1. Digibok_ID: Denne identifikasjonen kan nyttast for å finne att kvar enkelt tittel i datafilene (døme: digibok_2009073101106).
  2. Utgivingsår: Dei fire første tala her angir året den aktuelle boka/publikasjonen kom ut (døme: 20011231). Dei fire siste tala er alltid 1231. Viss dei fire første tala er 9999 tyder det at publikasjonsår er ukjend.
  3. Tittel: Tittelen til publikasjonen (døme: Ny livsforsikringslovgivning: utredning nr 7 fra Banklovkommisjonen: utredning fra Banklovkommisjonen oppnevnt ved kongelig resolusjon 6. april 1990: avgitt til Finansdepartementet 29. juni 2001).
  4. Forfattar: Namn på forfatter eller institusjon (døme: Finansdepartementet).
  5. Utgivar: Forlag eller institusjon (døme: Statens forvaltningstjeneste, Informasjonsforvaltning).

Filer:


Nasjonalbiblioteket | postboks 2674 Solli, 0203 Oslo | tlf.: 810 01 300 | postmottak