Utvidet metadata
- resource Common Info
- resource Type: corpus
- identification Info
- resource Name: Legal Documents from Norwegian Nynorsk Municipialities
- resource Name: Sakspapir frå nynorskkommunar
- description: The texts in this corpus have been collected with the web crawler Veidemann in collaboration with the National Library's Web Archive, based on a revised list of municipalities from the National Association of Nynorsk Municipalities (see lnk.no). The web crawler was set to download documents in pdf format. The resulting collection of documents was then scanned using Google's OCR API (Optical Character Recognition). Although the OCR generally is of high quality, but some errors will remain in the material. The resulting corpus is made up of 50.000 documents (including legal documents, minutes from meetings etc.), and contains a total of some 127 million words. About 88.5 million of these are in Norwegian Nynorsk, the rest is mostly Norwegian Bokmål. All the texts in the corpus are classified by language. The corpus is currently published as a json object, where the key is an identifier (URN) for the Veidemann download, and the value is a list of lists of pages in the document with associated page numbers and target form. A text file is also provided, containing a list of the URNs in the corpus. These URNs refer to the website (URL) from which the document was downloaded. The original pdf files and the OCR format are available on request to Språkbanken.
- description: Tekstene i dette korpuset er samla inn med crawleren Veidemann i samarbeid med Nettarkivet på Nasjonalbiblioteket, basert på ei omarbeidd liste over kommunar frå Landssamanslutninga av nynorskkommunar (lnk.no). Ein crawler er ein robot som følgjer hyperlenkjer på nettet og lastar ned nye nettsider han finn. For dette korpuset vart Veidemann satt til å laste ned dokument i publiseringsformat som pdf. Lista Veidemann har teke som utgangspunkt, har leidd han til sakspapir på websidene til dei ulike kommunane. Den resulterande samlinga med dokument er så skanna ved hjelp av Googles optiske teiknattkjennings-api (OCR - Optical Character Recognition). Sjølv om OCR-lesinga gjennomgåande er god, vil det finnast feillesingar. Det endelege korpuset er sett saman av 50.000 dokument, og inneheld totalt omlag 127 millionar ord. Ca. 88,5 millionar av desse er på nynorsk, resten er stort sett på bokmål. Alle tekstene i korpuset er klassifiserte etter språk. Korpuset er i denne omgangen publisert som eit json-objekt, der nøkkelen er ein identifikator (urn) for Veidemann-nedlastinga og verdien er ei liste av lister over sidene i dokumentet med tilhøyrande sidetal og målform. Det ligg òg ved ei liste over urn-ane i korpuset. Desse urn-ane syner vidare til nettsida (url) som dokumentet vart lasta ned frå. Dei originale pdf-filene og ocr-formatet er tilgjengelege på førespurnad til Språkbanken.
- url: https://www.nb.no/sprakbanken/resource/3730/
- identifier: sbr-60
- distribution Info
- licence Info
- user Category: Public
- distribution Access Medium: downloadable
- download Location: https://www.nb.no/sprakbanken/wp-json/resource/v1/sbr-60
- execution Location:
- attribution Text:
- licence
- licence Family: Creative Commons (CC)
- licence Name: Creative_Commons-ZERO (CC-ZERO)
- licence Url: https://creativecommons.org/publicdomain/zero/1.0/
- conditions Of Use:
- non Standard Conditions Of Use:
- distribution Rights Holder
- actor Info
- actor Type: organization
- role: Distribution Rights Holder
- organization Info
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- communication Info
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- actor Info
- licensor:
- actor Info
- actor Type: organization
- role: Licensor
- organization Info
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- communication Info
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- licence Info
- ipr Holder
- contact
- actor Info
- actor Type: organization
- role: Contact
- organization Info
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- actor Info
- metadata Info
- metadata Creation Date: 04.12.2020
- metadata Language Name: English
- metadata Language Id: eng
- metadata Last Date Updated: 04.12.2020
- metadata Creator
- actor Info
- actor Type: person
- role: Metadata Creator
- person Info
- surname: Lindstad
- given Name: Arne Martinus
- communication Info
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- actor Info
- version Info
- version: 0.1
- revision:
- last Date Updated: 04.12.2020
- validation Info
- validated: yes
- validation Type: content
- validation Mode: automatic
- validation Mode Details: OCR (Google's OCR API), Language Classification (pytextcat and models from Giellatekno)
- validation Extent: full
- validator:
- actor Info
- actor Type: person
- role: Resource Validator
- person Info
- surname: Kåsen
- given Name: Andre
- affiliation:
- organization Info
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- communication Info
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- documentation Unstructured
- role:
- document Unstructured:
- creation Start Date: 16.10.2019
- creation End Date: 04.12.2020
- resource Creator
- actor Info
- actor Type: person
- role: Resource Creator
- person Info
- surname: Kåsen
- given Name: Andre
- affiliation:
- organization Info
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: The Language Bank
- department Name: Språkbanken
- communication Info
- email: sprakbanken@nb.no
- url: https://www.nb.no/sprakbanken/
- address: P.O. Box 2674 Solli
- zip Code: 0203
- city: Oslo
- region: Oslo
- country: Norway
- actor Info
- actor Info
- actor Type: organization
- role: Resource Creator
- organization Info
- organization Name: National Library of Norway
- organization Name: Nasjonalbiblioteket
- organization Short Name: NLN
- organization Short Name: NB
- department Name: Web Archive
- department Name: Nettarkivet
- corpus Info
- corpus Type: Written Corpus
- corpus Part Info
- media Type: text
- corpus Audio Info
- corpus Text Info
- text Format Info
- mime Type: application/json
- size Per Text Format
- size Info
- size: 127476046
- size Unit: words
- size Info
- size: 50000
- size Unit: texts
- size Info
- character Encoding Info
- character Encoding: UTF-8
- text Format Info
- corpus Text Ngram Info
- ngram Info
- base Item:
- order:
- ngram Info
- corpus Part General Info
- linguality Info
- linguality Type: multilingual
- multilinguality Type: multilingualSingleText
- multilinguality Type Details: Texts in Norwegian Nynorsk and Norwegian Bokmål
- language Info
- language Id: nno
- language Name: Norwegian Nynorsk
- language Variety Info
- language Variety Type: jargon
- language Variety Name: formal
- language Info
- language Id: nob
- language Name: Norwegian Bokmål
- language Variety Info
- language Variety Type: jargon
- language Variety Name: formal
- modality Info
- modality Type: writtenLanguage
- modality Type Details:
- size Info
- size: 127476046
- size Unit: words
- time Coverage Info
- time Coverage: 2010-2020
- geographic Coverage Info
- geographic Coverage: nor
- linguality Info
dc:type | corpus |
dc:title | Sakspapir frå nynorskkommunar |
dc:identifier | oai:nb.no:sbr-60 |
dc:description | Tekstene i dette korpuset er samla inn med crawleren Veidemann i samarbeid med Nettarkivet på Nasjonalbiblioteket, basert på ei omarbeidd liste over kommunar frå Landssamanslutninga av nynorskkommunar (lnk.no). Ein crawler er ein robot som følgjer hyperlenkjer på nettet og lastar ned nye nettsider han finn. For dette korpuset vart Veidemann satt til å laste ned dokument i publiseringsformat som pdf. Lista Veidemann har teke som utgangspunkt, har leidd han til sakspapir på websidene til dei ulike kommunane. Den resulterande samlinga med dokument er så skanna ved hjelp av Googles optiske teiknattkjennings-api (OCR - Optical Character Recognition). Sjølv om OCR-lesinga gjennomgåande er god, vil det finnast feillesingar. Det endelege korpuset er sett saman av 50.000 dokument, og inneheld totalt omlag 127 millionar ord. Ca. 88,5 millionar av desse er på nynorsk, resten er stort sett på bokmål. Alle tekstene i korpuset er klassifiserte etter språk. Korpuset er i denne omgangen publisert som eit json-objekt, der nøkkelen er ein identifikator (urn) for Veidemann-nedlastinga og verdien er ei liste av lister over sidene i dokumentet med tilhøyrande sidetal og målform. Det ligg òg ved ei liste over urn-ane i korpuset. Desse urn-ane syner vidare til nettsida (url) som dokumentet vart lasta ned frå. Dei originale pdf-filene og ocr-formatet er tilgjengelege på førespurnad til Språkbanken. |
dc:publisher | |
dc:format | downloadable |
dc:date | 2019-10-16 |
dc:date | 2020-12-04 |
dc:rights | Public |
dc:rights | Creative Commons (CC) |
dc:rights | Creative_Commons-ZERO (CC-ZERO) |
dc:rights | https://creativecommons.org/publicdomain/zero/1.0/ |
dc:creator | Andre Kåsen |
dc:creator | National Library of Norway |
dc:lang | Norwegian Nynorsk |
dc:lang | Norwegian Bokmål |