Sakspapir frå nynorskkommunar

Tekstene i dette korpuset er samla inn med crawleren Veidemann i samarbeid med Nettarkivet på Nasjonalbiblioteket, basert på ei omarbeidd liste over kommunar frå Landssamanslutninga av nynorskkommunar (lnk.no).

Ein crawler er ein robot som følgjer hyperlenkjer på nettet og lastar ned nye nettsider han finn. For dette korpuset vart Veidemann satt til å laste ned dokument i publiseringsformat som pdf. Lista Veidemann har teke som utgangspunkt, har leidd han til sakspapir på websidene til dei ulike kommunane.

Den resulterande samlinga med dokument er så skanna ved hjelp av Googles optiske teiknattkjennings-api (OCR - Optical Character Recognition). Sjølv om OCR-lesinga gjennomgåande er god, vil det finnast feillesingar. Det endelege korpuset er sett saman av 50.000 dokument, og inneheld totalt omlag 127 millionar ord. Ca. 88,5 millionar av desse er på nynorsk, resten er stort sett på bokmål. Alle tekstene i korpuset er klassifiserte etter språk.

Korpuset er i denne omgangen publisert som eit json-objekt, der nøkkelen er ein identifikator (urn) for Veidemann-nedlastinga og verdien er ei liste av lister over sidene i dokumentet med tilhøyrande sidetal og målform. Det ligg òg ved ei liste over urn-ane i korpuset. Desse urn-ane syner vidare til nettsida (url) som dokumentet vart lasta ned frå.

Dei originale pdf-filene og ocr-formatet er tilgjengelege på førespurnad til Språkbanken.

Tekstene i dette korpuset er samla inn med crawleren Veidemann i samarbeid med Nettarkivet på Nasjonalbiblioteket, basert på ei omarbeidd liste over kommunar frå Landssamanslutninga av nynorskkommunar (lnk.no).

Ein crawler er ein robot som følgjer hyperlenkjer på nettet og lastar ned nye nettsider han finn. For dette korpuset vart Veidemann satt til å laste ned dokument i publiseringsformat som pdf. Lista Veidemann har teke som utgangspunkt, har leidd han til sakspapir på websidene til dei ulike kommunane.

Den resulterande samlinga med dokument er så skanna ved hjelp av Googles optiske teiknattkjennings-api (OCR - Optical Character Recognition). Sjølv om OCR-lesinga gjennomgåande er god, vil det finnast feillesingar. Det endelege korpuset er sett saman av 50.000 dokument, og inneheld totalt omlag 127 millionar ord. Ca. 88,5 millionar av desse er på nynorsk, resten er stort sett på bokmål. Alle tekstene i korpuset er klassifiserte etter språk.

Korpuset er i denne omgangen publisert som eit json-objekt, der nøkkelen er ein identifikator (urn) for Veidemann-nedlastinga og verdien er ei liste av lister over sidene i dokumentet med tilhøyrande sidetal og målform. Det ligg òg ved ei liste over urn-ane i korpuset. Desse urn-ane syner vidare til nettsida (url) som dokumentet vart lasta ned frå.

Dei originale pdf-filene og ocr-formatet er tilgjengelege på førespurnad til Språkbanken.

Utvidet metadata

Last ned ressurser

Last ned metadata