Målfrid 2021 – Fritt tilgjengelege tekster frå norske statlege nettsider

Dette korpuset inneheld dokument frå 339 internettdomene tilknytta norske, statlege institusjonar. Totalt består materialet av omlag 4,1 milliardar «tokens» (ord og teiknsetjing), noko som gjer korpuset til eit av dei største fritt tilgjengelege tekstkorpusa for bokmål og nynorsk. Korpuset inneheld òg tekster på nordsamisk, sørsamisk, lulesamisk og engelsk.

Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar.

Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom 11. desember 2020 og 18. januar 2021. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt.

Dei nedlasta dokumenta vart prosessert vidare. Bolkar med tekst vart ekstrahert frå HTML med Justext, eit system for «boilerplate removal» (http://corpus.tools/wiki/Justext). Textract (https://textract.readthedocs.io/en/stable/) vart brukt for å ekstrahere tekst frå Word/ODT-dokument, mens Cloud Vision OCR frå Google (https://textract.readthedocs.io/en/stable/) vart brukt til å ekstrahere tekst frå pdf-filer.

Dei ekstraherte tekstene vart klassifiserte ved bruk av TextCat språkidentifikasjon (https://www.let.rug.nl/~vannoord/TextCat/) på dokumentnivå. Eksakte duplikat av same dokument (innanfor same domene) vart fjerna.

Korpuset er lagt til rette som gzippa JSON-liner (jsonl), eitt dokument per line. Det er ei JSONL-fil for kvar kombinasjon av domene, språk og innhaldstype. Filene er på UTF-8 tekstformat, med ASCII lineskift. Kvart dokument inneheld dei følgande nyklane:

– lang: språk i dokumentet (identifisert med TextCat)
– url: url-en til dokumentet då det vart hausta
– date: dato for innhausting av dokumentet
– mimetype: (forenkla) mediatype for dokumentet: HTML, DOC eller PDF
– fulltext: ei rekkje av strenger, der kvar streng representerer eitt avsnitt – ein tom streng angir ei ny side i PDF-dokumenta

Last ned ressurser

Utvidet metadata

dc:type	corpus
dc:title	Målfrid 2021 – Fritt tilgjengelege tekster frå norske statlege nettsider
dc:identifier	oai:nb.no:sbr-69
dc:description	Dette korpuset inneheld dokument frå 339 internettdomene tilknytta norske, statlege institusjonar. Totalt består materialet av omlag 4,1 milliardar "tokens" (ord og teiknsetjing), noko som gjer korpuset til eit av dei største fritt tilgjengelege tekstkorpusa for bokmål og nynorsk. Korpuset inneheld òg tekster på nordsamisk, sørsamisk, lulesamisk og engelsk. Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar. Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom 11. desember 2020 og 18. januar 2021. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt. Dei nedlasta dokumenta vart prosessert vidare. Bolkar med tekst vart ekstrahert frå HTML med Justext, eit system for "boilerplate removal" (http://corpus.tools/wiki/Justext). Textract (https://textract.readthedocs.io/en/stable/) vart brukt for å ekstrahere tekst frå Word/ODT-dokument, mens Cloud Vision OCR frå Google (https://textract.readthedocs.io/en/stable/) vart brukt til å ekstrahere tekst frå pdf-filer. Dei ekstraherte tekstene vart klassifiserte ved bruk av TextCat språkidentifikasjon (https://www.let.rug.nl/~vannoord/TextCat/) på dokumentnivå. Eksakte duplikat av same dokument (innanfor same domene) vart fjerna. Korpuset er lagt til rette som gzippa JSON-liner (jsonl), eitt dokument per line. Det er ei JSONL-fil for kvar kombinasjon av domene, språk og innhaldstype. Filene er på UTF-8 tekstformat, med ASCII lineskift. Kvart dokument inneheld dei følgande nyklane: – lang: språk i dokumentet (identifisert med TextCat) – url: url-en til dokumentet då det vart hausta – date: dato for innhausting av dokumentet – mimetype: (forenkla) mediatype for dokumentet: HTML, DOC eller PDF – fulltext: ei rekkje av strenger, der kvar streng representerer eitt avsnitt – ein tom streng angir ei ny side i PDF-dokumenta
dc:publisher
dc:format	downloadable
dc:date	2020-12-01
dc:date	2021-04-30
dc:rights	Public
dc:rights	DIFI
dc:rights	Norwegian Licence for Open Government Data (NLOD)
dc:rights	https://data.norge.no/nlod/en/2.0/
dc:creator	Magnus Breder Birkenes
dc:creator	Andre Kåsen
dc:lang	bokmål
dc:lang	nynorsk
dc:lang	nordsamisk
dc:lang	sørsamisk
dc:lang	lulesamisk
dc:lang	engelsk

Last ned metadata (CMDI XML)

Last ned metadata (CMDI XML) https://www.nb.no/sprakbanken/oai?verb=GetRecord&identifier=oai:nb.no:sbr-69&metadataPrefix=cmdi

Målfrid 2021 – Fritt tilgjengelege tekster frå norske statlege nettsider

Last ned ressurser

Utvidet metadata

Dublin Core (DC)

Last ned metadata (CMDI XML)