Hopp til innhold

Målfrid 2021 – Fritt tilgjengelege tekster frå norske statlege nettsider

Dette korpuset inneheld dokument frå 339 internettdomene tilknytta norske, statlege institusjonar. Totalt består materialet av omlag 4,1 milliardar «tokens» (ord og teiknsetjing), noko som gjer korpuset til eit av dei største fritt tilgjengelege tekstkorpusa for bokmål og nynorsk. Korpuset inneheld òg tekster på nordsamisk, sørsamisk, lulesamisk og engelsk.

Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar.

Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom 11. desember 2020 og 18. januar 2021. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt.

Dei nedlasta dokumenta vart prosessert vidare. Bolkar med tekst vart ekstrahert frå HTML med Justext, eit system for «boilerplate removal» (http://corpus.tools/wiki/Justext). Textract (https://textract.readthedocs.io/en/stable/) vart brukt for å ekstrahere tekst frå Word/ODT-dokument, mens Cloud Vision OCR frå Google (https://textract.readthedocs.io/en/stable/) vart brukt til å ekstrahere tekst frå pdf-filer.

Dei ekstraherte tekstene vart klassifiserte ved bruk av TextCat språkidentifikasjon (https://www.let.rug.nl/~vannoord/TextCat/) på dokumentnivå. Eksakte duplikat av same dokument (innanfor same domene) vart fjerna.

Korpuset er lagt til rette som gzippa JSON-liner (jsonl), eitt dokument per line. Det er ei JSONL-fil for kvar kombinasjon av domene, språk og innhaldstype. Filene er på UTF-8 tekstformat, med ASCII lineskift. Kvart dokument inneheld dei følgande nyklane:

– lang: språk i dokumentet (identifisert med TextCat)
– url: url-en til dokumentet då det vart hausta
– date: dato for innhausting av dokumentet
– mimetype: (forenkla) mediatype for dokumentet: HTML, DOC eller PDF
– fulltext: ei rekkje av strenger, der kvar streng representerer eitt avsnitt – ein tom streng angir ei ny side i PDF-dokumenta

Dette korpuset inneheld dokument frå 339 internettdomene tilknytta norske, statlege institusjonar. Totalt består materialet av omlag 4,1 milliardar «tokens» (ord og teiknsetjing), noko som gjer korpuset til eit av dei største fritt tilgjengelege tekstkorpusa for bokmål og nynorsk. Korpuset inneheld òg tekster på nordsamisk, sørsamisk, lulesamisk og engelsk.

Dataa vart samla inn som ein lekk i Målfrid-prosjektet, der Nasjonalbiblioteket på vegner av Kulturdepartementet og i samarbeid med Språkrådet haustar og aggregerer tekstdata for å dokumentere bruken av bokmål og nynorsk hjå statlege institusjonar.

Språkbanken føretok ei fokusert hausting av nettsidene til dei aktuelle institusjonane mellom 11. desember 2020 og 18. januar 2021. Tekstdokument (HTML, DOC(X)/ODT og PDF) vart lasta ned rekursivt frå dei ulike domena, 12 nivå ned på nettsidene. Me tok ålmenne høflegheitsomsyn og respekterte robots.txt.

Dei nedlasta dokumenta vart prosessert vidare. Bolkar med tekst vart ekstrahert frå HTML med Justext, eit system for «boilerplate removal» (http://corpus.tools/wiki/Justext). Textract (https://textract.readthedocs.io/en/stable/) vart brukt for å ekstrahere tekst frå Word/ODT-dokument, mens Cloud Vision OCR frå Google (https://textract.readthedocs.io/en/stable/) vart brukt til å ekstrahere tekst frå pdf-filer.

Dei ekstraherte tekstene vart klassifiserte ved bruk av TextCat språkidentifikasjon (https://www.let.rug.nl/~vannoord/TextCat/) på dokumentnivå. Eksakte duplikat av same dokument (innanfor same domene) vart fjerna.

Korpuset er lagt til rette som gzippa JSON-liner (jsonl), eitt dokument per line. Det er ei JSONL-fil for kvar kombinasjon av domene, språk og innhaldstype. Filene er på UTF-8 tekstformat, med ASCII lineskift. Kvart dokument inneheld dei følgande nyklane:

– lang: språk i dokumentet (identifisert med TextCat)
– url: url-en til dokumentet då det vart hausta
– date: dato for innhausting av dokumentet
– mimetype: (forenkla) mediatype for dokumentet: HTML, DOC eller PDF
– fulltext: ei rekkje av strenger, der kvar streng representerer eitt avsnitt – ein tom streng angir ei ny side i PDF-dokumenta

Utvidet metadata

Last ned ressurser

Last ned metadata