Tekster fra Wikipedia – bokmål

Dette korpuset inneholder en dump av samtlige Wikipediaartikler på bokmål fra ca. 20. mars 2019. Korpuset inneholder 492 864 artikler. Korpuset er strukturert som et JSON-array over artiklene slik de foreligger på nettet. Hver artikkel er et strukturert element, med ett nivå av "nøkkel:verdi", som inneholder tekst og metadata. Det er åtte slike nøkkel:verdi-par i artiklene:

- bytelength: lengde på teksten i bytes - pageid: identifikator for teksten - title: tittel som i Wikipedia - hiddencategories: metadata - text: teksten som i Wikipedia - revid: revisjonsinformasjon - contentcategories: metadata - wikidata: andre data

Et eksempel på JSON-formatet finnes i pdf-filen 2019_wikipedia.pdf.

Dette korpuset inneholder en dump av samtlige Wikipediaartikler på bokmål fra ca. 20. mars 2019. Korpuset inneholder 492 864 artikler. Korpuset er strukturert som et JSON-array over artiklene slik de foreligger på nettet. Hver artikkel er et strukturert element, med ett nivå av "nøkkel:verdi", som inneholder tekst og metadata. Det er åtte slike nøkkel:verdi-par i artiklene:

- bytelength: lengde på teksten i bytes
- pageid: identifikator for teksten
- title: tittel som i Wikipedia
- hiddencategories: metadata
- text: teksten som i Wikipedia
- revid: revisjonsinformasjon
- contentcategories: metadata
- wikidata: andre data

Et eksempel på JSON-formatet finnes i pdf-filen 2019_wikipedia.pdf.

Utvidet metadata

Last ned ressurser