Hopp til innhold

Tekster fra norsk Wikipedia

Dette korpuset inneholder en dump av samtlige Wikipediaartikler på bokmål, nynorsk og nordsamisk fra ca. 20. mars 2019. Korpuset inneholder 492.864 artikler for bokmål, 139.927 artikler for nynorsk og 7.626 artikler for nordsamisk. Korpuset er strukturert som et JSON-array over artiklene slik de foreligger på nettet. Hver artikkel er et strukturert element, med ett nivå av «nøkkel:verdi», som inneholder tekst og metadata. Det er åtte slike nøkkel:verdi-par i artiklene:

– bytelength: lengde på teksten i bytes
– pageid: identifikator for teksten
– title: tittel som i Wikipedia
– hiddencategories: metadata
– text: teksten som i Wikipedia
– revid: revisjonsinformasjon
– contentcategories: metadata
– wikidata: andre data

Et eksempel på JSON-formatet finnes i dokumentasjonsfilen.

Dette korpuset inneholder en dump av samtlige Wikipediaartikler på bokmål, nynorsk og nordsamisk fra ca. 20. mars 2019. Korpuset inneholder 492.864 artikler for bokmål, 139.927 artikler for nynorsk og 7.626 artikler for nordsamisk. Korpuset er strukturert som et JSON-array over artiklene slik de foreligger på nettet. Hver artikkel er et strukturert element, med ett nivå av «nøkkel:verdi», som inneholder tekst og metadata. Det er åtte slike nøkkel:verdi-par i artiklene:

– bytelength: lengde på teksten i bytes
– pageid: identifikator for teksten
– title: tittel som i Wikipedia
– hiddencategories: metadata
– text: teksten som i Wikipedia
– revid: revisjonsinformasjon
– contentcategories: metadata
– wikidata: andre data

Et eksempel på JSON-formatet finnes i dokumentasjonsfilen.

Utvidet metadata

Last ned ressurser

Last ned metadata