Digital tekstanalyse med Python og Jupyter Notebook

Formålet med disse sidene er å gjøre forskere istand til å utføre tekstanalyser i Nasjonalbibliotekets digitaliserte samlinger av aviser og bøker.

Alt materiale er tilrettelagt for Python-kode i Jupyter Notebook. For en innføring i Python og Jupyter Notebook, se for eksempel Jupyter Notebook: An Introduction. Jupyter Notebook lastes ned fra Anaconda Distribution. Velg nyeste versjon av Python for ditt operativsystem.

Eksempelfiler

Nedenfor er en rekke eksempler på analyser som kan gjøres i Nasjonalbibliotekets tekster. Lenkene tar deg til en ekstern visningstjeneste for Jupyter Notebook. Hver enkelt notebook kan lastes ned ved å trykke på nedlastningsikonet i visningstjenesten og så høyreklikke og velge «Lagre side som …».  For å kunne kjøre koden, må fila lagres som .ipynb. Alle eksemplene kan også utføres i Binder. Klikk først på ønsket notebook for å navigere til visningstjenesten og velg så symbolet med de tre ringene i øvre høyre hjørne for å komme til Binder-versjonen.

Oppstart dhlab

1. Bygg korpus

2. Konkordans

3. Kollokasjoner

4. N-gram og galakser

5. Navnegrafer

6. Søk med trunkering

7. Setningsuttrekk

8. Sammenlign metadata

9. Ordparadigmer

10. Søk i aviser

Forskningsartikler

Anbefalt lesning

Bastiansen, Henrik (2019):
«Når mediehistorien blir søkbar – og grafisk»
Mediehistorisk tidsskrift nr 2, 2019 (Årgang 16, nr 32), s. 132-142

Bekeng-Flemmen, Haakon (2017):
«Ved et tideverv. Forestillingen om en kulturell krise i Norge på 1930-tallet.»
Arr. Idéhistorisk tidsskrift. ISSN 0802-7005. 29(2), s 73-80, 82-89 : ill.

Birkenes, Magnus Breder, Lars G. Johnsen, Arne M. Lindstad og Johanne Ostad (2015):
«From digital library to n-grams: NB N-gram».
I Proceedings of the 20th Nordic Conference of Computational Linguistics, 293–295. Linköping: Linköping University Electronic Press.

Boasson, Frode og Anders Skare Malvik (2019):
«Digital humaniora, mediehistorie og litterære subjektivitetsuttrykk. Om forholdet mellom norsk litteratur og utviklingen av den kommersielle pressen 1855–1900 i et DH‑perspektiv.»
Norsk litteratur-vitenskapelig tidsskrift 02/2019 (Volum 22)

Helland, Frode (2019):
Rasismens retorikk: Studier i norsk offentlighet
Oslo: Pax

Hemstad, Ruth (2018):
“Scandinavianism. Mapping the Rise of a New Concept”,
Contributions to the History of Concepts 13 (1) 2018: 1–21.

Hemstad, Ruth (2018):
«Skandinavisme som omstridt begrep i nordisk offentlighet».
I Skandinavismen. Vision og virkning, Ruth Hemstad, Jes Fabricius Møller og Dag Thorkildsen, red. Odense: Syddansk Universitetsforlag, 2018, 21-43.

Johnsen, Lars G. (2016):
“Graph Analysis of Word Networks”
Extended Papers of the International Symposium on Digital Humanities (DH 2016) Växjö, Sweden, November, 7-8, 2016.

Johnsen, Lars G. (2019)
«Eldre bøker i den digitale samlingen. Et elektronisk blikk på tekster fra perioden 1650-1850»
I Litterære verdensborgere. Transnasjonale perspektiver på norsk bokhistorie 1519-1850. Aasta M.B. Bjørkøy, Ruth Hemstad, Aina Nøding og Anne Birgitte Rønning (red.). Oslo: Nasjonalbiblioteket, 2019, s 190-214.

Karlsen, Heidi (2019):
Sub-corpus topic modeling og diskursanalyse: gruvearbeid, tråling eller kokekunst?
Samlaren: tidsskrift för forskning om svensk och annan nordisk litteratur. 2019, 140, 281-304.

Olsen, Ida Keihl (2019):
Subjektplassering i moderne norsk – en korpusbasert analyse av leddstillingsvariasjon i bokmål det siste hundreåret
Masteroppgave, Universitetet i Oslo

Uri, Helene (2019):
«Dette er en reklametekst for Norges stiligste nettside»
Aftenposten 19.10.2019

Spørsmål?

Spør Nasjonalbiblioteket

eller send oss en e-post: dh-lab@nb.no