Stortingskorpuset

Dette er ein betaversjon (versjon 0.1) av Stortingskorpuset (engelsk forkorting NPSC). Korpuset er under oppbygging ved Språkbanken på Nasjonalbiblioteket i perioden 2019-2020. NPSC er samansett av lydopptak av debattar i Stortinget, ortografisk transkribert til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkludert i korpuset.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. Alle transkripsjonane har vorte korrekturlesne for å sikre konsistens og nøyaktigheit.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå stortingssesjonane 2016-2017 og 2017-2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene vert ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Ein endeleg og monaleg større versjon av Stortingskorpuset vert lansert i 2021. For at den endelege versjonen skal verte så god som mogleg, set me stor pris på attendemeldingar og forslag til forbetringar på denne versjonen. Kontakt oss på sprakbanken@nb.no.

Dette er ein betaversjon (versjon 0.1) av Stortingskorpuset (engelsk forkorting NPSC). Korpuset er under oppbygging ved Språkbanken på Nasjonalbiblioteket i perioden 2019-2020. NPSC er samansett av lydopptak av debattar i Stortinget, ortografisk transkribert til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkludert i korpuset.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. Alle transkripsjonane har vorte korrekturlesne for å sikre konsistens og nøyaktigheit.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå stortingssesjonane 2016-2017 og 2017-2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene vert ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Ein endeleg og monaleg større versjon av Stortingskorpuset vert lansert i 2021. For at den endelege versjonen skal verte så god som mogleg, set me stor pris på attendemeldingar og forslag til forbetringar på denne versjonen. Kontakt oss på sprakbanken@nb.no.

Utvidet metadata

Last ned ressurser

Last ned metadata