Hopp til innhold

Stortingskorpuset 1.1

Dette er versjon 1.1 av Stortingskorpuset (engelsk forkorting NPSC).

Følgjande endringar skil versjon 1.1. frå versjon 1.0:
– Dataa er delte opp i offisielle trenings-, evaluerings- og testsett.
– Manuell dialektannotering er lagt til for kvar enkelt talar.
– Sluttpunktet for ei setning (sentence_id 45886) i 20172018 er endra, av di setninga inneheldt ei 30 minutt lang pause i versjon 1.0. Den tilsvarande lydfila (20171208-085509_6122400_6124160.wav) vart forkorta i tråd med dette.
– Nokre metadata til transkripsjonane i 20171213 mangla i json-filene. Desse er lagt til i versjon 1.2.
– Dokumentasjonen er oppdatert med endringane over.

Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Betaversjonar av korpuset vart publiserte i 2020 og 2021. Me har kjørt postprosesseringsskript sidan siste versjon (0.2). Dette har ført til endringar i alle transkripsjonane, og transkripsjonane har ei anna formatering enn i dei tidligare versjonane. Dei gamle transkripsjonsfilane bør difor erstattast med filene i denne versjonen.

Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Dette er versjon 1.1 av Stortingskorpuset (engelsk forkorting NPSC).

Følgjande endringar skil versjon 1.1. frå versjon 1.0:
– Dataa er delte opp i offisielle trenings-, evaluerings- og testsett.
– Manuell dialektannotering er lagt til for kvar enkelt talar.
– Sluttpunktet for ei setning (sentence_id 45886) i 20172018 er endra, av di setninga inneheldt ei 30 minutt lang pause i versjon 1.0. Den tilsvarande lydfila (20171208-085509_6122400_6124160.wav) vart forkorta i tråd med dette.
– Nokre metadata til transkripsjonane i 20171213 mangla i json-filene. Desse er lagt til i versjon 1.2.
– Dokumentasjonen er oppdatert med endringane over.

Korpuset er utvikla ved Språkbanken på Nasjonalbiblioteket. NPSC er sett saman av lydopptak av møte i Stortinget, ortografisk transkriberte til høvesvis bokmål eller nynorsk. Det finst òg metadata om dei ulike talarane, og dei offisielle referata frå dei ulike debattane er òg inkluderte i korpuset. Opptaka utgjer 140 timar med tale frå i alt 267 ulike talarar, og inneheld 65.000 setningar og 1,2 millionar ord.

Transkripsjonsarbeidet er først gjort automatisk; resultatet av den automatiske transkripsjonen er manuelt sjekka og korrigert av kvalifiserte lingvistar og filologar. For å sikre konsistens og nøyaktigheit, er alle transkripsjonane korrekturlesne.

Korpuset er primært tenkt som eit open source-datasett for ASR-utvikling (Automatic Speech Recognition, automatisk taleattkjenning).

Dei individuelle lydfilene i korpuset inneheld opptak frå heile dagar med plenumsmøte frå 2017 og 2018 (eller, viss eit møte varar i meir enn seks timar, dei første seks timane den aktuelle dagen). Sidan desse lydfilene er ganske store, finst det òg individuelle lydfiler for kvar enkelt setning.

Betaversjonar av korpuset vart publiserte i 2020 og 2021. Me har kjørt postprosesseringsskript sidan siste versjon (0.2). Dette har ført til endringar i alle transkripsjonane, og transkripsjonane har ei anna formatering enn i dei tidligare versjonane. Dei gamle transkripsjonsfilane bør difor erstattast med filene i denne versjonen.

Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Utvidet metadata

Last ned ressurser

Last ned metadata