Hopp til innhold

Stortinget Speech Corpus versjon 1.0

Stortinget Speech Corpus (SSC) er eit taledatasett på meir enn 5000 timar for svakt overvaka taleattkjenning laga av lydopptak og tekst frå Stortingsforhandlingane. Det inneheld taleeiningar på inntil 30 sekund med transkripsjonar på bokmål og nynorsk frå dei offisielle Stortingsforhandlingane. Transkripsjonane i datasettet er òg på bokmål og nynorsk.

Datasettet vert distribuert som ei JSONL-fil. Lydfiler, tekstfiler og transkripsjonsfiler (med output frå taleattkjenninga) er inkluderte i datasettet, linka med relative filstiar i JSONL-fila. Merk at berre segmenterte lydfiler er del av korpuset.

Statistikk
– Antall segment: 724 783
– Total varigheit i timar: 5 190
– Antal unike talarar: 729

For meir detaljert informasjon, sjå dokumentasjonsfilene.

Stortinget Speech Corpus (SSC) er eit taledatasett på meir enn 5000 timar for svakt overvaka taleattkjenning laga av lydopptak og tekst frå Stortingsforhandlingane. Det inneheld taleeiningar på inntil 30 sekund med transkripsjonar på bokmål og nynorsk frå dei offisielle Stortingsforhandlingane. Transkripsjonane i datasettet er òg på bokmål og nynorsk.

Datasettet vert distribuert som ei JSONL-fil. Lydfiler, tekstfiler og transkripsjonsfiler (med output frå taleattkjenninga) er inkluderte i datasettet, linka med relative filstiar i JSONL-fila. Merk at berre segmenterte lydfiler er del av korpuset.

Statistikk
– Antall segment: 724 783
– Total varigheit i timar: 5 190
– Antal unike talarar: 729

For meir detaljert informasjon, sjå dokumentasjonsfilene.

Utvidet metadata

Last ned ressurser

Last ned metadata