Stortinget Speech Corpus (SSC) er eit taledatasett på meir enn 5000 timar for svakt overvaka taleattkjenning laga av lydopptak og tekst frå Stortingsforhandlingane. Det inneheld taleeiningar på inntil 30 sekund med transkripsjonar på bokmål og nynorsk frå dei offisielle Stortingsforhandlingane.
Datasettet vert distribuert som ei JSONL-fil. Lydfiler, tekstfiler og transkripsjonsfiler (med output frå taleattkjenninga) er inkluderte i datasettet, linka med relative filstiar i JSONL-fila. Merk at berre segmenterte lydfiler er del av korpuset.
Statistikk
– Antall segment: 724 783
– Total varigheit i timar: 5 190
– Antal unike talarar: 729
For meir detaljert informasjon, sjå dokumentasjonsfilene.
Stortinget Speech Corpus (SSC) er eit taledatasett på meir enn 5000 timar for svakt overvaka taleattkjenning laga av lydopptak og tekst frå Stortingsforhandlingane. Det inneheld taleeiningar på inntil 30 sekund med transkripsjonar på bokmål og nynorsk frå dei offisielle Stortingsforhandlingane.
Datasettet vert distribuert som ei JSONL-fil. Lydfiler, tekstfiler og transkripsjonsfiler (med output frå taleattkjenninga) er inkluderte i datasettet, linka med relative filstiar i JSONL-fila. Merk at berre segmenterte lydfiler er del av korpuset.
Statistikk
– Antall segment: 724 783
– Total varigheit i timar: 5 190
– Antal unike talarar: 729
For meir detaljert informasjon, sjå dokumentasjonsfilene.
Stortinget Speech Corpus (SSC) er eit taledatasett på meir enn 5000 timar for svakt overvaka taleattkjenning laga av lydopptak og tekst frå Stortingsforhandlingane. Det inneheld taleeiningar på inntil 30 sekund med transkripsjonar på bokmål og nynorsk frå dei offisielle Stortingsforhandlingane.
Datasettet vert distribuert som ei JSONL-fil. Lydfiler, tekstfiler og transkripsjonsfiler (med output frå taleattkjenninga) er inkluderte i datasettet, linka med relative filstiar i JSONL-fila. Merk at berre segmenterte lydfiler er del av korpuset.
Statistikk
– Antall segment: 724 783
– Total varigheit i timar: 5 190
– Antal unike talarar: 729
For meir detaljert informasjon, sjå dokumentasjonsfilene.