Hopp til innhold

Norsk talestyringskorpus

Norsk talestyringskorpus (engelsk forkorting NVCC) er eit tekst- og talekorpus som består av skrivne og innlesne setningar (spørjingar). Dette er spørjingar ein typisk nyttar til å styre t.d. mobiltelefonar med stemma, og dei er tilpassa typiske funksjonar i mobiltelefonar.

NVCC inneheld 10 706 skrivne spørjingar på både bokmål og nynorsk. Spjørjingane er delte inn i 183 forskjellige intent, fordelte på 24 intentgrupper innafor ni overordna domene. 9 834 av spørjingane er lesne inn av 11 talarar frå fem forskjellige dialektområde for å femne dialektvariasjon. Opptaka er transkriberte med ei blanding av nynorsk og bokmål for å liggje så nære talaranes dialekt som mogleg. Transkripsjonane og metadata om talarane (dialekt, alder og kjønn) er med i korpuset. Sjå dokumentasjonsfila for meir detaljert informasjon.

NVCC er eit open source-datasett for utvikling av talestyrte mobilassistentar, men kan også vere nyttig for utvikling av tekstbasert språkteknologi som t.d. chatbotar.

NVCC er utvikla av Språkbanken ved Nasjonalbiblioteket. Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Norsk talestyringskorpus (engelsk forkorting NVCC) er eit tekst- og talekorpus som består av skrivne og innlesne setningar (spørjingar). Dette er spørjingar ein typisk nyttar til å styre t.d. mobiltelefonar med stemma, og dei er tilpassa typiske funksjonar i mobiltelefonar.

NVCC inneheld 10 706 skrivne spørjingar på både bokmål og nynorsk. Spjørjingane er delte inn i 183 forskjellige intent, fordelte på 24 intentgrupper innafor ni overordna domene. 9 834 av spørjingane er lesne inn av 11 talarar frå fem forskjellige dialektområde for å femne dialektvariasjon. Opptaka er transkriberte med ei blanding av nynorsk og bokmål for å liggje så nære talaranes dialekt som mogleg. Transkripsjonane og metadata om talarane (dialekt, alder og kjønn) er med i korpuset. Sjå dokumentasjonsfila for meir detaljert informasjon.

NVCC er eit open source-datasett for utvikling av talestyrte mobilassistentar, men kan også vere nyttig for utvikling av tekstbasert språkteknologi som t.d. chatbotar.

NVCC er utvikla av Språkbanken ved Nasjonalbiblioteket. Me set stor pris på attendemeldingar og forslag til forbetringar. Kontakt oss på sprakbanken@nb.no.

Utvidet metadata

Last ned ressurser

Last ned metadata