Tuva Taledatabase er utarbeidd av Max Manus AS for test og evaluering av dikteringsløysinga «Tuva».
Databasen inneheld omlag 24 timar innlesen tale frå 40 talarar. 36 av desse snakkar ei bokmålsnær dialekt, fire ei nynorsknær dialekt. Omlag 70% av materialet er manuskriptlesen tale og 30% er spontan tale. Manuskripta i den manuskriptlesne delen av korpuset er som regel korte avisartiklar. Av desse manuskripta vert 25% lesne av alle talarane, medan dei resterande 75% er unike for kvar talar.
All punktuering (punktum, komma, avsnitt osb.) vert lesen opp av innlesarane, og alle lydopptaka er ortografisk transkriberte i to ulike format.
For nynorsk finst det berre manuskriptlesen tale i korpuset.
Innlesarane i Tuva Taledatabase har vorte utvalde for å representere eit tverrsnitt av den norske arbeidsbefolkninga, balansert for alder, kjønn og dialekt.
Alle lydopptaka er utførde med 48 kHz punktprøvingsfrekvens og 32 bit oppløysing med ein mikrofon i ein kanal (mono). Opptaka vart gjennomførte i eit opptaksstudio i Oslo.
Tuva Taledatabase er utarbeidd av Max Manus AS for test og evaluering av dikteringsløysinga «Tuva».
Databasen inneheld omlag 24 timar innlesen tale frå 40 talarar. 36 av desse snakkar ei bokmålsnær dialekt, fire ei nynorsknær dialekt. Omlag 70% av materialet er manuskriptlesen tale og 30% er spontan tale. Manuskripta i den manuskriptlesne delen av korpuset er som regel korte avisartiklar. Av desse manuskripta vert 25% lesne av alle talarane, medan dei resterande 75% er unike for kvar talar.
All punktuering (punktum, komma, avsnitt osb.) vert lesen opp av innlesarane, og alle lydopptaka er ortografisk transkriberte i to ulike format.
For nynorsk finst det berre manuskriptlesen tale i korpuset.
Innlesarane i Tuva Taledatabase har vorte utvalde for å representere eit tverrsnitt av den norske arbeidsbefolkninga, balansert for alder, kjønn og dialekt.
Alle lydopptaka er utførde med 48 kHz punktprøvingsfrekvens og 32 bit oppløysing med ein mikrofon i ein kanal (mono). Opptaka vart gjennomførte i eit opptaksstudio i Oslo.
Utvidet metadata
resource Common Info:
resource Type: corpus
identification Info:
resource Name: Tuva Speech Database
resource Name: Tuva Taledatabase
description: Tuva Speech Database was created by Max Manus AS for testing and evaluation of the speech recognition solution "Tuva" for Norwegian.
The corpus consists of approximately 24 hours of recorded speech from 40 speakers of Norwegian, 36 of which speak a dialect close to the Bokmål written standard, while four speak a dialect that is closer to the Nynorsk written standard. About 70% of the material is manuscript read. The remaining 30% is spontaneous speech. The manuscripts in the manuscript read part of the corpus is for the most part composed of short news articles. 25% of the manuscripts are read by all speakers, while the remaining 75% are unique to each speaker.
All punctuation (dots, commas, paragraphs etc.) are read by the speakers, and all sound recordings are orthographically transcribed in two different formats.
For Nynorsk, only manuscript read speech is available. The speakers have been selected to represent a cross section of the Norwegian working population, balanced for age, gender and dialect.
All recordings are made with a 48 kHz sampling frequency and 32 bit resolution with one microphone in one channel (mono).
The recordings were conducted in a recording studio in Oslo.
description: Tuva Taledatabase er utarbeidd av Max Manus AS for test og evaluering av dikteringsløysinga «Tuva».
Databasen inneheld omlag 24 timar innlesen tale frå 40 talarar. 36 av desse snakkar ei bokmålsnær dialekt, fire ei nynorsknær dialekt. Omlag 70% av materialet er manuskriptlesen tale og 30% er spontan tale. Manuskripta i den manuskriptlesne delen av korpuset er som regel korte avisartiklar. Av desse manuskripta vert 25% lesne av alle talarane, medan dei resterande 75% er unike for kvar talar.
All punktuering (punktum, komma, avsnitt osb.) vert lesen opp av innlesarane, og alle lydopptaka er ortografisk transkriberte i to ulike format.
For nynorsk finst det berre manuskriptlesen tale i korpuset.
Innlesarane i Tuva Taledatabase har vorte utvalde for å representere eit tverrsnitt av den norske arbeidsbefolkninga, balansert for alder, kjønn og dialekt.
Alle lydopptaka er utførde med 48 kHz punktprøvingsfrekvens og 32 bit oppløysing med ein mikrofon i ein kanal (mono). Opptaka vart gjennomførte i eit opptaksstudio i Oslo.
document Unstructured: See the documentation file. Documentation includes an overview of the structure of the speech database and brief descriptions of the text material, readers, recording procedure as well as information about how the resource is annotated.
resource Creation Info:
creation Start Date: 01.01.2016
creation End Date: 01.06.2017
resource Creator
actor Info:
actor Type: organization
role: Resource Creator
organization Info:
organization Name: Max Manus AS
organization Name: Max Manus AS
corpus Info:
corpus Type: Multimodal Corpus
corpus Part Info:
media Type: audio
corpus Audio Info:
audio Size Info:
size Info:
size: 24
size Unit: hours
audio Format Info:
mime Type: audio/wav
corpus Part Info:
media Type: text
corpus Text Info:
text Format Info:
mime Type: text/plain
character Encoding Info:
character Encoding: UTF-8
corpus Part General Info:
linguality Info:
linguality Type: monolingual
language Info:
language Id: no
language Name: Norwegian
language Variety Info:
language Variety Type: dialect
language Variety Name: Dialects representing various regions
modality Info:
modality Type: spokenLanguage
modality Type Details: Manuscript read and spontaneous speech
Tuva Taledatabase er utarbeidd av Max Manus AS for test og evaluering av dikteringsløysinga «Tuva».
Databasen inneheld omlag 24 timar innlesen tale frå 40 talarar. 36 av desse snakkar ei bokmålsnær dialekt, fire ei nynorsknær dialekt. Omlag 70% av materialet er manuskriptlesen tale og 30% er spontan tale. Manuskripta i den manuskriptlesne delen av korpuset er som regel korte avisartiklar. Av desse manuskripta vert 25% lesne av alle talarane, medan dei resterande 75% er unike for kvar talar.
All punktuering (punktum, komma, avsnitt osb.) vert lesen opp av innlesarane, og alle lydopptaka er ortografisk transkriberte i to ulike format.
For nynorsk finst det berre manuskriptlesen tale i korpuset.
Innlesarane i Tuva Taledatabase har vorte utvalde for å representere eit tverrsnitt av den norske arbeidsbefolkninga, balansert for alder, kjønn og dialekt.
Alle lydopptaka er utførde med 48 kHz punktprøvingsfrekvens og 32 bit oppløysing med ein mikrofon i ein kanal (mono). Opptaka vart gjennomførte i eit opptaksstudio i Oslo.