Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.
Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger.
Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil.
Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet.
Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).
Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.
Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger.
Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil.
Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet.
Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).
Utvidet metadata
resource Common Info:
resource Type: lexicalConceptualResource
identification Info:
resource Name: NST Pronunciation Lexicon for Norwegian Bokmål
resource Name: NST uttaleleksikon for bokmål
description: This pronunciation lexicon for Norwegian Bokmål was originally produced by Nordic Language Technology (NST), and contains approximately 785,000 entries. The word list is based on the 100,000 most frequent word forms in NST's Norwegian text corpus.
The lexicon is available as one large csv file. Each entry (line) contains 51 fields, separated by a semicolon. Not all fields are equally relevant for all purposes, but given the format, it should be easy to extract relevant information.
The lexicon contains, among other things, information about the decomposition of compounds and one or more phonetic transcriptions. The phonetic transcription has partly been done manually, but to a large extent it was done automatically using an inflector. Parts of the output of this process was manually checked afterwards. The inflector and other lexical tools that can be used in processing the lexicon, can be downloaded as a separate file.
The transcription format is SAMPA (Speech Assessment Methods Phonetic Alphabet). See http://www.phon.ucl.ac.uk/home/sampa/index.html.
A script for converting the SAMPA transcriptons to IPA can be found on GitHub (https://github.com/peresolb/sampa_to_ipa).
description: Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.
Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger.
Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil.
Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet.
Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).
modality Type Details: Contains a general, non-specific vocabulary. Fullform frequency-based worlist with additions from various sources, including named entities. Contains corresponding phonetic transcriptions.
size Per Modality:
size Info:
size: 784240
size Unit: words
size Info:
size: 784240
size Unit: entries
size Info:
size: 162,8
size Unit: mb
size Info:
size: 784240
size Unit: words
size Info:
size: 784240
size Unit: entries
size Info:
size: 162,8
size Unit: mb
lexical Conceptual Resource Encoding Info:
encoding Level: phonetics
linguistic Information: phonetics-Transcription
conformance To Standards Best Practices: other
theoretic Model: SAMPA
lexical Conceptual Resource Part Info Rev1:
media Type: text
lexical Conceptual Resource Text Info:
text Format Info:
mime Type: text/csv
character Encoding Info:
character Encoding: UTF-8
dc:type
lexicalConceptualResource
dc:title
NST uttaleleksikon for bokmål
dc:identifier
oai:nb.no:sbr-23
dc:description
Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.
Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger.
Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil.
Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet.
Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).