Hopp til innhold

NST uttaleleksikon for bokmål

Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.

Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger.

Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil.

Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet.

Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).

Dette uttaleleksikonet ble opprinnelig produsert av Nordisk språkteknologi (NST), og inneholder omtrent 785.000 oppslagsord. Ordlisten tar utgangspunkt i de 100.000 mest frekvente ordformene i det norske tekstkorpuset til NST.

Hele leksikonet foreligger som en stor fil i csv-format. Hvert oppslag er på en linje, det er 51 poster tilgjengeleg på hver linje, og postene er skilt med semikolon. Ikke alle postene er like relevante for alle formål, men gitt formatet er det lett å hente ut den informasjonen man trenger.

Leksikonet inneholder blant annet informasjon om dekomponeringsledd i sammensetninger, og fonetisk transkripsjon. Denne transkripsjonen er delvis gjort manuelt, men det meste er gjort automatisk ved hjelp av en inflektor. Deler av dette er stikkprøvekontrollert i etterkant. Selve inflektoren, og annet leksikalsk verktøy som kan brukes i behandling av leksikonet, kan lastes ned som en egen fil.

Transkripsjonsformatet er SAMPA (Speech Assessment Methods Phonetic Alphabet). Se http://www.phon.ucl.ac.uk/home/sampa/index.html for nærmere informasjon om dette transkripsjonsformatet.

Et skript som konverter SAMPA-transkripsjonene i leksikonet til IPA finnes på GitHub (https://github.com/peresolb/sampa_to_ipa).

Utvidet metadata

Last ned ressurser

Last ned metadata