Korpus med gullstandard

.

Språkbanken starta i oktober 2011 opp eit prosjekt med å lage tekstkorpus med gullstandard – dvs. at annoteringa er manuelt sjekka – for nynorsk og bokmål. Prosjektet har ei tidsramme på to år, og vert utført av medarbeidarar i Språkbanken i samarbeid med Tekstlaboratoriet på Institutt for lingvistiske og nordiske studium ved Universitetet i Oslo.

For å utvikle grammatiske parsarar og andre språkteknologiske verktøy for automatisk analyse av løpande tekst (til dømes annotering med ordklasse, bøying og setningsstruktur), er det naudsynt å ha korpus som kan nyttast til testing og trening av desse verktøya. Desse korpusa bør vere på ein såkalla gullstandard, det vil seie at dei morfologiske og syntaktiske analysane er sjekka og eintydiggjorte manuelt av fagfolk slik at dei kan fungere som ein slags fasit for dei automatiserte verktøya.

Språkbanken har derfor sett i gang eit prosjekt for å byggje opp slike korpus for nynorsk og bokmål. Den primære målgruppa for korpusa er språkteknologar, men dei vil òg vere ein ressurs i språkvitskaplege forskingsmiljø. Korpusa skal merkast opp med ordklasse for alle ord, morfosyntaktiske kategoriar (bøying), og syntaktiske funksjonar (setningsledd, t.d. subjekt, objekt og adverbial).

Den morfologiske analysen i korpusa følgjer Norsk referansegrammatikk (Jan Terje Faarlund, Svein Lie og Kjell Ivar Vannebo 1997), mens den syntaktiske analysen er basert på dependensgrammatikk, ein mykje brukt modell som er enkel å handtere for automatiske analyseprogram.

Dependensgrammatikk analyserer den grammatiske strukturen til setningar som asymmetriske relasjonar mellom ord, ikkje mellom fraser som i tradisjonell grammatikk. I ei setning som ”Per kjøper raude bilar” vil ”kjøper” vere hovud (kjerneord) for heile setninga, og knytte til seg subjektet ”Per” og objektet ”bilar” som såkalla dependentar. ”Bilar” vil i sin tur vere hovud for ”raude”.

Per Erik Solberg og Pål Kristian Eriksen er for tida tilsette på dette prosjektet.

samlingen nettsidene