I mars 2011 inngjekk Nasjonalbiblioteket ei avtale med Kaldera språkteknologi AS om å få laga ordnett for nynorsk og bokmål.
Språkbanken har sett i gang arbeidet med eit ordnett for bokmål og nynorsk. Det vil innehalde 50.000 omgrep, såkalla synset. Kvart synset kan innehelde fleire ord. Orda (eller rettare sagt: ordtydingane) skal ha same denotasjon, altså kjernetyding. For eksempel "hest", "øyk" og "gangar". Omgrepa vil verte koda med ei rekkje ulike relasjonar, til dømes hyponymi (ein "hest" er eit "dyr"), meronymi (ein "finger" er ein del av ei "hand"), stad (ein "oase" ligg i ein "ørken") og så bortetter.
Ordnett er viktige ressursar for utviklinga av språkteknologiske program – til dømes automatisk omsetjing, informasjonsattfinning og grammatikk-kontroll - men òg innanfor språkforsking, særleg datalingvistikk.
Arbeidet med det norske ordnettet er basert på eit skandinavisk samarbeid. Hovudstrukturen i ordnettet tek utgangspunkt i det danske ordnettet DanNet, som i sin tur er basert på Den Danske Ordbog, og prosjektet dreg nytte av at dansk og norsk er nærståande språk, reint historisk. Sjølv om det er skilnader i mellom anna morfologi, syntaks og lydsystem (spesielt når det gjeld nynorsk og dialektane), er tydingsforskjellane mellom språka ofte eit spørsmål om ulike nyansar av orda, eller ulik bruk. Slike ulikskapar er ikkje reflekterte i ordnettet, som ikkje kodar korkje sidetydingar (konnotasjonar) eller valens (avgrensingar i argumentstruktur).
Like fullt vil ei rekkje ord frå DanNet verte utelatne fordi dei hovudsakleg er relevante for danske tilhøve, mens ein del norske ord som manglar, vert tekne med (som døme kan ein ta ord som har med skiidrett å gjere). Eit omfattande redigeringsarbeid skal sikre at ordnetta reflekterer norsk, ikkje dansk, semantisk struktur.
Ei viktig utfordring for utviklinga av ordnett er å halde kodinga konsistent. Til dømes kan "kappgang" vere eit hyponym til "idrett", men viss det eksisterer ei klasse "friidrett" der til dømes "spydkast" er kategorisert, bør ”kappgang” verte kategorisert under ”friidrett”. Eit av måla med samarbeidet med DanNet-prosjektet er at konsistensen kan verte svært høg ved at ein arbeider med det same materialet.
Det finst ordnett for ei rekkje språk, men eit nytt trekk ved det norske er at fleire ordklasser enn vanleg vert inkluderte i ordnettet, først og fremst preposisjonar og adverb. I tillegg vil systemet av relasjonar vere svært godt utbygd i høve til alle tidlegare prosjekt.
Ein testversjon av ordnettet for bokmål vert gjort tilgjengeleg i første kvartal 2012.
Prosjektet vert gjennomført av Kaldera språkteknologi AS.