Dette datasettet består av 3537 norske idiomer og fraser som forekommer flere enn 100 ganger i Nettbiblioteket. Det er 3455 idiomer på bokmål og 88 på nynorsk. I fremtiden vil vi prøve å legge til flere idiomer for nynorsk. Se dokumentasjonsfilen for en beskrivelse av datasettet. Dataene kan brukes til å måle ein generativ språkmodells evne til å fullføre kjente idiomer eller som en ‘masked language modelling’-oppgave.
Dette datasettet består av 3537 norske idiomer og fraser som forekommer flere enn 100 ganger i Nettbiblioteket. Det er 3455 idiomer på bokmål og 88 på nynorsk. I fremtiden vil vi prøve å legge til flere idiomer for nynorsk. Se dokumentasjonsfilen for en beskrivelse av datasettet. Dataene kan brukes til å måle ein generativ språkmodells evne til å fullføre kjente idiomer eller som en ‘masked language modelling’-oppgave.
Dette datasettet består av 3537 norske idiomer og fraser som forekommer flere enn 100 ganger i Nettbiblioteket. Det er 3455 idiomer på bokmål og 88 på nynorsk. I fremtiden vil vi prøve å legge til flere idiomer for nynorsk. Se dokumentasjonsfilen for en beskrivelse av datasettet. Dataene kan brukes til å måle ein generativ språkmodells evne til å fullføre kjente idiomer eller som en 'masked language modelling'-oppgave.