Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk
Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage ‘rene’ linjebilder og tilføre støy ved hjelp av Augraphy.
Teksten i datasettet kommer fra Giellatekno sitt korpus.
Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger.
Se dokumentasjonsfilen for mer informasjon.
Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage ‘rene’ linjebilder og tilføre støy ved hjelp av Augraphy.
Teksten i datasettet kommer fra Giellatekno sitt korpus.
Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger.
Se dokumentasjonsfilen for mer informasjon.
Utvidet metadata
resource Common Info
resource Type: toolService
identification Info
resource Name: Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk
resource Name: Synthetic text images for North, South, Lule and Inare Sámi
description: Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage 'rene' linjebilder og tilføre støy ved hjelp av Augraphy.
Teksten i datasettet kommer fra Giellatekno sitt korpus.
Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger.
Se dokumentasjonsfilen for mer informasjon.
description: This dataset contains synthetic line images meant for fitting OCR models for North, South, Lule and Inari Sámi. Clean line images are created using Pillow and they are subsequently distorted using Augraphy.
The text in this dataset comes from Giellatekno's corpus.
The dataset is split randomly by file so 71 % of the files (307387 lines) are in the training split, 9 % of the files (40765 lines) are in the validation split and 20 % of the files (84534 lines) are in the test split. Each split has a unique set of typefaces and text/background colors.
|
See the documentation file for more information.
attribution Text: Please cite
1. Enstad T, Trosterud T, Røsok MI, Beyer Y, Roald M. 'Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway.' Accepted for publication in Proceedings of the 25th Nordic Conference on Computational Linguistics (NoDaLiDa) 2025, https://arxiv.org/abs/2501.07300.
2. SIKOR UiT The Arctic University of Norway and the Norwegian Saami Parliament's Saami text collection, http://gtweb.uit.no/korp, Version 01.12.2021 [Data set]. (Also note that the SIKOR dataset to get Sámi text for the images is CC-BY 3.0 licensed.)
Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk
dc:identifier
oai:nb.no:sbr-101
dc:description
Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage 'rene' linjebilder og tilføre støy ved hjelp av Augraphy.
Teksten i datasettet kommer fra Giellatekno sitt korpus.
Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger.
Se dokumentasjonsfilen for mer informasjon.