Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk

Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage ‘rene’ linjebilder og tilføre støy ved hjelp av Augraphy.

Teksten i datasettet kommer fra Giellatekno sitt korpus.

Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger.

Se dokumentasjonsfilen for mer informasjon.

Teksten i datasettet kommer fra Giellatekno sitt korpus.

Se dokumentasjonsfilen for mer informasjon.

Last ned ressurser

Utvidet metadata

Last ned metadata (CMDI XML)

Last ned metadata (CMDI XML) https://www.nb.no/sprakbanken/oai?verb=GetRecord&identifier=oai:nb.no:sbr-101&metadataPrefix=cmdi

dc:type	toolService
dc:title	Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk
dc:identifier	oai:nb.no:sbr-101
dc:description	Dette datasettet inneholder syntetiske linjebilder som kan brukes til å finjustere OCR-modeller for nord-, sør-, lule- og inaresamisk. Fremgangsmåten for å lage disse bildene er å lage 'rene' linjebilder og tilføre støy ved hjelp av Augraphy. Teksten i datasettet kommer fra Giellatekno sitt korpus. Datasettet er tilfeldig delt opp slik at 71% av filene (307387 linjer) er i treningsdelen, 9% av filene (40765 linjer) er i valideringsdelen og 20% av filene er i (84534 linjer) testdelen. Hver del har en unik mengde skrifttyper og tekst- og bakgrunnsfarger. Se dokumentasjonsfilen for mer informasjon.
dc:publisher
dc:format	downloadable
dc:date	2024-10-01
dc:date	2025-01-28
dc:rights	Public
dc:rights	Creative Commons (CC)
dc:rights	Creative_Commons-BY (CC-BY)
dc:rights	https://creativecommons.org/licenses/by/3.0/
dc:creator	Nasjonalbiblioteket
dc:lang

Syntetiske tekstbilder for nord-, sør-, lule- og inaresamisk

Last ned ressurser

Utvidet metadata

Dublin Core (DC)

Last ned metadata (CMDI XML)