OCR-modeller for samiske språk

Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på nordsamisk, sørsamisk, lulesamisk og inaresamisk.

Mer detaljert informasjon om trening og evaluering av modellene kan du lese i artikkelen ‘Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway’, se https://arxiv.org/abs/2501.07300.

Samlingen består tre forskjellige typer modeller: Transkribus-modeller, Tesseract-modeller og TrOCR-modeller.

Se dokumentasjonsfilen for mer informasjon.

Samlingen består tre forskjellige typer modeller: Transkribus-modeller, Tesseract-modeller og TrOCR-modeller.

Se dokumentasjonsfilen for mer informasjon.

Last ned ressurser

Utvidet metadata

Last ned metadata (CMDI XML)

Last ned metadata (CMDI XML) https://www.nb.no/sprakbanken/oai?verb=GetRecord&identifier=oai:nb.no:sbr-100&metadataPrefix=cmdi

dc:type	toolService
dc:title	OCR-modeller for samiske språk
dc:identifier	oai:nb.no:sbr-100
dc:description	Dette er en samling av modeller for OCR (optical character recognition) av samiske språk. Disse kan brukes til å gjenkjenne tekst i bilder av trykt tekst (scannede bøker, magasiner, o.l) på nordsamisk, sørsamisk, lulesamisk og inaresamisk. Mer detaljert informasjon om trening og evaluering av modellene kan du lese i artikkelen 'Comparative analysis of optical character recognition methods for Sámi texts from the National Library of Norway', se https://arxiv.org/abs/2501.07300. Samlingen består tre forskjellige typer modeller: Transkribus-modeller, Tesseract-modeller og TrOCR-modeller. Se dokumentasjonsfilen for mer informasjon.
dc:publisher
dc:format	downloadable
dc:date	2024-08-01
dc:date	2025-01-22
dc:rights	Public
dc:rights	Creative Commons (CC)
dc:rights	Creative_Commons-BY (CC-BY)
dc:rights	https://creativecommons.org/licenses/by/4.0/
dc:creator	Nasjonalbiblioteket
dc:lang

OCR-modeller for samiske språk

Last ned ressurser

Utvidet metadata

Dublin Core (DC)

Last ned metadata (CMDI XML)