Sètz a un clic d’ajudar la lenga occitana
logotipe de Mejans

Numerizacion e reconeissença de caractèrs

Las aisinas de reconeissença opticala de caractèrs (ROC) pòdon ajudar a classar los documents o traire lo contengut per evitar la picada manuala de tèxtes.


Categoria : Ressorsas, Novèlas
5 minutas de lectura
Numerizacion d’una pagina amb la poliça d’OCR

Un logicial de ROC permet de trapar lo tèxt d’un fichièr numerizat tal coma un imatge, atal òm pòt trabalhar amb un contengut texutal e realizar de copiar-pegar per exemple. Per dire de tractar los documents numerizats los motors de ROC fan mestièr la lista dels caractèrs de la lenga mas tanben una lista de mots, complèta tan que possible. En emplegant aquesta tièra de mots lo motor pòt ajustar sas prediccions de reconeissença.


Fonts liuras

Per ajudar los motors liures metèm a disposicion sus aqueste site un archiu que conten mai de 1 208 229 entradas traidas del diccionari Hunspell. Generalament demandan una basa d’almens 50 000 entradas per entrainar los motors. Accedissètz als archius vejatz aicí.


Modèl d'entraïnament

PaddleOCR

Los modèls de PaddleOCR al 21 de genièr de 2021

Licéncia Apache 2.0

Tesseract

Licéncia Apache 2.0

EasyOCR

Lo modèl d’EasyOCR al 21 de març de 2021

Licéncia Apache 2.0

Listas dels motors

Motors liures
NomDescripcion
Tesseract OCRUn dels motors mai utilizat pels logicials liures mas tanben comercials. L’universitat de Tolosa Joan Jaurès al Miralh provesís un jòc d’entrainament telecargable aquí
EasyOCRMotor de ROC per 80 lengas, l’occitan ne formava part quand n’i aviá pas que 40. Informacions aquí sul repaus GitHub EasyOCR
PaddleOCR...

Motors comercials

Motors comercials
OCRvisionintegrèt l’occitan en setembre de 2020 en seguida de nòstra contribucion
Readirispòt reconeisser 138 lengas e l’occitan es une d’aquelas lengas
ABBYY FineReader PDFreconeis 198 lengas amb la lenga occitana
Microsoft Computer Visionl’API provesís 72 lenga amai de l’occitan