Sètz a un clic d’ajudar la lenga occitana
logotipe de Mejans

Numerizacion e reconeissença de caractèrs

Las aisinas de reconeissença opticala de caractèrs (ROC) pòdon ajudar a classar los documents o traire lo contengut per evitar la picada manuala de tèxtes.


Categoria : Novèlas
5 minutas de lectura
Numerizacion d’una pagina amb la poliça d’OCR

Un logicial de ROC permet de trapar lo tèxt d’un fichièr numerizat tal coma un imatge, atal òm pòt trabalhar amb un contengut texutal e realizar de copiar-pegar per exemple. Per dire de tractar los documents numerizats los motors de ROC fan mestièr la lista dels caractèrs de la lenga mas tanben una lista de mots, complèta tan que possible. En emplegant aquesta tièra de mots lo motor pòt ajustar sas prediccions de reconeissença.


Fonts liuras

Per ajudar los motors liures metèm a disposicion sus aqueste site un archiu que conten mai de 1 208 229 entradas traidas del diccionari Hunspell. Generalament demandan una basa d’almens 50 000 entradas per entrainar los motors. Accedissètz als archius vejatz aicí.


Listas dels motors

Motors liures
NomDescripcion
Tesseract OCRUn dels motors mai utilizat pels logicials liures mas tanben comercials. L’universitat de Tolosa Joan Jaurès al Miralh provesís un jòc d’entrainament telecargable aquí
EasyOCRMotor de ROC per 80 lengas, l’occitan ne formava part quand n’i aviá pas que 40. Informacions aquí sul repaus GitHub EasyOCR
PaddleOCR...

Motors comercials

  • OCRvision : integrèt l’occitan en setembre en seguida de nòstra contribucion
  • Readiris : pòt reconeisser 138 lengas e l’occitan es une d’aquelas lengas
  • ABBYY FineReader PDF : 198 lengas
  • Microsoft Computer Vision : 73 lengas