Sètz a un clic d’ajudar la lenga occitana
logotipe de Mejans

Collector de frasa

Creacion d’un còrpus de frasas per ajudar las maquinas a comprendre coma parlem


Categoria : Aisinas
3 minutas de lectura
Libres de nòtas

La fondacion Mozilla a un projècte apelat Common Voice per crear un motor de reconeissença vocala liure.

Objectiu

Abans de poder enregistrar de mòstras de votz per aprendre a las maquinas l’occitan cal fargar un còrpus de tèxt liure. Devon èsser frasas cortas, de bon legir. Lo còrpus deu conténer almens 5 000 frasas, tantas variadas que possible. L’aisina es disponibla per collectar las frasas dels visitaires sens requerir d’identificacion.

Fonts

La primièra liurason serà compausada de frasas spontanèas reculhidas amb Lo Collector. Las etapas seguentas seràn de fornir de basas de donadas de tèxt coma d’expression o dictons tipicament occitans mas tanben de cançons popularas. Totes aqueles tèxtes poiràn tornar servir a d’autres projèctes de Tractament Automatic de la Lenga (TAL). Per exemple per construire una aisina de reconeissença de caractèr pels scanners fa mestièr una granda quantitat de tèxtes per melhorar la precision del resultat.