Lingua Custodia : 1ère place lors d’une compétition internationale de «nettoyage TM» grâce à l’intelligence artificielle

RGCL LogoLes mémoires de traduction bilingues (souvent appelées TM de l’anglais « Translation Memory ») sont des bases de données textuelles en deux langues où chaque phrase en langue source s’accompagne de sa traduction en langue cible. La taille d’une TM peut aller de quelques centaines à plusieurs milliers, voire millions de phrases.

Les TMs sont donc de ce fait un élément central pour l’industrie linguistique en général et pour les technologies et services de la traduction automatique en particulier. Notre solution de traduction automatique VERTO™ est en effet entraînée pour extraire l’information brute contenue dans les TM et la transformer en connaissance statistique directement exploitable pour traduire de nouvelles phrases, un peu de la même manière qu’un moteur à combustible convertit le carburant en mouvement.

Mais tout comme il y a des carburants de qualité variable, il existe des TM de qualité variable aussi. Cela se produit par exemple parce que la TM provient d’une paire de documents parallèles qui ne le sont pas à 100% (par exemple une note juridique apparaissant seulement dans l’une des deux langues), ou parce qu’une valeur en dollars américains a été convertie en euros de l’autre côté, ou tout simplement parce que la TM est extrêmement volumineuse et sur les grands nombres tout est possible.

Le nettoyage des TM devient donc un enjeu majeur. Mais comment s’y prendre ? Le nettoyage manuel par des experts bilingues qui vérifient une par une les phrases parallèles est idéal en termes de qualité mais potentiellement prohibitif en termes de coût et tout à fait prohibitif en termes de temps lorsque l’on a affaire avec des millions de phrases.

D’un autre côté, des approches trop simplistes, comme par exemple éliminer toutes les couples où la partie en anglais est deux fois plus longue que la partie en français, sont plus rapides mais peuvent conduire à des résultats décevants.

Lingua Custodia a donc développé un système automatique basé sur le machine learning et l’intelligence artificielle pour traiter ce type de problèmes et obtenir un meilleur rapport entre vitesse et précision : un système de nettoyage de TM rapide et automatique qui retire les faux couples de phrases et conserve précieusement les phrases correctes. Le système parcourt la TM à la recherche d’indicateurs tels que des chiffres ou des signes de ponctuation qui ne se correspondent pas des deux côtés, une différence en longueur suspecte, l’accord avec les entrées d’un dictionnaire, les mots partageant une racine commune (pour les langues indo-européennes)… Ensuite, le système combine toutes ces informations et, se basant sur des statistiques apprises au préalable, classifie automatiquement chaque couple de phrases comme étant fausse ou correcte.

À quel point notre nouveau système est-il performant ? Nous avons pu comparer notre outil lors d’une compétition internationale (Natural Language Processing for Translation Memories 2016) avec 5 acteurs du monde universitaire et industriel. Notre système a été classé 1er dans l’une des 9 sous-compétitions. Cette distinction a été obtenue pour la sous-compétition qui avait pour but d’effectuer une classification plus fine en distinguant entre traductions fausses, correctes et presque correctes.  Notre système a également été classé à la 2e place dans plusieurs des sous-compétitions restantes. Well done Lingua Custodia ! Seulement le meilleur carburant pour nos moteurs de traduction !

 

Enjoy this blog? Please spread the word :)

Twitter
LinkedIn