L’apprentissage par réseau de neurones pour les outils de traduction automatique

La traduction automatique est en train de vivre un nouveau tournant technologique et d’effectuer un nouveau saut qualitatif.

Apparue initialement dans les années 50 avec les premiers ordinateurs, la traduction automatique était alors construite sur la base de règles linguistiques : on passait alors des heures à « programmer » des dictionnaires et des règles de grammaires pour obtenir des résultats peu probants.

Un premier tournant technologique s’est déroulé il y a une dizaine d’années avec la création de moteurs de traduction automatique à partir d’une approche purement statistique. On a volontairement laissé de côté les règles grammaticales et les lexiques pour faire confiance aux mathématiques et aux modèles construits à partir des millions de phrases disponibles en plusieurs langues. Le machine learning a ainsi fait son apparition dans la traduction automatique et a permis la création d’outils de traduction automatique très finement réglés pour traduire certains types de textes avec une grande précision car les modèles n’étaient « nourris » qu’à l’aide de certaines catégories de textes.

Logiquement, l’étape suivante a été de chercher à améliorer les résultats obtenus grâce aux statistiques avec des règles linguistiques créant ainsi une approche hybride. Avec ce modèle toujours utilisé aujourd’hui, lorsqu’une phrase est envoyée en traduction, l’algorithme va regarder chaque mot individuellement puis ceux qui le précèdent et le suivent jusqu’à une dizaine de mots de distance pour déterminer la meilleure proposition de traduction dans ce contexte, un post traitement linguistique cherchera à corriger d’éventuelles erreurs grammaticales et lexicales en sortie. Cette approche donne de bons résultats, très précis pour des textes techniques mais il est toujours visible que le texte a été produit par une machine, certaines erreurs de grammaire pourront toujours apparaitre car le texte demeure traduit mot par mot même si le contexte est pris en compte.

Le recours aux réseaux de neurones rendu possible par la puissance de calcul que l’on trouve dans les cartes graphiques (GPU) change à nouveau la donne. En plaquant des modèles mathématiques sur plusieurs niveaux pour « entraîner » les moteurs de traduction automatique, on peut désormais leur demander de traduire des phrases dans leur ensemble en fonction du concept ou de l’idée qu’elle présente et non plus mot par mot. Cette approche permet de traiter de façon bien plus efficace les langues asiatiques, ou encore l’allemand, langues pour lesquelles l’ordre des mots est très différent de l’anglais ou du français. Les phrases étant désormais traduites d’un bloc, celles-ci sont donc plus cohérentes dans leur ensemble et il est beaucoup plus difficile d’identifier qu’elles ont été produites par une machine. Cette technologie permet donc de produire des traductions mieux construites et plus élégantes et change la nature de la revue qui doit être effectuée par les relecteurs humains. Auparavant, les relecteurs se concentraient sur les tournures de phrases et les corrections grammaticales, désormais, il leur faut davantage se concentrer sur la validation du sens des phrases. En effet, les réseaux de neurones informatiques comportent tellement d’analogies avec ceux du cerveau humain qu’ils vont en adopter certains défauts : ils ne vont pas toujours avouer qu’ils ne savent pas. Lorsqu’une phrase comporte un mot jamais rencontré dans l’apprentissage de l’outil, un moteur créé par approche hybride (statistico-linguistique) laissera le mot tel quel en considérant que c’est un nom propre indiquant clairement au relecteur qu’il y a un problème avec cette phrase. Le moteur neuronal pourra quant à lui soit omettre le mot en question pour ne pas casser la structure de la phrase cible, soit deviner ce dont il s’agit en fonction du contexte. Dans les deux cas, le relecteur devra porter une attention particulière pour ne pas perdre en précision dans la traduction d’une phrase par ailleurs bien construite.

Les technologies évoluent et l’intelligence artificielle ouvre de formidables perspectives pour les outils d’aides à la traduction. Comme les voitures autonomes, il reste plus sûr de conserver les mains derrière le volant mais la traduction automatique, lorsqu’elle est spécialisée sur un secteur bien particulier comme le domaine financier, permet aux institutions financières de communiquer de façon plus rapide et à meilleur marché auprès de leurs clients et de répondre aux contraintes toujours croissantes de transparence imposées par les régulateurs, les marchés et les investisseurs.

Enjoy this blog? Please spread the word :)

Twitter
LinkedIn