Newsletter – Juillet 2021
Il y a quelques mois, le Lab de Lingua Custodia a soumis un papier de recherche à l’ACL (Association for Computational Linguistics). Celui-ci, intitulé “Encouraging Neural Machine Translation to Satisfy Terminology Constraints”. Cette nouvelle reconnaissance confirme la position du Lab en tant que leader dans le domaine du NLP.
Melissa Ailem, Docteure en Machine Learning, Experte en NLP et Chercheuse au sein du Lab Lingua Custodia nous en dit plus sur les objectifs de ces travaux de recherche.
L’Association for Computational Linguistics (ACL) est la première société scientifique professionnelle internationale pour les personnes qui travaillent sur des problèmes informatiques impliquant le langage humain. Un domaine désigné sous le nom de Traitement Automatique des Langues (TAL = NLP en anglais). Elle récompense, entre autres, les meilleurs travaux de recherche en matière de linguistique informatique, partout dans le monde. C’est une référence pour les experts du NLP et de la traduction automatique en général.
Les modèles de traduction neuronaux constituent aujourd’hui le nouvel état de l’art en traduction automatique.
Ils permettent de générer des traductions de très bonne qualité, à condition que celles-ci soient génériques. Lorsque l’on souhaite traduire des textes spécialisés (en finance dans notre cas), des difficultés surviennent. Par exemple, les modèles neuronaux ne permettent pas de créer de lien source-cible explicites entre les traductions. De ce fait, on ne sait pas encore comment « imposer » la traduction d’un terme par un autre en utilisant les modèles de traduction neuronaux.
Cela est particulièrement handicapant lorsque l’on souhaite traduire des textes issus de domaines de spécialité tel que la finance, où des terminologies particulières doivent être respectées afin de générer les traductions appropriées. L’objectif de notre papier de recherche est de proposer une solution à ce problème. Nous avons développé une nouvelle méthode permettant d’intégrer les contraintes terminologiques dans les modèles de traduction neuronale. Elle est basée sur deux ingrédients principaux : une augmentation des données d’entrainement et une amélioration de la fonction objective (cross entropy) afin de prendre en compte les contraintes. Nos résultats ont montré que le système proposé permet non seulement de prendre en compte les contraintes mais aussi de générer des traductions de meilleure qualité que les méthodes neuronales traditionnelles.
Depuis 10 ans, nos équipes ont su développer des approches qui nous permettent d’offrir un niveau de spécialisation en finance inégalé. Comme nous l’avons démontré, le contrôle de la terminologie reste cependant un champ ouvert de recherche. Nos clients nous demandent par exemple fréquemment de pouvoir traduire certains termes d’une façon qui leur est spécifique. Au terme de ces travaux de recherche, ce sera possible. Ils pourront charger un lexique bilingue propre à leur entreprise ou aux besoins de leur équipe, et l’interface retournera systématiquement la traduction souhaitée, en tenant compte des contraintes imposées.