Traduire, c’est choisir

Avant d’évaluer la qualité d’une traduction, il faut se demander ce qu’est une bonne traduction. Le titre du roman de Marcel Proust « À la recherche du temps perdu » a d’abord été traduit en anglais par « Remembrance of Things Past ». On a alors fait le choix de rendre la formulation explicite : le temps perdu, c’est le passé, et la recherche, c’est par les souvenirs. Le sens est transmis, c’est une bonne traduction. Aujourd’hui, le roman s’appelle « In Search of Lost Time ». C’est désormais la formulation qui est transmise littéralement, et c’est aussi une bonne traduction. Laquelle est donc la meilleure ? La question est complexe et il n’existe aucune méthode d’évaluation permettant de trancher de façon définitive.

En pratique, il existe deux façons d’évaluer la performance d’un système de traduction automatique :
– L’évaluation humaine : Un expert évalue la traduction fournie par un système en tenant compte des instructions qui lui sont données, comme le fait de ne pas pénaliser les traductions littérales. Cette évaluation est longue et coûteuse, mais elle permet une grande finesse dans l’analyse des qualités et des défauts d’un système.
– L’évaluation automatique : L’intervention humaine se borne à fournir la traduction d’un texte source, appelée la référence. La qualité est mesurée en termes de distance de la traduction automatique par rapport à la référence. Cette évaluation est facile et rapide à utiliser, mais elle est très grossière, puisqu’elle ne donne qu’un score reflétant la qualité globale du système, sans aucune nuance. La métrique automatique la plus courante en traduction automatique s’appelle BLEU.

Elle fournit un score basé sur les mots communs entre la traduction automatique et la référence, en privilégiant les groupes de mots consécutifs. Une telle métrique ne peut pas résoudre le problème du titre du roman de Proust, puisqu’elle considère la traduction de référence comme la vérité, alors qu’il ne s’agit que du choix d’un traducteur humain.

Elle est toutefois utile pour mesurer le degré d’adaptation du système à un vocabulaire technique spécifique, comme celui des Prospectus de fonds : les termes y sont beaucoup moins ambigus que chez Proust. Notre système anglais-français spécialisé en Prospectus de fonds et DICI obtient ainsi un score BLEU de 73,71. Si en revanche on lui fait traduire de la recherche action, le score descend à 43,48. Ces deux types de documents ont en effet un vocabulaire différent et le score BLEU reflète bien la spécialisation du système. Pour une meilleure traduction de papiers de recherche action, nous avons aussi développé un système spécialisé, qui obtient un score de 68,03.

L’évaluation de la performance en traduction automatique, pour Lingua Custodia comme pour l’ensemble des acteurs de l’industrie, reste un domaine ouvert de recherche.

Franck Burlot, Chief Technology Officer

Enjoy this blog? Please spread the word :)

Twitter
LinkedIn