Franck Burlot, Directeur R&D, en collaboration avec des chercheurs de différents laboratoires et universités en Europe, a présenté deux publications scientifiques à la Conférence annuelle de traduction automatique (WMT) ; ils ont été sélectionnés pour une présentation devant un panel de représentants universitaires et industriels du monde entier.
En traduction automatique, l’activité de recherche et développement est déterminante pour nous permettre de rester à l’Etat de l’Art et d’offrir à nos clients financiers des solutions de traduction automatique de pointe. Lingua Custodia consacre beaucoup de temps et de ressources à l’amélioration continue de la qualité de ses produits.
Vous trouverez ci-dessous les articles publiés :
“Utilisation de données monolingues dans la traduction automatique neuronale : une étude systématique”
par Franck Burlot, Directeur R&D et François Yvon, LIMSI CNRS
La traduction automatique neuronale a radicalement changé la façon dont les systèmes sont développés. Une différence majeure par rapport à la génération précédente (traduction à base de segments) est la façon dont les données cibles monolingues, qui abondent souvent, sont utilisées dans ces deux paradigmes. Si la traduction à base de segments peut intégrer de manière transparente de très grands modèles de langue formés sur des milliards de phrases, la meilleure option pour les développeurs de traduction neuronale semble être la génération de données parallèles artificielles par rétro-traduction – une technique qui ne tire pas pleinement parti des ensembles de données existants. Dans le présent article, nous effectuons une étude systématique de la rétro-traduction, la comparant à d’autres utilisations de données monolingues, ainsi que de multiples procédures de génération de données. Nos résultats confirment que la rétro-traduction est très efficace et donne de nouvelles explications sur les raisons pour lesquelles c’est le cas. Nous introduisons également de nouvelles techniques de simulation de données qui sont presque aussi efficaces, mais beaucoup moins coûteuses à mettre en œuvre.
La totalité de l’article sur le site Web de la conférence WMT18 :
http://www.statmt.org/wmt18/pdf/WMT015.pdf
“Les suites de tests Morpheval WMT18 pour l’anglais-tchèque, l’anglais-allemand, l’anglais-finnois et le turc-anglais.”
par Franck Burlot, Yves Scherrer, Vinit Ravishankar, Ondřej Bojar, Stig-Arne Grönroos, Maarit Koponen, Tommi Nieminen et François Yvon
L’amélioration de la qualité de la traduction automatique exige de nouvelles procédures et métriques d’évaluation. Dans cet article, nous étendons le protocole Morpheval introduit par Burlot et Yvon (2017) pour l’anglais vers le tchèque et l’anglais vers le letton à trois autres paires de langues, et nous présentons son utilisation pour analyser les résultats des participants à WMT 2018 pour ces paires. La prise en compte d’autres langues sources et cibles typologiquement variées nous permet également de tirer quelques généralisations sur cette procédure d’évaluation axée sur la morphologie.
La totalité de l’article sur le site Web de la conférence WMT18 :