Le Lab est le département de Recherche & Développement de Lingua Custodia. Chaque membre de l'équipe est Docteur en Machine Learning et spécialiste du Traitement Automatique des Langues. L'équipe du Lab a une triple mission : contribuer activement à la recherche académique et industrielle dans ces domaines spécifiques, maintenir les produits et services proposés par Lingua Custodia à l'Etat de l'Art, et développer de nouvelles applications à valeur ajoutée pour nos clients.
Docteure en Machine Learning
Docteur en Traitement Automatique des Langues
Docteur en Machine Learning
Le Lab travaille sur des sujets très différents, ayant pour dénominateurs communs le Traitement Automatique des Langues.
Découvrez ici les projets créés par l'équipe du Lab.
Jingshu Liu
La traduction automatique neuronale (TAN) est l'état-de-l'art de la traduction automatique. En utilisant des données du domaine général pour entraîner les modèles de traduction, nous sommes capables de générer des traductions de haute qualité. Si nous nous limitions à cette étape, les traductions seraient moins précises pour un texte spécialisé en finance. Les corpus spécialisés utilisés pour nourrir les moteurs sont plus rares que les corpus issus du domaine général. Notre valeur ajoutée réside précisément dans notre capacité à enrichir nos données d'entraînement en terminologie financière. L'entraînement sélectif des données est l'une des approches les plus étudiées. Notre but est de permettre d'augmenter les données d'entraînement, en limitant l’introduction de données bruitées (noisy data).
Melissa Ailem
Malgré leur efficacité, les systèmes de Traduction Automatique Neuronale (TAN) présentent un inconvénient important : ils ne fournissent pas de correspondances source-cible explicites entre les segments du texte d’origine et les segments traduits. Sans ce lien source-cible, il est particulièrement difficile pour les systèmes TAN de forcer la traduction de certains termes issus de domaines de spécialité tel que la finance. L'objectif de ce projet est double. Premièrement, il consiste à construire les terminologies (lexiques) bilingues issues du domaine financier. Deuxièmement, il consiste à proposer une nouvelle méthode pour imposer au système les traductions provenant de cette terminologie.
Raheel Qader
Les modèles de traduction automatique neuronale sont des modèles puissants qui donnent des résultats précis dans la plupart des langues. Cependant, ces modèles ne fournissent pas de correspondances source-cible explicites, ce qui rend difficile la gestion de certaines tâches telles que la traduction de balises (html, xml...etc). Une balise donne des indications de format, elle est attachée à un mot pour indiquer que celui-ci doit être en italique par exemple. Dans ce projet, l'objectif est d'abord de créer des données d'apprentissage parallèles contenant des balises. Ces données d'apprentissage pourront ensuite être utilisées afin de concevoir un réseau capable de traduire correctement les balises et de les placer aux bons endroits dans les textes traduits. Les résultats de ce projet permettront de traduire du html, du xml et de nombreux autres types de documents qu'il serait autrement impossible de traduire automatiquement avec les modèles de traduction neuronale habituels.
Découvrez les prototypes développés par l'équipe du Lab et reposant sur le Traitement Automatique des Langues appliqué à la finance.
Ce prototype permet d’obtenir une comparaison du lexique Economique, Environnement et Social de deux documents, d’après les standards GRI.
Du 27 juin au 1er juillet 2022, le Laboratoire d’Informatique et de Systèmes (LIS) et le Laboratoire d’Informatique de l’Université d’Avignon (LIA), aux côtés de l’Association pour le Traitement des Langues Naturelles (Atala), organisent conjointement la 29e conférence sur le TALN et la 24e Réunion des Etudiants Chercheurs en Informatique pour le TAL.Le
Ce papier de recherche “Encouraging Neural Machine Translation to Satisfy Terminology Constraints” a été accepté pour publication à la conférence ACL 2021, dans la catégorie Findings of ACL 2021. Il présente une nouvelle approche afin encourageant la traduction automatique neuronale à satisfaire les contraintes lexicales. L’ACL est la conférence la plus prestigieuse dans le domaine de la linguistique informatique, récompensant les travaux de recherche les plus prometteurs au monde. Cette nouvelle reconnaissance confirme la position du Lab en tant que leader dans le domaine du NLP, aux côtés d’entreprises prestigieuses : Google Research, Facebook AI ou Amazon Sciences.
Ce workshop vise à découvrir les avancées récentes sur la représentation des données pour le clustering selon différentes approches. Le workshop “Learning Data Representation for Clustering” est l’occasion de (i) présenter les récents progrès des algorithmes de clustering basés sur la représentation des données ; (ii) exposer les applications potentielles qui pourraient inspirer de nouvelles approches de représentation des données pour le clustering ; et (iii) explorer les données de référence, afin de mieux évaluer et étudier les modèles de clustering basés sur la représentation des données.
La conférence porte sur le Traitement Automatique des Langues (TAL) appliqué à la finance et plus particulièrement sur la traduction automatique. Elle s’adresse à des étudiants ingénieurs en master spécialisé “Ingénierie pour la finance”.
FRANCE
39 Passage des Panoramas – 75 002 Paris
1 Place Charles de Gaulle – 78180 Montigny-le-Bretonneux
+33 1 80 82 59 70
LUXEMBOURG
9 rue du Laboratoire L-1911 Luxembourg