Le Lab est le département de Recherche & Développement de Lingua Custodia. Chaque membre de l'équipe est Docteur en Machine Learning et spécialiste du Traitement Automatique des Langues. L'équipe du Lab a une triple mission : contribuer activement à la recherche académique et industrielle dans ces domaines spécifiques, maintenir les produits et services proposés par Lingua Custodia à l'Etat de l'Art, et développer de nouvelles applications à valeur ajoutée pour nos clients.
Docteure en Machine Learning
Docteur en Traitement Automatique des Langues
Docteur en Machine Learning
Le Lab travaille sur des sujets très différents, ayant pour dénominateurs communs le Traitement Automatique des Langues.
Découvrez ici les projets créés par l'équipe du Lab.
Jingshu Liu
La traduction automatique neuronale (TAN) est l'état-de-l'art de la traduction automatique. En utilisant des données du domaine général pour entraîner les modèles de traduction, nous sommes capables de générer des traductions de haute qualité. Si nous nous limitions à cette étape, les traductions seraient moins précises pour un texte spécialisé en finance. Les corpus spécialisés utilisés pour nourrir les moteurs sont plus rares que les corpus issus du domaine général. Notre valeur ajoutée réside précisément dans notre capacité à enrichir nos données d'entraînement en terminologie financière. L'entraînement sélectif des données est l'une des approches les plus étudiées. Notre but est de permettre d'augmenter les données d'entraînement, en limitant l’introduction de données bruitées (noisy data).
Melissa Ailem
Malgré leur efficacité, les systèmes de Traduction Automatique Neuronale (TAN) présentent un inconvénient important : ils ne fournissent pas de correspondances source-cible explicites entre les segments du texte d’origine et les segments traduits. Sans ce lien source-cible, il est particulièrement difficile pour les systèmes TAN de forcer la traduction de certains termes issus de domaines de spécialité tel que la finance. L'objectif de ce projet est double. Premièrement, il consiste à construire les terminologies (lexiques) bilingues issues du domaine financier. Deuxièmement, il consiste à proposer une nouvelle méthode pour imposer au système les traductions provenant de cette terminologie.
Raheel Qader
Les modèles de traduction automatique neuronale sont des modèles puissants qui donnent des résultats précis dans la plupart des langues. Cependant, ces modèles ne fournissent pas de correspondances source-cible explicites, ce qui rend difficile la gestion de certaines tâches telles que la traduction de balises (html, xml...etc). Une balise donne des indications de format, elle est attachée à un mot pour indiquer que celui-ci doit être en italique par exemple. Dans ce projet, l'objectif est d'abord de créer des données d'apprentissage parallèles contenant des balises. Ces données d'apprentissage pourront ensuite être utilisées afin de concevoir un réseau capable de traduire correctement les balises et de les placer aux bons endroits dans les textes traduits. Les résultats de ce projet permettront de traduire du html, du xml et de nombreux autres types de documents qu'il serait autrement impossible de traduire automatiquement avec les modèles de traduction neuronale habituels.
Découvrez les prototypes développés par l'équipe du Lab et reposant sur le Traitement Automatique des Langues appliqué à la finance.
Ce prototype permet d’obtenir une comparaison du lexique Economique, Environnement et Social de deux documents, d’après les standards GRI.
Ce workshop vise à découvrir les avancées récentes sur la représentation des données pour le clustering selon différentes approches. Le workshop « Learning Data Representation for Clustering » est l’occasion de (i) présenter les récents progrès des algorithmes de clustering basés sur la représentation des données ; (ii) exposer les applications potentielles qui pourraient inspirer de nouvelles approches de représentation des données pour le clustering ; et (iii) explorer les données de référence, afin de mieux évaluer et étudier les modèles de clustering basés sur la représentation des données.
La conférence porte sur le Traitement Automatique des Langues (TAL) appliqué à la finance et plus particulièrement sur la traduction automatique. Elle s’adresse à des étudiants ingénieurs en master spécialisé « Ingénierie pour la finance ».
Lingua Custodia’s team is composed of a diversified mix of profiles, strongly skilled in their area of expertise, all committed to our entrepreneurial adventure. But what we value the most at Lingua Custodia are soft skills: Team spirit, trustfulness, open-minded thinking, enthusiasm, freedom to try new ideas or practices. Purpose Internship supervised by the Lab […]
FRANCE
39 Passage des Panoramas – 75 002 Paris
1 Place Charles de Gaulle – 78180 Montigny-le-Bretonneux
+33 1 80 82 59 70
LUXEMBOURG
9 rue du Laboratoire L-1911 Luxembourg