Session Orale O5

  • Titre : Intelligence artificielle 1
  • Présidente : Joyce El Haddad
  • Date : Mardi 17/11 de 8h40 à 10h50

Article 1252

  • Titre : Traduction multilingue de FrameNet par dictionnaires bilingues avec évaluation sur la paire anglais-français
  • Claire Mouton (Exalead / CEA LIST)
  • Benoit Richert (CEA LIST)
  • Gael De Chalendar (CEA LIST)
  • Résumé : L'analyse sémantique de texte a pour but d'apporter aux machines de l'information leur permettant de traiter intelligemment du texte, au-delà des mots qui ne sont que des symboles. L'annotation sémantique d'un texte en rôles (Semantic Role Labeling, SRL) consiste à attribuer des rôles sémantiques aux différent syntagmes du texte. Ces rôles sont prédéfinis par des ressources sémantiques de référence décrivant des situations unitaires standard et les différents rôles qui peuvent y être associés. Les principales ressources de Semantic Role Labeling décrivant les situations de référence sont anglophones, et rares sont les ressources multilingues. Ce travail a pour but de transposer une ressource de SRL (Framenet) dans une autre langue. Ici la transposition se fait vers le français mais la méthode est applicable à la langue de son choix. Cette transposition a été réalisée à partir de l'extraction de paires de traduction de deux dictionnaires bilingues différents (le dictionnaire collaboratif multilingue Wiktionnaire et un dictionnaire standard français-anglais), puis par filtrage des paires obtenues. L'évaluation, réalisée sur la langue française, a permis d'obtenir une ressource à forte précision contenant après filtrage autant d'entrées que la ressource d'origine en anglais.

Article 1322

  • Titre : Questions-réponses dans le domaine médical : une approche sémantique
  • Asma Ben Abacha (LIMSI)
  • Résumé : Ce travail porte sur l’étude de méthodes permettant de répondre à des questions formulées en langue naturelle dans le domaine médical. En premier lieu nous étudions dans quelle mesure les méthodes utilisées en domaine ouvert sont transposables à ce domaine. Dans un second lieu, nous proposons une nouvelle approche, plus adaptée à ce domaine de spécialité. Cette approche se base sur (i) des ressources sémantiques disponibles en domaine médical (le métathésaurus et le réseau sémantique d’UMLS) et (ii) une analyse syntaxique et sémantique de la question et des corpus médicaux afin de les représenter sous forme de graphes sémantiques. Les avantages soulignés dans cette première étude sont les apports en termes d’expressivité et d’évolutivité pour le système de questions-réponses mais aussi l’amélioration de la précision des réponses.

Article 1272

  • Titre : Application de la théorie de l’Appraisal à l’analyse d’opinions
  • Pierre Gardin (Université de Caen-Basse-Normandie)
  • Résumé : Cet article présente un travail de recherche en cours dans le domaine de la fouille d’opinions. Il commence par introduire cette discipline, ses principales branches et ses applications, ainsi que les différentes approches existantes pour la classification d’opinions. Puis, il expose la théorie de l’Appraisal, qui permet d’analyser l’évaluation et le positionnement dialogique dans le formalisme de la Linguistique Systémique Fonctionnelle. Il introduit ensuite une approche pour l’extraction d’opinions basée sur la théorie de l’Appraisal, dans laquelle des groupes adjectivaux sont extraits dans l’optique de réaliser des tâches comme la classification. Enfin, il passe en revue différentes approches utilisées pour le concours de classification DEFT’07 et les travaux inspirés par la théorie de l’Appraisal dans le domaine du traitement automatique des langues.

Article 392

  • Titre : De la mesure de similarité de codes sources vers la détection de plagiat : le Pomp-O-Mètre
  • Romain Brixtel (Université de Caen - Basse Normandie)
  • Cyril Bazin (Université de Caen - Basse Normandie)
  • Boris Lesner (Université de Caen - Basse Normandie)
  • Guillaume Bagan (Université de Caen - Basse Normandie)
  • Résumé : L'objectif de notre travail est la détection de documents plagiés au sein d'un corpus. L'application pratique première est de découvrir, parmi les devoirs de programmation rendus par une classe d'étudiants en informatique, lesquels ont été copiés. Notre approche utilise un ensemble de méthodes de segmentation des documents ainsi que différentes distances entre les segments obtenus. Elle est endogène et sans à priori sur les langages de programmation traités. De plus, elle effectue la synthèse des résultats pour aider le correcteur à prendre les bonnes décisions. Cet article commence par présenter le cadre travail et nos hypothèses. Nous donnons ensuite le fonctionnement de chaque étape de la chaîne de traitement. Enfin, nous montrons expérimentalement comment, dans différents corpus issus d'étudiants, notre application - le Pomp-O-Mètre - permet le dépistage de plagiat.

Article 652

  • Titre : L'alignement sous-phrastique multilingue pour les nuls
  • Adrien Lardilleux (GREYC - Université de Caen Basse-Normandie)
  • Résumé : L'alignement sous-phrastique consiste à extraire des traductions d'unités textuelles de grain inférieur à la phrase à partir de textes multilingues dont les phrases ont préalablement été mises en correspondance. Les méthodes les plus répandues actuellement, bien que produisant des résultats de grande qualité, sont complexes, supportent difficilement le passage à l'échelle, et ne peuvent traiter les langues que par couples. Elles mettent généralement l'accent sur les mots fréquents. Nous présentons une approche radicalement différente, tirant parti des mots rares. Elle permet l'alignement d'un nombre quelconque de langues simultanément et un passage à l'échelle naturel, tout en demeurant d'une grande simplicité.

Article 972

  • Titre : Appariement de phrases courtes pour la traduction automatique par l’exemple
  • Julien Gosme (Université de Caen Basse-Normandie)
  • Résumé : La constitution de ressources linguistiques pour les systèmes de traduction automatique fondée sur les données est une tâche critique. Ces systèmes de traduction ont besoin de corpus de phrases alignées pour chaque couple de langues. La constitution de telles ressources est généralement effectuée à la main par des traducteurs. Nous proposons une méthode automatisant la constitution de corpus bilingues de phrases courtes en employant une représentation vectorielle bien connue en recherche d'information. Un dictionnaire bilingue est nécessaire par couple de langues considéré. Nous utilisons le Web afin de constituer des corpus de documents monolingues sur lesquels appliquer l'appariement de phrases courtes. Le coût humain total de la constitution d'un corpus bilingue de phrase est extrêmement réduit : seule une validation manuelle est nécessaire après appariement. Une expérience en français-anglais permet d'estimer la précision de la méthode d'appariement. 800 phrases traductions ont été collectées avec une précision de 0,80 à partir de 100 000 phrases collectées dans chaque langue.