Session Orale O1

  • Titre : Traitement du signal 1
  • Président : Jean-Pierre Costa
  • Date : Lundi 16/11 de 13h30 à 15h15

Article 1092

  • Titre : Extraction automatisée de lignes et de fragments textuels dans les images de manuscrits d’auteur du 19ème siècle
  • Vincent Malleron (Université de Lyon, CNRS, INSA-Lyon, LIRIS, UMR5205, F-69621, France)
  • Véronique Eglin (Université de Lyon, CNRS, INSA-Lyon, LIRIS, UMR5205, F-69621, France)
  • Hubert Emptoz (Université de Lyon, CNRS, INSA-Lyon, LIRIS, UMR5205, F-69621, France)
  • Stéphanie Dord-Crouslé (Université de Lyon, CNRS, LIRE, UMR 5611 F-69007, France)
  • Philippe Régnier (Université de Lyon, CNRS, LIRE, UMR 5611 F-69007, France)
  • Résumé : Dans cet article on propose une nouvelle approche pour l’enrichissement des éditions électroniques de corpus littéraires grâce à l’estimation de la structure des documents manuscrits. Dans tout processus d’analyse de document manuscrit l’analyse de la structure est une étape importante : en effet, disposer de la position des lignes de texte, des paragraphes et des fragments permet d’envisager de nouveaux moyen d’exploiter les corpus littéraires. L’extraction de structure d’un document manuscrit est rendu difficile par les variations d’orientation de la ligne de base et des espaces interligne mais également par les chevauchements entre lignes et les occlusions. On propose un algorithme d’extraction des lignes de texte et des fragments textuels basé sur une analyse en composante connexes. Une fois l’extraction des composantes connexes réalisée on construit un graphe d’adjacences pondéré et orienté : chaque composante connexe correspond a un noeud. Chaque noeud est l’origine de 4 arcs les reliant à ses plus proches voisins dans 4 directions : gauche, droite, haut et bas. En parallèle et via une approche similaire chaque composante connexe est identifiée comme appartenant à une des classes suivantes : haut de page, bas de page, gauche, droite ou intérieur du texte. Cette identification permet d’initialiser l’algorithme d’extraction des lignes qui utilise une recherche du plus court chemin entre connexité gauche et droite sur le graphe orienté décrit précédemment. L’extraction des fragments est ensuite réalisée via une fusion des lignes extraites par rapport à des critères de distance interligne et de variation d’orientation de la ligne de base.

Article 1372

  • Titre : Modèles de Markov Cachés et Modèle de Longueur pour la Reconnaissance de l’Ecriture Arabe à Basse Résolution
  • Fouad Slimane (Université de Fribourg, Suisse)
  • Slim Kanoun (Ecole Nationale d’Ingénieurs de Sfax, Tunisie)
  • Rolf Ingold (Université de Fribourg, Suisse)
  • Adel M. Alimi (Ecole Nationale d’Ingénieurs de Sfax, Tunisie)
  • Jean Hennebert (Haute école spécialisée de Suisse occidentale)
  • Résumé : Nous présentons dans ce papier un système de reconnaissance automatique de l’écriture arabe à vocabulaire ouvert, basse résolution, basé sur les Modèles de Markov Cachés. De tels modèles sont très performants lorsqu’il s’agit de résoudre le double problème de segmentation et de reconnaissance pour des signaux correspondant à des séquences d’états différents, par exemple en reconnaissance de la parole ou de l’écriture cursive. La spécificité de notre approche est dans l’introduction des modèles de longueurs pour la reconnaissance de l’Arabe imprimé. Ces derniers sont inférés automatiquement pendant la phase d’entraînement et leur implémentation est réalisée par une simple altération des modèles de chaque caractère composant les mots. Dans notre approche, chaque mot est représenté par une séquence des sous modèles, ces derniers étant représentés par des états dont le nombre est proportionnel à la longueur de chaque caractère. Cette amélioration, nous a permis d’augmenter de façon significative les performances de reconnaissance et de développer un système de reconnaissance à vocabulaire ouvert. L’évaluation du système a été effectuée en utilisant la boite à outils HTK sur une base de données d’images synthétique à basse résolution.

Article 1512

  • Titre : Classification de Genre Vidéo basé sur l’audio
  • Mickael Rouvier (LIA)
  • Georges Linarès (LIA)
  • Driss Matrouf (LIA)
  • Résumé : Dans un contexte mondial de croissance rapide des collections vidéos accessibles sur Internet, la classification de genre vidéo devient une tâche difficile. Dans ce papier, nous présentons une nouvelle méthode pour l'indentification de genre vidéo basée sur l'analyse du contenu audio. Notre approche repose sur la combinaison de bas et haut niveau de feature audio. Nous étudierons la capacité discriminative des paramètres liée à l'instabilité acoustique, l'interactivité du locuteur, la qualité de la parole et la caractérisation de l'espace acoustique. L'indentification de genre est effectuée sur ces paramètres en utilisant un classifieur SVM. Les expérimentations sont conduites sur un corpus composé de cartoons, films, actualités, publicités et musiques sur lequel nous obtenons, pour la meilleure configuration, un taux de classification de 91%.

Article 1532

  • Titre : Identification Musicale à l’aide de Technologies Vocales
  • Hugo Mauchrétien (CERI)
  • Georges Linarès (CERI)
  • Corinne Fredouille (CERI)
  • Tania Jiménez (CERI)
  • Résumé : L’identification musicale est un processus d’appariement d’un extrait de musique à un morceau de musique connu. Les applications d’un tel système sont multiples, comme la protection des droits d’auteurs, ou plus simplement, permettre à un utilisateur d’identifier le morceau de musique qu’il écoute. Du fait des intérêts que peut présenter une telle application, plusieurs approches ont déjà été étudiées, le plus généralement basée sur des méthodes de reconnaissance des formes. Nous proposons d’utiliser les techniques de traitement de la parole, efficaces dans des environnements difficiles. Notre approche est basée sur les mixtures de gaussiennes (GMM), et les modèles de Markov cachés (HMM) qui sont des concepts très usités dans les domaines de traitement de la parole. Nous avons appliqué à la musique une méthode de segmentation du type regroupement en locuteurs. Les résultats de nos travaux sont convainquants puisque notre système est résistant aux bruits et à la compression du signal. Avec 25 dB de bruit, nous obtenons 100% d’identification correcte en une seconde de signal. En encodant nos morceaux en MP3 à 56 kbits, nous obtenons un taux d’identification de 100% avec trois secondes de signal.

Article 1412

  • Titre : La correction temporelle du bruit de moustique
  • Claire Mantel (Gipsa-Lab / STMicroelectronics)
  • Patricia Ladret (Gipsa-Lab)
  • Thomas Kunlin (STMicroelectronics)
  • Résumé : Actuellement, l'utilisation de traitements temporels pour améliorer la qualité est rare, y compris pour les vidéos. Ceci est en grande partie lié à l'espace mémoire et au temps de calcul qu'ils nécessitent. Dans cet article, nous traitons d'un bruit de compression dont l'aspect temporel est primordial: le bruit de moustique. Sa nature à la fois spatiale et temporelle est détaillée dans une première partie, puis les différents traitements disponibles dans la littérature sont exposés. Un correcteur spatio-temporel et indépendant de la compression est ensuite proposé. Enfin, l'intérêt d'un traitement spatio-temporel par rapport à un spatial est montré à travers différents tests d'évaluation