Article 62

  • Titre : Vers des Modèles Autonomes de Reconnaissance Automatique de la Parole Multilingue
  • Sethserey Sam (Laboratoire d'Informatique de Grenoble (LIG))
  • Résumé : In multilingual automatic speech recognition, one interesting research challenge is how to deal with a multilingual speech utterance (the utterance that contains different speech languages and/or native or non-native speech)? In order to overcome this problem, we focus our research on autonomous acoustic models (AM) and language models (LM). Autonomous means the multilingual AM and LM are automatically re-adapted themselves, in every given time slot (5s or 10s), before final decoding. The re-adaptation of AM and ML models could be done based on a module called Autonomous observer. In this article, we introduce the concept of autonomous AM and ML in multilingual ASR system (for automatic phone transcription purpose) and also the techniques to create an observer module
  • Voir l'article entier

Article 72

  • Titre : Utilisation d’une grille polaire adaptative pour la construction d’un modèle articulatoire de la langue
  • Julie Busset (LORIA)
  • Résumé : The construction of articulatory models from medical images of the vocal tract, especially X-ray images, relies on the application of an articulatory grid before deriving deformation modes via some factor analysis method. One difficulty faced with the classical semi-polar grid is that some tongue contours do not intersect the grid what gives rise to incomplete input vectors, and consequently poor tongue modeling in the front part of the mouth cavity which plays an important role in the articulation of many consonants. First, this paper describes preparation of data, i.e. drawing or tracking articulator contours, compensation of head movements and the construction of the adaptive polar grid. Then, the results of the principal component analysis are presented and compared with those obtained with the semi-polar grid.
  • Voir l'article entier

Article 82

  • Titre : La densité des idées : un modèle d’analyse du discours pertinent pour le diagnostic précoce de la maladie d’Alzheimer ?
  • Hye Ran Lee (Laboratoire Praxling, UMR5267-CNRS/ Université Montpellier 3)
  • Melissa Barkat-Defradas (Laboratoire Praxling, UMR5267-CNRS/ Université Montpellier 3)
  • Résumé : La dégradation linguistique est un indicateur précoce de la maladie d’Alzheimer (MA). Ainsi, l’étude du langage des patients atteints de MA peut être considérée comme un champ d’investigation prometteur pour l’établissement d’un diagnostic précoce de cette maladie. La présente étude examine les discours oraux de deux groupes : les patients diagnostiqués comme atteints de démence de type Alzheimer (DTA) et des sujets de contrôle. La densité des idées (DI) de chaque transcription a été calculée à l’aide de l’analyse prédicative. Les résultats montrent qu’il y a une différence significative entre ces deux groupes.
  • Voir l'article entier

Article 92

  • Titre : Perception d’expressions multimodales du Feeling of Thinking (états mentaux et affectifs, intentions, attitudes) en interaction
  • Anne Vanpé (GIPSA-lab, Département Parole et Cognition (ex-ICP), UMR 5216 CNRS/Université de Grenoble)
  • Véronique Aubergé (GIPSA-lab, Département Parole et Cognition (ex-ICP), UMR 5216 CNRS/Université de Grenoble)
  • Résumé : Human-Machine Interaction, as interaction between two humans, can be considered as a dynamic process where the human is continuously communicating, even when he is “expressively” listening (informative backchannel and feedback). The present study analyses the audio-visual non speech expressions for two subjects in spontaneous HMI corpora, following an ethology-based methodology. First results reveal a large panel of values expressed outside of turns (e.g. mental states, intentions, attitudes, emotions) that we have globally called Feeling of Thinking. We have shown the role of static vs. dynamic processing of visual information and we are now attempting to investigate some specific non speech “vocal events”. Their temporal distribution seems to be particularly relevant for the perception of Feeling of Thinking expressions.
  • Voir l'article entier

Article 102

  • Titre : Traduction automatique de la parole arabe/anglais par segmentations multiples
  • Fethi Bougares (Laboratoire d'Informatique de Grenoble)
  • Résumé : La traduction de la parole est un thème de recherche récent, car il combine deux problèmes scientifiques complexes : la reconnaissance de la parole et la traduction automatique. Dans ce contexte, nous nous intéressons à la construction de système de traduction statistique pour la paire de langues arabe/anglais. Ces deux langues sont de structures éloignées, ce qui nécessite plus d'effort de préparation et de segmentation des données textuelles ou orales à traduire. Après avoir mis en lumière la relation entre l'analyse morphologique de l'arabe et la qualité de traduction, nous abordons les problèmes relatifs à l'ambiguïté segmentale de l'arabe avec la formulation et l'intégration de la multi-segmentation dans un système de traduction statistique.
  • Voir l'article entier

Article 112

  • Titre : Identification des consonnes finales du vietnamien par des locuteurs natifs
  • Thi-Thuy-Hien Tran (Département Parole et Cognition de GIPSA-lab)
  • Nathalie Vallée (Département Parole et Cognition de GIPSA-lab)
  • Résumé : A great difficulty encountered by Vietnamese subjects, who learn French, is that consonant clusters, which do not exist in Vietnamese, are mispronounced. This problem persists even after several years of practicing, and even when the French clusters correspond to Vietnamese consonant sequences. The general aim of our project is to identify the factors which are the main cause of this problem. In this paper, we examine the perception of syllable-final stops (/p/, /t/, /k/, /m/, /n/, /ŋ/) in Vietnamese by 20 native Northern-Vietnamese listeners. Our findings suggest that specific acoustic characteristics and probably the lexical frequency of final consonants lead the subjects in their choice of responses.
  • Voir l'article entier

Article 122

  • Titre : Perception de la variation linguistique : étude comparative entre l’aire de Lesbos (Grèce) et celle des « vallées vaudoises » du Piémont occidental (Italie)
  • Silvia Gally (GIPSA-lab UMR 5216, DPC – SLD Université Stendhal - Grenoble 3 )
  • Maria Goudi (GIPSA-lab UMR 5216, DPC – SLD Université Stendhal - Grenoble 3 )
  • Résumé : Dans cet article nous proposons une étude de dialectologie perceptuelle (DP) qui met en parallèle des travaux effectués dans deux aires linguistiques bien distinctes : l’île de Lesbos, en Grèce, et une zone du Piémont occidental, en Italie. Les données traitées dans ces études sont issues d’enquêtes de terrain dans les deux aires respectives.
  • Voir l'article entier

Article 132

  • Titre : Etude articulatoire du mouvement d’étirement et d’ouverture des lèvres lors d’émotions et une attitude simulées.
  • Laurianne Georgeton (ilpga)
  • Résumé : Dans cette étude, nous nous sommes intéressée aux variations articulatoires des lèvres (étirement et ouverture aux lèvres) pour quatre voyelles du français /a/, /i/, /u/ et /y/ lors d'émotions (anxiété, dégoût, colère, joie et tristesse) et une attitude (tendresse) simulée. Nous avons utilisé des marqueurs placés autours des lèvres. Le mouvement des lèvres a été étudié grâce au Qualisys qui utilisent un système de caméra infra-rouge. Les coordonnées en 3D des marqueurs sont ensuite reconstruites puis étudiées. Cette étude a montré que les contrastes intrinsèques (donc attendus) des voyelles ne sont pas observables lors de la parole normale. Le geste d'étirement est maximisé lors de la réalisation de la joie et de la tendresse. Le geste d'ouverture aux lèvres est maximisé lors de la colère, du dégoût et de l'anxiété.
  • Voir l'article entier

Article 142

  • Titre : Etude perceptive et articulatoire à partir de données échographiques de la langue chez des patients hémiglossectomisés
  • Audrey Acher (Laboratoire de Phonétique et Phonologie UMR 7018 Paris)
  • Résumé : Le but de cette étude est d'évaluer la récupération de l’articulation après hémiglossectomie avec reconstruction par lambeau infra-hyoïdien chez deux patients. Lors de cette étude longitudinale nous avons réalisé une évaluation perceptive et une évaluation articulatoire à l’aide d’un échographe portable. L’analyse statistique des données perceptives a montré que les consonnes occlusives vélaires, les fricatives apico-alvéolaires, le /l/ et le /j/ sont les plus altérés après hémiglossectomie. Ces données révèlent une amélioration significative de la perception de l’articulation trois mois après l’intervention chez les deux patients. L’évaluation de la mobilité des articulateurs et l’analyse des contours linguaux des consonnes /k/, /g/, /s/ et /z/ ne mettent pas en évidence la récupération des capacités fonctionnelles chez les patients à ce délai.
  • Voir l'article entier

Article 152

  • Titre : Représentations cérébrales des articulateurs de la parole
  • Krystyna Grabski (Gipsa-Lab)
  • Marc Sato (Gipsa-Lab)
  • Jean-Luc Schwartz (Gipsa-Lab)
  • Laurent Lamalle (INSERM)
  • Coriandre Vilain (Gipsa-Lab)
  • Résumé : In order to localize cerebral regions involved in articulatory control processes, ten subjects were examined using functional magnetic resonance imaging while executing lip, tongue and jaw movements. Although the three motor tasks activated a set of common brain areas classically involved in motor control, distinct movement representation sites were found in the motor cortex. These results support and extend previous brain imaging studies by demonstrating a sequential dorsoventral somatotopic organization of lips, jaw and tongue in the motor cortex.
  • Voir l'article entier

Article 162

  • Titre : Peut-on utiliser la voix chantée pour améliorer la correction phonétique segmentale en langue étrangère ?
  • Sandra Cornaz (GIPSA-Lab, DPC - Département Parole et Cognition - UMR 5216 CNRS/Université de Grenoble)
  • Nathalie Henrich (GIPSA-Lab, DPC - Département Parole et Cognition - UMR 5216 CNRS/Université de Grenoble)
  • Antonio Romano (LPEAG, Laboratorio di Fonetica Sperimentale “Arturo Genre” di Torino, Italie)
  • Nathalie Vallée (GIPSA-Lab, DPC - Département Parole et Cognition - UMR 5216 CNRS/Université de Grenoble)
  • Résumé : Music may have a positive impact on learning processes. In linguistics, the positive role of music on perception of prosodic features has been pointed out, and a recent study shows that the segmentation of words in a foreign language would be facilitated by sung. In the present study, we aim at investigating whether singing-voice tasks could help to improve the learning of French phonemes. For comparison purpose, a traditional phonetic method was slightly modified to introduce singing-voice tasks. Native speakers of Italian were divided into two groups: one for the common phonetic teaching, and one for the phonetic teaching including singing-voice tasks. The results show that the subjects who were taught with additional singing-voice tasks learn faster than the others, produce better than the other one the anterior phonemes /y/ and /ø/ in the acoustical regions expected for these vowels in French, and the overlap of acoustic scatterings is less important.
  • Voir l'article entier

Article 172

  • Titre : Architecture d’un Système de Vérification Automatique du Locuteur appuyée par la Détection du Genre
  • Hayet Djellali (Université de Badji Mokhtar Annaba, Algérie)
  • Radia Amirouche (Université de Badji Mokhtar Annaba, Algérie)
  • Mohamed Tayeb Laskri (Universite de badji mokhtar Annaba, Algérie)
  • Résumé : We propose a new approach in Automatic speaker verification ASV based on detection Gender (male,female). We determine with speaker voice his gender. Knowing that, the speaker could be an impostor with opposite gender that he claims. The aim of this work is to experiment if detection gender module can improve speaker verification decision when we compare it with baseline ASV system.
  • Voir l'article entier

Article 182

  • Titre : HMMs and GMMs based methods in acoustic-to-articulatory speech inversion
  • Atef Ben Youssef (DPC / GIPSA-lab, UMR 5216, Grenoble)
  • Viet-Ahn Tran (DPC / GIPSA-lab, UMR 5216, Grenoble)
  • Pierre Badin (DPC / GIPSA-lab, UMR 5216, Grenoble)
  • Gérard Bailly (DPC / GIPSA-lab, UMR 5216, Grenoble)
  • Résumé : Afin de récupérer les mouvements des articulateurs tels que les lèvres, la mâchoire ou la langue, nous avons développé et comparé deux méthodes d’inversion basées l’une sur les modèles de Markov cachés (HMMs) et l’autre sur les modèles de mélanges de gaussiennes (GMMs). Les mouvements des articulateurs sont représentés par les coordonnées médiosagittale de bobines d’un articulographe électromagnétique (EMA) fixées sur les articulateurs. Dans la première méthode, des HMMs à deux flux, acoustique et articulatoire, sont entrainés à partir des de signaux acoustique et articulatoire synchrones. Le HMM acoustique sert à reconnaitre les phones, ainsi que leurs durées. Ces informations sont ensuite utilisées par le HMM articulatoire pour synthétiser les trajectoires articulatoires. Pour la deuxième méthode, un GMM s’association entre traits acoustique et articulatoire est entrainé sur le même corpus suivant le critère de minumum d’erreur quadratique moyenne (MMSE) à partir des trames acoustiques d’empan temporel plus ou moins grand. Pour un corpus de données EMA mono-locuteur enregistré par un locuteur français, l’erreur RMS de reconstruction sur le corpus de test pour la méthode fondée sur les HMMs se situe entre 1.96 et 2.32 mm, tandis qu’elle se situe entre 2.46 et 2.95 mm pour la méthode basé sur les GMMs.
  • Voir l'article entier

Article 202

  • Titre : Rôle de l’information visuelle dans l’accès au lexique mental
  • Mathilde Fort (Laboratoire de Psychologie et de Neurocognition)
  • Justine Chipot (Laboratoire de Psychologie et de Neurocognition)
  • Sonia Kandel (Laboratoire de Psychologie et de Neurocognition)
  • Christophe Savariaux (GIPSA-Lab)
  • Elsa Spinelli (Laboratoire de Psychologie et de Neurocognition)
  • Résumé : Cette étude vise à déterminer le rôle de l'information visuelle dans l'accès au lexique.Pour cela,nous avons utilisé un paradigme d'amorçage phonologique. Les participants devaient effectuer une tâche de décision lexicale sur une cible présentée en modalité auditive.Cette cible était toujours précédée par une syllabe en amorce: cette dernière pouvait être présentée en modalité audiovisuelle (AV), auditive (A), ou visuelle seule (V). L'analyse des résultats sur les mots cibles indique un effet d'amorçage pour toutes les modalités de présentations de la syllabe. En conséquence, notre étude suggère que l'information visuelle seule permet d'activer les représentations de mots contenues dans le lexique mental.
  • Voir l'article entier

Article 212

  • Titre : Corrections spécifiques du français sur les systèmes de reconnaissance automatique de la parole
  • Richard Dufour (LIUM - Université du Maine)
  • Yannick Estève (LIUM - Université du Maine)
  • Paul Deléglise (LIUM - Université du Maine)
  • Résumé : Automatic speech recognition (ASR) systems are used in a large number of applications, in spite of the inevitable recognition errors. In this study we propose a pragmatic approach to automatically repair ASR outputs by taking into account linguistic and acoustic information, using formal rules or stochastic methods. The proposed strategy consists in developing a specific correction solution for each specific kind of errors. In this paper, we apply this strategy on two case studies specific to French language. We show that it is possible, on automatic transcriptions of French broadcast news, to decrease the error rate of a specific error by 11.4% in one of two the case studies, and 86.4% in the other one. These results are encouraging and show the interest of developing more specific solutions to cover a wider set of errors in a future work.
  • Voir l'article entier

Article 222

  • Titre : Caractérisation automatique des accents étrangers
  • Abdelkarim Mars (Laboratoire d'informatique de grenoble)
  • Résumé : Parmi les phénomènes qui affectent la manière dont nous parlons, l’accent est une des composantes principales de la variation observée. La prononciation d’un locuteur peut en effet nous renseigner sur son origine, géographique et sociale. La description des caractéristiques phonétiques qui sous-tendent les différences d’accent perçues constitue donc un intérêt scientifique particulier. De plus, la recherche dans le domaine des accents contribue a l’amélioration d’applications technologiques telles que la reconnaissance de la parole et l’indexation du locuteur. Ce papier propose une étude phonétique acoustique des accents étrangers en français. Afin d’analyser à grande échelle les variations liées a l’origine de locuteur, nous avons évalue l’apport des outils automatiques décodage acoustico-phonétique et alignement force.
  • Voir l'article entier

Article 232

  • Titre : Une Base de données Etiquetée Formantiquement en Langue Arabe Standard
  • Imen Jemaa (Unité de Recherche Traiement du Signal, Traitement de l'image et Reconnaissance de Formes, Tunisie)
  • Oussama Rekhis (Unité de Recherche Traiement du Signal, Traitement de l'image et Reconnaissance de Formes, Tunisie)
  • Kais Ouni (Unité de Recherche Traiement du Signal, Traitement de l'image et Reconnaissance de Formes, Tunisie)
  • Yves Laprie (Equipe Parole, LORIA Nancy1, France)
  • Résumé : While formant frequencies are known to play a critical role in human speech perception and in computer speech processing, there has been a lack of standard databases needed for the quantitative evaluation of automatic formant extraction techniques especially in Arabic language. We report in this paper our recent effort to create a reference database of the first three formant tracks. The manually Formant labeling is carried out used the Winsnoori tool. Furthermore, we present in this paper an exploratory use of the database to quantitatively evaluate the automatic LPC method implemented in the popular open source Praat using the hand edited formant trajectories as reference.
  • Voir l'article entier

Article 242

  • Titre : Construction d’un corpus robuste de différents dialectes arabes
  • Mohamed Belgacem (Laboratoire LIDILEM )
  • Résumé : Notre article s’intègre dans le cadre du projet intitulé 'Oréodule' : un système embarqué temps réel de reconnaissance, de traduction et de synthèse de la parole arabe. L’objet de notre intérêt dans cet article est la présentation d’un corpus vocal de la parole arabe. Nous détaillerons les étapes de constitution de ce corpus et les difficultés rencontrées lors de son élaboration. Nous intègrerons également les différents résultats pratiques obtenus lors de chaque phase (tailles des enregistrements, volume total du notre corpus, etc.).
  • Voir l'article entier

Article 252

  • Titre : Espace perceptuel de similarité : étude sur 17 langues
  • Marie Rimbault Joffard ()
  • Résumé : The goal of the present study was to device a means of representing languages in a perceptual similarity space based on their overall sound structures. In experiment 1, native French listeners performed a free classification task in which they grouped 17 diverse languages based on their overall similarity. A similarity matrix of the grouping patterns was then submitted to clustering and multidimensional scaling analyses. In experiment 2, the same group of French listeners sorted the 17 languages in term of their distance to French. Taken together, the results of the two experiments provide the basis for estimating the distance between a given mother tongue and other languages and for understanding the role of the phonological filter.
  • Voir l'article entier

Article 262

  • Titre : Étude descriptive préliminaire de la voix de l'enfant implanté cochléaire à partir des mesures aérodynamiques
  • Harold Andrés Guerrero Lopez (Praxiling UMR 5267 CNRS - Montpellier III)
  • Benoit Amy De La Breteque (CHU Gui de Chauliac, Montpellier)
  • Michel Mondain (CHU Gui de Chauliac, Montpellier)
  • Patrick Serrafero (Ecole Centrale de Lyon)
  • Catherine Trottier (UMR I3M - Université Montpellier II)
  • Melissa Barkat-Defradas (Praxiling UMR 5267 CNRS - Montpellier III)
  • Résumé : The purpose of this study was to describe the voice physiological characteristics of cochlear implanted children by voice aerodynamic measurements. Subjects were 6 girls and 14 boys prelingual or congenital profound deaf children. Voice aerodynamic measurements were obtained from the children by EVA™2 system : estimated subglotic pressure (PSGE), oral airflow mean (DAB), intensity, glottal efficiency, laryngeal efficiency. Although our findings are descriptive and not have been compared to other populations at the present study (such as children with normal hearing and hearing aids), we can assume that cochlear implanted children's voice physiological behavior is similar to the phonatory behavior of children with normal hearing.
  • Voir l'article entier

Article 272

  • Titre : Modélisation Stochastique du Dialogue par Structures Sémantiques
  • Florian Pinault (CERI-LIA)
  • Résumé : Dans le domaine de l'interaction Homme-Machine, les systèmes de dialogue à initiative mixte sont actuellement étudiés, afin de permettre aux utilisateurs de parler librement avec la machine. Cependant, les système de dialogue en langue naturelle manque souvent de la robustesse nécessaire pour assurer la satisfaction de l'utilisateur. Une solution consiste à utiliser une représentation sémantique riche du dialogue, ainsi qu'une modélisation statistique du cours du dialogue.
  • Voir l'article entier

Article 282

  • Titre : Méthodes objectives issues du traitement automatique de la parole pour la recherche de zones 'déviantes' dans la parole dysarthrique
  • Pierre Clement (Laboratoire Informatique d'Avignon)
  • Corinne Fredouille (Laboratoire Informatique d'Avignon)
  • Résumé : Une déficience ou un dysfonctionnement d’une enzyme présente dans les lysosomes est à l’origine des maladies de surcharge lysosomale (ou maladies lysosomales). Parmi les nombreux symptômes pouvant être liés à ces maladies, les patients peuvent être atteints de dysarthrie. La dysarthrie se définit par un trouble de l’élocution dû à une lésion du système nerveux. A l’heure actuelle, l’évaluation du degré de sévérité de la dysarthrie se fait de façon perceptive par les cliniciens. Bien qu’il existe des critères perceptuels et visuels définis sur lesquels les cliniciens peuvent s’appuyer pour évaluer la dysarthrie, cette évaluation reste très dépendante du clinicien l’effectuant, et revêt par conséquent un caractère très subjectif. Pour cette raison, la mise en place de méthodes plus objectives de l’évaluation de la dysarthrie devient une nécessité. Cette mise en place doit reposer au préalable sur une meilleure connaissance et compréhension des phénomènes acoustico-phonétiques liés à la parole dysarthrique. Cet article décrit les méthodologies objective mise en place afin de rechercher des zones 'déviantes' dans la parole dysarthrique. Cette analyse de la parole dysarthrique sera effectuée grâce à des outils de traitement automatique de la parole.
  • Voir l'article entier