Intérêt de la correction du feed-back visuel dans la ... - limsi
Cela consiste par exemple à développer des spécifications, des outils logiciels et
des méthodologies d'évaluation appropriés pour la coordination de plusieurs
médias et modalités de communication comme la parole et les gestes. On
distingue d'une part les IHM multimodales en entrée qui doivent fusionner les ...
Part of the document
Introduction aux Interfaces Homme-Machine Multimodales Jean-Claude Martin(
Résumé L'objectif de cet article est de donner une vue d'ensemble des
recherches menées depuis une quinzaine d'année dans le domaine de
Interfaces Homme-Machine multimodales en décrivant la terminologie qu'elles
font intervenir, les avantages de ces interfaces mais aussi les problèmes
qu'elles posent aux chercheurs et concepteurs. Nous abordons notamment les
notions de coopérations entre modalités, les algorithmes d'unification
utilisés classiquement pour la fusion, et la construction de corpus
multimodaux pour récolter des données sur le comportement multimodal des
utilisateurs. Nous terminons en citant quelques applications existantes
pour le handicap.
Introduction Lorsque nous communiquons entre personnes, nous utilisons plusieurs
modalités de communication comme la parole, les gestes, la posture, le
regard, les expressions faciales. Ces modalités de communications sont
impliquées dans des conversations bi-directionnelles avec la personne avec
laquelle nous communiquons. Nous connaissons encore de manière incomplète
les mécanismes qui sous-tendent cette multimodalité de la communication
humaine et lui permettent d'être intuitive et efficace. Les Interfaces Homme-Machine (IHM) actuelles utilisent souvent un
ensemble restreint de média (comme la souris, le clavier, l'écran) et
restent très limitées vis à vis de cette multimodalité de la communication
humaine. Un des objectifs des recherches en IHM multimodales est d'augmenter
ces capacités communicatives de l'ordinateur, par exemple en étudiant et en
s'inspirant de la multimodalité de la communication humaine pour améliorer
la communication entre les utilisateurs et les ordinateurs. Cela consiste
par exemple à développer des spécifications, des outils logiciels et des
méthodologies d'évaluation appropriés pour la coordination de plusieurs
médias et modalités de communication comme la parole et les gestes. On distingue d'une part les IHM multimodales en entrée qui doivent
fusionner les informations fournies par l'utilisateur via plusieurs
modalités comme la parole et les gestes, et d'autre part, les IHM
multimodales en sortie combinant par exemple la synthèse vocale et le
graphisme ou impliquant des « agents conversationnels », personnages animés
sur l'écran montrant des comportements verbaux et non-verbaux par exemple
pour gérer les tours de parole, encourager l'utilisateur en montrant des
émotions ou diriger son attention sur certains objets affichés à l'écran.
Le personnage animé peut alors faire intervenir le geste, des expressions
faciales, le regard, la posture [1].
Définitions et historique Dans ce domaine pluridisciplinaire, le vocabulaire ne fait pas
toujours l'objet d'un consensus. Un média est généralement définit comme un
support physique permettant de transmettre une information [2]. Par exemple
dans le sens utilisateur vers machine : le clavier. Dans le sens machine
vers utilisateur : le haut-parleur. Nous appellerons modalité, une manière
d'utiliser un média. Par exemple le média stylo électronique peut être
utilisé selon plusieurs modalités : écriture, gestes de commande (dans une
application de dessin, faire une croix sur un objet pour supprimer cet
objet), geste de dessin [3]. Les termes multimédias et multimodaux sont un peu plus ambigus. On dit
d'un système qu'il est multimédia lorsque plusieurs médias sont utilisables
par l'utilisateur ou que l'ordinateur fait intervenir plusieurs médias ou
modalités (par exemple utilisation du média « écran » pour afficher
plusieurs modalités comme des vidéos, du texte ou des animations de manière
synchronisée mais pré-calculée). On dit d'un système qu'il est multimodal
lorsqu'il permet de combiner en entrée et/ou en sortie plusieurs médias et
modalités de manière dynamique et à un niveau sémantique. Un système
multimodal en entrée permet par exemple d'intégrer et d'interpréter la
parole et les gestes de l'utilisateur. Un système multimodal en sortie
permet de générer dynamiquement une combinaison de modalités à partir d'une
représentation sémantique et en fonction du contexte (niveau de
l'utilisateur, tâche en cours). Les logiciels multimédias comme les encyclopédies sont fréquents. Les
systèmes multimodaux sont encore à un niveau de prototype de recherche et
restent peu diffusés dans le monde industriel. De nombreux prototypes
multimodaux en entrée ont cependant été développés dans les laboratoires de
recherche depuis les quinze dernières années. Ainsi un des premiers
prototypes, le système « Put That There » [4] permettait de manipuler des
formes graphiques en combinant parole et gestes (via un joystick, un pavé
sensible ou un capteur de position polhemus sur le poignet). L'utilisateur
pouvait par exemple énoncer des commandes comme « créer un carré bleu ici
», « déplacer ça à droite du triangle vert », « mets ça
ici ». Depuis, la multimodalité s'est développé et fait
l'objet de conférences et projets dédiés (ICMI[1], workshop LREC 2004 sur
les corpus multimodaux[2], 6ème programme cadre européen, W3C Multimodal
Interaction Activity[3]).
Avantages des interfaces homme-machine multimodales La multimodalité permet a priori une communication intuitive, parce que
fondée sur des moyens de communications que nous connaissons (parole,
gestes). Cependant l'utilisation d'un dispositif de pointage rend
l'utilisation du geste éloigné de son utilisation naturelle et peut aussi
ajouter une charge cognitive [5]. L'utilisateur a le choix de la modalité qu'il peut ou préfère utiliser
à un moment donné. On parle alors d'équivalence, dans le sens où les
modalités ne sont pas égales mais lui permettent d'obtenir le même résultat
de la part du système. Il est alors important à la conception du système de
procéder à une étude des besoins et une analyse de la tâche afin de
proposer une combinaison de médias et modalités appropriées. La multimodalité doit permettre l'amélioration de la reconnaissance et
de la compréhension par l'ordinateur des commandes de l'utilisateur. Ainsi,
la reconnaissance vocale peut être améliorée si elle était combinée avec la
reconnaissance de gestes (2D ou 3D). En effet, il est alors envisageable
d'utiliser conjointement les modalités pour résoudre des ambiguïtés (on
parle alors de « désambiguïsation mutuelle » [6]). Les modalités coopèrent
dans ce cas par complémentarité ou redondance [7]. De plus il a été
observé (dans certaines applications et avec certains médias) que les
utilisateurs avaient un comportement vocal plus correct et comportant moins
d'hésitations (donc plus facile à reconnaître) si on leur permettait
d'utiliser le stylo en même temps que la parole pour sélectionner des
objets [6]. Problèmes à résoudre Concevoir des IHM multimodales est un objectif à long terme car cela
soulève de nombreuses questions : Comment fusionner et interpréter les
informations incertaines fournies pas chaque modalité (algorithme de
fusion) ? Comment connaître à l'avance le comportement vocal et gestuel des
futurs utilisateurs (protocoles expérimentaux et corpus) ? Quels sont les
modules nécessaires et comment les faire communiquer (architecture)?
Comment représenter les informations fournies par chaque système monomodal
(langage de représentation) ? Quelles caractéristiques de l'utilisateur
doit-on prendre en compte (age, sexe, nationalité/culture, niveau
informatique, état émotionnel, humeur) ? Comment prendre en compte
l'environnement (fixe / mobile) à la conception et lors de l'interaction ?
Est-ce possible de transformer une IHM classique en une IHM multimodale ?
Comment savoir quand un geste ou une commande multimodale commence et finit
(segmentation) ? Quels sont les problèmes techniques liés à l'intégration
des différents systèmes mono-modaux ? Dans le cadre de cet article, nous nous limiterons à l'étude de
quelques-unes de ces questions. Sur quels critères et à quel niveau fusionner les différentes modalités ?
Les systèmes multimodaux font généralement intervenir un traitement
monomodal isolé dans chaque modalité (par exemple reconnaissance de parole
et reconnaissance de gestes). Ainsi la reconnaissance de gestes 2D
effectués sur un écran tactile peut fournir différentes informations qui
peuvent, selon l'application et les objets affichés, être porteuses de
sens : forme du geste (pointage, encerclement, ligne...), taille du geste
(une courte droite peut être interprétée comme la sélection d'un objet, une
longue droite peut être interpréter comme la mise en relation de deux
objets ou deux endroits) et enfin la position du geste relativement aux
objets actuellement visibles ou zones sensibles de l'écran. Les étapes suivantes du traitement peuvent varier selon l'étape à
laquelle le système tente d'attribuer une sémantique aux comportements de
l'utilisateur et selon que la fusion a lieu de manière précoce ou tardive.
La fusion précoce signifie que le système n'attend pas d'avoir toutes les
informations liées par exemple à l'historique du dialogue pour essayer de
fusionner la parole et les gestes. Cela peut nécessiter le fait qu'à des
étapes ultérieures, il soit nécessaire d'annuler une fusion erronée qui
avait été faite de manière trop précoce. Les systèmes multimodaux utilisent classiquement des principes
d'unification pour l