ACAI

Affects, Compagnons Artificiels et Interactions

1er juillet 2025, Dijon, France

Présentation

Le groupe de travail « Affects, Compagnons Artificiels et Interactions » (ACAI) de l'AFIA a été créé en 2012. Son objectif est de regrouper les activités en France autour de l'informatique affective et de l'interaction avec des compagnons artificiels. Il regroupe une communauté pluridisciplinaire de chercheurs en Informatique Affective, en Sciences Cognitive, en Psychologie Sociale, en Linguistique.

https://acai.cnrs.fr/

Le GT ACAI se réunit tous les ans, soit dans le cadre d'une conférence, soit pour un atelier d'une journée qui permet d'échanger sur les questions de recherches menées par les équipes du GT en France. Cette année, la journée atelier du GT ACAI se tiendra à Dijon, pour la troisième fois dans le cadre de la plate-forme de l'AFIA. Ce sera l'occasion de confronter nos problématiques aux modèles et aux questions de recherche non seulement auprès de la communauté ACAI, mais aussi avec toute la communauté française de l'intelligence artificielle.

Nous invitons toutes les personnes intéressées par ces thématiques à proposer une présentation dans le cadre de cet atelier !

Vitrine

Voici quelques travaux présentés lors de WACAI 2024.

Thématiques

Nous invitons toutes les personnes intéressées à proposer une contribution liée aux thématiques chères au GT ACAI :

Nous encourageons des contributions qui abordent les questions scientifiques suivantes :

Appel Ă  contributions

Un titre + résumé (quelques lignes) de votre contribution envisagée sont à envoyer par mail avant le 16 mai 2025 à : Beatrice Biancardi (bbiancardi@cesi.fr) et Gaël Guibon (guibon@lipn.univ-paris13.fr), avec comme objet d’email [soumission Atelier ACAI @PFIA2025] plus le titre, en spécifiant si vous souhaitez intervenir sous forme de présentation orale ou de poster.

Programme de la journée

10h30 - accueil et mots des organisateurs

10h45 - Analyse multimodales d’un corpus d’interactions collaboratives - Amine Benamara (LISN, Université Paris-Saclay)

Dans ces travaux, nous explorons les comportements non-verbaux associés à l’intimité dans un contexte de collaboration en petit groupe. Nous introduisons ainsi un corpus de données que nous avons collecté au cours de 17 sessions expérimentales. Lors de chaque session, 4 participants jouent deux parties de Mot Malin, un jeu collaboratif d’association de mots. Le corpus est composé des vidéos des participants pendant les sessions, ainsi que les réponses à des questionnaires qui mesurent l’intimité et les dynamiques de groupes au cours des deux parties de jeu. Nous présenterons les premières analyses des comportements non-verbaux que nous avons effectué, ainsi qu’une discussion des résultats obtenus.

11h05 - Interaction humoristique précoce : vers un modèle formel - Yingqin Hu (ISIR, Sorbonne Université)

Les modèles computationnels actuels pour la reconnaissance de l'humour et la génération du rire dans les systèmes de dialogue présentent des limitations significatives en termes d'explicabilité et d'adaptabilité. Notre travail aborde ces défis en étudiant comment la reconnaissance de l'humour se développe dans ses formes les plus précoces, durant la première année de vie. En nous appuyant sur la psychologie du développement et les sciences cognitives, nous proposons un modèle formel intégré au cadre de dialogue KoS. Ce modèle capture comment les nourrissons évaluent l'humour potentiel à travers une évaluation basée sur les connaissances et une modulation contextuelle, incluant la sécurité, l'état émotionnel et les indices sociaux. Notre modèle formalise les mises à jour dynamiques des connaissances pendant l'interaction dyadique. Nous pensons que ce modèle formel peut constituer une base fondamentale pour développer des capacités d'appréciation de l'humour plus naturelles dans les systèmes de dialogue.

11h25 - SMART-DREAM : Conditionner ou ne pas conditionner. Étude de l'impact du conditionnement par actes de dialogue des grands modèles de langage pour un agent virtuel en entretien motivationnel - Lucie Galland (ISIR, Sorbonne Université)

Dans cette recherche, nous étudions l'effet du conditionnement par actes de dialogue appliqué aux grands modèles de langage (LLMs) et la manière dont ceux-ci peuvent être exploités, en combinaison avec un agent virtuel. Nous développons un gestionnaire de dialogue appliqué à la simulation d'interactions d'entretien motivationnel (EM), une approche thérapeutique qui vise à encourager le changement de comportement, capable de générer des actes de dialogue cohérents avec les différentes phases de l'EM, tout en s'adaptant à divers profils utilisateurs. Nous menons une étude expérimentale au cours de laquelle 60 participants interagissent avec un agent virtuel incarné, animé soit par un LLM standard, soit par un LLM conditionné. Nos résultats montrent que les participants développent davantage de rapport avec l'agent utilisant le LLM conditionné. De plus, nos observations montrent que notre modèle atteint le seuil d'efficacité thérapeutique ainsi qu'une capacité à mieux motiver certains profils d'utilisateurs que la baseline. Ces résultats mettent en évidence l'impact positif du conditionnement des LLMs par actes de dialogue et soulignent l'importance de personnaliser les interventions en fonction des profils utilisateurs.

11h45 - Conception et évaluation du toucher social multimodal pour l'interaction humain-agent en réalité virtuelle - Benjamin Dukatar (ISIR, Sorbonne Université)

Le toucher social peut servir à transmettre des intentions mais aussi des émotions, ce qui en fait une modalité pertinente pour enrichir l’interaction humain–agent en réalité virtuelle (RV). Le toucher repose sur des composantes visuelles, sonores et haptiques. Dans le cadre de ce stage, nous formulons l’hypothèse que le retour sonore constitue une composante essentielle dans la perception du toucher. Nous avons conçu des retours sonores s’appuyant notamment sur des techniques de sound design pour générer les stimuli sonores. Une interface a également été développée afin d’assurer l’intégration et la synchronisation des différents signaux multimodaux (notamment pour les signaux haptiques et l'animation des gestes). La perception de ces signaux est évaluée dans deux contextes : la perception des stimuli faits par un agent virtuel sans aucun contexte, puis dans un environnement ludique.

12h05 - CUPID25 - Livia Leroy-Stone (Université Paris 1 Panthéon Sorbonne)

CUPID25 est assistant personnel basé sur une IA légère, ne dépendant pas de serveurs externes et fonctionnant sur un RaspberryPi. Il permet l'automatisation de tâches du quotidien (allumage de la lumière, ouverture des volets, lancement de la musique,…) tout en respectant la vie privée des utilisateurs (toutes les données personnelles restent stockées localement) et en restant économique (en argent et en énergie). CUPID25 est également capable d’expliquer la raison de ses actions à l’utilisateur et de s’adapter à des instructions précises de celui-ci (en plus de l’apprentissage automatisé de ses habitudes). Enfin, CUPID25 prend la forme d’un petit animal mignon, qui peut rougir et bouger les oreilles pour réagir lors d’interactions avec l’utilisateur, rendant l’assistant personnel plus agréable à utiliser.

14h - Introduction du GT ISA (Interactions Socio-Affectives) du GDR IHM et brainstorming thématiques communes au GT ACAI

15h - Unified speech and gesture generation using gated linear attention - Téo Guichoux (ISIR, Sorbonne Université)

Generating synchronized speech, gestures, and facial expressions for Embodied Conversational Agents (ECAs) is often done using cascaded models, where speech is synthesized first, followed by motion generation. This approach introduces latency and disrupts natural coordination. Unified models aim to generate speech and motion jointly but face challenges due to limited multimodal datasets and computational inefficiencies. Diffusion models (DMs) struggle with generating long, temporally consistent sequences, while autoregressive (AR) models are hindered by the computational cost of self-attention. We propose a new AR model that simultaneously generates speech and motion using Gated-Linear Attention (GLA) to reduce memory overhead. Our approach pre-trains on large speech datasets and fine-tunes on smaller multimodal datasets, ensuring high-quality synthesis. To handle different frame rates, we use variational auto-encoders (VAEs) for alignment. By generating multimodal sequences in an interleaved manner, our model improves coherence and efficiency, enabling more natural ECA interactions.

15h20 - Adaptation dyadique des expressions faciales par modèles de diffusion - Nezih Younsi (ISIR, Sorbonne Université)

La communication humaine repose sur l’adaptation dynamique de signaux multimodaux, verbaux et non verbaux, facilitant empathie, engagement et création de lien. Cette capacité d’adaptation est cruciale dans des contextes sensibles comme l’entretien motivationnel (EM), méthode visant à encourager le changement via une interaction collaborative. Cette thèse explore la modélisation d’un conseiller artificiel capable de générer des expressions faciales adaptatives pour enrichir l’interaction en EM. À partir de données d’interactions humaines, nous identifions des liens entre expressions faciales et actes de dialogue, et proposons un modèle de diffusion temps réel (MODIFF-8) synchronisé avec les signaux du participant. Le système est évalué hors-ligne et en temps réel, en analysant l’impact des expressions générées sur la perception des participants (présence sociale, rapport, attitude) ainsi que l’effet de l’incarnation (agent virtuel vs robot social).

15h40 - Projet ASI-APP : Analyse des besoins des étudiants afin de développer des Agents Socialement Interactifs (ASI) soutenant l'Apprentissage Par Projet - Elric Ringuet (CESI LINEACT, Nanterre)

L’Apprentissage Par Projet (APP) est une méthode par laquelle les étudiants apprennent tout en résolvant un problème. En théorie, l'enseignant joue le rôle de facilitateur dans le processus d'apprentissage, au lieu de simplement transmettre des connaissances. Des recherches ont montré que des groupes restreints permettent un meilleur suivi pour le tuteur et un meilleur apprentissage pour les élèves. D'autres études ont montré des effets positifs de la présence d'Agents Socialement Interactifs (ASI) sur la motivation des étudiants, le maintien d'un suivi continu et la liaison avec le tuteur, dans les cas où celui-ci doit gérer plusieurs groupes en même temps, cependant, ce principe n'est pas toujours bien appliqué. Notre projet vise à créer un agent pédagogique virtuel capable d'assister les étudiants utilisant la méthode APP. Afin de déterminer comment il peut aider au mieux, l'étude que nous allons présenter a été menée à l'aide un questionnaire transmis à plus de 200 étudiants, permettant de déterminer les défauts qu'ils voient dans la méthode APP, de déterminer leurs profils d'apprentissage et collecter les besoins des étudiants pour l'amélioration de l'apprentissage et les attentes des étudiants envers un ASI qui serait potentiellement mis à leur disposition. En se basant sur leurs réponses, nous allons expérimenter sur la création d'un agent en se basant sur des Large Language Models.

16h - Pause café

16h30 - Understanding Human Group Collaboration: Insights for Designing Collaborative Agents - Alafate Abulimiti (ISIR, Sorbonne Université)

This contribution offers an exploratory review of fundamental theories of small group collaboration, focusing on the key concepts of communication, coordination, and cohesion. By examining how these dynamics shape multiparty multimodal collaboration, we aim to raise questions and identify relevant avenues for reflection for the development of virtual agents. The objective is to initiate a discussion on the potential contribution of these human models to the creation of richer and more capable collaborative agent systems.

16h50 - Traitement Multimodal des Signaux Sociaux pour l'Estimation en Temps Réel de la Faible Cohésion dans les Groupes Hybrides - Mathilde Sassier (LITIS, INSA Rouen)

La cohésion est un concept multidimensionnel qui reflète un engagement partagé envers les tâches du groupe ainsi que des liens interpersonnels forts. Elle joue un rôle crucial dans la réussite collective et le bien-être émotionnel. Dans les interactions homme-machine, les agents conversationnels incarnés peuvent favoriser la cohésion d'un groupe et prévenir l'instauration d'une dynamique négative via la détection et prédiction en temps réel des périodes de faible cohésion. Cette étude propose un nouveau cadre de travail pour le traitement des signaux sociaux pour l’estimation en temps réel de la cohésion dans des interactions de groupe hybride, et développe des modèles computationnels s’appuyant sur ce cadre. En utilisant un corpus d’interactions multiparties, nous extrayons des signaux sociaux non verbaux disponibles en temps réel et estimons la cohésion globale ainsi que ses dimensions (sociale, tâche). Nous examinons également la contribution des différents signaux sociaux extraits à la performance de détection de faible cohésion dans des interactions collaboratives. Dans notre étude, la faible cohésion globale est détectée plus efficacement que ses dimensions sociale ou liée à la tâche. L’étude d’ablation suggère que certains signaux sociaux, reflétant spécifiquement des schémas d’interactions inter-individuelles, contribuent de manière significative à la performance de détection de faible cohésion. Ce travail démontre le potentiel des approches basées sur les données pour l’estimation en temps réel de la cohésion dans des interactions multiparties, et souligne les opportunités prometteuses pour créer des agents conversationnels incarnés capables de restaurer et maintenir la cohésion dans des contextes hybrides.

17h10 - Génération en temps réel de comportements multimodaux par modèle de diffusion conditionné - Paul Leroux (ISIR, Sorbonne Université)

Les modèles de diffusion sont devenus des références pour la génération de données multimodales, grâce à leur capacité à produire des contenus réalistes conditionnés par des informations externes telles que la parole ou le style. Chen et al. (2024) ont récemment proposé DiffSHEG, un modèle de diffusion générant simultanément des gestes corporels et des expressions faciales à partir de la voix. En s'appuyant sur leur méthode d'accélération Fast Out-Painting-based Partial Autoregressive Sampling (FOPPAS), le modèle permet une génération suffisamment rapide pour envisager une utilisation en temps réel. Nous travaillons actuellement à l’intégration de DiffSHEG dans la plateforme d’agent conversationnel GRETA, afin de produire des comportements non verbaux multimodaux synchronisés avec la parole en situation d’interaction. Ce travail vise à enrichir les capacités expressives des agents virtuels dans un cadre socio-affectif, appliqué aux entretiens motivationnels. MODIFF-MI, un autre modèle de diffusion, génère des expressions faciales fines adaptées au discours thérapeutique et un LLM pilote la génération des réponses verbales, assurant une cohérence dialogique. Par cette approche multimodale, nous comptons améliorer l'engagement de patients potentiels auprès d'un thérapeute virtuel.

17h30-17h40 - Fin

Organisation

Programme scientifique

Site web

(avec l'aide de l'équipe organisatrice de PFIA 2025)

Comité des anciens