Twitter, Human Technology FoundationLinkedIn, Human Technology Foundation
Emotions et sociabilité à l’ère des filtres IA

Nadia Guerouaou a récemment soutenu sa thèse en Neurosciences Cognitives. Son doctorat portait sur l'utilisation de technologies informatiques pour transformer l'émotion dans la voix au cours des interactions sociales et leur incidence sur les inférences faites par les individus au sujet de leurs interlocuteurs.

Elle a adressé cette question d’une part sur le plan sociétal (étude d’éthique expérimentale de l’acceptabilité morale par la population) et d'autre part à travers des questions d'intérêt pour les neurosciences cognitives et la thérapie (étude de l'utilisation potentielle de ces filtres pour le traitement des souvenirs traumatiques en psychiatrie). Elle est ainsi investigatrice principale de l’étude clinique TraumacoustiK et Responsable scientifique de l’essai clinique TraumaVoice.

Par ailleurs, elle a effectué un séjour de recherche à Tokyo, afin d'examiner la relation des chercheurs et des artistes aux questions éthiques liées aux problématiques du soi synthétique (androïdes, réalité virtuelle, etc.). Un travail financé par la Japanese Society for the Promotion of Science et le CNRS.

Votre travail porte sur la voix dans les interactions sociales, pouvez-vous nous dire quel rôle elle y joue ? 

Lors de nos interactions sociales quotidiennes, nous sommes constamment et très souvent sans même en avoir conscience en train de faire des déductions au sujet de l’état de notre interlocuteur qui vont influencer nos comportements à son égard. À partir seulement de la voix d’un individu, nous sommes ainsi capables de déduire son état émotionnel, de discerner chez lui des attitudes sociales comme la bienveillance, ou encore de déceler le doute ou la confiance qu’il éprouve au sujet de son propos. Tout ça sans même avoir une idée précise de ce sur quoi nous fondons ces inférences. La voix est donc un véhicule crucial d’informations au sujet des états mentaux d’autrui et en particulier de ses émotions. Particulièrement conscients de cela, les domaines de l’informatique émotionnelle et des interactions homme-machine en ont fait un objet d’étude majeur. L’idée étant de permettre le plus possible aux systèmes d'intelligence artificielle (SIA) de transmettre des nuances émotionnelles afin d’« augmenter » l’expérience utilisateur. C’est notamment ce qui a poussé OpenAI à développer « Sky », une voix particulièrement expressive sur le plan émotionnel pour son chatbot.

En parlant d’IA et de voix, votre thèse porte sur une technologie informatique de transformation de voix que vous appelez « filtre vocal ». De quoi s’agit-il et pourquoi ce sujet?

Depuis quelque temps, nos interactions sociales sont marquées par deux changements sociétaux majeurs. Premièrement, l’émergence de technologies permettant de contrôler informatiquement nos expressions faciales et vocales, autrefois « naturelles » et associées aux états émotionnels. Nous connaissons tous les « filtres » de visage qui permettent par exemple d’arborer un sourire artificiel pour leur popularité sur les réseaux sociaux. Ce que j’ai appelé les « filtres vocaux » dans ma thèse et qui permettent de paramétrer les émotions affichées dans notre voix sont encore confidentiels. Toutefois, nous avons récemment pris connaissance de la future mise sur le marché par Soft Bank (une entreprise japonaise) d’une technologie fondée sur l’IA appelée « emotion canceling voice conversation » qui permettrait, dans le cadre des call-centers de gommer en temps réel la colère dans la voix de clients mécontents! D’autres compagnies en Europe travaillent au développement de ces filtres vocaux émotionnels. Ce qui me conforte dans l’idée d’une « sortie des labos » d’informatique de cette techno.

Mon deuxième point est la numérisation croissante de nos interactions (des réunions en visio à la télémédecine) qui crée un contexte propice au déploiement de ces outils de paramétrage informatique de soi. Ma thèse a alors adressé la question de leur potentiel de transformation de nos inférences socio-émotionnelles au sujet de nos interlocuteurs dont je parlais plus haut — c’est-à-dire de leur « potentiel anthropotechnique » pour utiliser un vocable de philosophie — dépendant entre autres de leur acceptabilité sociale.

Justement, au sujet de cette acceptabilité, pensez-vous que les individus vont accepter ces SIA qui transforment leur voix, sachant que l’on touche tout de même à l’identité des usagers en l’occurrence ?

C’est justement la question que je me suis posée en débutant ma thèse en 2020 et pour y répondre j’ai mené une étude d’éthique expérimentale qui visait à évaluer l’acceptabilité morale de différentes situations d’usage de ces filtres, pensées un peu à la black miroir. Parmi ces scénarios imaginés il y’avait d’ailleurs celui du filtre proposé par Soft Bank pour gommer la colère dans les call-centers! De manière particulièrement étonnante les résultats étaient en faveur d’une grande acceptabilité de ces situations d’usage de filtre vocal, même lorsque celles-ci impliquaient le fait de cacher ces transformations de voix à son interlocuteur. Ce qui pose évidemment de nombreuses questions éthiques et sociétales liées également à la question des deepfakes notamment.

L’interdisciplinarité occupe une place centrale dans vos travaux, notamment à travers l’articulation des neurosciences et de la philosophie pour aborder les questions liées au numérique. Quel en est l'intérêt ?

La question de l'anthropotechnie est habituellement traitée par les philosophes de la technique et elle a particulièrement infusé mon travail. A cet égard, il me semble que les neurosciences cognitives, grâce à leur méthodologie et leurs fondements théoriques, peuvent grandement contribuer à cette réflexion. Par exemple, j’ai proposé d'utiliser le modèle de l'inférence prédictive et la théorie constructiviste des émotions de LF Barrett pour examiner les potentielles transformations des processus de sociabilité.

Pouvez-vous nous résumer brièvement ce que ces théories neuroscientifques vous ont permis de penser sur les effets de l’usage des filtres vocaux?

Les neurosciences nous disent que nos déductions sur les états émotionnels de nos interlocuteurs reposent sur notre modèle interne du monde, basé sur nos croyances et expériences passées. Il faut alors avoir en tête que les émotions sont culturellement construites: une inflexion de voix ou une expression faciale n'est pas une émotion en soi, mais le deviennent par le sens que notre cognition leur attribue selon les « règles » d’une culture donnée. Cette association, inscrite dans notre modèle interne, façonne nos perceptions des états d’autrui.  Ceci car notre cerveau, loin d’être un récepteur passif des informations de notre environnement- contrairement à la croyance commune - crée notre perception des émotions dans la voix de nos interlocuteurs et il fait cela à partir de nos croyances apprises par observation de ces associations.

Que pourrait devenir ce modèle interne en vivant dans un milieu où un sourire artificiel peut être présenté sur un visage ou dans une voix, même lorsque nous sommes complètement déprimés ? Cela pourrait ainsi changer notre façon d’utiliser ces indices pour déduire les émotions de notre interlocuteur. Plusieurs hypothèses, fondées sur ces corpus théoriques peuvent alors être pensées comme l’émergence de nouvelles expressions propres au numérique, l’apparition d’une monoculture des expressions émotionnelles ou encore une difficulté à lire les émotions d’autrui… Autant d’hypothèses permettant d’envisager, en amont de son déploiement, diverses questions éthiques que soulèvent cette technologie. 

Pour finir, pourriez-vous nous en donner quelques exemples?

Très rapidement je parlerai de l’influence possible de ces technologies sur nos normes sociales. Si les valeurs morales peuvent influencer l’usage de technologies, on sait également que cet usage peut lui-même influencer notre paysage moral, il s’agit là d’un des softs impacts des technologies dont on ne parle suffisamment à mon sens. Dans notre société qui promeut le contrôle de la présentation de soi - le « travail émotionnel » de A.R Hochschild en est un exemple- on peut tout à fait imaginer que l’expression de certaines émotions, dès lors qu’on aurait le moyen de la contrôler, devienne tout à fait inacceptables. Je considère ces outils, en référence au travail de Foucault, comme de véritables techniques de soi dont les enjeux socio-politiques de contrôle et de pouvoir sont évidemment à considérer, sujet sur lequel mes recherches futures se porteront.

Human Technology Foundation, 09 juillet 2024

Pour aller plus loin

Barrett L. F. (2012), “Emotions are real”, Emotion, 12(3) p. 413-429.

Casili, A. (2010). Les liaisons numériques. Vers une nouvelle sociabilité. Paris: Editions du Seuil.

Guerouaou N., Vaiva G., and Aucouturier, J.-J. (2021), “The shallow of your smile: the ethics of expressive vocal deep-fakes”, Philosophical Transactions of the Royal Society B: Biological Sciences, 377(1841), 20210083.

Guerouaou N. (2022), “Rendre sa voix plus souriante: deepfakes et filtres vocaux émotionnels”, AOC, 6 Juillet 2022. https://aoc.media/analyse/2022/07/05/rendre-sa-voix-plus-souriante-deepfakes-et-filtres-vocaux-emotionnels

Hochschild, A. R., Fournet-Fayas, S., and Thome, C. (2017). Le prix des sentiments :au cœur du travail émotionnel. La découverte.

Articles associés