La face cachée d'Emotion AI : proxies, biais et risques éthiques
Date : 28/01/2026 • Temps de lecture estimé : 14 minutes
Quand un sourire devient un signal de tri
Imagine un entretien vidéo asynchrone pour une PME française. Le poste est simple sur le papier, support client, assistant qualité, chargé d'études cliniques junior, ou un rôle en RH. Le candidat répond depuis son salon, la lumière est moyenne, l'audio aussi. Il est concentré, parfois tendu, parfois neutre. Pourtant, en arrière-plan, un outil d'IA et recrutement calcule un score, "engagement", "confiance", "stabilité émotionnelle", "compatibilité culturelle". À la fin, la candidature est écartée avant même d'atteindre un humain. Le recruteur voit un tableau. Le candidat voit un silence.
Ce scénario existe déjà, parce que l'intelligence artificielle et emploi s'est installée dans des micro-décisions, tri, priorisation, routage, scoring. Le recrutement automatisé est souvent vendu comme une méritocratie numérique, plus rapide, plus "objective". Le souci, c'est que beaucoup de ces systèmes reposent sur une idée fragile, parfois scientifiquement contestée : inférer l'intérieur d'une personne à partir de signaux observables.
Et c'est ici que la notion la plus importante de l'article apparaît : le proxy. Un proxy n'est pas un mensonge volontaire. C'est un raccourci mesurable, utilisé à la place de quelque chose qu'on ne peut pas mesurer directement. Le problème commence quand ce raccourci devient une décision, puis une décision de carrière.
L'émotion IA classe des indices (visage, voix, texte) corrélés à des états affectifs dans un contexte précis. Ce n'est pas un accès direct à ce que ressent vraiment la personne. C'est une estimation statistique, pas une vérité.
1) "Lire" les émotions sans émotions : le piège des proxies
Proxy, corrélation et illusion de précision
En pratique, les systèmes de reconnaissance des émotions utilisent trois grandes familles de signaux. Le visage, via des points clés et des micro-mouvements. La voix, via la prosodie, rythme, intensité, variations. Le texte, via des mots, ponctuation, emojis, ou des modèles de sentiment analysis. Chaque signal devient un indicateur, et l'indicateur est transformé en étiquette, "joie", "stress", "colère", ou une version corporate, "motivation", "fiabilité", "risque".
La difficulté, c'est que l'émotion n'est pas un objet stable comme un poids ou une température. Le même état peut s'exprimer différemment selon le contexte, la culture, l'âge, la fatigue, la neurodiversité, ou simplement la personnalité. Des synthèses académiques soulignent qu'inférer un état émotionnel à partir de mouvements faciaux est un exercice beaucoup plus incertain que ce que le marketing laisse entendre, notamment quand on oublie le contexte social et situationnel de l'expression.
Pourquoi la validité est contestée
Une partie des systèmes actuels s'appuie encore, explicitement ou implicitement, sur l'idée qu'il existe des correspondances universelles et stables entre expressions faciales et émotions internes. Or, plusieurs travaux de référence mettent en garde contre la tentation de déduire l'émotion à partir du visage seul, sans contexte, et rappellent que les associations "expression ↔ émotion" sont variables, parfois faibles, et souvent sur-interprétées quand elles deviennent des produits.
Dit simplement, tu peux entraîner un modèle à reconnaître des patterns qui ressemblent à "colère" dans un dataset annoté "colère". Mais tu n'as pas prouvé que tu reconnais la colère ressentie. Tu as prouvé que tu reproduis des conventions d'annotation. Ce glissement, label vers vécu, est le cœur du problème.
Les proxies sont culturellement situés
Deux personnes peuvent afficher la même expression et ne pas vouloir dire la même chose. Et deux cultures peuvent interpréter différemment un même visage. Des études en psychologie culturelle montrent que l'interprétation des expressions, et l'attention portée à certaines zones du visage, varient entre contextes culturels. Si ton dataset a été annoté principalement par un groupe, tu figes ses normes comme s'il s'agissait d'une vérité universelle. C'est un biais d'annotation, puis un biais de généralisation.
Nommer correctement, c'est déjà auditer
Une première mesure de responsabilité consiste à nommer l'objet correctement. "Détection d'émotions" est une promesse forte. "Inférence d'états affectifs probables à partir de signaux observables, dans un contexte donné" est moins vendeur, mais plus honnête. Et cette honnêteté change tout pour l'éthique, parce qu'elle oblige à traiter le score comme un indice incertain, pas comme un verdict sur une personne.
Le système détecte un sourire → il en déduit de la "joie" → il traduit ça en "motivation" → il prédit une "bonne performance". À chaque étape, on s'éloigne de ce qu'on a vraiment mesuré. Au final, on prend une décision de carrière basée sur une suite d'hypothèses, pas sur des faits vérifiés.
2) Du visage au score : quand un proxy devient un critère de décision
La cascade "signal → score → décision" dans l'algorithme de recrutement
Le vrai danger n'est pas le score lui-même. C'est ce qu'on en fait. Un système te dit "fiabilité 72", "engagement 61", "stress 83". Ces chiffres ont l'air précis, donc ils ont l'air crédibles. Mais un chiffre précis n'est pas forcément un chiffre juste. Et quand ce chiffre décide qui passe à l'étape suivante, il a un pouvoir énorme — souvent sans que personne ne le remette en question.
Dans certains produits, ce score alimente ensuite des prédictions business : "va-t-il démissionner rapidement ?", "sera-t-il performant ?", "va-t-il bien s'intégrer dans l'équipe ?". Le problème, c'est que le système mesure ce qu'il sait mesurer (un sourire, un ton de voix), pas ce qui compte vraiment pour réussir dans le poste. Au final, tu recrutes des gens qui ressemblent à ceux qui étaient dans les données d'entraînement, pas forcément ceux qui feront le mieux le travail.
Trois familles de proxies, trois biais typiques
Visage : la performance varie selon les conditions d'image (lumière, caméra), mais aussi selon la représentativité des groupes dans les jeux de données et les conventions d'annotation. Des travaux récents discutent comment certains jeux de données et protocoles peuvent amplifier des écarts de performance entre groupes, surtout quand l'on confond expressions posées et expressions naturelles.
Voix : l'intonation et le rythme sont fortement liés à l'accent, à la langue maternelle, au stress situationnel, et au contexte. Les modèles d'émotion dans la voix chutent souvent en performance lorsqu'ils sont testés sur des accents ou des conditions différentes de l'entraînement, ce qui revient à traiter "accent différent" comme une émotion différente, donc comme un signal de crédibilité ou d'assurance. C'est une discrimination linguistique possible, sans jamais écrire "accent" dans les critères.
Texte : sarcasme, humour, codes de communauté, usage d'emojis, tout ça varie énormément. Une phrase sèche et directe peut simplement refléter un style de communication concis, pas de la colère. Une réaction emoji peut être un marqueur d'appartenance à un groupe, pas un marqueur de joie. Des recherches sur les réactions emoji montrent des biais de positivité et des écarts entre "réaction" et "sentiment réel", ce qui rend très fragile l'idée d'utiliser ces réactions comme labels d'entraînement pour un système émotionnel.
RGPD, données sensibles et décisions automatisées, le terrain glissant
Sur le plan conformité, deux zones doivent être traitées avec sérieux. D'abord, la nature des données. Selon le cas, tu peux manipuler des données biométriques (visage, voix) et potentiellement inférer des informations liées à la santé ou à l'état mental. Le RGPD distingue notamment les catégories particulières de données, et il encadre fortement l'usage de biométrie lorsqu'elle sert à identifier une personne de manière unique. Même quand tu dis "je ne fais pas d'identification", tu peux rester dans une zone sensible parce que tu infères des attributs intimes ou des états internes, et certaines analyses juridiques parlent de "mental data" comme catégorie à risque.
Deuxième zone, la décision automatisée. Si un score émotionnel contribue à une décision qui produit des effets significatifs, refus de candidature, tri automatique, priorisation systématique, tu dois regarder de près les obligations de transparence et le droit à une intervention humaine, selon le montage exact du système. Là encore, l'enjeu n'est pas de citer un article pour se rassurer, l'enjeu est de bâtir un dispositif de contestabilité réel, compréhensible et accessible.
IA Act, interdictions et usages "à haut risque"
Dans l'Union européenne, l'IA Act traite la reconnaissance des émotions comme un sujet à très forte sensibilité, et il vise explicitement certains contextes, notamment le travail et l'éducation, avec une logique d'interdiction ou d'encadrement strict selon la finalité et les exceptions. Pour une PME, la lecture opérationnelle est simple : si ton cas d'usage touche l'emploi, considère le risque "rouge" par défaut, et n'avance qu'avec un audit, une justification solide, et une alternative non intrusive sur la table.
Si l'objectif est "réduire le temps de tri", il existe des solutions plus défendables : grilles de compétences, tests de mise en situation validés, entretiens structurés, échantillons de travail, anonymisation partielle. Un score émotionnel ajoute un risque, sans garantir un gain.
3) Auditer l'invisible : comment tester un système qu'on ne peut pas "vérifier" directement
Le paradoxe : pas de "bonne réponse" de référence
Quand tu audites un système qui reconnaît des chats dans des images, tu peux vérifier : c'est un chat, ou ce n'en est pas un. Mais avec les émotions, il n'y a pas de réponse objective. L'émotion est subjective, elle dépend du contexte, et parfois la personne elle-même ne saurait pas la nommer précisément. Donc quand un fournisseur te dit "notre modèle fait 92% de précision", la vraie question c'est : 92% par rapport à quoi ? Par rapport à ce que des annotateurs humains ont décidé d'écrire. Pas par rapport à ce que les gens ressentaient vraiment.
Double couche de biais : données et proxies
Couche 1, les données. Qui est représenté, qui ne l'est pas, quelles conditions d'image, quelles langues, quels accents, quels âges. Qui annote, avec quelles consignes, avec quelles catégories. Couche 2, le choix des proxies. Pourquoi ce mouvement facial "signifie" ça. Pourquoi cette intonation devient "stress". Pourquoi ce mot devient "hostilité". Un audit sérieux doit regarder les deux. Sinon tu peux "corriger" un biais de performance sans corriger le biais de conception.
Checklist d'audit en 10 questions, utilisable en 30 minutes
Audit éthique, trois axes qui évitent les faux audits
Premier axe, performance différenciée. Tu ne regardes pas seulement "précision globale", tu regardes les écarts par groupe et par contexte. Deuxième axe, critique des proxies. Tu questionnes la validité des correspondances, et tu refuses de confondre "corrélation utile" et "critère légitime". Troisième axe, gouvernance et recours. Tu documentes, tu logges, tu définis qui répond aux contestations, tu mets un humain au bon endroit, pas en décoration.
Et le prompt engineering dans tout ça ?
Sur beaucoup de plateformes RH, le score émotionnel cohabite désormais avec des IA génératives qui résument l'entretien ou produisent une recommandation. Le risque est double : un score fragile alimente un résumé qui a l'air convaincant, et ce résumé donne encore plus de crédibilité au score initial. C'est là que la manière dont on formule les instructions à l'IA devient un sujet éthique. Si on lui demande "déduis la motivation du candidat", on l'encourage à inventer une analyse psychologique. Si on lui demande "décris ce que tu observes et cite les phrases exactes du candidat", on limite l'interprétation. Un audit sérieux doit donc aussi examiner les instructions données à l'IA et les critères utilisés pour calculer les scores.
Vous voulez sécuriser un cas d'usage avant qu'il ne devienne un incident ?
Je peux vous aider à vérifier un parcours de recrutement basé sur l’IA.
Nous repérons ce qui influence réellement les scores, nous regardons s’il existe des écarts selon les profils, puis je vous propose un plan clair pour limiter les risques et rester dans un cadre conforme (IA Act, RGPD).
Si vous le souhaitez, nous pouvons commencer par un seul processus, sur un cas concret, afin de savoir rapidement si vous avancez dans la bonne direction.
FAQ
Elle peut classifier des signaux observables et leur associer des catégories apprises sur des données annotées. La fiabilité dépend fortement du contexte, de la culture, des conditions techniques, et des hypothèses derrière les labels. Pour des décisions d'emploi, le risque d'erreur et de biais rend l'usage particulièrement sensible.
Parce que beaucoup de critères "pratiques" sont des substituts. Un sourire devient un proxy d'engagement, un accent devient un proxy de confiance, un style d'écriture devient un proxy d'attitude. Le système peut produire de la discrimination algorithmique sans jamais utiliser un attribut protégé explicitement.
Il introduit une logique de risques, avec des interdictions et des obligations renforcées selon les usages. La reconnaissance des émotions en contexte de travail est traitée comme un sujet à risque très élevé. En pratique, cela pousse à documenter, justifier, auditer, et souvent à renoncer à l'usage si le bénéfice n'est pas démontrable.
Tout dépend du montage et des données. Mais tu touches vite à des données sensibles ou à des inférences intimes, et si le score contribue à une décision significative, la question des droits, de la transparence et du recours humain devient centrale. Le "flou" n'est pas une zone de confort, c'est une zone de risque.
Construis un mini jeu de test avec des profils comparables, change uniquement un facteur de contexte (accent, qualité audio, lumière, style d'expression), et mesure si le score bouge fortement. Si ton score est instable sur des facteurs non pertinents pour la compétence, tu as un signal d'alerte.
Sources et références
- Barrett et al. (2019), Emotional Expressions Reconsidered, Psychological Science in the Public Interest — Lien
- EDPS (2021), TechDispatch Facial Emotion Recognition — Lien
- European Commission IA Act Service Desk, Article 5 (prohibited practices) — Lien
- Autoriteit Persoonsgegevens (2025), Right to human intervention (GDPR, automated decisions) — Lien
- Data Protection Commission (Ireland), Special category data (GDPR Art. 9 overview) — Lien
- Ienca et al. (2022), Mental data protection and the GDPR — Lien
- Yuki et al. (2007), Are the windows to the soul the same in the East and West? Cultural differences in using the eyes and mouth as cues to recognize emotions in Japan and the United States — Lien
- Dailey et al. (2010), Computational explanations of cultural differences in facial interpretation — Lien
- Tabassum et al. (2023), cross-accent speech emotion recognition — Lien
- Khan & Stinson (2025), auditing facial expression datasets for bias — Lien
- Tsangko et al. (2025), proxy bias in foundation models for facial expression analysis — Lien
- ArXiv (2025), reactions emoji et biais de positivité (Telegram) — Lien
- Dominguez-Catena et al. (2022), Metrics for Dataset Demographic Bias: A Case Study on Facial Expression Recognition — Lien



