Mila veut renforcer la sécurité des agents conversationnels
Le Studio de sécurité en intelligence artificielle mise sur des filtres externes et une approche multidisciplinaire pour limiter les risques liés à l’usage des agents conversationnels en contexte de détresse psychologique.
L’usage des agents conversationnels s’est imposé en quelques années dans une multitude de contextes, allant du soutien à la rédaction à la recherche d’information. Leur présence croissante dans des situations liées à la santé mentale soulève toutefois des questions de sécurité auxquelles Mila souhaite désormais s’attaquer de front.
L’institut montréalais a lancé, l’été dernier, trois studios thématiques, consacrés respectivement à la sécurité, à l’humanité et au climat. Leur mandat est de faire le pont entre la recherche académique et des applications concrètes, avec l’objectif de produire des outils et des cadres d’intervention directement utilisables. « Nous avons une mission appliquée, avec des livrables et des objectifs d’impact », résume la directrice du Studio de sécurité, Sonia Gandrabur.
Parmi les nombreux enjeux associés à l’IA, le studio a choisi de prioriser un problème jugé particulièrement préoccupant : l’usage de agents conversationnels par des personnes en situation de vulnérabilité psychologique. Cette orientation fait suite à des cas documentés aux États-Unis, dont celui d’Adam Raine, un adolescent dont la famille a intenté une poursuite en alléguant que des échanges prolongés avec un agent conversationnel avaient contribué à sa détresse.
Au-delà de ce cas, des chercheuses et chercheurs, cliniciennes et cliniciens ont signalé des situations de dépendance émotionnelle, de renforcement de croyances problématiques et, dans certains cas, de déconnexion progressive de la réalité chez des utilisateurs intensifs. « Les grands modèles de langage sont conçus pour maintenir l’engagement et produire des réponses plausibles. Sur un usage prolongé, cet objectif peut entrer en tension avec les impératifs de sécurité », explique Mme Gandrabur.
Les mécanismes classiques de protection, comme les consignes initiales données aux modèles ou leur réalignement par des données spécialisées, montrent leurs limites. Ces couches de contrôle ont tendance à s’atténuer avec la durée et l’intensité des interactions. Le studio a donc opté pour une approche différente : développer des modèles externes et indépendants qui agissent comme des filtres prioritaires.
Ces garde-fous sont entraînés pour détecter des intentions précises, par exemple des demandes d’assistance au suicide ou des messages d’incitation, même lorsque le langage utilisé est indirect ou métaphorique. Plusieurs filtres peuvent être combinés afin de couvrir différents types de risques et différents niveaux de gravité.
Pour les responsables du projet, la technologie ne peut toutefois constituer l’unique réponse. Le studio insiste sur l’importance de l’éducation des utilisatrices et utilisateurs et des professionnels de la santé mentale afin de mieux comprendre ce que sont, et ne sont pas, les agents conversationnels. « Ce sont des outils performants pour certaines tâches, mais ils ne remplacent ni un proche, ni un thérapeute, ni un jugement clinique », rappelle Mme Gandrabur.
La question de la gouvernance et de l’encadrement réglementaire fait aussi partie des réflexions en cours. Alors que l’accès à certains contenus est déjà balisé dans d’autres secteurs culturels, l’absence de règles claires pour des outils largement accessibles aux jeunes suscite des inquiétudes. La direction du studio indique participer aux discussions gouvernementales sur l’encadrement de l’IA.
Enfin, le projet repose sur une collaboration étroite avec des experts en santé mentale, des cliniciens et des organismes jeunesse. Leur contribution vise à mieux ancrer les outils dans la réalité du terrain, tant pour améliorer la détection des signaux de détresse que pour réfléchir aux réponses appropriées lorsque ces signaux sont identifiés.
Un premier bilan est prévu après un an. Il reposera notamment sur deux indicateurs : la proportion de situations de détresse correctement détectées et filtrées, et le taux de fausses alertes.
Comment fonctionnent les « garde-fous » des agents conversationnels
Les mécanismes développés par le Studio de sécurité en intelligence artificielle de Mila ne modifient pas directement le fonctionnement interne des grands modèles de langage utilisés par les agents conversationnels. Ils reposent plutôt sur l’ajout de filtres externes et indépendants, conçus pour surveiller les échanges entre l’utilisateur et le système.
Concrètement, ces filtres sont des modèles spécialisés, entraînés pour détecter des intentions ou des contenus jugés à risque, par exemple des demandes d’assistance au suicide ou des messages d’incitation. Cette détection ne repose pas uniquement sur des mots-clés. Les modèles sont conçus pour reconnaître des formulations indirectes, ambiguës ou métaphoriques.
Ces garde-fous peuvent être placés à l’entrée et à la sortie de l’agent conversationnel. En amont, ils analysent les requêtes de l’utilisateur avant qu’elles ne soient transmises au système principal. En aval, ils examinent les réponses générées avant qu’elles ne soient affichées. Si un risque est détecté, l’interaction peut être bloquée, reformulée ou redirigée vers une réponse jugée plus appropriée.
Plusieurs filtres peuvent être combinés afin de couvrir différents types de risques et différents niveaux de gravité. L’objectif n’est pas d’empêcher l’usage des agents conversationnels, mais d’en baliser les limites dans des contextes sensibles, tout en réduisant à la fois les situations dangereuses et les fausses alertes.
Postes vedettes
- Musique - Professeure adjointe ou professeur adjoint (interprétation classique, spécialité instrument d’orchestre de la famille des cuivres)Université McGill
- Chaires de recherche Impact+ CanadaUniversité du Québec à Rimouski (UQAR)
- Directrice/directeur de la Division de chirurgie orthopédique de l’Université McGill et Directrice/directeur de la Division de chirurgie orthopédique du Centre universitaire de santé McGillUniversité McGill
- Anthropologie des infrastructures - Professeure ou professeurUniversité Laval
- Directrice ou directeur de la Division d’urologieUniversité McGill
Laisser un commentaire
Affaires universitaires fait la modération de tous les commentaires en appliquant les principes suivants. Lorsqu’ils sont approuvés, les commentaires sont généralement publiés dans un délai d’un jour ouvrable. Les commentaires particulièrement instructifs pourraient être publiés également dans une édition papier ou ailleurs.