Actualités Recherche

Le point sur les données synthétiques : promesses et pièges

Certaines craintes liées à la confidentialité pourraient être apaisées par des jeux de données imitant les propriétés essentielles de données bien réelles.

Par

Diane Peters

13 décembre 2021

Publié dans

Articles

Read this article in English 0 Commentaires

La quantité astronomique de données recueillies par les gouvernements, les établissements de santé, les institutions financières et d’autres entités constitue toute une mine d’informations en tous genres. Si les entreprises et les chercheurs pouvaient s’échanger ces données, ils arriveraient certainement à répertorier des pathologies rares, à prévenir la fraude et à vérifier le succès de politiques sociales, entre autres.

« Les mégadonnées prennent de plus en plus d’ampleur, explique Dean Eurich, professeur à l’École de santé publique de l’Université de l’Alberta. Mais leur collecte et leur utilisation en recherche commencent à poser de sérieux problèmes d’identification et de confidentialité. »

À ces problèmes, M. Eurich et d’autres ont une solution : les données synthétiques. Au moyen d’algorithmes et de l’apprentissage machine, les informaticiens et les statisticiens créent un jeu de données miroir, qui imite les principales propriétés du jeu original. (Cette approche permet même de générer de faux portraits. En fait, les photos et vidéos « deepfake » sont un type de données synthétiques.)

Si la suppression des renseignements personnels est monnaie courante en agrégation de données, ici, le processus va encore plus loin. « On crée un modèle pour les données en fonction de corrélations, puis on crée des gens d’après ce modèle », précise Anne-Sophie Charest, professeure agrégée du Département de mathématiques et de statistique à l’Université Laval. Ainsi, il est plus difficile de retrouver l’identité d’une personne en triangulant différents éléments d’information anonymes, comme son emploi ou son état de santé.

Possibilités pour la recherche et l’enseignement

Les gouvernements et les entreprises doivent se conformer à des lois sur la protection de la vie privée régissant la collecte et le partage des données. (Ces règles pourraient être encore plus strictes advenant l’adoption du projet de loi C-11, la Loi sur la mise en œuvre de la Charte du numérique, déposé en décembre 2020.)

Ainsi, les chercheurs universitaires doivent souvent demander la permission pour accéder aux jeux de données. « C’est un processus qui prend des années. En bout du compte, il arrive que les données ne soient pas celles dont on a besoin », indique Khaled El Emam, titulaire d’une chaire de recherche du Canada en intelligence artificielle médicale à l’Université d’Ottawa. C’est un processus souvent trop long, par exemple pour des étudiants à la maîtrise. (Quand les chercheurs se rendent dans certains endroits pour accéder à des données, comme les centres de données de recherche de Statistique Canada, ils doivent même laisser leur ordinateur et leur téléphone à la réception.)

« Comme chercheur, je peux accéder à des données en vertu de divers accords conclus entre les universités, les gouvernements et d’autres organismes, dit M. Eurich. Mais cet accès s’arrête là, à moi. » Les chercheurs ne peuvent pas partager les données avec les étudiants ou des collaborateurs hors de leur université, à moins que ceux-ci soient des collaborateurs au projet. Les organismes privés peuvent aussi recueillir des données à l’interne, mais ils « ne peuvent pas les transmettre à quiconque, pas même à des collaborateurs de confiance », ajoute Raymond Ng, professeur en sciences informatiques à l’Université de la Colombie-Britannique.

Ces restrictions freinent la recherche et la collaboration. « L’un des avantages du partage des données, c’est l’accès à un volume de données plus important. C’est une façon de bonifier un échantillon », explique M. Ng. Il précise que de nombreuses recherches en santé portent maintenant sur des pathologies rares, mais une seule province ou un seul hôpital peut rarement recueillir suffisamment d’informations sur ces pathologies pour en tirer des conclusions utiles.

En outre, une collaboration plus étroite entre les universités et le secteur privé en ce qui a trait à l’échange de données et d’expertise pourrait générer beaucoup de revenus tant pour les établissements que pour les entreprises dérivées. « Pour une entreprise, une meilleure connaissance peut se traduire par d’importantes économies », souligne M. Eurich. Par exemple, les banques veulent de grands indicateurs de fraude, et les entreprises pharmaceutiques aimeraient mieux comprendre le potentiel du marché pour de futurs médicaments.

Les avantages potentiels pour l’enseignement sont aussi considérables, comme les jeux de données actuellement utilisés ne datent pas d’hier. « Toutes les données servant à former les épidémiologistes, les experts en données et les informaticiens ont été manipulées et épurées pour créer un jeu de données parfait pour eux, explique M. Eurich. Les étudiants, surtout au premier cycle, quittent l’université sans avoir vu un vrai jeu de données. »

Limites technologiques et problèmes de sécurité

Bien que les données synthétiques soient prometteuses, elles n’en sont qu’au stade de développement et présentent encore des inconvénients.

Pour commencer, il faut que quelqu’un construise un algorithme sur mesure pour générer le jeu de données. Comme le dit si bien M^me Charest, « il n’y a aucune machine où déposer les données pour qu’elles soient recrachées en jeu de données synthétiques ».

Le processus exige en outre une énorme puissance de calcul. Pour un projet, M. Ng a pris 200 images de tumeurs pour générer 200 images synthétiques qui ne permettront aucun traçage des individus concernés. Il a fallu 10 heures de calculs pour y arriver… et ce n’est là qu’une portion d’un gros projet. « Ça demande énormément de ressources informatiques avec la technologie actuelle », se désole M. Ng. Quelqu’un doit ensuite vérifier si le jeu de données répond avec fiabilité aux questions de recherche.

Qui plus est, les données synthétiques peuvent quand même donner lieu à des atteintes à la vie privée : un pirate informatique pourrait exploiter le jeu et corréler les renseignements qu’il contient avec d’autres sources. M^me Charest affirme que la confidentialité différentielle, qui utilise une formule mathématique pour évaluer ce risque, est une méthode de plus en plus populaire d’analyse des jeux de données synthétiques et autres.

Avec des organismes albertains, M. Eurich travaille à concevoir des jeux de données synthétiques d’après les dossiers médicaux de la province. Son équipe de recherche a déjà créé un sous-jeu d’ordonnances d’opioïdes. Il affirme que de nombreux organismes dans le monde, dont Santé Canada, essaient de maintenir le risque d’une atteinte à la vie privée sous les 10 %. À ses dires, l’analyse du risque serait d’environ 3 % pour son jeu de données.

Peut-on voir grand?

Selon M. El Emam, de nombreuses équipes arrivent à produire des jeux de données synthétiques simples et de petite envergure. Cependant, les jeux très gros ou complexes – ne contenant pas que des chiffres et des faits, mais des images, par exemple – demeurent un défi, tout comme les jeux qui comprennent des données hors normes. (Pensez à un moniteur cardiaque : des mois de données stables, puis, soudainement, un malaise cardiaque.) Les données comportant de longues séquences, comme l’ADN, sont aussi difficiles à traiter. « C’est notre prochaine limite à dépasser », commente M. El Emam, surtout que la création de jeux de données synthétiques liés à l’ADN serait extrêmement utile.

Alors que les chercheurs s’efforcent de créer des algorithmes infaillibles, le concept de données synthétiques gagne du terrain. D’ailleurs, le Census Bureau des États-Unis publiera l’une des composantes du recensement de 2020 sous une forme synthétique. M. Eurich assure que Statistique Canada s’intéresse elle aussi aux données synthétiques.

Bien qu’un déploiement à grande échelle des données synthétiques ne soit pas encore une réalité, on s’attend à ce qu’il se fasse dans les années à venir. « Je crois qu’au cours de la prochaine décennie, les données synthétiques constitueront la majeure partie de toutes les données », conclut M. Eurich.

Diane Peters

Diane Peters est une rédactrice-réviseure basée à Toronto.

Les plus populaires

Postes vedettes

Unité de recherche préclinique en neurosciences - Assistant de recherche 2, durée d'un an
Université McGill
Ergothérapie - Professeure régulière ou professeur régulier (pratiques professionnelles et systèmes de santé en transformation)
Université du Québec à Trois-Rivières (UQTR)
Chaire de recherche Impact+ Canada
Université du Québec à Rimouski
Comptabilité financière - Profeseure adjointe / agrégée ou profeseure adjoint / agrégé
Université d'Ottawa
Art et science de l’animation - Professeure ou professeur
Université Laval

Toutes les offres d’emploi

Actualités : découvrez plus de contenu

Actualités Autochtones

La nature et les Premières Nations à l’honneur à l’Université Trent

Un nouveau plan de gestion environnementale rétablit les liens entre les espaces verts du campus et le savoir anishinaabe.

par
Hailey Leggett
19 juin 2026
Actualités Conseils

Un zeste d’humour améliore vos conférences, science à l’appui !

Une présentation scientifique n’est pas un spectacle de stand up, mais l’humour bien dosé accroche le public et révèle le capital sympathie.

par
Caroline Samii-Esfahani
16 juin 2026
Actualités Francophonie

Création et diffusion des savoirs en français : le temps de passer à l’action

Le rapport du Groupe consultatif externe sur la création et la diffusion d’information scientifique en français, publié en mai dernier, trace la route à suivre pour favoriser ces activités. L’appel sera-t-il entendu?

par
Jean-François Venne
15 juin 2026
Actualités Intelligence artificielle

Le Canada veut consolider son leadership en IA grâce à ses universités

L’expansion du programme des chaires en IA Canada-CIFAR pourrait faire du Canada « un véritable un chef de file ».

par
Christopher Guly
09 juin 2026

Recherche : découvrez plus de contenu

Opinion Recherche

Au-delà du laboratoire : soutenir la « troisième mission » des universités canadiennes

Uniformiser les licences explicites à l’échelle du pays pour libérer la valeur inexploitée des universités canadiennes.

par
Kyle Briggs, David Durand & TJ Misra
17 juin 2026
Opinion Recherche

L’impact de la recherche à travers les parcours des personnes diplômées

Une étude menée à l’Université Laval révèle que la majorité des personnes formées à la recherche aux cycles supérieurs contribue à l’innovation dans leurs milieux et joue un rôle de catalyseur du changement sociétal.

par
Pascale Ropars, Marie‑France Gévry & Keith Lévesque
10 juin 2026
Opinion Recherche

La formation universitaire en recherche : un investissement essentiel pour nos sociétés

La formation en recherche aux cycles supérieurs n’a pas qu’une visée académique, elle forge des esprits critiques et engagés dont nos sociétés ont besoin pour affronter les défis du 21e siècle.

par
Eugénie Brouillet
09 juin 2026
Actualités Recherche

Jérôme Dupras veut faire rayonner la science québécoise au-delà des laboratoires

Lorsqu'il entrera en fonction comme scientifique en chef du Québec en août prochain, Jérôme Dupras entend s'appuyer sur les fondations laissées par son prédécesseur tout en donnant une nouvelle impulsion aux liens entre la recherche, l'innovation et la société.

par
Marie-Lou Bernatchez
08 juin 2026

Articles : découvrez plus de contenu

Actualités Technologie

Le piratage d’un logiciel de gestion de l’apprentissage remet la question de la souveraineté numérique sous les projecteurs

À la suite de la brèche informatique chez Canvas, certaines critiques s’élèvent pour réclamer un retour de la gestion interne des données dans les universités.

par
Tim Lougheed
04 juin 2026
Actualités Enseignement

Apprendre autrement grâce au service communautaire

L’apprentissage par service communautaire gagne du terrain sur les campus canadiens et profite autant à la communauté universitaire qu’à la société civile.

par
Julie Leduc
03 juin 2026
Actualités Recherche

Recherche et politiques publiques : comment mieux faire circuler les savoirs ?

Au congrès de l’Acfas, une journée de réflexion réunissant universités, collèges, organismes et décisionnaires a exploré les moyens de renforcer les liens entre recherche et politiques publiques, dans un contexte où la circulation des connaissances est un enjeu des plus actuels.

par
Mohamed Berrada
02 juin 2026
Actualités Politiques

Les provinces de l’Atlantique fortement touchées par le plafond des permis d’étude

La baisse du nombre d’étudiantes et étudiants internationaux compromet l’économie, les bassins de talents et la croissance à long terme des régions les moins peuplées.

par
Hannah Liddle
01 juin 2026

Le point sur les données synthétiques : promesses et pièges

Possibilités pour la recherche et l’enseignement

Limites technologiques et problèmes de sécurité

Peut-on voir grand?

Partager

Laisser un commentaire

Annuler la réponse

Les plus populaires

Postes vedettes

Actualités : découvrez plus de contenu

La nature et les Premières Nations à l’honneur à l’Université Trent

Un zeste d’humour améliore vos conférences, science à l’appui !

Création et diffusion des savoirs en français : le temps de passer à l’action

Le Canada veut consolider son leadership en IA grâce à ses universités

Recherche : découvrez plus de contenu

Au-delà du laboratoire : soutenir la « troisième mission » des universités canadiennes

L’impact de la recherche à travers les parcours des personnes diplômées

La formation universitaire en recherche : un investissement essentiel pour nos sociétés

Jérôme Dupras veut faire rayonner la science québécoise au-delà des laboratoires

Articles : découvrez plus de contenu

Le piratage d’un logiciel de gestion de l’apprentissage remet la question de la souveraineté numérique sous les projecteurs

Apprendre autrement grâce au service communautaire

Recherche et politiques publiques : comment mieux faire circuler les savoirs ?

Les provinces de l’Atlantique fortement touchées par le plafond des permis d’étude

Le bulletin d'Affaires universitaires

Création et diffusion des savoirs en français : le temps de passer à l’action

Au-delà du laboratoire : soutenir la « troisième mission » des universités canadiennes