Le point sur les données synthétiques : promesses et pièges

Certaines craintes liées à la confidentialité pourraient être apaisées par des jeux de données imitant les propriétés essentielles de données bien réelles.

La quantité astronomique de données recueillies par les gouvernements, les établissements de santé, les institutions financières et d’autres entités constitue toute une mine d’informations en tous genres. Si les entreprises et les chercheurs pouvaient s’échanger ces données, ils arriveraient certainement à répertorier des pathologies rares, à prévenir la fraude et à vérifier le succès de politiques sociales, entre autres.

« Les mégadonnées prennent de plus en plus d’ampleur, explique Dean Eurich, professeur à l’École de santé publique de l’Université de l’Alberta. Mais leur collecte et leur utilisation en recherche commencent à poser de sérieux problèmes d’identification et de confidentialité. »

À ces problèmes, M. Eurich et d’autres ont une solution : les données synthétiques. Au moyen d’algorithmes et de l’apprentissage machine, les informaticiens et les statisticiens créent un jeu de données miroir, qui imite les principales propriétés du jeu original. (Cette approche permet même de générer de faux portraits. En fait, les photos et vidéos « deepfake » sont un type de données synthétiques.)

Si la suppression des renseignements personnels est monnaie courante en agrégation de données, ici, le processus va encore plus loin. « On crée un modèle pour les données en fonction de corrélations, puis on crée des gens d’après ce modèle », précise Anne-Sophie Charest, professeure agrégée du Département de mathématiques et de statistique à l’Université Laval. Ainsi, il est plus difficile de retrouver l’identité d’une personne en triangulant différents éléments d’information anonymes, comme son emploi ou son état de santé.

Possibilités pour la recherche et l’enseignement

Les gouvernements et les entreprises doivent se conformer à des lois sur la protection de la vie privée régissant la collecte et le partage des données. (Ces règles pourraient être encore plus strictes advenant l’adoption du projet de loi C-11, la Loi sur la mise en œuvre de la Charte du numérique, déposé en décembre 2020.)

Ainsi, les chercheurs universitaires doivent souvent demander la permission pour accéder aux jeux de données. « C’est un processus qui prend des années. En bout du compte, il arrive que les données ne soient pas celles dont on a besoin », indique Khaled El Emam, titulaire d’une chaire de recherche du Canada en intelligence artificielle médicale à l’Université d’Ottawa. C’est un processus souvent trop long, par exemple pour des étudiants à la maîtrise. (Quand les chercheurs se rendent dans certains endroits pour accéder à des données, comme les centres de données de recherche de Statistique Canada, ils doivent même laisser leur ordinateur et leur téléphone à la réception.)

« Comme chercheur, je peux accéder à des données en vertu de divers accords conclus entre les universités, les gouvernements et d’autres organismes, dit M. Eurich. Mais cet accès s’arrête là, à moi. » Les chercheurs ne peuvent pas partager les données avec les étudiants ou des collaborateurs hors de leur université, à moins que ceux-ci soient des collaborateurs au projet. Les organismes privés peuvent aussi recueillir des données à l’interne, mais ils « ne peuvent pas les transmettre à quiconque, pas même à des collaborateurs de confiance », ajoute Raymond Ng, professeur en sciences informatiques à l’Université de la Colombie-Britannique.

Ces restrictions freinent la recherche et la collaboration. « L’un des avantages du partage des données, c’est l’accès à un volume de données plus important. C’est une façon de bonifier un échantillon », explique M. Ng. Il précise que de nombreuses recherches en santé portent maintenant sur des pathologies rares, mais une seule province ou un seul hôpital peut rarement recueillir suffisamment d’informations sur ces pathologies pour en tirer des conclusions utiles.

En outre, une collaboration plus étroite entre les universités et le secteur privé en ce qui a trait à l’échange de données et d’expertise pourrait générer beaucoup de revenus tant pour les établissements que pour les entreprises dérivées. « Pour une entreprise, une meilleure connaissance peut se traduire par d’importantes économies », souligne M. Eurich. Par exemple, les banques veulent de grands indicateurs de fraude, et les entreprises pharmaceutiques aimeraient mieux comprendre le potentiel du marché pour de futurs médicaments.

Les avantages potentiels pour l’enseignement sont aussi considérables, comme les jeux de données actuellement utilisés ne datent pas d’hier. « Toutes les données servant à former les épidémiologistes, les experts en données et les informaticiens ont été manipulées et épurées pour créer un jeu de données parfait pour eux, explique M. Eurich. Les étudiants, surtout au premier cycle, quittent l’université sans avoir vu un vrai jeu de données. »

Limites technologiques et problèmes de sécurité

Bien que les données synthétiques soient prometteuses, elles n’en sont qu’au stade de développement et présentent encore des inconvénients.

Pour commencer, il faut que quelqu’un construise un algorithme sur mesure pour générer le jeu de données. Comme le dit si bien M^me Charest, « il n’y a aucune machine où déposer les données pour qu’elles soient recrachées en jeu de données synthétiques ».

Le processus exige en outre une énorme puissance de calcul. Pour un projet, M. Ng a pris 200 images de tumeurs pour générer 200 images synthétiques qui ne permettront aucun traçage des individus concernés. Il a fallu 10 heures de calculs pour y arriver… et ce n’est là qu’une portion d’un gros projet. « Ça demande énormément de ressources informatiques avec la technologie actuelle », se désole M. Ng. Quelqu’un doit ensuite vérifier si le jeu de données répond avec fiabilité aux questions de recherche.

Qui plus est, les données synthétiques peuvent quand même donner lieu à des atteintes à la vie privée : un pirate informatique pourrait exploiter le jeu et corréler les renseignements qu’il contient avec d’autres sources. M^me Charest affirme que la confidentialité différentielle, qui utilise une formule mathématique pour évaluer ce risque, est une méthode de plus en plus populaire d’analyse des jeux de données synthétiques et autres.

Avec des organismes albertains, M. Eurich travaille à concevoir des jeux de données synthétiques d’après les dossiers médicaux de la province. Son équipe de recherche a déjà créé un sous-jeu d’ordonnances d’opioïdes. Il affirme que de nombreux organismes dans le monde, dont Santé Canada, essaient de maintenir le risque d’une atteinte à la vie privée sous les 10 %. À ses dires, l’analyse du risque serait d’environ 3 % pour son jeu de données.

Peut-on voir grand?

Selon M. El Emam, de nombreuses équipes arrivent à produire des jeux de données synthétiques simples et de petite envergure. Cependant, les jeux très gros ou complexes – ne contenant pas que des chiffres et des faits, mais des images, par exemple – demeurent un défi, tout comme les jeux qui comprennent des données hors normes. (Pensez à un moniteur cardiaque : des mois de données stables, puis, soudainement, un malaise cardiaque.) Les données comportant de longues séquences, comme l’ADN, sont aussi difficiles à traiter. « C’est notre prochaine limite à dépasser », commente M. El Emam, surtout que la création de jeux de données synthétiques liés à l’ADN serait extrêmement utile.

Alors que les chercheurs s’efforcent de créer des algorithmes infaillibles, le concept de données synthétiques gagne du terrain. D’ailleurs, le Census Bureau des États-Unis publiera l’une des composantes du recensement de 2020 sous une forme synthétique. M. Eurich assure que Statistique Canada s’intéresse elle aussi aux données synthétiques.

Bien qu’un déploiement à grande échelle des données synthétiques ne soit pas encore une réalité, on s’attend à ce qu’il se fasse dans les années à venir. « Je crois qu’au cours de la prochaine décennie, les données synthétiques constitueront la majeure partie de toutes les données », conclut M. Eurich.