Les données prennent de plus en plus de place dans notre société, et ce phénomène a des répercussions aussi vastes que profondes. Capacité de crédit, diagnostics et traitements médicaux, prix des billets d’avion ou correspondances sur les sites de rencontres, tous ces éléments sont influencés par notre capacité croissante à interpréter les données brutes. L’avènement des superordinateurs, de l’intelligence artificielle, de l’infonuagique et de l’Internet des objets améliore considérablement la saisie, l’analyse, le partage et l’interprétation d’ensembles de données vastes et complexes. Pour les entreprises, la proposition de valeur est gigantesque. Elles sont donc de plus en plus nombreuses à adopter la prise de décisions fondée sur les données pour demeurer concurrentielles.
Depuis dix ans, plusieurs universités canadiennes investissent massivement dans l’étude et l’application des principes et processus liés à la science des données. Elles souhaitent ainsi préparer les étudiants à ce que la revue Harvard Business Review appelle « l’emploi le plus sexy du xxie siècle ».
À titre d’exemple, mentionnons l’Institut de science des données (DSI) de l’Université de la Colombie-Britannique, qui mène actuellement des travaux de recherche de pointe sur la science des données en biomédecine. Des seize études issues du DSI depuis sa création il y a près de cinq ans, onze ont examiné les différentes facettes de la compréhension, du diagnostic et du traitement des maladies telles que le cancer, l’Alzheimer, la maladie pulmonaire obstructive chronique et l’autisme.
Cet intérêt pour la biomédecine tire son origine du champ d’expertise du directeur et fondateur du DSI, Raymond Ng, qui étudie depuis une vingtaine d’années l’exploration de données, en particulier l’informatique de la santé. Selon M. Ng, titulaire de la Chaire de recherche du Canada en science et analyse des données à l’Université de la Colombie-Britannique, le DSI finance chaque projet pendant 18 mois. Ensuite, les chercheurs peuvent habituellement obtenir du financement de sources externes, comme des organismes subventionnaires fédéraux de la recherche ou des organismes et fondations du domaine de la santé.
Dans un de ces projets, deux professeurs de l’Université de la Colombie-Britannique (l’un en statistique, l’autre en médecine) et un chercheur postdoctoral du DSI ont étudié la transmission de la tuberculose dans la province (où environ 250 cas sont recensés annuellement). En 2018, ils ont amorcé une collaboration avec le Centre de contrôle des maladies de la Colombie-Britannique, ce qui leur a permis d’accéder aux données épidémiologiques, démographiques et cliniques centralisées de chaque personne ayant contracté la tuberculose dans la province entre 2005 et 2014, soit environ 2 300 cas. Cette étude visait à trouver des moyens de mieux prévoir les éclosions et les infections non diagnostiquées.
Les chercheurs ont déjà créé un algorithme qui détecte, avec un taux de réussite supérieur à 90 pour cent, les résultats positifs aux tests de dépistage de la tuberculose dans les rapports de laboratoire. « Certains diront que les humains feraient difficilement mieux. […] Il ne s’agit toutefois que d’une expérience, qui vise à établir l’efficacité des techniques de traitement du langage naturel », explique M. Ng, faisant allusion à la capacité du programme à comprendre le langage humain.
La science des données au service du bien collectif
Les travaux effectués au DSI visent aussi à utiliser la science des données pour trouver des solutions aux problèmes sociétaux. Chaque été depuis trois ans, l’Institut organise le programme Data Science for Social Good (La science des données au service du bien collectif). Ce programme de quatorze semaines réunit 16 étudiants au premier cycle et aux cycles supérieurs qui, en petits groupes et avec la collaboration d’organismes publics, appliquent les techniques d’analyse des données aux problèmes sociaux et environnementaux. Jusqu’ici, les projets ont visé à aider les régies de l’énergie à mieux répondre aux besoins des collectivités autochtones, à orienter la stratégie des municipalités en matière de véhicules électriques et à améliorer l’accessibilité des données sur la biodiversité.
À l’Université de Waterloo, Lukasz Golab fait de l’utilisation de la science des données pour le bien collectif sa priorité. M. Golab dirige le Laboratoire de science des données du Département des sciences de la gestion. Professeur à l’Université depuis 2011 et nommé conjointement à l’école d’informatique, M. Golab est titulaire de la Chaire de recherche du Canada en analytique de données pour la durabilité. Il étudie des façons d’utiliser l’infrastructure intelligente et l’analytique des données pour réduire la consommation d’eau et d’énergie et accroître l’adoption de technologies vertes. Depuis sa création par M. Golab en 2015, le laboratoire a élargi sa définition du bien collectif au-delà des paramètres de la durabilité pour inclure l’égalité des sexes et la santé publique.
« On réussit déjà à utiliser les données pour résoudre des problèmes commerciaux et monnayer les applications, explique M. Golab. Alors, pourquoi ne pas s’en servir pour le bien collectif? Pour moi, examiner le rôle de la science des données dans la résolution des problèmes sociaux est un défi intéressant. »
L’écart entre les sexes dans les programmes de génie est un autre sujet qui intéresse M. Golab depuis longtemps. Au Canada, les femmes ne représentent que 19 pour cent des étudiants au premier cycle dans ce domaine. La plupart des universités, dont celle de Waterloo, aimeraient bien voir ce pourcentage augmenter. M. Golab s’est rendu compte qu’il pouvait se servir de la science des données pour aider l’Université à cet égard.
Lors d’une étude menée en 2018 avec quatre étudiants chercheurs, il a utilisé des méthodes liées à la science des données pour analyser plus de 30 000 demandes d’admission aux programmes de premier cycle de l’Université, en particulier la section où les candidats expliquent pourquoi ils souhaitent faire des études en génie. À l’aide de logiciels d’analyse syntaxique et sémantique, l’équipe a isolé les différences sur les plans de la motivation, des intérêts et des antécédents entre les candidats féminins et masculins. « Nous espérons que l’Université utilisera ces résultats pour améliorer ses programmes de sensibilisation », conclut M. Golab.
Partenariats entre les universités et l’industrie
Pour le milieu des affaires, le pouvoir immense de la science des données revêt un intérêt certain. Des entreprises de tous genres se tournent vers les universités afin de mieux comprendre toutes les données dont elles disposent pour ensuite accroître leur efficacité opérationnelle, cerner les tendances au sein de leur secteur et mieux prévoir les besoins de leur clientèle et y répondre. Au Québec, l’Université de Montréal, HEC Montréal et Polytechnique Montréal se sont associées en 2016 pour fonder l’Institut de valorisation des données (IVADO). Bénéficiant d’un soutien financier de 94 millions de dollars du Fonds d’excellence en recherche Apogée Canada, IVADO met en contact des chercheurs du domaine de la science des données et des partenaires de l’industrie.
À IVADO, les projets de recherche – auxquels participent habituellement des étudiants au premier cycle et aux cycles supérieurs – sont aussi nombreux que variés. On y dénombre 43 projets de recherche fondamentale sur des thèmes tels que les liens entre l’intelligence artificielle et la neuroscience, l’efficacité énergétique et la médecine personnalisée. En outre, 250 projets de recherche en collaboration visent à résoudre les problèmes et à soutenir les activités d’entreprises appartenant à quatre grands secteurs : énergie, transport et logistique, commerce et finance, et santé.
Depuis sa fondation, IVADO s’est taillé une place de choix dans le dynamique milieu montréalais de la recherche sur l’intelligence artificielle. Il relie six centres de recherche de calibre mondial et quelque 20 partenaires du milieu universitaire avec une centaine d’entreprises, d’établissements et d’organismes gouvernementaux. À l’échelle mondiale, ces liens ont facilité les travaux de 1 400 scientifiques dans les domaines de l’analyse des données, de l’apprentissage automatique et de la recherche opérationnelle. IVADO compte 40 employés et gère un portefeuille de 250 millions de dollars provenant des gouvernements fédéral et provincial, de membres de l’industrie et des trois universités fondatrices. En plus de son rôle d’intermédiaire en recherche, IVADO offre de nombreuses bourses, finance trois chaires de recherche pour l’équité et la diversité en science des données et offre des ateliers ainsi que des cours en ligne aux membres du milieu.
« Notre société vit une transformation numérique, et nous devons savoir comment extraire la valeur de toutes ces données, explique Gilles Savard, directeur général d’IVADO. Il nous faut beaucoup d’experts en algorithmes numériques pour répondre aux besoins futurs du marché. »
En lien avec ce texte, je tiens à souligner que l’Université du Québec à Chicoutimi (UQAC) vient de mettre en place le programme de:
Baccalauréat en informatique de la science des données et de l’intelligence d’affaires
https://www.uqac.ca/programme/6710-bacc-info-sciences-donnees-intelligence-daffaires/
Un programme unique au Québec qui vient répondre en partie au besoin de formation pour l’industrie dans ce secteur névralgique d’avenir.