Passer au contenu principal

Interpréter les mégadonnées

Interpréter de vastes quantités de données : la nouvelle monnaie pour les chercheurs, les gouvernements et les commerces.

par JOHN LORINC | 12 MAR 14

Peu de temps après son lancement par l’Université Dalhousie l’année dernière, le nouveau Institute for Big Data Analytics a scellé un partenariat avec le ministère des Affaires étrangères, Commerce et Développement et l’entreprise GSTS d’Ottawa. Selon Stan Matwin, directeur de l’Institut, l’objectif est d’explorer une immense quantité de données satellites sur les mouvements des navires en mer afin d’analyser leurs trajectoires typiques et atypiques. Les satellites produisent environ quatre millions de relevés par jour, ce qui, « par définition, engendre un problème de gestion des mégadonnées », affirme M. Matwin.

Les données recueillies aideront les scientifiques à créer des modèles sur les mouvements normaux des navires le long de routes maritimes données et donc à repérer ceux qui se déplacent de façon imprévisible, à cause du mauvais temps ou, plus tristement, de la piraterie. M. Matwin ajoute que les agences de garde côtière peuvent utiliser ces renseignements pour envoyer des navires de sécurité ou apporter leur soutien pour la navigation vers des ports d’escale très fréquentés.

Ces projets témoignent de l’intérêt accru des professeurs universitaires et de leurs étudiants pour la recherche sur les mégadonnées au Canada et ailleurs dans le monde. Les professeurs d’informatique enseignent et étudient depuis longtemps les aspects techniques de la gestion des bases de données, de l’exploration de données et de l’apprentissage automatique, mais les mégadonnées ont un potentiel bien plus vaste.

Les administrateurs de certains établissements répondent à la demande croissante des étudiants et de l’industrie en créant des départements de mégadonnées ainsi que des cours, des diplômes et des ententes de partenariat en la matière. Tamer Özsu, professeur d’informatique à l’Université de Waterloo, compare la brusque popularité du sujet à l’explosion de la recherche en génomique au début des années 2000.

Il affirme qu’aux États-Unis, l’administration Obama a fait de la recherche sur les mégadonnées une priorité. Aucun programme comparable n’existe au Canada, mais les organismes subventionnaires fédéraux se sont déjà renseignés sur les éléments d’un programme de subventions qui appuierait la recherche sur la gestion des mégadonnées.

Le terme mégadonnées n’ayant pas de définition établie, il est utilisé à toutes les sauces pour décrire un ensemble d’information très vaste. Selon Wikipédia, il s’agit d’un ensemble de données volumineux et complexe qui s’avère de plus en plus difficile à traiter avec les outils actuels de gestion de base de données et les applications de traitement de données habituelles.

Prenons l’exemple du déluge de signaux GPS émis par les téléphones cellulaires et des relevés de transaction qui s’accumulent sur les serveurs de populaires boutiques électroniques. Pour comprendre ces ensembles de données de types tellement variés, une toute nouvelle forme d’analyse est requise.

En fait, les outils statistiques standard peuvent échouer à générer des prédictions significatives parce que des échantillons volumineux selon les normes de recherche classiques ne représentent peut-être qu’une infime portion de l’ensemble complet des données. À titre d’exemple, même si des programmeurs sont en mesure d’analyser des dizaines de milliers de gazouillis sur Twitter, ceux-ci constituent un échantillon si limité qu’il ne permet aucune généralisation au sujet des données.

Par conséquent, il existe un grand nombre de données sous de nombreux formats différents, et les outils de programmation doivent permettre de les analyser rapidement et efficacement. Dans certains cas, l’information peut rappeler une énorme bouillie de fragments de texte et d’images et de toutes sortes de bruits de fond. Pour arriver à en dégager des tendances, il faut avoir recours à des techniques de catégorisation des types de données et éliminer les parasites à l’aide d’outils.

Le monde de la finance constitue un secteur clé de l’univers des mégadonnées. Selon Dennis Kira, professeur à l’École de commerce John Molson de l’Université Concordia, les grandes banques s’intéressent beaucoup, entre autres, aux différentes applications disponibles dans les domaines de la détection des fraudes par carte de crédit, de la négociation d’actions et de la comptabilité judiciaire. « Trouver l’information voulue, c’est comme chercher une aiguille dans une botte de foin, affirme-t-il. Les nouvelles applications facilitent donc les choses. »

La plupart des universités qui sont allées de l’avant en créant un programme sur les mégadonnées l’ont fait en partenariat avec l’industrie. En plus de son projet sur les mouvements maritimes, l’Université Dalhousie étudie la sécurité aérienne en partenariat avec Boeing Co. et travaille sur un projet de surveillance environnementale avec le Fonds mondial pour la nature. Des équipes de l’Université de Toronto, de l’Université de Californie à Berkeley et de l’Université de New York s’intéressent à la possibilité d’utiliser les répertoires de banques de données urbaines pour créer des modèles qui aideront les décideurs à déployer leurs ressources plus efficacement et à faire des investissements à grande échelle dans l’infrastructure.

De nombreux étudiants sont attirés par l’étude des mégadonnées, parce qu’elle leur donne la chance de participer à l’émergence d’une profession axée sur le savoir. En conséquence, l’Université Dalhousie, l’Université Simon Fraser et l’Université de Montréal offrent un programme de maîtrise sur les mégadonnées de texte et un grade de premier cycle en informatique avec spécialisation en mégadonnées. Leurs premiers étudiants seront admis à l’automne prochain. Il va sans dire que les connaissances sur les mégadonnées qu’ils acquerront seront de plus en plus utiles à l’extérieur du milieu universitaire.

Rédigé par
John Lorinc
Missing author information
COMMENTAIRES
Laisser un commentaire
University Affairs moderates all comments according to the following guidelines. If approved, comments generally appear within one business day. We may republish particularly insightful remarks in our print edition or elsewhere.

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Click to fill out a quick survey