Cinq choses à savoir sur les mégadonnées

Les mégadonnées est un sujet chaud. Mais, est-ce que vous savez réellement ce que ça veut dire ? Expert en mégadonnées et formateur, Adrian Sanchez Gonzalez, explique les notions essentielles.
22 octobre 2021
|
Par Adrian Sanchez Gonzalez

jeune femme professionnelle regardant son téléphone

Le terme mégadonnées est souvent utilisé comme un mot à la mode. Sans être nouveau, il constitue un sujet d’actualité pour de nombreuses organisations dans le monde. Inventé par John Mashey (ancien chercheur principal à Silicon Graphics) en 1987, il faisait d’abord référence de manière plutôt simpliste à une énorme quantité d’informations. Cette définition est relativement dépassée, car d’autres principes s’y sont greffés au cours des dernières décennies. Concrètement, il existe différentes versions de ce que nous appelons les « V » des mégadonnées (volume, vélocité, variété, véracité et valeur). Comme plusieurs entreprises et professionnels en sont plus ou moins conscients, mais il existe d’autres facteurs inconnus que beaucoup d’organisations ignorent… sauf si elles mettent en œuvre et utilisent activement des systèmes de mégadonnées. 

La taille des données: une idée fausse

Les mégadonnées sont formidables, mais elles ont contribué à une conception erronée de la « taille » des données et de leur importance au chapitre de l’évolution de l’intelligence artificielle. Qui plus est, il existe un malentendu courant sur la nature de ces deux familles de technologies, et les gens continuent de les mélanger ou même de prétendre qu’elles sont plus ou moins identiques. Même si nous disons toujours que les systèmes d’intelligence artificielle (IA) et d’apprentissage automatique (AA) s’amélioreront si nous ajoutons toujours plus de données, la réalité est que ce n’est pas nécessairement vrai (ou bien c’est une demi-vérité). Nous avons besoin de plus de données pour couvrir toutes les situations que nous voulons que nos systèmes prédisent (p. ex. nous détectons les chats et les chiens à partir de photos, et maintenant nous voulons aussi détecter les chevaux – nous avons donc besoin de plus de « données », donc plus de photos de chevaux). Nous avons donc besoin d’augmenter l’envergure des données, mais un volume plus important n’est pas toujours une garantie de succès.

Un nouveau joueur: le Lakehouse

Les paradigmes des mégadonnées et les approches de stockage évoluent en permanence. Les entrepôts de données et les lacs de données sont des termes assez connus des entreprises du monde entier, mais ne pensez pas vous arrêter là, car en voici un nouveau : le Lakehouse. Des entreprises comme AWS et Databricks ont adopté ce terme pour décrire un système souple qui collecte toutes sortes de données et qui a la possibilité d’accéder à l’endroit où les données sont stockées, pour une utilisation ultérieure.

Évoluer à son propre rythme

La plupart des organisations ont le sentiment de ne pas rattraper leur retard en matière de technologies de mégadonnées, et chacune a tendance à se comparer à d’autres entreprises établies. Il existe d’autres obstacles tels que l’investissement requis, l’accès aux bonnes compétences, la compréhension de la valeur potentielle réelle, etc. La réalité est qu’il n’y a pas de mauvaises entreprises, ni de gagnants ou de perdants, mais des niveaux progressifs d’adoption et d’évolution. Chaque entreprise a le droit d’emprunter le chemin vers l’adoption des mégadonnées quand elle le veut ou le peut, et ainsi évoluer en fonction de ses propres capacités et de son rythme interne d’innovation. L’incroyable Bill Schmarzo a créé un modèle avec un indice de maturité (Big Data Business Model Maturity Index) pour mesurer l'efficacité d'une organisation à tirer profit leurs données et produire des analyses au bénéfice de leurs objectifs. 

Un sport d'équipe

Le champ d’application des mégadonnées et même de l’IA est très vaste et englobe l’analyse de rentabilisation, la collecte et la préparation des données ainsi que l’infrastructure et l’architecture des données. Les mégadonnées ne sont plus réservées aux techniciens, elles sont désormais un sport d’équipe. Les techniciens professionnels sont des catalyseurs clés, mais il faut faire appel à d’autres intervenants internes afin de mettre en œuvre les technologies de mégadonnées, comme les responsables de produits et les maîtres de mêlée (scrum masters)

Il n'est pas trop tard

Contrairement aux idées reçues, il n’est pas « trop tard » de se rallier au secteur des mégadonnées ou de commencer à exploiter les technologies des mégadonnées. Nous ne pouvons pas tout apprendre et n’avons pas à le faire. Cependant, nous pouvons certainement acquérir des compétences précises qui nous aideront à rallier les rangs des équipes de mégadonnées, ou du moins à contribuer à l’adoption de technologies de mégadonnées au sein de notre organisation. Le parcours d’apprentissage dépend de différents facteurs (bagage universitaire, expérience professionnelle, capacité à travailler avec des données, etc.), mais tout le monde peut profiter de cette vague technologique avec un peu d’effort et beaucoup de curiosité.

 

Les mégadonnées est un mode à découvrir. Vous pouvez le faire dès maintenant avec la formation en ligne, Introduction to Big Data, donnée par Adrian Sanchez Gonzalez le 30 novembre prochain. 



Retour en haut de page

© Université Concordia