L’évolution de l’Internet des objets, des applications Cloud, des médias sociaux ainsi que de l’apprentissage automatique ces dernières années a augmenté exponentiellement le volume de données collectées par les entreprises. Qu’on parle de Lac de données (data lake), d’entrepôt de données (data warehouse) ou simplement de base de données (database), la question est de savoir où et comment les stocker. Tout dépend de l’utilisation que les entreprises vont en faire, les détails ci-après
Base de données ou database
Actuellement, la base de données désigne simultanément le logiciel qui stocke et gère les informations et les informations emmagasinées dans la base de données. Les professionnels de l’IT parlent de base de données pour désigner un ensemble de données, car le logiciel doit savoir que les commandes sont conservées sur une machine et les adresses sur une autre. Les utilisateurs par contre se contentent d’appeler l’ensemble du système base de données. Parmi les bases de données, la base de données relationnelle est celle qui intéresse le plus les entreprises. Le format classique organise les données en colonne et en ligne formant ainsi des tableaux. Les bonnes bases de données peuvent utiliser le langage SQL et utiliser une planification sophistiquée pour simplifier les éléments répétés et produire des rapports concis le plus vite possible. Dans certains cas, la base de données ne suffit pas pour la flexibilité dont les développeurs de l’entreprise ont besoin. On parle alors d’un nouveau genre de gestion de structure de données, l’entrepôt de données.
L’entrepôt de données ou Data Warehouse
Les entreprises de plus grandes envergures doivent faire appel à une architecture de gestion de données plus complexe. L’entrepôt de données ou Data Warehouse est un ensemble de bases de données. Ce système a évolué suite à la mise en place par les entreprises d’un stockage à long termes des informations qui s’accumulent quotidiennement et également pour répondre au besoin d’établir des rapports sur ces données et de les analyser.
La conception d’un entrepôt de données ne se limite pas au choix d’une base de données et d’une structure pour les tables. Elle fait appel à la création de politique de conservation. Ce type de structure comprend souvent des analyses sophistiquées permettant de générer des statistiques pour étudier l’évolution des tendances dans le temps. Ces data warehouse sont souvent étroitement intégrés à des graphiques produisant des tableaux de bord indiquant des seuils critiques à prendre en considération selon les variations des données.
Le lac de données ou Data Lake
Ce système de gestion de données adopte une approche différente des deux types de stockage qu’on a vu auparavant, pour constituer un stockage à long terme. Plus innovant, ce système stocke davantage de données brutes en vue de futures modélisations et d’analyses, à la différence d’un entrepôt de donnée qui applique généralement un schéma relationnel aux informations avant de les stocker. Le Data Lake peut même ne pas faire appel à la base de données pour emmagasiner les informations, le traitement supplémentaire n’est pas indispensable. Les données stockées dans le lac de données sont contenues dans des fichiers plats ou des journaux.
Cette dernière architecture représente un choix pertinent pour stocker de grandes quantités d’enregistrements au cas où un utilisateur aurait besoin d’accéder à certaines informations dans le futur. Certaines entreprises utilisent simultanément le lac de données et entrepôt de données. Les données brutes entrantes sont stockées dans le lac de données et après analyse et validation, les données sont placées dans l’entrepôt de données.
L’émergence du paradigme de morcèlement des données
Depuis 2019, un nouveau concept défini par Zhamak Dehghani vient ébranler la suprématie des lacs de données et entrepôt de données. Elle présente le data mesh ou maillage des données comme une plateforme de donnée de nouvelle génération qui adopte un paradigme inspiré de l’architecture distribué moderne. Contrairement aux silos et lacs de données, le maillage de données se réfère au concept de décomposition des données en portions décentralisées et de volume réduit. Le système applique l’idée de plateforme pour créer une infrastructure de données en libre-service et traiter les données comme un produit.