Practice #6 - BI Architecture : From Data Lake to Data Warehouse

Pratique #6

Architecture BI : Exporter des données d’un Data Lake vers un Data Warehouse

D’un point de vue stratégique, la donnée est l’élément central d’une organisation : Plus de données collectées signifient plus de traitement et d’espace de stockage. Choisir un Data Lake permet de centraliser toutes les données à plat avant d’être enrichies et structurées. Dans la mise en place d’une architecture BI moderne, le passage du Data Lake vers un Data Warehouse est la deuxième étape avant la visualisation des données.

Dans cet article, vous allez voir :

  • Les relations entre Data Lake et Data Warehouse

  • Comment exporter des données entre eux

I. Les relations entre Data Lake et Data Warehouse

Dans Microsoft Azure, un Data Lake est dédié uniquement au stockage tandis qu’un Data Warehouse est à la fois un espace pour stocker, traiter et transformer des grands volumes de données. Ces deux espaces permettent de gérer diverses fonctionnalités liées à l’analyse Big Data.

Figure 1 - Source (Dataedo / Data Cartoon)

Quelques avantages d’un Data Lake (Exemple : Azure Data Lake Storage Gen 2) :

  • Mise à l’échelle et création d’une sécurité au niveau des fichiers

  • Gestion d’un stockage hiérarchisé à faible coût

  • Suivi d’une sémantique du système de fichiers

Dans ce post, nous ferons un focus sur les relations entre Data Lake et Data Warehouse (Azure SQL DW). Voici une vue d’ensemble des étapes d’une architecture BI moderne :

Figure 2 - Source (Overview Data Lake Storage)

Les différentes relations entre les deux espaces :

Figure 3 - Source (Data Lake vs Data Warehouse)

Selon la source de vos données, plusieurs types d’architecture sont disponibles. Parmi les plus pratiques et modernes, on retrouve une combinaison des trois parties ci-dessous :

  • Data Lake (Azure Data Lake Storage Gen2) : Stockage des données de différentes sources (ERP, CRM, etc…)

  • Data Warehouse (Azure Synapse) : Transformation et enrichissement des données

  • Data Visualisation (Power BI) : Analyse et visualisation des données

Nous allons prendre un exemple pour voir comment exporter des données d’un Data Lake vers un Data Warehouse (Azure Synapse Analytics).

II. Comment exporter des données d’un Data Lake vers un Data Warehouse

Cas pratique : Notre objectif est d’exporter des données d’un Data Lake (Azure Data Store Gen 2) vers un Data Warehouse (Azure Synapse). Les données passent d’un format semi-structuré (csv) à un format structuré (table) :

Voici les étapes à suivre pour créer un :

1.       Dans Azure Data Lake :

1.1. Pour commencer, ouvrez une nouvelle ressource dans Azure Services :

1.2. Dans la ressource sélectionnée, sélectionnez un « Storage account » puis un « Data Lake Storage » :

1.3. Dans ce Data Lake Storage, vous trouverez les dossiers relatifs l'export en provenance de Dynamics365 Finance&Operations. Nous allons nous concentrer sur le dossier contenant « les tables » :

1.4.  Dans ce dossier « Tables », vous trouverez les sous-dossiers relatifs à chaque domaine fonctionnel. Nous allons consulter le domaine lié à la Supply Chain :

1.5.  Sélectionnez la table « VendTable » qui correspond à la table des fournisseurs :

1.6. Pour continuer, il faut éditer le fichier pour afficher les données à plat (format csv) :

1.7. Voici le format semi-structuré sous lequel les données sont stockées dans le Data Lake :

2.       Dans Azure Data Synapse Analytics :

2.1. Pour commencer la transformation, nous allons choisir le mode « SQL Pool Serverless » dans Synapse Analytics :

2.2. Pour la création automatique des tables dans la base de Synapse, il nécessaire de paramétrer et exécuter le module CDMUtil et utiliser les deux applications :

2.3. Voici un paramétrage du CDMUtil :

2.4. Après exécution du module CDMUtil, les différentes tables présentes dans le Data Lake sont visibles dans Synapse Studio :

2.5. Nous retrouvons la table « VendTable » : :

2.6. Pour simplifier la gestion des tables, il est possible de travailler directement avec SQL Server Management Studio. En vous connectant, vous retrouverez toutes les tables associées au Data Lake :

2.7. Nous retrouvons la table « VendTable » :

2.8. En affichant le contenu de la table, vous obtenez des données structurées et prêtes à la visualisation :

Conclusion :

En résumé, nous pouvons retenir que Synapse (Data Warehouse) est le miroir du Data Lake. De plus, l’export des données d’un data Lake vers un data Warehouse facilite la gestion des données à grande échelle. Après cette étape, les utilisateurs peuvent directement passer à la visualisation et l’analyse des données dans Power BI.

Voir plus :

  • Visualisation des données : Lien 01

  • Gouvernance des données : Lien 02

  • Modélisation des données : Lien 03

  • BI Architecture (D365 vers Data Lake) : Lien 04

  • Customer Insights : Lien 05

  • Analyzing data with Power BI : Lien 06

Merci pour la lecture,

Fodé DIABY

———

Retrouvez nos formations :

https://en.dynagile.com/formations

#dynamics365

#datalake

#datawarehouse

#azure

#businessintelligence

#architecture

#storage

#azuresynapse

#dynagile

Précédent
Précédent

L'EXPÉRIENCE « UK MAKING TAX DIGITAL FOR VAT »

Suivant
Suivant

Data Movement Dynamics 365 F&O