BigData : Sémantisation & FastData

Par Hayssam Saleh, CTO EBIZNEXT

Depuis quelques années déjà, on observe une excitation croissante autour des opportunités offertes par la mise en place d’un Datalake. Pourtant, les entreprises aujourd’hui ont du mal à capitaliser sur leur potentiel.

L’engouement initial pour les Datalake vient de la promesse faite aux utilisateurs de Datawarehouse, d’une solution de stockage de l’ensemble des données de l’entreprise à moindre coût, nativement capable de “scaler” à très grande échelle, de restituer des indicateurs de performance et même de les améliorer grâce à l’intelligence artificielle.

Bien qu’ayant réussi à être des entrepôts de stockage à faible coût, les Datalake ont, en général, échoué à délivrer une solution industrialisée de valorisation de la donnée. Cette promesse à demi tenue d’une part et la frustration engendrée d’autre part a conduit certaines entreprises à revoir leur stratégie de mise en place d’un Datalake.

Nous partageons ci-dessous les principaux éléments d’analyse et les remèdes issus de notre expérience dans l’industrialisation de Datalake :

  1. Ne laissez pas votre Datalake devenir un Dataswamp : L’acharnement à récupérer la donnée à tout va dans le Datalake sans convenir au préalable de règles d’organisation et de structure, produit un entrepôt de données difficilement exploitable par les analystes et plus grave encore, largement vulnérable aux problèmes de confidentialité relatifs à la RGDP notamment.
  2. Ne laissez pas votre mécanisme d’ingestion vous pénaliser : La valeur actuelle de la connaissance extraite d’un Datalake est conditionnée par la pertinence de la donnée sous-jacente. Les analystes ont besoin d’une donnée disponible à fréquence garantie pour délivrer de la valeur. Cela nécessite un mécanisme d’ingestion industrialisé capable de garantir une fraîcheur réguli`ère des données et un raccordement en un temps réduit aux multiples sources de données potentielles.
  3. Votre Datalake n’est pas qu’un entrepôt de données : On peut avoir tendance à penser qu’une fois que la donnée est là et bien structurée, il n’y a plus qu’à se servir. Les difficultées rencontrées auparavant par cette approche dans les Datawarehouse sont accentuées aujourd’hui par des acteurs multiples qui peuvent se télescoper : Processus d’ingestion, de transformation, de visualisation, d’entraînement de modèles ou d’exploration, autant de pressions sur la puissance de traitement qui lorsqu’elles se télescopent entraînent des dégradations de performance et de disponibilité significatives.

Chez EBIZNEXT, nous avons au travers de nos expériences, réussi à contribuer à la mise en place de Datalake opérationnels en appliquant notamment les recettes suivantes :

  1. La gouvernance et la sémantisation des données, un prérequis d’un Datalake expressif : Ne pas penser le Datalake comme un entrepôt de stockage mais comme un espace de collaboration entre les data engineers, les analystes et le métier est un des piliers essentiels de son succès. Portée par une gouvernance différenciée et une sémantisation des données, cet espace devient rapidement un référentiel de partage et valorisation de la connaissance.
  2. Un mécanisme d’ingestion générique, garant de la pertinence des données : La fraîcheur des données ne peut être garantie sans un mécanisme d’ingestion générique, riche et performant. Générique parce qu’il permettra d’ingérer des données provenant de sources multiples dans des formats variés sans requérir de développement spécifique; Riche parce qu’il permettra dès l’ingestion d’extraire des données qualitatives et quantitatives associées à la donnée ingérée permettant ainsi aux analystes et au métier d’appréhender la donnée  dès l’ingestion en amont de la phase de traitement; Performant parce qu’il va conduire à ingérer les données dans le Metastore en différenciant les données rejetées des données acceptées et optimiser le format de stockage et le partitionnement de données pour un requêtage optimal.
  3. Une intégration et cloisonnement des ressources par la containerisation: Le besoin récurrent d’avoir un ou plusieurs Datalake on Premise ou sur le Cloud ainsi que la nécessité d’intégrer des outils spécifiques aux distributions standards  requiert la capacité à industrialiser leur mise en place. De plus, la capacité à faire fonctionner des utilisateurs avec des sollicitations variées et concomitantes sur les données, requiert un cloisonnement des services (Hive / Spark) et des outils (Tableau / Dataiku / …) que nous faisons porter par la containerisation et les fonctions de cloisonnement de ressources apportées par les Cluster Managers modernes.

Ainsi par la levée des barrières précitées au travers de la gouvernance des données, du mécanisme d’ingestion industrialisé et de la plateforme d’exécution self-service, nous avons pu observer comment le Datalake devient un moyen efficace d’actionner la donnée.

Leave a Reply