La Capture des Données Modifiées en Streaming – Le Fondement de l’Architecture de Données Moderne

Les données engendrent de nombreux changements, notamment économiques. Les organisations de tous les secteurs changent leurs modèles commerciaux pour monétiser les données, en utilisant de nouveaux outils et technologies d’analyse pour atteindre cet objectif.

Ces initiatives d’analyse peuvent transformer les ventes, les opérations et la stratégie sur de nombreux fronts. Pour améliorer la précision de ces analyses, les architectures de données sous-jacentes doivent traiter efficacement de gros volumes de données en évolution rapide, et issus de sources hétérogènes. Les services informatiques doivent copier les données sur des plates-formes d’analyse, souvent en continu, sans perturber les applications de production (caractéristique connue sous le nom d’impact zéro). Les processus d’intégration de données doivent être évolutifs, efficaces et capables d’absorber de gros volumes de données provenant de nombreuses sources sans augmenter de manière prohibitive le travail ou la complexité.


Figure 1. Vers des Architectures de Données Modernes

Tout cela nécessite une planification minutieuse et de nouvelles technologies, car les outils d’intégration de données batch traditionnels ne répondent pas à ces exigences. La réplication en mode batch ne peut pas évoluer suffisamment pour prendre en charge les initiatives stratégiques de l’entreprise. Le traitement batch n’est pas durable dans l’entreprise d’aujourd’hui.

Ce besoin de données en temps réel laisse la place à une nouvelle vague de technologies de base pour la modernisation de votre environnement : le logiciel CDC (Change Data Capture) permet une réplication incrémentielle continue en identifiant et en copiant les mises à jour au fur et à mesure de leur exécution. Lorsqu’il est conçu et mis en œuvre efficacement, le logiciel CDC peut répondre aux exigences actuelles en matière d’évolutivité, d’efficacité, de temps réel et d’impact zéro.

Le rôle de la Capture des Données Modifiées (ou CDC) dans la préparation des données

Le CDC fait partie d’un processus plus vaste de préparation des données pour l’analyse, qui couvre la recherche, le transfert, la transformation et l’enrichissement des données (y compris la qualité des données et le nettoyage), ainsi que la gouvernance et la gérance.

La Capture des Données Modifiées fait partie de la phase d’approvisionnement et de transfert, bien que cela puisse aussi aider à enrichir les données et maintenir la synchronisation des systèmes de gouvernance et des métadonnées des environnements d’une entreprise.

Principles of Data Wrangling par Tye Rattenbury et al. (O’Reilly, 2017) offre un outil utile (illustré ci-dessous) pour comprendre le flux de travail des données sur trois étapes : « brut », « refined » et « production ». Examinons brièvement chacun de ces points :

Stade « Brut »

Au cours de cette étape, les données sont ingérées dans une plate-forme cible (par chargement complet ou CDC) et les métadonnées sont créées pour décrire leurs caractéristiques (c’est-à-dire leur structure, leur granularité, précision, temporalité et portée) et donc sa valeur pour le processus d’analyse.

Stade « Refined »

Cette étape place les données dans la bonne structure pour les analyses et les «nettoie» en détectant, corrigeant ou supprimant des enregistrements corrompus ou inexacts. Plus les données finissent à ce stade. Ici, les analystes peuvent générer des reports BI ad hoc pour répondre à des questions spécifiques sur le passé ou le présent, en utilisant des outils traditionnels de BI ou de visualisation tels que Tableau. Ils peuvent aussi explorer et modéliser les résultats futurs en fonction des évaluations des facteurs pertinents et leurs données historiques associées. Cela peut impliquer des méthodes plus avancées tels que l’apprentissage par la machine ou d’autres approches d’intelligence artificielle (IA).

Stade « Production »

À cette étape, les processus de rapport automatisés guident les décisions et l’allocation des ressources sur une base cohérente et reproductible. Cela nécessite d’optimiser les données pour des utilisations spécifiques telles que les rapports hebdomadaires sur la chaîne d’approvisionnement ou la production, qui pourrait à son tour conduire l’allocation automatisée des ressources.

Figure 2. Processus de préparation des données (adapté de Principles of Data Wrangling, O’Reilly, 2017)

Entre chacune de ces phases, nous devons transformer les données sous la forme appropriée.

La saisie des données de modification joue un rôle essentiel en accélérant l’ingestion brute dans la phase brute. Cela contribue à améliorer la rapidité et la précision des données et métadonnées dans les phases suivantes de conception / raffinement et optimisation.

Étude de cas : Le Streaming vers une architecture Cloud Lambda

Prenons l’exemple d’un fournisseur de solutions de santé classé société Fortune 500 dans les hôpitaux, les pharmacies, les laboratoires cliniques et les médecins qui investissent dans l’analyse du cloud afin d’identifier les opportunités d’amélioration de la qualité des soins.

L’équipe d’analyse pour cette société, que nous appellerons pour des raisons de confidentialité «GetWell», utilise un logiciel CDC pour accélérer et rationaliser la consolidation des données cliniques à partir de sources locales telles que SQL Server et Oracle vers une file d’attente de messages Kafka qui alimente à son tour une architecture Lambda sur Amazon Web Services (AWS), service de stockage simple (S3). Cette architecture est illustrée dans l’image ci-dessous.

Figure 3. Architecture pour le Streaming Kafka vers une architecture Cloud Lambda

La technologie CDC basée sur les logs leur a permis d’intégrer ces données cliniques à l’échelle de nombreuses sources avec une ressource administrative minimale et aucun impact sur les opérations de production.

Les scientifiques de données GetWell mènent des recherches thérapeutiques sur cette architecture Lambda, en utilisant à la fois le traitement par lots historique et l’analyse en temps réel. En complément des analyses structurée en SQL, ils effectuent une analyse graphique pour mieux évaluer les relations entre les traitements médicamenteux cliniques, l’utilisation des médicaments et les résultats. Ils effectuent également un traitement en langage naturel (NLP) pour identifier les observations clés dans les notes des médecins et testent d’autres nouvelles approches en matière d’IA, telles que le machine learning, pour améliorer les prévisions des résultats des traitements cliniques.

Vous souhaitez en savoir plus ? L’e-book Streaming Change Data Capture est disponible en version complète et en téléchargement gratuit ici.

Leave a Reply