Veepee : architecturer l’avenir avec une stratégie data-driven innovante

CUMER
Victor Cumer dirige l’équipe Data Platform du groupe Veepee. Sa mission est de fournir une infrastructure pour collecter, organiser et traiter un déluge de données (interne uniquement et respectueuse de la vie privée), et de donner les moyens à diverses organisations au sein de Veepee de prendre des décisions éclairées par les données. Victor Cumer dispose d’une formation d'ingénieur en statistiques et mathématiques appliquées, et d’un master en management. Il commence chez Veepee avec le Graduate Program Data, où il explore divers métiers liés à la data durant plusieurs années avant de prendre le poste de Head of Data Platform, qu’il occupe depuis deux ans.
Veepee : vers une culture data-driven, les piliers de la stratégie data
La stratégie data de Veepee met en application la vision du département : atteindre une culture data driven à tous les niveaux de l’entreprise. Cette stratégie vise à ancrer les données au cœur de toutes les décisions stratégiques et opérationnelles. Elle repose sur trois axes principaux :
  1. Accessibilité et autonomie : Veepee facilite l'accès aux données pour permettre à toutes les équipes de générer et d'utiliser des insights en autonomie grâce à des solutions de self-service.
  2. Insights pertinents et gouvernance des données : L'entreprise s'assure que des insights utiles et des données rigoureusement gouvernées sont disponibles pour soutenir les décisions à travers l'organisation.
  3. Solutions de data science à impact élevé : Veepee développe des solutions de data science qui maximisent la valeur des données pour l'entreprise et ses marques partenaires.
Le département data est structuré en cinq périmètres clés au sein d'un département centralisé.   
 
Il comprend deux équipes transversales :
  1. Data Plateforme : Fournit les infrastructures essentielles pour l’ingestion, le stockage et l’exposition des entités de données et met à disposition les clusters Kubernetes et les outils de déploiement et d’observabilité.
  2. Data Governance : Responsable de la qualité, de l'enrichissement et de la gouvernance des données, cette équipe assure que les données transformées sont prêtes à être utilisées de manière optimale.
Trois équipes axées sur les cas d'usage :
  1. Business Intelligence : gère l'outil BI pour le groupe avec une approche self-service.
  2. Data Science : se concentre sur les applications de machine learning.
  3. Analytics : s'attaque aux analyses de type AB Testing, CRM et marketing.
Avec plus de 40 spécialistes en data, répartis entre les bureaux de Barcelone, Paris et Bruxelles, le département data de Veepee est bien équipé pour soutenir sa vision data-driven.   
La mise en œuvre de cette vision data-driven est soutenue par une pile technologique robuste et avancée, principalement basée sur des outils cloud native.  
 
L'ingestion des données chez Veepee utilise Apache Beam pour les pipelines qui traitent les données en streaming et en batch sur DataFlow, avec Pub/Sub assurant le rôle de bus de données. Cette configuration garantit une intégration et une réactivité des données en temps réel, essentielles pour les analyses et la capacité de l'entreprise à réagir rapidement aux évolutions du marché.  
 
BigQuery sert de plateforme centrale pour le data warehousing, offrant des capacités d'analyse rapides et à grande échelle. La transformation et la gouvernance des données sont assurées par dbt, qui permet de modeler, tester et déployer les pipelines de données de manière précise et gouvernée.  
 
Pour répondre aux besoins opérationnels, Bigtable est utilisé pour des applications demandant une haute performance et une grande échelle, tandis que PostgreSQL gère les applications plus traditionnelles. Ces systèmes sont complétés par des technologies dédiées à la data science, comme TensorFlow, utilisé par l'équipe de data science pour développer des modèles de machine learning qui alimentent les stratégies de personnalisation et de prévision.  
 
En matière de développement, les technologies choisies incluent Python, Java et Scala, sélectionnées pour leur fiabilité et leur robustesse. MicroStrategy, utilisé pour la business intelligence, permet de mettre à disposition un 'semantic layer’, qui favorise le développement de dashboards self-service.  
 
Cet ensemble de technologies ne soutient pas seulement l'ambition de baser chaque décision sur des données, mais il renforce également une infrastructure capable de s'adapter aux besoins dynamiques de Veepee et de ses partenaires commerciaux  
 
Développer son propre outil d'ingestion de données pour une gestion optimale des ressources internes  
 
La création de l'outil d'ingestion de données in-house chez Veepee a été motivée par des défis spécifiques liés à la gestion des ressources de données internes. En l'absence de données externes et face à une variété de services internes- plus de 80 produits- il n'y avait pas de standardisation concernant l'exposition des données. La solution adoptée a été de développer une plateforme d'ingestion qui non seulement facilite l'exposition robuste des entités de données mais permet également la gouvernance et la rationalisation des schémas de ces données.  
 
L'approche Data Contract est la pierre angulaire de cette architecture. Elle commence par un accord sur les besoins spécifiques en données et ce qui est effectivement disponible. Une fois cet accord établi, la plateforme automatise le déploiement d'une interface qui matérialise techniquement cet accord. Cette automatisation comprend la mise en place d'endpoints dédiés, de bus de données, et de pipelines de streaming. Chaque message ingéré est soumis à des vérifications de cohérence par rapport au contrat, assurant l'intégrité et la sécurité des données à travers le chiffrement et la gestion des permissions. Enfin, les données sont ingérées dans BigQuery, permettant une analyse et une utilisation efficaces à travers l'organisation.  
 
Cet outil d'ingestion spécifique permet de répondre précisément aux besoins internes, en assurant une gestion des données à la fois flexible et conforme aux exigences stratégiques de l'entreprise  
 
L'adoption de l'outil d'ingestion et des data contracts chez Veepee visait à résoudre deux défis majeurs du Big Data : la profusion de données dans le data warehouse centralisé et la nécessité d'améliorer la qualité des données tout en clarifiant la responsabilité des équipes.  
 
Premièrement, chaque entité de données intégrée dans le data warehouse résulte d'une discussion entre l'équipe interne fournissant les données et les parties métiers concernées, assurant ainsi que les données ingérées répondent à un besoin identifié. Cette approche réduit la probabilité d'accumulation de données inutilisées et non pertinentes  
 
Deuxièmement, en confiant directement la responsabilité aux équipes productrices de données pour la gestion et la qualité de leurs entités, et en centralisant l'ingestion des données via une solution unique, l’entreprise améliore la qualité globale du data warehouse. Cette centralisation facilite également le monitoring et la maintenabilité de toute la stack d'ingestion, renforçant ainsi l'intégrité et la fiabilité de l’infrastructure data.  
 
Cela souligne les principaux objectifs et bénéfices de l'outil d'ingestion et des data contracts tout en mettant en avant les informations essentielles fournies.  
 
Premier POC : optimisation de l'ingestion de données dans le voyage  
 
Le premier POC de l'outil d'ingestion de données chez Veepee a été initié il y a près de quatre ans, centré sur la verticale métier du voyage. Cette verticale, caractérisée par un environnement business et IT distinct avec peu de données exposées, représentait un candidat idéal pour un POC où l'objectif était de construire de nouvelles capacités d'ingestion et d'exposition de données, plutôt que de migrer un système existant.  
 
Bien que la mise en œuvre de la solution ait présenté une barrière à l'entrée non négligeable, les résultats ont rapidement montré des avantages significatifs. Une fois les premières entités de données correctement exposées, il est devenu relativement simple pour les équipes produits d'étendre et de reproduire le processus. De plus, l'amélioration notable de la qualité des données en aval et la réduction des incidents ont été des points forts. Tout changement majeur dans la chaîne de données était anticipé, avec un impact minimisé, démontrant l'efficacité de l'outil dans la gestion proactive des données.  
 
 
Les principaux challenges liés à l'adoption de l'outil d'ingestion et des data contracts concernent principalement la décentralisation de la préparation des données. Cette responsabilité, confiée aux équipes produits, nécessite un travail conséquent de modélisation et de consolidation des entités de données avant l'ingestion. Dans un contexte où les priorités sont souvent dominées par les exigences commerciales et le développement de fonctionnalités, le temps dédié à la modélisation des données peut être restreint.  
 
Après la préparation, la stratégie adoptée consiste à pousser ces entités de données vers une interface standardisée utilisant une API gRPC, avec des messages formatés en protobuf. Initialement, des difficultés sont apparues, notamment un manque de séniorité dans l'utilisation de ces technologies avancées.  
 
À l'heure actuelle, 50% des entités de données chez Veepee sont intégrées en streaming et couvertes par des Data Contracts. Le reste des données est encore traité via des méthodes legacy en batch, utilisant une stratégie de 'pull' depuis des répliques de bases de données opérationnelles.  
 
 
 
En définitive, l'implémentation de l'outil d'ingestion de données et des data contracts chez Veepee démontre la réussite d'une solution technique sur-mesure pour une gestion efficace des données à grande échelle.  
 
Si cette approche présente un caractère spécifique à Veepee, elle repose sur des concepts universels applicables à d'autres organisations. Responsabiliser les équipes productrices dans la gestion des données est crucial dans les environnements complexes.  
 
Le succès de cette solution réside dans la valeur ajoutée par l'outil d'ingestion de données. Les data contracts, enrichis de fonctionnalités automatisées, permettent de gérer un nombre important d'entités de données avec une solution unique.  
 
Cette approche offre de nombreux avantages :
  1. Scalabilité accrue
  2. Facilité d'utilisation optimisée
  3. Conformité réglementaire renforcée
L'outil d'ingestion de données et les data contracts constituent une solution efficace et pérenne pour la gestion des données à grande échelle chez Veepee, démontrant la puissance d'une approche sur-mesure fondée sur des concepts universels.

PLUS DE CONTENUS EXCLUSIFS BIG DATA & AI