Victor Coustenoble - Les tendances data en 2024

Victor Coustonoble
L'année 2023 témoigne d'une évolution significative dans l'univers de la data, influencée par des innovations technologiques majeures et des ajustements réglementaires critiques. Des domaines tels que l’IA, le cloud computing, les menaces de cybersécurité comme les ransomwares, et les cadres de protection des données ont été au centre de transformations profondes au sein de l'écosystème de la data.

Dans cet environnement en constante évolution, Victor Coustenoble, responsable architecte solutions chez Starburst, apporte un éclairage expert sur les tendances prédominantes de l'année 2024. Son analyse s'étend au-delà des simples évolutions technologiques pour englober les implications éthiques liées à l'utilisation accrue de la data, les progrès technologiques qui redéfinissent les limites du possible, ainsi que l'émergence de nouvelles compétences et professions dans le secteur de la data. Cette réflexion s'inscrit dans un contexte où la capacité à intégrer et à innover dans le domaine de la data devient un atout stratégique pour les organisations, soulignant l'importance de l'adaptation et de l'anticipation face aux défis et opportunités à venir.

Avant d'explorer notre sujet en profondeur, examinons le parcours de Victor Coustenoble. Actuellement responsable architecte solutions chez Starburst, il cumule également des expériences en tant que consultant, chef de projet et ingénieur avant-vente. Son implication est cruciale dans les phases préliminaires des processus de vente ainsi que dans les aspects techniques du déploiement de la solution, et son périmètre couvre un éventail de pays d'Europe du Sud.

Victor Coustenoble a débuté sa carrière par un parcours universitaire en mathématiques appliquées. C'est à la fin des années 90, une période marquée par l'essor de la business intelligence et de l'internet d'entreprise, qu'il a plongé dans le monde de l'informatique. Son parcours professionnel s'est d'abord orienté vers les sociétés de services avant de se concentrer, dès 2002, sur les éditeurs de logiciels spécialisés dans la data.

Au fil des années, Victor Coustenoble a exploré diverses facettes de la data, depuis le machine learning jusqu'aux solutions de visualisation de données avec Tibco et Spotfire, en passant par le développement de cubes MOLAP pour la planification budgétaire avec Jedox une entreprise allemande. Chez DataStax, il a approfondi sa connaissance des bases de données NoSQL avec Cassandra, s'aventurant dans l'univers du Big Data et de l'Open Source. Son expérience s'est ensuite enrichie chez Trifacta, où il a travaillé sur la préparation des données pour les Data Lakes et Hadoop, avant de rejoindre Starburst, qui intervient dans la phase analytique en proposant un moteur de requêtes SQL basé sur un projet Open Source (Trino).

Son parcours professionnel lui a permis de s’intéresser à différents secteurs, de la finance à la santé en passant par la distribution, témoignant de son engagement et de sa passion pour explorer les potentialités de la data dans la transformation des entreprises.

Voici les tendances qui façonnent le paysage de la data en 2024 selon Victor :

1. Migration dans le cloud avec des architectures hybrides

La transition vers le cloud est évidente, puisque de nombreuses entreprises optent pour cette solution. Cependant, il est crucial de noter qu'une grande partie des données reste encore sur site. Ainsi, les architectures hybrides, combinant à la fois le cloud et les infrastructures on-premises, émergent comme une réponse à cette réalité. Les défis liés à l'intégration et à la gestion de ces deux environnements en parallèle demeurent importants et devraient continuer à être une préoccupation majeure. En somme, les architectures hybrides restent un élément crucial pour répondre aux besoins des entreprises confrontées à cette dualité entre cloud et on-premises.

2. Les avantages d’une fusion Data Lake et Lakehouse

Les Data Lakes sur le cloud sont une pratique établie depuis un certain temps, mais l'évolution récente vers les "Lakehouses" marque une innovation significative. Les Lakehouses combinent les fonctionnalités des bases de données traditionnelles avec la flexibilité du stockage objet, offrant ainsi une performance et des fonctionnalités améliorées. Ce concept, renforcé par l'adoption de nouveaux formats comme Apache Iceberg, permet de mélanger efficacement une base de données avec un Data Lake. Cette fusion offre des avantages tangibles, notamment en termes de performance et de fonctionnalités, ce que Victor Coustenoble constate activement chez ses clients. En outre, l'émergence de solutions comme Starburst facilitent l’utilisation de stockages objets sans besoin du framework Hadoop, tant dans le cloud qu'en environnement local (on-premises), soulignant l'importance et la pertinence croissante des Lakehouses dans le paysage actuel des données.

3. Data Mesh & Data Products faut-il choisir ou combiner ?

La notion de Data Mesh, qui a gagné en popularité, ne se limite pas à la technologie mais concerne davantage l'organisation des entreprises, mettant l'accent sur la création de "Data Products" et sur une gouvernance des données maîtrisée. Ces éléments sont essentiels pour une gestion et un partage optimal des informations au sein des entreprises. Dans une approche Data Mesh, les différents départements, tels que la finance ou le marketing, gèrent leurs propres données, favorisant ainsi une meilleure autonomie et collaboration interne. Cette stratégie implique un partage des données enrichi de métadonnées et de contexte métier.
Quant à l'avenir du Data Mesh, après un fort engouement vite remplacé par le focus sur l'intelligence artificielle, il semble que nous nous dirigeons désormais vers une adoption plus pragmatique de cette architecture. Comprendre que la centralisation totale des données n'est pas toujours possible tout en soulignant l'importance persistante des Data Lakes, et ainsi laisser chaque entreprise décider de l'intégration du Data Mesh à son propre rythme.
Parallèlement, le concept de Data Products évolue indépendamment, offrant un moyen de renforcer la gouvernance et le partage des données sans forcément s'inscrire dans une architecture Data Mesh complète. Ces produits de données, adaptés aux besoins spécifiques des entreprises, continueront de se développer en 2024, reflétant la diversité des solutions, des contraintes et des cas d'utilisation, qu'ils concernent l'intelligence d'affaires ou l'apprentissage automatique.

4. L'inévitable impact de l'IA et de la GenAI

L'intelligence artificielle est indéniablement au cœur des tendances de 2024, avec la révolution portée notamment par la GenIA, apportant une vague d'enthousiasme et de nouveaux défis. Dans le domaine des projets liés aux données, l'IA jouera un rôle crucial de deux manières. Premièrement, elle sera essentielle pour former et peaufiner les modèles d'IA. Deuxièmement, la GenIA et les modèles de langage avancés (LLM) joueront un rôle déterminant dans l'amélioration des outils et solutions de gestion des données. Cette évolution se manifestera par la capacité à générer automatiquement du code SQL, des tags, à fournir un contexte métier, à classer les données et, de manière plus générale, à créer une documentation approfondie des données et des produits de données.

Tirer parti des progrès technologiques pour exploiter pleinement le potentiel de la data

Les avancées en IA et en cloud computing mentionnées un peu plus haut joueront un rôle déterminant dans la future évolution de la gestion des données. Le cloud computing, en particulier, se distingue par sa capacité à offrir une scalabilité exceptionnelle, permettant aux organisations de stocker et de traiter des quantités de données grandissantes de manière rapide et efficace. Cette flexibilité se traduit par une réduction des coûts comparativement aux solutions on-premises, bien qu'une vigilance sur la gestion des dépenses demeure cruciale pour éviter les surprises budgétaires.

Par ailleurs, ces technologies ouvrent la voie à de nouvelles applications, notamment dans les domaines de l'IA et du machine learning, en facilitant l'accès à des ressources de calcul et de stockage quasi illimitées. En définitive, l'intégration de l'IA et du cloud computing transforme profondément l'univers de la data, en améliorant les performances, en optimisant les coûts et en élargissant le spectre des possibilités d'exploitation des données.

Si le pouvoir transformateur du Big Data est indéniable, ses implications éthiques et juridiques nécessitent une réflexion approfondie. 

Premièrement, d'un point de vue juridique, il est crucial de se conformer à des réglementations telles que le RGPD, ainsi qu'aux exigences en matière de souveraineté des données. En effet, nombre de données ne peuvent légalement traverser les frontières nationales. Même dans un contexte de cloud computing, il est impératif d'opter pour des solutions disponibles dans des cloud souverains ou privés, garantissant que les données demeurent sur le territoire national, malgré les offres de grands fournisseurs de cloud publics qui tentent de localiser leurs serveurs en France.

Les architectures hybrides et le maintien de certaines données en local (on-premises) peuvent apporter une réponse à ces problématiques de souveraineté. Quant à la sécurité, les risques de piratage soulignent l'importance de protéger les données, en évitant notamment leur exposition inutile.

Sur le plan éthique, la gestion des données personnelles impose de strictes limitations : il est interdit de divulguer ou de conserver ces données au-delà d'une période prédéfinie. Bien que de nombreuses réglementations encadrent déjà ces aspects, des questions demeurent sur ce qui est éthiquement acceptable de demander ou de collecter auprès des individus.

Contrairement à l'intelligence artificielle, où les lignes directrices éthiques et réglementaires commencent à se dessiner, le Big Data n'est pas encore encadré de manière spécifique. Il reste des zones grises, notamment sur l'authenticité et la transparence de l'information — différencier ce qui est généré par l'IA de ce qui est humainement créé est essentiel pour maintenir la confiance et la clarté.

En résumé, les défis éthiques et juridiques liés au big data se concentrent sur la localisation et la conservation des données, exigeant une approche qui respecte à la fois la législation et les principes éthiques fondamentaux, tout en naviguant dans les complexités introduites par les nouvelles technologies.

Big Data : quels métiers et compétences pour répondre aux besoins de demain ?

Selon Victor Coustenoble le rôle du data engineer s'est notablement affirmé et continuera de gagner en importance. Cette profession, cruciale dans la construction et la maintenance de pipelines de données, assure la qualité, la validité et la disponibilité des données. La montée en complexité des architectures de données accentue le besoin pour des compétences approfondies en ingénierie des données, englobant l'ingestion, la qualité, et la transformation des données en utilisant les technologies adéquates.

Quant aux data scientists, leur rôle subit une transformation. Autrefois concentrés davantage sur la préparation des données, ils s'orientent maintenant vers l'intelligence artificielle, nécessitant une adaptation à des algorithmes et des formations distinctes de celles traditionnellement associées au machine learning. Bien que le machine learning continue d'être un domaine pertinent, l'IA élargit et diversifie le spectre d'expertise nécessaire pour les data scientists.

Victor Coustenoble observe donc une bifurcation dans les carrières : d'une part, les data engineers qui se spécialisent dans le traitement et la gestion des données et, d'autre part, les data scientists qui se dirigent vers une spécialisation en IA. Ce dernier groupe doit acquérir des compétences distinctes pour répondre aux exigences changeantes du domaine. Ceux qui préfèrent rester centrés sur les aspects plus traditionnels du big data tendront à se consolider dans le rôle de data engineer.
Il souligne que dans un contexte où les entreprises adoptent une démarche résolument orientée vers la data, la complexité croissante des environnements informatiques, notamment avec l'hybridation et le cloud, impose une adaptation stratégique. Il évoque un changement de paradigme par rapport aux anciennes méthodes consistant à centraliser les données en un unique point de stockage.

Dans le passé, les organisations, principalement en mode on-premises, et sans la pression actuelle d'un volume de données exponentiel, tendaient à regrouper les données pour faciliter l'analytique, le Big Data, le machine learning et le reporting. Aujourd'hui, face à la diversité des architectures et à la multiplication des fusions-acquisitions, il est devenu essentiel de reconnaître que les données sont dispersées à travers différents environnements - on-premises, cloud, bases NoSQL, bases relationnelles, streaming - et de concevoir des systèmes optimisés pour cette distribution.

En conséquence, Victor Coustenoble recommande de s'éloigner de la volonté de centralisation pour embrasser un modèle de décentralisation, voire de Data Mesh, favorisant ainsi une séparation entre le stockage des données et leur traitement analytique. Ce principe de découplage simplifie les architectures en permettant une spécialisation et une optimisation des différentes composantes.
Il met également en garde contre les risques de dépendance vis-à-vis d'un seul fournisseur ou technologie, encourageant les entreprises à maintenir de la flexibilité en exploitant diverses technologies et plateformes cloud adaptées à leurs besoins spécifiques. Cette approche préserve l'optionnalité et prévient le « vendor lock-in », permettant aux entreprises de rester agiles et capables de s'adapter aux évolutions du marché et de la technologie.

Il insiste enfin sur l'importance de cette adaptabilité, surtout pour les grandes entreprises, afin d'éviter les pièges d'infrastructures obsolètes et de soutenir une évolution fluide dans un paysage technologique en constante transformation.

PLUS DE CONTENUS EXCLUSIFS BIG DATA & AI