Data Fabric

Big Data, Data Science, intelligence artificielle… Si ces termes gagnent chaque jour en popularité, peu d’initiatives voient en réalité le jour. De nombreuses entreprises ont des projets et cas d’usage à adresser, mais encore faut-il pouvoir les mettre en production. La Data Fabric apparaît alors comme une solution prometteuse. Nous allons dans cet article vous expliquer dans quelle mesure elle peut vous aider à concrétiser vos projets Big Data et IA.

Qu’est-ce qu’une Data Fabric ?

Elle vous permet de gouverner, d’exploiter et de sécuriser vos données en temps réel, mais surtout de développer des applications métiers afin de répondre à vos problématiques.

Une Data Fabric est une solution logicielle de gestion de données. Disponible dans le cloud et “on-premise’, elle permet d’accélérer la transformation digitale de votre entreprise et la mise en production de vos projets.

A l’intersection entre la plateforme de Data Management, celle de Data Science et le Data Lake, elle représente un ensemble cohérent de solutions logicielles et applicatives, indifférentes aux choix d’architecture IT. Elle offre une solution plus complète en permettant de gérer de bout en bout le cycle de vie de vos données : collecte, stockage, traitement, modélisation, déploiement, supervision, gouvernance. En effet, peu importe la source d’où proviennent les données, la Data Fabric offre un ensemble de technologies qui permet de répondre à des problématiques diverses.

La Data Fabric se différencie aussi car elle offre une vision différente de vos données, une vision qui peut être partagée par l’ensemble de vos équipes. Grâce à ses multiples applications, elle permet à des profils moins experts d’y avoir accès, et ainsi d’apporter une valeur métier à vos données.

Pourquoi choisir la Data Fabric ?

Pour sa capacité d’orchestration. Elle permet de gérer le cycle complet de la donnée en orchestrant le meilleur des technologies open source et commerciales du marché.

A titre d’exemple, la Data Fabric de Saagie supporte HDFS, Impala, Hive, Drill, Spark, Sqoop, Elasticsearch, PostgreSQL, Talend, Java, Scala, R, Python, Jupyter, Docker, Zeppelin, Mongo DB et MySQL. Elle permet une adaptabilité complète en supportant les dernières versions de ces technologies, mais aussi les moins récentes. La Data Fabric se charge ensuite d’assurer une cohésion complète entre les différents outils utilisés.

La Data Fabric apparaît donc comme une alternative viable face aux limites affichées par les plateformes de gestion de données. Les traitements sur les données y sont rendus possibles, peu importe l’endroit où ces données sont hébergées (dans le cloud, chez le customer, sur Azure, sur AWS…). L’outil est de ce fait adaptable à de multiples cas d’usage.

Pour la gouvernance et la sécurité. La Data Fabric permet de contrôler, mais aussi d’auditer les accès de vos données. De plus, elle rend possible la documentation et l’évaluation de leur qualité. Enfin, on peut tout à fait identifier et déclarer les données personnelles, mettre en place un consentement lié à leur traitement et leur utilisation ainsi que les anonymiser en cas de besoin.

Interface de Saagie

Enfin, la Data Fabric fédère vos équipes. Elle facilite la collaboration entre les membres de l’équipe data et leur fournit les outils leur permettant de mener à bien leurs projets.

  • Les équipes IT
    • Les IT Ops peuvent superviser, ordonnancer et auditer leurs traitements pour les amener en production.
    • Les architectes IT et Développeurs ont la possibilité de gérer les ressources et conteneurs, de concevoir des applications et des services au travers d’APIs
  • Les équipes Analytiques
  • Équipes Métier
    • Les Data Analysts sont en capacité d’explorer le data lake, de partager des datasets et de connecter leurs outils de data visualization préférés
    • Les Data Stewards, eux, peuvent accéder au portail des données pour gérer les métadonnées, les autorisations et les processus d’anonymisation.

Et pour quoi faire ?

La Data Fabric permet, entre autre, d’appliquer le l’approche DevOps à la Data Science. On parlera alors de DataOps. Il s’agit d’un ensemble de pratiques de gestion de données collaboratives visant à améliorer la communication, l’intégration et l’automatisation des flux de données entre les différents acteurs d’une entreprise. Elle favorise les cycles courts, l’itération et les déploiements plus fréquents. L’objectif de cette démarche est de délivrer un logiciel en continu et donc modifiable, qui permet à la fois de prendre en compte les retours clients, mais aussi de saisir plus d’opportunités commerciales. Les principaux avantages de ces pratiques sont aussi la collaboration de différentes équipes qui amène à un déploiement accéléré et donc à des coûts réduits.

En plus de cela, les cas d’usage sont multiples, et les clients utilisant la Data Fabric de Saagie ont été ainsi en capacité de :

  • réduire leur taux d’attrition,
  • faire de la segmentation client
  • optimiser la supply chain
  • améliorer la chaîne de production, entre autres…

Transformation digitale, passage à l’ère numérique… quelle que soit l’expression utilisée, les entreprises sont en train de changer, et le temps presse. Afin d’exploiter leurs données, elles ont besoin d’une solution simple mais complète. En appliquant les pratiques Devops dans les projets Data (DataOps), la Data Fabric permet de tirer profit de ses données et rend possible la prise rapide de décisions ciblées par l’exploitation, le tri et l’analyse des données en fonction des métiers. Chacun y trouve donc son compte.

Leave a Reply