Retour

Fivetran soutient l’automatisation du Modern Data Lake sur Amazon S3

La nouvelle offre Fivetran différenciée accélère la livraison des données à Amazon S3 avec des pipelines sécurisés et entièrement gérés et une conformité complète.

Fivetran vient d’annoncer son dernier lancement produit pour une prise en charge des data lakes plus étendue : Amazon S3 alimenté par Fivetran avec Apache Iceberg. Amazon S3 offre une scalabilité, une disponibilité des données, une sécurité et des performances de pointe, ce qui en fait l'endroit idéal pour stocker des données.

Avec une capacité de stockage étendue et la prise en charge de plusieurs formats de données, le data lake est une destination très populaire pour les équipes analysant des ensembles de données volumineux ou exécutant de vastes projets de science des données. Selon 451 Research, "Près des trois quarts des entreprises utilisent ou pilotent actuellement un environnement de data lake, ou prévoient de le faire dans les 12 prochains mois". Parmi les nombreuses équipes des grandes entreprises qui les ont déjà testé, la majorité attestent de l'agilité commerciale accrue, de l'amélioration du développement de produits et de services ainsi que l'amélioration du service client et de l'engagement comme avantages des data lake.

Télécharger le white paper Fivetran + S3 + Iceberg

Challenges des data lakes

Cependant, l'intégration de données dans un data lake a été l'une des tâches les plus difficiles pour les équipes de données. Le processus nécessite à la fois un code ETL personnalisé et une maintenance continue.

Et certaines des qualités qui rendent les data lakes si formidables, comme le stockage massif, peuvent également présenter des défis liés à la conformité en particulier pour les organisations qui cherchent à maximiser la valeur des données. Le rapport 451 Research poursuit : « La sécurité des données est le défi le plus cité par les entreprises qui sont déjà en déploiement ou en phase de validation avec des data lakes (37%), suivi des problèmes de confidentialité des données (33%) et de la configuration et de la gestion des pipelines de données ( 31%). »

Les préoccupations concernant la gouvernance, la sécurité et l'automatisation ont inspiré les efforts de Fivetran.

Concevoir un modern data lake

Fivetran a conçu une solution qui fournit un data lake conforme et sécurisé avec prise en charge des transactions atomiques, cohérentes, isolées et durables (ACID) et un contrôle d'accès granulaire. Les pipelines Fivetran entièrement gérés anonymisent les informations personnellement identifiables (PII) tout en nettoyant, normalisant et chargeant automatiquement les données dans le data lake.

Désormais, la solution Fivetran extrait, nettoie, déduplique et prépare automatiquement pour l'analyse de données en grands volumes et semi-structurées afin d'alimenter les data lakes de la même manière fiable et sécurisée que dans les warehouse cloud. Sans structure, gouvernance et exactitude des données dans le data lake, les organisations ne réalisent pas la juste valeur des données qu'elles y stockent.

"Nous sommes ravis que l'accessibilité d'Amazon S3 avec Iceberg continue de croître", a déclaré Greg Khairallah, directeur de l'analyse chez Amazon Web Services. "C'est un moyen facile pour nos clients de simplifier l'ingestion de données tout en leur offrant la scalabilité d'un data lake et la transformation fiable des données d'un datawarehouse."

La mission de Fivetran est de rendre l'accès aux données aussi simple et fiable que l'électricité, et S3, alimenté par Fivetran avec Iceberg, répond à cette promesse.

Enfin, le nouveau data lake de Fivetran, Amazon S3 et Iceberg supprime une grande partie du travail manuel nécessaire pour créer et maintenir des pipelines dans la destination S3, ainsi que les efforts fastidieux pour nettoyer et dédupliquer les données une fois qu'elles arrivent. Les efforts de compactage, l'introduction d'une fine couche de métadonnées pour le catalogage et plus encore ne sont plus à la charge des équipes. Il suffit de déverrouiller un data lake grâce à l'automatisation et à la gouvernance, ce qui réduit le délai d'obtention d'informations.

Le modern data lake en action

À mesure que les data lakes gagnent en popularité, les attentes des équipes d'analyse augmentent et des solutions telles qu'Amazon S3 et la prise en charge automatisée des pipelines sont équipées pour répondre à cette demande.

« Le data lake est un moyen simple, abordable, sécurisé et robuste de stocker toutes les données de nos clients », a déclaré Lakshmi Ramesh, VP Services de Données chez Tinuiti. "Le principal défi consiste à optimiser les performances et l'accessibilité, mais avec le support de Fivetran pour Amazon S3 avec Iceberg cela optimisera davantage notre pipeline Fivetran. Étant donné que le data lake est notre source unique de vérité, il est essentiel que toutes les données ingérées à partir de différentes sources soient accessibles dans le data lake.»

Au lieu de se concentrer sur toutes les étapes manuelles nécessaires pour ingérer les données, les nettoyer, les préparer à l'utilisation, hacher et bloquer les données sensibles, puis commencer à les interroger, les organisations modernes comme Tinuiti voient une grande valeur dans la réduction des efforts de gestion des data lakes grâce à l'automatisation et à la gouvernance.

Essayer le modern data lake gratuitement

PLUS DE CONTENUS EXCLUSIFS BIG DATA & AI

JE PRENDS MON PASS