Strava bascule son datalake sur Snowflake

Strava bascule son datalake sur Snowflake

Afin de délivrer davantage de données pertinentes et ciblées à ses utilisateurs, l’éditeur de la solution de suivi GPS Strava a basculé son lac de données de Redshift vers le datawarehouse cloud Snowflake. Ses équipes de datascientists ont gagné du temps pour élaborer des fonctionnalités inédites.

Strava, la très populaire app de suivi par GPS des activités sportives – en majorité running et vélo – gérée par l’entreprise éponyme basée à San Francisco, a récemment déplacé son énorme lac de données d’Amazon Redshift vers Snowflake, dont les dirigeants ont d’ailleurs été élus personnalités IT 2018 par les lecteurs de la rédaction de LMI. Le motif de ce changement de fournisseur est assez récurrent chez les nouveaux clients de Snowflake : les exigences croissantes de la science des données et de l’analyse pèsent de plus en plus sur Redshift, et les temps de requêtes deviennent insoutenables. Cathy Tanimura, directrice senior Analytics and Data Science chez Strava, a expliqué qu’avant de passer chez Snowflake, les analystes devaient envoyer leurs requêtes pendant leur pause déjeuner ou même la nuit. « Personne ne se plaint plus de cela désormais. Parfois, on peut avoir quelques ralentissements sur un milliard de rangées, mais la productivité de l’équipe et sa capacité à rester dans le flux change la donne ».

L’an dernier, Cathy Tanimura raconte qu’un analyste voulait étudier le flux d’activité de l’application mobile Strava pour voir ce que les utilisateurs aimaient faire et le genre de gratifications qu’ils pouvaient accorder (des Likes de Facebook pour le contenu). « Il lui a fallu des semaines pour donner un sens à tout cela, en lançant une recherche d’une heure juste pour parcourir ces données », a expliqué la directrice senior. « Depuis cette année, nous pouvons interroger les flux, capturer une partie des données et avoir un aperçu presque immédiat », a-t-elle ajouté. Aujourd’hui, Strava stocke 120 To de données, dont 13 milliards de coordonnées GPS, 15 millions de téléchargements par semaine et 1,5 milliard de points d’analyse, ce qui permet à son équipe d’analyse de repérer les points d’achoppement dans l’application qui empêcheraient les utilisateurs de profiter de la meilleure expérience possible.

Les nouvelles instances cloud S3 bien gérées

Selon Cathy Tanimura, la migration, qui a démarré en mars de l’année dernière et s’est achevée en juin, a été facile. « J’ai vécu d’autres migrations et je m’attendais à toutes sortes de problèmes et d’exactitude des données, mais ce n’est pas ce qui s’est passé. Cette migration a été vraiment indolore. Nous n’avons pas eu besoin de faire de reconversion majeure, car au final, nous travaillons toujours avec MySQL », a-t-elle ajouté. L’entreprise a également basculé en toute transparence son frontal Looker pour que la visualisation des données s’exécute sur Snowflake, ce qui permet ainsi à un plus grand nombre d’utilisateurs pros d’utiliser ces données sans avoir à connaître SQL.

En découplant le calcul du stockage, Snowflake a réussi à surmonter certains problèmes de concurrence rencontrés par ses clients, un point sensible pour les entreprises tributaires de Redshift. Dans une vidéo annonçant la migration, Carlin Eng, ingénieur data chez Strava, a déclaré que Redshift « ne gérait pas très bien la concurrence », et justifie le choix de Snowflake « principalement parce que le fournisseur a très bien géré cette situation de concurrence ». Ajoutant : « En séparant le calcul du stockage, nous avons pu créer des clusters de calcul indépendants pour que tous nos utilisateurs accèdent aux données et ne se soient plus en concurrence les uns avec les autres ». Snowflake promet une échelle et une simultanéité presque illimitées grâce à une gestion efficace de nouvelles instances cloud (comme S3 sur AWS) pour que chaque charge de travail se comporte de façon aussi optimale qu’un entrepôt de données autonome, mais dans le même environnement, de sorte que les requêtes des data scientists n’empiètent jamais sur la BI, et réciproquement.

Une migration dont le but n’est pas de faire des économies

Strava n’est pas le premier client de Snowflake à laisser tomber la base de données Redshift d’Amazon. L’an dernier, le revendeur Not On The High Street a critiqué Redshift pour son manque d’évolutivité, et l’année précédente, la société de livraison Deliveroo a quitté la plateforme d’Amazon au motif que l’ancien entrepôt de données « ne pouvait pas gérer les utilisateurs concurrents ». Les avantages concernent essentiellement la libération des ressources d’ingénierie et la possibilité pour un plus grand nombre d’utilisateurs d’accéder aux données, de commencer à les exploiter pour mieux les comprendre. Mais le coût est également pris en compte. Cela dit, Mme Tanimura a insisté sur le fait que la priorité était « de faire grossir la plate-forme et de générer plus de revenus, et que la migration « n’avait pas pour objectif de faire des économies de coûts ». Strava met en avant ses capacités plus convaincantes et intéressantes d’utiliser les données « qui facilitent leur acquisition par les utilisateurs, le marketing de sensibilisation permet de gagner de nouveaux clients, de comprendre ce qui marche et aider les gens aà utiliser le produit. Notre objectif est donc d’augmenter le chiffre d’affaires et de maintenir les coûts dans un bon rapport d’évolution ».

Plus de 35 millions d’utilisateurs font confiance à Strava pour suivre leurs échappées à vélo, leurs courses et leurs randonnées, si bien que l’entreprise dispose d’un set de données riche sur lequel travailler. Le vrai plus, c’est que cette nouvelle infrastructure de données réduit le temps de requête dans une proportion importante, ce qui permet à son équipe de data scientists, qui tend à s’étoffer, plus de latitude d’expérimentation. L’équipe n’est plus préoccupée par l’optimisation des requêtes ou par la capacité de l’infrastructure à résister à la pression. En lissant son infrastructure de données, Strava peut faire davantage de choses avec ses données, produire par exemple une Heatmap globale ou quantifier l’effort en fonction de la fréquence cardiaque ou optimiser son Grade Adjusted Pace (GAP), très utilisé pour l’entraînement dit à intervalles. « Les utilisateurs ont pu créer une vidéo de fin d’année basée sur leur usage de l’application en 2018, ce qui aurait été beaucoup plus lourd avec l’infrastructure de données précédente », a encore déclaré Cathy Tanimura. « Je suis enthousiasmée par certains projets de science des données, par la façon dont ils peuvent améliorer l’expérience du produit, favoriser la création de nouveaux produits, et restituer ces données aux utilisateurs pour les aider dans leur entraînement et dans leurs objectifs sportifs », a-t-elle conclu.

Article du Monde Informatique – rédigé par Scott Carey, IDG NS (adapté par Jean Elyan)

Plus d’informations : www.snowflake.com

Leave a Reply