Le cycle de vie d’un projet d’Intelligence Artificielle

Par Victor Coustenoble, Responsable Architecte Solutions, Starburst SEMEA
et Andy Mott, Responsable Partenaires Architecte Solutions, Starburst EMEA


De nos jours, les organisations utilisent l'intelligence artificielle pour répondre à des problématiques métiers complexes. Et les projets d’IA suivent souvent le même cycle de vie. Historiquement, les deux méthodologies de gestion de projet les plus courantes sont SEMMA et CRISP-DM. Ces deux approches ont toutes deux des avantages et des inconvénients pour donner un cadre aux activités nécessaires à la mise en place de projets analytiques avancés et performants au sein d’une organisation.
Cependant, pour simplifier les choses et conserver une vue d’ensemble, nous développerons dans cet article une approche appelée “les 3D de l'intelligence artificielle”.

Qu'est-ce que le cycle de vie de l'IA ?

Dans la gestion des données, un schéma courant est apparu, à savoir un cycle de vie en trois étapes que toutes les organisations adoptant l'intelligence artificielle traversent, quelle que soit la technologie qu'elles utilisent et quelle que soit la finalité recherchée. Les activités au sein de chaque étape dépendent du type d'analyse utilisé, et sont propres à chaque organisation.

Dans cet article, nous étudierons donc les trois étapes du cycle de vie de l'IA, à savoir : (1) la Découverte des données, (2) le Développement du modèle et (3) le Déploiement du modèle. Nous aborderons également le rôle de votre ressource la plus précieuse dans chacune de ces phases, celui de vos Data Scientists.
1. Découverte des données

La découverte des données est la première étape du processus d’exploration des données à laquelle les Data Scientists font face. En général, des métiers au sein de l’organisation ont une question à laquelle ces derniers doivent apporter une réponse. Une fois la question connue, les Data Scientists doivent identifier :
● Quelles données sont pertinentes ?
● De quelles données disposons-nous au sein de notre organisation ?
● Où se trouvent ces données et comment y accéder ?

Cette phase d’exploration des données prend énormément de temps aux équipes. Ils doivent en effet solliciter les différents administrateurs de bases de données transactionnelles ou de data lake, ainsi que les gestionnaires et propriétaires de données pour obtenir les accès, avant de considérer leur structure pour comprendre comment elles pourront être utilisées.

Bien sûr, ce travail peut être facilité si des catalogues de données sont disponibles. Mais ce que nous avons tendance à constater, c'est que les data scientists passent encore beaucoup trop de temps à cette étape. Cette phase de découverte des données représente généralement entre 60 et 80 % du temps et des efforts d'un data scientist.
Il est clair que les data scientists sont sur-qualifiés pour passer leur temps à requêter des données et à chercher à obtenir les accès aux différentes sources - cela ne devrait pas occuper la majorité de leur temps. En revanche, ils apportent beaucoup plus de valeur dans la phase suivante, lors du développement du modèle.

1. Développement du modèle

Une fois que nous avons obtenu l'accès aux données, que nous avons effectué une analyse pour déterminer la pertinence des données par rapport à la question que nous cherchons à résoudre, et que nous avons terminé le processus de découverte des données, nous pouvons démarrer la mise en place de Data Products. Ils servent de plateforme symbolique pour la prochaine étape du cycle de vie, à savoir le développement du modèle.

À cette étape, nous explorons encore davantage les données en utilisant diverses méthodes statistiques et algorithmes mathématiques pour rechercher une manière de rassembler ces données afin de répondre aux questions spécifiques que nous nous posons. C'est véritablement à ce stade que les data scientists apportent une valeur substantielle.

Une fois que nous avons achevé ce processus de développement du modèle, nous produisons un modèle, qui peut se présenter sous la forme d'une fonction, d’une liste de règles ou d'un ensemble de seuils qui, lorsqu'ils sont combinés, fournissent une réponse à la question métier posée.

2. Déploiement du modèle

Dans la phase de déploiement du modèle, notre objectif est de présenter les données obtenues aux décideurs métiers.

Idéalement, nous souhaitons que les data scientists passent le moins de temps possible à cette étape, tout en gardant à l'esprit qu'il s'agit probablement de l'étape la plus cruciale. Sans mettre les résultats ou les données devant un décideur, nous ne serons pas en mesure de prendre des décisions éclairées, et le retour sur investissement attendu sera perdu.
Considérez le résultat de cette phase comme un autre Data Product qui appelle une API ou une fonction dans du SQL pour exécuter ce modèle et nous fournir des réponses aux questions opérationnelles et métiers.

Cependant, lors du déploiement du modèle analytique, nous devons tenir compte des données qui sont en entrée du modèle. Comme indiqué lors de la phase de découverte, ces données peuvent provenir de sources multiples et nécessiter des transformations, des opérations de nettoyage et d’organisation pour permettre l'application du modèle analytique ou de prévision sur la version la plus récente des données.

Exemple de cycle de vie d’un projet d'intelligence artificielle
Prenons l’exemple d’une situation concrète, en marketing, lors de laquelle une organisation cherche à prédire le taux de perte de clients (churn rate). L’étape de découverte des données consiste alors à examiner différentes caractéristiques des clients concernés.

Lors de la phase de développement de modèle, les data scientists mettent en place des formules mathématiques pour identifier s’il existe une typologie spécifique de clients qui ont une forte probabilité de résilier un service ou un produit.
Grâce à cette découverte des données, l’équipe marketing pourra considérer la mise en place d’un API dédié pour un client individuel de façon à lui demander s’il pense à résilier son contrat à la fin du parcours de vente. Une autre option pourrait être de considérer le déploiement de ce modèle à travers la totalité de la base de données clients via une opération groupée qui attribuerait un score de churn à chaque client. Ce score permettra ensuite d’identifier les clients avec un score élevé, qui auront plus de chances de résilier leur contrat, à l’inverse d’un client avec un score faible.

Comment Starburst permet à vos data scientists d’optimiser leur temps de travail
Est-ce que Starburst est un outil pour la data science ? Non, mais …
Fondamentalement, Starburst est un moteur de requêtes SQL, et écrire des régressions logistiques ou des réseaux neuronaux en SQL est impossible.

En revanche, si vous souhaitez que vos data scientists soient innovants, productifs et capables de construire les meilleurs modèles analytiques possible pour tirer parti de votre investissement dans l’intelligence artificielle, alors Starburst doit faire partie de votre projet d'intelligence artificielle.
Si actuellement, vos data scientists consacrent 60 à 80% de leur temps à explorer et à gérer leurs données, Starburst peut vous aider. En étant capable de requêter de façon native vos data lakes tout en combinant ces données avec celles stockées dans d’autres systèmes, nous pouvons réellement réduire ce temps et les soulager dans cette tâche.
Pour vous donner un ordre d’idée, cela a permis à certaines organisations de ne consacrer que 20% de leurs ressources à la phase de découverte de données.

L’impact de Starburst sur le cycle de vie de vos projets d’IA

Cela signifie qu’avec Starburst, le cycle de vie de vos projets d’IA pourrait ressembler à cela :
Si vos data scientists peuvent consacrer environ 70% de leur temps au développement de modèles, ils auront plus de temps pour expérimenter, innover et construire d’autres modèles analytiques.

De plus, ils peuvent créer de meilleurs modèles analytiques et intégrer plus rapidement et efficacement les résultats de ces modèles dans les opérations de l'entreprise, ce qui se traduira finalement par de meilleures performances organisationnelles.

Découvrez comment Starburst peut accélérer votre accès à toutes vos données : https://shorturl.at/aL267

PLUS DE CONTENUS EXCLUSIFS BIG DATA & AI