Dark Data : des données précieuses à mettre en lumière

Par Raphaël Savy, Vice-Président France et Europe du Sud d’Alteryx

Qu’est-ce que les Dark Data ?

Les Dark Data représentent toutes les données que les organisations possèdent mais qu’elles n’exploitent pas. Ces données se présentent sous toutes les formes, toutes les tailles et tous les types. Elles proviennent de partout : des bases de données d’entreprise vieilles de plusieurs décennies aux informations générées par des smartphones.

Si les données restent l’un des actifs les plus importants de toute entreprise, malheureusement, seule une fraction en est utilisée aujourd’hui pour générer des informations commerciales. Les Dark Data sont un actif souvent oublié, négligé et inexploité par les entreprises aujourd’hui.

Quelles sont les différences entre Dark Data, données impures, données propres, données non structurées ?

Les données se présentent sous trois formats courants :

  • Données structurées : données traditionnelles stockées dans un format d’enregistrement soigné avec des types de données bien définis tels que des champs fixes numériques et des caractères alphanumériques. Les données structurées constituent la base de la plupart des bases de données existantes et sont relativement faciles à stocker et à gérer.
  • Données semi-structurées : chiffres ou caractères non formatés ou faiblement formatés à l’intérieur d’un champ mais avec peu ou pas de structure. Un tweet est un exemple de données semi-structurées. Les données semi-structurées sont plus complexes à stocker et à traiter que les données structurées.
  • Données non structurées : données qui ne sont pas basées sur du texte – des photos, des images ou des fichiers sonores. Les données non structurées sont difficiles à gérer car elles sont de grande taille, difficiles à cataloguer, à indexer, et à stocker dans des bases de données.

Les données dont vous avez besoin ne se trouvent généralement pas dans une base de données prédéfinie ni dans un tableau bien rangé. Dans la plupart des cas, les données doivent être obtenues à partir de différentes sources afin d’ajouter la profondeur et la portée nécessaires à la meilleure analyse et prise de décision possible. Toutes ces données, quelle que soit leur forme, ont besoin d’être extraites, nettoyées, normalisées, analysées et compilées afin d’effectuer l’analyse.

Dans de nombreux cas, les données les plus sont enfouies dans des PDF ou des images, ou peut-être même sous une forme plus abstraite, comme les opinions ou les émotions des clients. Quelle que soit l’origine des données, leur préparation peut devenir l’une des tâches les plus fastidieuses d’une entreprise. Grâce à l’évolution de la technologie, nous assistons aujourd’hui à une vague de systèmes de données plus intelligents et plus accessibles qui permettent l’analyse de ces données de façon automatisée.

Pourquoi y a-t-il autant de Dark Data et d’où viennent-elles ?

L’essor des réseaux sociaux, de l’Internet des objets (IoT) et du Machine Learning a été accompagné d’une quantité impressionnante de données non structurées, impures ou Dark, qui affluent de multiples sources : des pièces jointes de courriels aux fichiers journaux de serveurs, en passant par les fichiers d’enquêtes bruts, les fichiers d’appels de clients, les anciens documents des employés, les données stockées sur le cloud, les données liées aux appareils, les données financières, etc. La liste est longue. Selon une étude récente d’IBM, plus de 80 % de toutes les données sont des Dark Data.

Y aura-t-il encore des Dark Data à l’avenir ou allons-nous voir un déclin de ce type de données ?

IDC prévoit que la quantité de données créées au cours des trois prochaines années sera supérieure à celles créées au cours des 30 dernières années, et que le monde produira trois fois plus de données, ou plus, au cours des cinq prochaines années par rapport aux cinq précédentes. Avec une telle augmentation des données traditionnelles et une augmentation des appareils connectés et portables, nous verrons sans aucun doute une augmentation des Dark Data.

L’un des piliers essentiels d’une analyse réussie des Dark Data est l’optimisation des processus à travers l’automatisation de bout en bout des processus fastidieux et parfois complexes de préparation et de mélange des données associés à l’exploitation des informations issues des Dark Data.

Quelles sont les solutions d’aujourd’hui et de demain ?

Les données sont devenues un élément vital pour l’entreprise moderne. Collecter des données est une chose, les assimiler, les comprendre et les transformer en une avancée majeure en est une autre. Pour ceux qui ne disposent que de feuilles de calcul traditionnelles pour les aider, c’est un très gros travail. Si les entreprises reconnaissent la valeur des données, elles doivent savoir que la clé du succès réside dans les collaborateurs et les processus.

L’extraction rapide de données à partir du big data nécessite un nettoyage pour en assurer la qualité et la pertinence, un processus qui prend du temps et réalisé principalement par les travailleurs de la donnée. Ces processus peuvent tous être automatisés grâce à l’utilisation de l’IA et du Machine Learning pour permettre à chaque employé de se concentrer sur l’obtention plus rapidement d’informations beaucoup plus approfondies à partir de leurs données existantes – ce qui révolutionne la vitesse à laquelle ils peuvent prendre des décisions critiques pour l’entreprise. Mais pour que ce niveau d’automatisation soit efficace, il faut une Data science en libre-service dirigée par l’humain.

Il est également nécessaire de libérer le potentiel de chaque employé pour créer et permettre une culture axée sur les données – une culture dans laquelle n’importe quelle question peut être posée sur n’importe quel ensemble de données, par n’importe quel travailleur des données, afin de soutenir la plupart des cas d’utilisation. Pour y parvenir, chaque employé doit être incité à valoriser toutes les données comme un actif pouvant soutenir l’entreprise.

L’utilisation d’une plateforme dotée d’outils en libre-service permettant aux employés d’automatiser les processus analytiques permet à chacun de se lancer dans l’analyse des données, quel que soit son niveau d’expertise. Les collaborateurs, quelle que soit leur discipline, peuvent se perfectionner et apprendre facilement de nouvelles techniques pour utiliser l’analyse prédictive et exploiter rapidement la puissance cachée de milliers de sources de données disparates, automatiser les processus afin de découvrir des informations révolutionnaires exploitables.

Leave a Reply