Les données textuelles au service de la BI

Par Ivan Monnier.

Nous vivons dans un monde de contenus textuels. Entreprises, internautes, salariés… Nous produisons et consommons tous un nombre vertigineux de documents numériques. Il peut s’agir de rapports, d’études, de contrats, de réponses à des enquêtes. Ils peuvent être aux formats PDF, Office, HTML…

Avec l’essor des technologies Big Data, nous gérons mieux ces énormes volumes de données – notamment grâce à la Business Intelligence, qui a pour vocation de les exploiter pour les mettre au service de l’entreprise.

Seulement, voilà. Ces outils ciblent les données structurées. Or, les données textuelles ne le sont pas.

Données non structurées par excellence, elles sont exclues du champ d’action de la BI, qui se prive ainsi de tout un pan d’informations aussi intéressantes que stratégiques.

Dès lors, comment intégrer les données textuelles aux solutions de BI ?

C’est la question que se sont posée les ingénieurs de QWAM, éditeur de solutions logicielles dédiées au traitement de contenus textuels. Pour y répondre, l’entreprise a misé sur la Suite Elastic – une solution reconnue pour ses fonctionnalités d’indexation et de visualisation des données textuelles – qu’elle a associée à son annotateur sémantique QWAM Text Analytics (QTA).

Retour sur un pari réussi.

Premier défi des données textuelles : le texte lui-même

La difficulté intrinsèque aux contenus textuels est leur aspect monolithique. Que trouve-t-on généralement en bout de chaîne ? Un champ texte. Et pour connaître son contenu, nous devons le lire. Cela ne pose a priori aucun problème lorsque nous sommes en présence d’un seul texte court. Mais face à des milliers ou des millions de textes, les choses se compliquent.

C’est là que la Suite Elastic entre en jeu.

Comment ? La réponse est à rechercher du côté des métadonnées.

Pourquoi ? Car elles jouent un rôle stratégique dans le traitement des données textuelles non structurées.

Générer des métadonnées

Le grand intérêt des métadonnées ? Il suffit de les lister pour connaître le contenu d’un texte sans avoir à le lire.

Les documents aux formats PDF et Office contiennent bien des champs de métadonnées, mais qui prend le temps de les remplir ?

La solution est pourtant simple : il suffit d’associer un annotateur sémantique à la chaîne d’alimentation de la Suite Elastic. Celui-ci permet à son tour d’ajouter des champs de métadonnées à Elasticsearch, rendant ainsi les données textuelles plus exploitables.

Pour quels besoins ? L’exemple de QWAM

Spécialisée dans le traitement de volumes colossaux de données textuelles, QWAM devait gérer :

  1. Un nombre conséquent de documents : au minimum 15 millions par an sur un thème donné, soit plus de 40 millions sur 3 ans.
  2. Un grand nombre de facettes générées par son annotateur, chacune présentant une grande cardinalité. Environ 50 facettes de plusieurs milliers de décomptes par valeur.

L’entreprise avait en outre besoin d’un outil de dataviz et d’analyse permettant la détection de modèles à partir de ces facettes, ainsi que l’actualisation des tableaux de bord en quelques secondes (et non en plusieurs minutes ou plusieurs heures).

Tournant le dos à Solr en raison de l’absence de dataviz et des performances insuffisantes des bases SQL, QWAM opte alors naturellement pour Elasticsearch.

Le côté lumineux de la force textuelle

Pour illustrer tout l’intérêt qu’il peut y avoir à associer un annotateur et la Suite Elastic, prenons un exemple qui parle aux passionnés des data et autres Jedi : Star Wars.

Voici mon cas d’utilisation : dans Kibana, j’ai saisi la requête « star wars » et demandé des résultats pour la langue française. Kibana s’appuyait sur 40 millions d’articles d’actualités économiques crawlées et annotées au cours des 8 derniers mois.

De qui ou de quoi parle-t-on ? Les entités nommées

La première étape consiste à détecter les entités nommées : personnes, sociétés, organisations, lieux, médias, produits, objets et événements.

Dans ce cas d’utilisation, notre recherche braque les projecteurs sur deux vedettes, qui se démarquent nettement du lot : « Luke Skywalker » et « Han Solo ». Elle déroule aussi le tapis rouge à l’expression « Star Wars », dont on découvre qu’elle est de tous les événements : des Oscars aux Golden Globes en passant par le Festival de Cannes.

Il s’agit des entités nommées présentes dans nos documents.

De quoi parle-t-on ? Les concepts

Grâce au traitement automatique du langage naturel, l’annotateur sémantique QWAM Text Analytics possède une connaissance grammaticale de la phrase. Il est donc capable de détecter des locutions intéressantes grâce à leur nature grammaticale.

Il s’agit des concepts que renferment nos documents.

Des recherches performantes et interactives

L’annotateur génère donc des métadonnées. Dès ce stade, nous pouvons les ajouter à Elasticsearch, où elles servent de facettes de recherche. Les agrégations s’appuient sur les entités nommées, ce qui permet de proposer de nombreuses facettes pertinentes. Grâce à une analyse approfondie, la recherche devient interactive : nous savons ce que contient le corpus, mais nous pouvons aussi lancer une recherche pointue en quelques clics.

Quelles relations entre ces informations ? 

Grâce à un simple plug-in, Kibana intègre l’interface utilisateur de Graph, qui permet de visualiser les relations existant entre les données.

Nous obtenons ainsi un graphique, qui nous apprend que « Mark Hamill » et « Luke Skywalker » sont une seule et même personne.

Pour résumer, l’intégration d’un annotateur sémantique à la Suite Elastic permet d’ajouter un grand nombre de métadonnées aux textes bruts.

Résultat, le contenu textuel devient exploitable, et la dataviz et la BI deviennent possibles. Récapitulons :

  1. Entités nommées : sociétés, personnes, organisations, événements, lieux, pays, régions, villes, géolocalisation
  2. Concepts : fréquents sur le web, classés par thèmes, présents dans le texte
  3. Relations : nominations, fusions-acquisitions, partenariats, participation à des événements

Avec Kibana, tout prend sens : modèles, insights, tendances, prédictions… Et ses visualisations sont un pur bonheur.

Ivan Monnier, CTO de QWAM.

 

Leave a Reply