La classification d’opinion boostée par l’Intelligence Artificielle

Par Ahès ROULIER, Consultante senior

Les réseaux sociaux, structures dynamiques formées d’individus et/ou d’organisations, ont toujours joué un rôle majeur dans nos sociétés. Ils se sont développés et diversifiés avec la possibilité donnée aux utilisateurs de créer et de partager du contenu par l’intermédiaire de multiples plateformes (blogs, micro-blogs, wikis, sites de partage, etc.). Dans ce contexte, le volume sans précédent des données textuelles, leur variété ainsi que la densification du réseau d’interactions des utilisateurs représentent de nouvelles opportunités pour la compréhension du comportement social.

Aujourd’hui, aucun évènement local ou planétaire n’échappe à Twitter. Le réseau social aux messages limités en taille (140 caractères initialement puis 280 dernièrement) n’a cessé de se développer.

Twitter s’avère être un outil de communication, dont le principal atout est la spontanéité des propos exprimés : on échange sur tous les sujets, passions, métiers, on exprime ses points de vue, ses besoins, ses envies, ses insatisfactions, dans la minute… L’étude de commentaire s’est considérablement développée en relation directe avec leur accessibilité sur le web via de nombreuses APIs telles celle de Twitter. Une veille des médias sociaux permet d’assurer le suivi des mentions faites par différents citoyens d’un pays ainsi qu’une opinion dans sa globalité pour mieux saisir la teneur de certains événements, donnant ainsi l’occasion de s’ajuster pour améliorer sa position.

Par ailleurs, depuis deux ans, on observe une course à l’amélioration des modèles. Ont ainsi été annoncés successivement ELMo, BERT, RoBERTa, GPT-2 édités par, respectivement, l’Institut Allen, Google, Facebook, OpenAI. Ces récentes innovations ont permis de passer un cap considérable dans le domaine du NLP (Natural Language Processing) ou TAL (Traitement Automatique des Langues), en d’autres termes une des branches importantes du Machine Learning et de l’intelligence artificielle permettant à un programme de comprendre le langage humain.

Les outils de TAL permettent d’interpréter des données en temps réel, ou presque, et c’est le défi qu’Estia a proposé à 3 étudiants de l’EISTI (Ecole internationale des sciences et du traitement de l’information) pour leur sujet de PFE (projet de fin d’étude).

Ce projet vise à capter et caractériser les opinions et mouvements d’opinion concernant la vague de protestation de Hong Kong qui se déroule déjà depuis près de 6 mois.

Les défis liés au traitement du contenu des réseaux sociaux

A l’aide d’un script de requêtage automatique et régulier de l’API de Twitter, les 3 étudiants ont extrait des tweets de manière non-supervisée en créant des filtres sur les commentaires issus de tweetos chinois s’exprimant en anglais. Puis ils ont cherché à structurer l’information, avec l’ajout de méta-informations pertinentes, en la mettant sous la forme d’une base de données.

Assez rapidement, la nature des données les a contraints à effectuer un certain nombre de prétraitements pour pouvoir exploiter chaque message posté. Chaque utilisateur est « auteur » et le langage se rapproche davantage de sa réalité que d’une quelconque norme linguistique. Les outils habituels du TAL se butent à l’emploi irrégulier, voire l’omission, de la ponctuation et des majuscules, à l’orthographe incorrecte ou inhabituelle et à la multiplication d’abréviations populaires. Les réseaux sociaux comportent un nombre considérable de publicités et une importante quantité de contenus non sollicités, non pertinents ou dérangeants, peuvent mêler différentes langues qu’il faut savoir concilier.

Cela souligne l’importance du prétraitement, visant à filtrer les pourriels et autres contenus non pertinents, et de la création de modèles de gestion du bruit efficaces, en vue du traitement du langage dans les médias sociaux.

Le subjectif au cœur de l’analyse de sentiment

Après la phase de prétraitement, une DataViz (représentations visuelles) du corpus de tweets dédié à l’analyse de sentiments a permis de mettre en avant la prépondérance de contenus subjectifs tout autant positifs que négatifs dans notre corpus. En effet, alors que les textes visent à offrir une information objective, neutre et factuelle, les tweets, quant à eux, sont davantage porteurs de sentiments voire d’émotion. L’information subjective joue donc un rôle essentiel dans l’analyse sémantique des textes issus des réseaux sociaux.

L’identification de sentiments peut donc être décomposée en une évaluation de l’objectivité dans un premier temps, suivie dans le cas d’un texte subjectif d’une seconde étape de détection de la polarité (positif, négatif ou neutre).

Le TAL est une discipline à laquelle on greffe une Intelligence Artificielle (IA) qui mêle linguistique et informatique.

Plusieurs types d’approches techniques ont été considérés :

  • Le Deep Learning s’avère considérablement performant pour faire évoluer la classification automatique, car il a été prouvé qu’il permet d’obtenir une meilleure précision, cependant il est plus lent et plus couteux à entrainer
  • Des méthodes linguistiques capables de comprendre des subtilités du langage humain, par exemple, en contextualisant un mot sous forme de vecteur word embeddings, ou en établissant des règles morphosyntaxiques avec le Part-Of-Speech tagging, les expressions régulières, des spécificités lexicales (émoticônes, abréviations, répétition de caractères, hashtags etc.), là où les algorithmes ne font pas tout

Ces approches techniques nous a permis de mettre en place deux modèles de classifications de tweets.

TAL : linguistique, informatique et IA face à l’information dynamique

Ce projet montre bien que les tweets sont rédigés de manière informelle, sur le ton de la conversation, et ressemblent plus à un « état d’âme » qu’au travail réfléchi et révisé avec soin habituellement attendu d’un média professionnel.

L’informatique sociale est un nouveau domaine axé sur la modélisation, l’analyse et la surveillance des comportements sociaux observés sur des plateformes et médias variés dans le but de concevoir des applications intelligentes. Ces plateformes favorisent la formation de communautés virtuelles ainsi que la connectivité et la collaboration entre les utilisateurs. Alors que les médias traditionnels – tels que journaux, télévision et radio – se caractérisent par un mode de communication unidirectionnel de l’entreprise jusqu’au consommateur, les médias sociaux, eux, proposent différentes plateformes où l’interaction dans les deux sens est possible. Les médias sociaux deviennent la source d’information la plus réactive et la plus exhaustive. Pour cette raison, ils sont maintenant la source primaire d’information.

Leave a Reply