BIAIS DES DONNÉES : PEUR SUR L’ALGO

BIAIS DES DONNÉES : PEUR SUR L’ALGO

Vous êtes-vous déjà demandé pourquoi votre moteur Google vous suggérait certaines associations de mots plutôt que d’autres quand vous tapiez votre recherche ? Pourquoi certaines publicités apparaissaient beaucoup plus fréquemment sur votre IP que sur l’IP de votre voisin – qui se trouve être du sexe opposé ? et les séries suggérées sur Netflix différentes selon le profil renseigné (alors que les programmes regardés sont les mêmes) ?

Le terme est connu : ce sont les « biais ». Soit l’introduction de discriminations ou, plus globalement, d’une réalité déformée au cœur des algorithmes. Avec pour conséquence : un résultat déloyal et inéquitable, qui ne représente pas la réalité.

Un peu de théorie : Profiling des Biais

Les Biais Cognitifs :

Ce sont les biais qui reposent sur la vision partiale du développeur par rapport à la réalité : celui-ci va alors modéliser des corrélations en fonction de ses perceptions.

  • Le biais « du mouton de Parnurge »: le programmeur utilise des corrélations ou des modélisations qui sont populaires sans s’assurer de leur exactitude.
  • Les biais de confirmation: le programmeur favorise sa propre perception de la réalité sur l’ensemble des données disponibles. Il ne prend en considération que les données qui confirment sa croyance et ignorent celles qui le contredisent.
  • Le biais de corrélations illusoires : le programmeur décèle des corrélations entre deux évènements qui sont par nature indépendants, ou amplifie le poids d’une corrélation dans le résultat. Par exemple : il surestime le lien entre une caractéristique psychologique d’un individu et son appartenance à un groupe social.
  • Le biais de stéréotype : celui-ci n’est pas le fait du programmeur mais bien de la population statistique : un individu agit en référence au groupe social auquel il s’identifie plutôt que sur ses capacités individuelles. Par exemple : une femme qui se censure sur la réponse à certaines offres d’emploi.

Les Biais Statistiques :

Ce sont les biais qui proviennent de « mauvaises » données ou de méthodologies statistiques déséquilibrées.

  • Le biais des données : les données d’entraînement par exemple ne sont pas fiables et ne représentent pas l’univers de référence.
  • Le biais de variable omise : une caractéristique sensible (ex : appartenance à un groupe social, origine ethnique ou caractéristique psychologique) est omise dans le modèle et cette variable est fortement corrélée à d’autres variables du modèle. Le résultat de l’algorithme est par définition amputé d’un paramètre clé qui conduit à des estimations biaisées.
  • Le biais de sélection : l’échantillon de population étudié n’a pas les mêmes caractéristiques que la population en général. Le biais de sélection est parfois difficile à contourner dans la mesure où ce sont souvent ces caractéristiques propres qui ont conduit le statisticien à construire l’échantillon.
  • Le biais d’endogénéïté : l’algorithme ne prend en compte que les données passées mais ne tient pas compte des ajustements que les individus peuvent faire par anticipation. Par exemple : ajuster des investissements boursiers sur un titre stable par anticipation d’un krach, ou ajuster un comportement à risque (santé, finances, etc) par anticipation d’une crise à venir (maladie, non-obtention d’un crédit, etc).

Les Biais Économiques

Ce sont les biais qui reposent sur une analyse coût/bénéfice de l’utilisation de telle donnée ou de tel algorithme. Ils conduisent les décideurs à privilégier les populations statistiques qui sont plus facilement rentables et moins entachées d’incertitudes. Par exemple : pousser un algorithme de publicité ciblée sur des populations qui ont le plus de chance d’acheter… et limiter ainsi la base d’apprentissage à une certaine catégorie d’individus.

Un biais célèbre : l’Algorithme de Risque de Récidive

En 2013-2014, l’entreprise Northpoint étudie les données de 7000 personnes arrêtées par la justice dans le comté de Broward en Floride. Elle met alors au point un algorithme (nommé COMPAS) assignant à chaque individu un score de risque de récidive. Les données prises en compte par COMPAS : le niveau d’éducation, l’employabilité, l’historique judiciaire de l’entourage… L’algorithme est immédiatement adopté par certaines juridictions d’autres Etats, sans accès à la méthodologie de celui-ci car il constitue un secret commercial.

Or, en mai 2016, des chercheurs publient un article dans lequel ils mettent en garde la justice américaine contre cet algorithme. Ils s’appuient sur les cas de récidive réelle observés sur ces populations et concluent que les prévenus noirs y seraient deux fois plus notés à tort comme de futurs criminels que les prévenus blancs. Et à l’inverse, les prévenus blancs seraient deux fois plus inscrits à tort en « risque faible ».

Une justice à deux vitesses qui affole les cours d’assises… et qui amène les prévenus à inscrire l’explicabilité de l’algorithme en ligne de défense : l’un d’eux, Eric Loomis, lourdement condamné à six ans d’emprisonnement pour participation à une fusillade a ainsi fait appel auprès de la Cour Suprême en pointant le caractère inexplicable de cet algorithme dans son procès.

Leave a Reply