J’ai participé à un atelier au Maastricht European Centre on Privacy and Cybersecurity où j’ai rencontré le Professeur Alessandro Mantelero du Polytecnico di Torino. Le Prof. Mantelero est bien connu comme spécialiste de la protection des données à caractère personnel, un sujet devenu soudainement très important avec la nouvelle régulation sur les données personnelles (GDPR) qui entrera en application en Mai 2018. Dans sa présentation, il soulignait entre autres les biais des algorithmes et la nécessité de les éviter. À l’aide d’exemples tirés du secteur de l’assurance (boîtes noires) et du domaine de la criminologie (algorithmes de prédiction de la criminalité), Alessandro a démontré que les algorithmes pouvaient discriminer certains groupes de personnes.
Les boîtes noires dans les voitures, source de discrimination
Par exemple les boîtes noires installées sur les véhicules peuvent identifier certains trajets (en se basant sur les coordonnées GPS), les quartiers et les heures où les accidents sont les plus susceptibles de se produire. L’exemple que donnait Alessandro était édifiant : on peut imaginer un algorithme prédictif calculant une plus grande probabilité d’accidents pour les personnes noires conduisant la nuit. Cette probabilité plus élevée serait sans doute due à la pénombre mais également à la consommation de produits alcoolisés ou de substances interdites. La boîte noire ne détecte évidemment pas ces consommations. Par conséquent, les prédictions ne peuvent se baser que sur des variables qu’elle recueille : les coordonnées GPS et l’heure du jour par exemple. L’algorithme, utilisant ensuite des données socio-démographiques des assurés, pourrait dès lors conclure que les personnes habitant un quartier particulier et qui conduisent la nuit ont une probabilité d’accident plus élevé et devraient payer plus. Or, les quartiers présente une certaines homogénéité ethnique, ce qui pourrait conduire à discriminer par exemple les personnes noires travaillant de nuit, même si ces dernières ne consomment pas d’alcool.
Le problème c’est la causalité
Le problème dans l’exemple ci-dessus est la causalité. La boîte noire ne sait pas si vous avez consommé de l’alcool. L’alcool ou les stupéfiants sont la vraie cause de l’accident. Cela n’a rien à voir avec l’origine de la personne ou sa couleur de peau. Mais l’algorithme ne peut pas le savoir. D ‘autres variables sont donc utilisées par ce dernier pour prédire les accidents et c’est la combinaison de ces variables (des proxys) qui conduit à la discrimination. C’est tout le problème du Big Data. Alors que la causalité était au cœur du travail des sociologues et des statisticiens il ya 20 ans (et même avant), la causalité n’est plus quelque chose que nous essayons de comprendre aujourd’hui. Le Big Data donne l’illusion de la récolte de données objectives alors que la production de ces dernières est dénuée de toute information sur leur contexte de production.
La discrimination est-elle inhérente à tout type d’algorithme ?
La question que je me suis posée a été la suivant : « les algorithmes sont-ils par nature discriminatoires ? » Les algorithmes sont par essence programmés pour identifier des groupes de personnes (des segments ou clusters) afin qu’une relation plus personnelle puisse être tissée avec eux. Il n’y a rien de mal à cela. Qui ne voudrait pas être traité personnellement plutôt que comme un numéro ? Là où le bas blesse c’est quand les algorithmes associent des variables comportementales qui permettent d’isoler des personnes ou groupes de personnes données; en d’autres termes lorsque la combinaison de ces variables conduit à isoler un groupe de personnes sur la base de leurs traits plutôt que sur leurs actes.
Comment éviter la discrimination algorithmique
Alessandro Mantelero a proposé que les algorithmes soient testés et que les résultats soient jugés en fonction de leur nature discriminatoire. C’est un sage conseil. Les fabricants de médicaments testent en permanence leurs produits, même après leur mise sur le marché. Pourquoi devrait-il en être différemment des producteurs d’algorithmes ?
Image : shutterstock
Publié dans Data et IT, Innovation.