Le scandale de l’algorithme de sélection des universités françaises révélé

Le scandale de l’algorithme de sélection des universités françaises révélé

Les technologies Big Data et en particulier les algorithmes qui ingurgitent les données sont sous le feu des critiques des défenseurs de la liberté. Je m’en suis moi-même fait l’écho dans un article où je réclamais des algorithmes plus transparents.

Le journal français Libération vient de révéler la pression à laquelle le ministère de l’éducation nationale fait face pour donner l’accès au code de son algorithme « APB ». Ce dernier est utilisé par les universités (et les autres filières telles que BTS et classes prépa) pour sélectionner leurs étudiants de première année venant des lycées. Les variables utilisées par cet algorithme sont restées secrètes jusqu’à ce qu’une association étudiante, épaulée par l’avocat bordelais Jean Merlet-Bonnan, a réussi à obtenir les 200 pages d’un manuel technique détaillant le mode d’emploi de l’outil de sélection.


Les variables utilisées dans l’algorithme de sélection

Écrit dans un style technique, le manuel révèle les principaux critères utilisés pour sélectionner les bacheliers :

  1. la zone géographique d’origine (le terme « zone » définissant ici une aire librement personnalisable)
  2. si l’étudiant est en « réorientation » (ce qui signifie que l’élève a changé de filière en raison des résultats insuffisants)
  3. des critères d’admission imposés pour certaines filières, comme par exemple un niveau d’anglais minimal

Le processus d’admission est ensuite suivi à l’aide de listes générées sur la base de critères définis de manière libre comme par exemple le pays d’origine, l’âge, le troisième prénom, …


Le parfait exemple d’un « algorithme » biaisé

Je doute qu’on puisse donner le nom d’«algorithme» à un outil qui peut être modifié par chaque utilisateur pour atteindre des buts divergents. Pour moi un algorithme doit être capable de produire des «réponses» homogènes d’un utilisateur à l’autre.

L’outil utilisé par l’Éducation Nationale semble dans ce contexte plutôt mal conçu. Sous des apparences de traitement égalitaire (l’algorithme choisit en toute objectivité), l’outil permet à ses utilisateurs de modifier les variables en entrée pour obtenir le résultat souhaité. Loin d’un processus garantissant l’égalité de traitement, ces lignes de code favorisent un pouvoir discrétionnaire qui permet de choisir les candidats souhaités et de rejeter les autres en toute opacité, tout en se défaussant sur l’outil informatique.

Par principe, je ne commenterai pas la pertinence des critères de sélection tels que le « pays de naissance ». Pour revenir à un exemple concret de dérive, Libération donne un exemple interpellant. La zone d’origine peut être modifiée librement par l’université pour y inclure une zone plus ou moins grande, éventuellement réduite à des établissements scolaires donnés. Je ne crois pas qu’il puisse y avoir meilleur exemple d’un «biais de sélection».


Conclusion

Cet exemple illustre à merveille les pires travers des outils algorithmiques lorsqu’ils sont mal conçus et surtout mal utilisés. Un algorithme opaque a ici été créé puis mis à la disposition d’utilisateurs qui peuvent librement en modifier le fonctionnement pour atteindre des objectifs confidentiels.

Tout est erroné dans cet exemple. C’est la raison pour laquelle transparence et éthique sont plus que jamais nécessaires en matière de Big Data et de processus algorithmique.


Publié dans Data et IT, Innovation, Marketing.