Big Data : proposition d’une classification des bulles de filtres

14 novembre 2016 • 1915 mots, 8 min. de lecture

Par Pierre-Nicolas Schwab

Big Data : proposition d’une classification des bulles de filtres

La question de l’existence des bulles de filtres (ou bulles cognitives) est centrale dans le domaine du Big Data et de la conception d’algorithmes. Parmi mes lectures multiples sur le sujet du Big Data, j’ai été notamment très influencé par la lecture sociologique que fait Dominique Cardon de la société dans laquelle nous vivons. Dans son livre « A quoi rêvent les algorithmes ? » il propose une grille de lecture basée sur 4 types de mesures du web, reposant chacune sur une typologie de donnée particulière (voir le tableau récapitulatif ci-dessous ainsi que la vidéo à la fin de cet article).

	Exemples	Données	Population	Forme de calcul	Principe
A côté	Médiamétrie, Google Analytics, affichage publicitaire	Vues	Échantillon représentatif	Vote	Popularité
Au-dessus	Page Rank de Google, Digg, Wikipédia	Liens	Vote censitaire, communautés	Classements méritocratiques	Autorité
Dans	Nombre d’amis Facebook, Retweet de Twitter, notes et avis	Likes	Réseau social, affinitaire, déclaratif	Benchmark	Réputation
Au-dessous	Recommandation Amazon, publicité comportementale	Traces	Comportements individuels implicites	Machine Learning	Prédiction

Grille d’analyse des différents types de données et de leur utilisation d’après Dominique Cardon

Pour prolonger la réflexion développée dans les articles que j’ai déjà écrit sur les bulles de filtres, je me suis donc posé la question suivante : « la classification proposée par Dominique Cardon peut-elle être réutilisée pour distinguer différents types de bulles de filtres ». C’est à cette question que j’essaye d’apporter des réponses dans cet article.

« EST-IL POSSIBLE DE RÉUTILISER LA CLASSIFICATION PROPOSÉE PAR DOMINIQUE CARDON POUR DISTINGUER DIFFÉRENTS TYPES DE BULLES DE FILTRES ? »

1er type de bulle à filtres : celle créée par la mesure de l’audience

Selon D. Cardon les « vues » sont un type de données utilisées pour produire des calculs d’audience. L’origine de cette mesure d’audience est à chercher dans le calcul des audiences pour les médias, qui se sont rapidement entendus pour faire appel à des organismes extérieurs garantissant la neutralité et la justesse du calcul des parts de marché. La place du calculateur est donc « à côté » des données pour reprendre le schéma de D. Cardon. Le calculateur produit une mesure de la popularité du producteur de données en fonction du nombres d’utilisateurs. Le calculateur est indépendant du contenu et le seul biais qui agit sur le contenu est donc celui du producteur lui-même. Dans le cas d’un média le journaliste (et l’équipe éditoriale) constituent donc les gatekeepers. L’utilisateur a la liberté de changer son comportement pour ne pas se cantonner à une perspective dominante, à une obédience (généralement droite vs. gauche) et pour éviter la polarisation. Des travaux académiques existent d’ailleurs sur la possibilité de confronter l’utilisateur online avec des vues contraires. A cet effet les médias américains avaient été classifiés en fonction de leur obédience politique (voir les travaux de An et al. 2012). On peut s’interroger également sur la polarisation des médias publics. Même si la déontologie journalistique (le gatekeeper suprême) devrait faire s’affranchir le journaliste de ses vues personnelles, rien ne peut empêcher une coloration politique. On se souviendra de la RAI des années 70 dont chaque chaîne était attribuée à un courant politique sous-jacent (RAI 3 était par exemple à tendance communiste). Le rédacteur en chef pose également des choix conscients en fonction des objectifs de l’entreprise, en définissant une ligne éditoriale. Il modèle ainsi la perception du monde qu’ont les lecteurs, auditeurs ou téléspectateurs.

2ème type de bulle à filtres : celle créée par les hyperliens

Les liens sont utilisés comme proxy d’autorité. Un lien cité témoigne implicitement de sa qualité ce qui donne naissance à l’algorithme de classification. Le problème c’est la prédominance de la première page dans ce qui est consommé. Même si on peut comprendre que quantité de pages puissent ne pas être pertinentes (parce qu’elles contiennent des erreurs et méritent de se voir rétrogradées en queue peloton) on peut s’interroger sur les différences de qualité informationnelle qui séparent les 10 premières des 10 suivantes. Or seuls 8,5% des internautes vont sur la seconde page de résultats google et encore moins (1,1%) sur la 3ème page. L’algorithme de Google (PageRank) étant de plus auto-apprenant (lorsque je clique sur un lien et que je reviens ensuite à la page de résultats, google dégrade la position du lien car il est jugé moins pertinent que si je ne revenais pas sur la page de résultats), le comportement de consommation de l’internaute conduit à ordonnancement des liens. Ainsi, un article court, facile à lire mais bourré de fautes et de biais, pourrait se voir classé supérieurement à un article long, fouillé mais compliqué à lire et n’attirant que les internautes les plus motivés par la difficulté de lecture. C’est ainsi que subrepticement nos sociétés glissent vers la médiocrité comme je l’avais écrit dans un article qui m’avait attiré quelques critiques mais quand même un peu de reconnaissance.

**3ème type de bulles à filtre : celle créée par les gatekeepers sociaux (= les influenceurs)**

Puisque la mesure d’autorité est désormais aussi intégrée à l’intérieur des sites (les retweets sur Twitter, les likes sur Facebook, les images ré-épinglées sur Pinterest, les checks sur Foursquare, …) il faut s’interroger sur le rôle des influenceurs qui ont su utiliser cette nouvelle métrique pour se projeter socialement et se construire une image et une réputation virtuelles. Une étude sur la polarisation des vues sur twitter montre bien l’influence que certaines personnes, aux nœuds du réseau social, peut avoir sur la propagation d’idées qui remettraient en question nos propres croyances. Il est également intéressant de s’intéresser au poids de ces influenceurs sur la diffusion des idées, toutes obédiences confondues, et de constater que les retweets, proxy modernes du bouche-à-oreille, sont accaparés par une minorité. Twitter est donc loin d’être un medium démocratique où chaque voix compte. C’est une méritocratie où la célébrité, les excès, accordent un statut particulier : celui de faire ressortir sa voix (le signal) parmi le brouhaha ambiant (le bruit numérique).

4ème type de bulle à filtres : celle créée par notre propre comportement

Comme le dit justement Dominique Cardon, les algorithmes « prédisent » le futur a partir du passé en prolongeant la pente des comportements passés. C’est sans doute cette manière de concevoir le futur qui a inspiré Eli Pariser lors de l’invention du terme « bulle à filtres ». Un exemple parmi d’autres est celui de Netflix qui recommande le prochain film à voir en fonction de ceux qui ont été consommés par le passé (voyez à cet effet mon article sur la conférence RecSys 2016). Cette manière de programmer l’avenir fait dépendre notre futur de notre passé, aussi médiocre soit-il, et nous fait glisser vers la médiocrité du réconfort. La plus petite dérive (vers un contenu « facile à regarder » par exemple) sera accentuée et nos faiblesses d’Être Humain se verront ainsi exploitées insidieusement pour nous faire lentement, mais sûrement, basculer vers la pente savonneuse de la médiocrité. Il n’y a plus de gatekeeper. L’algorithme nous livre à nos faiblesses. Il n’y a plus de regard externe pour nous sortir la tête de l’eau et nous re-challenger si le programmeur à l’origine de la recette algorithmique ne l’a pas voulu ainsi. Tout ceci pose bien évidemment la question de l’éthique et du Big Data, à laquelle certains parviennent à apporter des réponses satisfaisantes (voir l’exemple de Meetup.com)

Conclusion sur les différents types de bulles à filtres : le rôle du gatekeeper

La grille de lecture proposée par Dominique Cardon permet de constater que chaque typologie de données (vues, liens, likes, traces) construit sa propre matrice castratrice, sa propre bulle de filtre. Ce qui les différencie n’est pas tant le type de données utilisées que le rôle donné au gatekeeper : est-il présent ou pas, a-t-il un pouvoir de décision important sur la consommation de l’utilisateur, est-il animé de bonnes ou mauvaises intentions, est-il soumis à des règles déontologiques ou pas ? Voici autant de questions qu’il faut se poser pour évaluer la dangerosité de chaque modèle d’exploitation des données. Interrogeons-nous donc sur chacun des 4 modèles à l’aune de cette nouvelle lecture.

Dans le premier modèle (« à côté ») les « vues » sont utilisées par une autorité indépendante, connue et reconnue par tous, pour classer les producteurs de contenus entre eux. Chaque producteur obéit à des règles plus ou moins strictes pour s’adresser à ses utilisateurs et tenter de gagner des parts de marché. Il y a autant de gatekeepers que de producteurs et ces producteurs adhérent à des règles (le code journalistique par exemple) censées les mettre sur un pied d’égalité. Pour finir chaque utilisateur est libre d’adhérer, ou pas, aux perspectives proposées par chaque producteur et d’en changer si cela ne lui convient pas. Le monopole de l’opinion n’existe pas dans ce modèle. Ainsi, dans ce premier modèle, les mécanismes de gatekeeping sont présents à différents niveaux et les règles qui régissent les actions des différents acteurs du système sont connues.

Dans le second modèle (« au-dessus ») les hyperliens sont utilisés comme un proxy de l’autorité et la situation de monopole de Google réduit le nombre de gatekeeper à un. Seul l’utilisateur averti peut changer de gatekeeper en utilisant un moteur de recherche différent (comme TOR) produisant des résultats parfois plus aléatoires et perçus comme moins qualitatifs par l’internaute. Le pouvoir se concentre donc au sein d’un seul gatekeeper qui peut dès lors imposer ses vues, changer les règles du jeu (c’est-à-dire la recette algorithmique) sans devoir en référer à personne. Les webmestres ont un pouvoir trop fractionné pour exercer une quelconque influence.

Dans le troisième modèle (« dans ») les gatekeepers sont les nœuds du réseau social. Ils sont donc plus nombreux que dans le second modèle mais un pouvoir incroyable reste concentré dans quelques mains. Ce pouvoir peut donc être monnayé de manière plus transparente afin de propager la bonne parole numérique (ce sont par exemple vloggeurs et autres youtubeurs célèbres qui mettent leur célébrité virtuelle au service des marques voulant augmenter leur aura)

Dans le quatrième modèle (« au-dessous »), l’individu devient sont propre gatekeeper. Son comportement, avec ses failles et ses habitudes, devient la ligne directrice de son futur. Il n’existe plus d’autorité supérieure que l’algorithme pour décider, proposer et renforcer des comportements parfois nuisibles à l’individu lui-même. Je me suis interrogé sur les dangers d’addiction que représentent les algorithmes de recommandation de Netflix; au même titre on peut s’interroger sur les algorithmes qui recommandent aux télévendeurs Nespresso de vendre plus de café à quelqu’un qui en consomme déjà trop ou aux employés d’une banque de vous recommander des produits dont vous n’avez pas vraiment besoin (l’algorithme recommandant un produit à ceux qui ont la plus faible probabilité d’en profiter, réduisant ainsi les coûts pour la banque et augmentant ses bénéfices).

Photo : Shutterstock

Gouvernance algorithmique

Publié dans Data et IT, Innovation, Marketing.

Étude de marché B2B

Étude de marché B2C

Étude de satisfaction client

Étude de notoriété de la marque

Analyse de l'expérience client

Sondages