Hacker un algorithme de recommandation est une opération qui peut rapporter gros. En effet, certains algorithmes de recommandation sont omniprésents dans notre vie digitale et orientent très fortement nos comportements. En fait, nous sommes devenus dépendants des algorithmes sans nous en rendre compte. On se souviendra par exemple que 35% des achats sur Amazon sont la conséquence directe d’une recommandation algorithmique. 80% des films regardés sur Netflix et 75% des vidéos sur YouTube sont suggérés par un algorithme. Pagerank, l’algorithme de Google, est sans doute l’algorithme de recommandation le plus étudié, celui qui fait l’objet du plus grand nombre de tentatives de « hacking » car il a un impact économique majeur. Plus de 70% des clics vont en effet aux 3 premières positions dans Google.
Mais en dehors de Google, il faut bien avouer que le hacking des algorithmes est un sujet bien peu étudié. Nous l’avons d’ailleurs relevé lors de la dernière conférence RecSys. Pourtant, comme le montre le projet de Simon Weckert, hacker un algorithme est possible (voir vidéo ci-dessous). Et ce qui est étonnant c’est que c’est même relativement « facile » lorsqu’on intervient en amont. Le secret de la manipulation des algorithmes réside en effet dans l’envoi de fausses informations à l’algorithme et cette technique est vraiment très difficile à contrer.

Sommaire

Comment faire pour tromper un algorithme ?
Hacking des algorithmes : quelles conséquences ?
Conclusion

Que faut-il faire pour tromper un algorithme de recommandation ?

La plupart des algorithmes qui recommandent du contenu utilisent les mêmes règles pour fonctionner, les mêmes données pour « s’alimenter » :

une ou plusieurs métriques d’engagement (les « likes », les commentaires, le nombre de partages)
la vélocité (c’est-à-dire la vitesse avec laquelle un contenu suscite l’engagement de ceux qui l’ont vu)
des métriques spécifiques à chaque site (le visionnage dans le cas d’un site de vidéo comme YouTube, le versement d’une somme d’argent pour soutenir un projet dans le cas de Kickstarter)

Une fois que vous avez compris cela, vous pouvez vous organiser pour manipuler l’algorithme. Il suffit d’envoyer à l’algorithme des informations qui vont perturber son fonctionnement et conduire à une réponse dans le sens désiré. Les effets sont garantis … à court-terme en tout cas.

Hacker les algorithmes de recommandation : quelles conséquences ?

Les conséquences peuvent être importantes, et pas seulement financièrement.

Google

Nous ne reviendrons pas sur l’algorithme de Google. L’introduction de cet article vous donnera un bon aperçu des conséquences. Je vous remets ces dernières uniquement sous forme de graphique ci-dessous.

Tripadvisor

L’algorithme de tripadvisor fonctionne sur la base de la notation des voyageurs. Hacker l’algorithme revient donc à multiplier les commentaires élogieux, quitte à les fabriquer. C’est ce qui a conduit Tripadvisor à punir La Mère Poulard, un restaurant a priori banal situé dans un endroit très touristique : le Mont-Saint-Michel. Le phénomène des faux avis est tel que Tripadvisor a mis en place un « badge rouge » qui avertit les visiteurs de la probable existence de faux commentaires sur un profil particulier. La DGCCRF (la direction de la répression des fraudes en France) estime que 45% des avis rédigés online sont faux.

Kickstarter

Voir sa campagne de crowdfunding affichée parmi les 10 plus populaires sur la page d’accueil de Kickstarter permet immanquablement d’attirer les visiteurs … et d’augmenter les chances de voir son projet financé. Des « hackers » se sont donc spécialisés dans la manipulation de l’algorithme de Kickstarter. Ils utilisent des groupes privées pour générer un engagement important en peu de temps ce qui permet d’avoir une vélocité élevé, un engagement élevé, et de se retrouver rapidement en tête des campagnes mises en avant. Le seul problème c’est de garder cette position. En effet cet « effet de masse » n’a qu’un impact limité dans le temps et il faut donc pouvoir mobiliser des audiences toujours plus élevées (notamment en dépensant des budgets publicitaires élevés) pour garantir sa position dans le top du classement.

Le fonctionnement de l’algorithme de Linkedin est assez bien connu. Le fonctionnement global de l’algorithme a été expliqué par Pete Davis ici, mais il n’a pas révélé bien entendu comme « manipuler » l’algorithme. Il apparaît qu’un critère déterminant dans la capacité d’un post à atteindre une large audience est sa vélocité. C’est-à-dire qu’il faut que le post en question génère de l’engagement (likes, commentaires, partages) rapidement. A titre indicatif, il faudrait s’assurer un maximum de réactions dans la 1ère heure qui suit la publication. J’ai interrogé un expert de Linkedin, Bruno Fridlansky, pour nous donner ses trucs et astuces pour rendre vos publications virales sur Linkedin.

Les 3 règles d’or pour un post populaire sur Linkedin

Pour que votre post sur Linkedin atteigne une audience considérable (au-delà de votre 2ème cercle), l’algorithme de Linkedin doit recevoir les signaux suivants :

un maximum de commentaires dans la 1ère heure de publication
répondre à chaque commentaire dans les 2 heures
pas d’hyperlien dans le post

Interview : les conseils de Bruno Fridlansky pour augmenter la viralité de vos posts sur Linkedin.

Quels sont les leviers sur lesquels jouer pour tirer parti de l’algorithme de Linkedin ?

« Aujourd’hui, ce qui mesure l’engagement […] c’est les commentaires qu’on reçoit sur nos publications et le fait que l’auteur réponde aux commentaires. Alors, est ce qu’il y a une bonne heure pour publier? Non, il n’y a pas plus bullshit que ces infographies qui sortent avec des moyennes d’horaires. Si on doit les respecter, c’est-à-dire qu’il faut publier mardi, jeudi, entre 10 heures et 11 heures. C’est juste des moyennes et des moyennes ça ne représente rien. Moi, je dis que la bonne heure pour publier, c’est quand on sait qu’on peut être disponible dans les deux heures qui suivent pour répondre aux commentaires, parce que c’est un outil pour faire des conversations. Si vous voulez faire de la communication, ça sert à rien. Vous n’allez faire aucune relation. Le but de cet outil, c’est de se connecter à des humains et de faire des relations professionnelles. Donc, vous allez publier au moment où vous savez que vous allez pouvoir répondre aux personnes qui vont vous commenter derrière. Qu’est ce que c’est une bonne publication? Là, effectivement, le format peut jouer. C’est à dire? Linkedin va favoriser des publications avec du texte ou du texte, avec un document format PDF ou une vidéo native, c’est-à-dire une vidéo qu’on va télécharger directement sur Linkedin. A contrario, il va plutôt pénaliser des publications avec des liens vers l’extérieur. En fait, ça fait sortir les membres de Linkedin et ça, c’est hors de question pour le réseau. Ils veulent que les membres restent au sein de Linkedin. Ça, c’est sur le format. Après, c’est qu’est-ce-que vous dites si vous êtes en train de parler de vous? Ce que j’appelle moi très vulgairement du Professionnal Branling, ça n’intéresse personne, sauf vos petits écosystèmes. Mais à ce moment là, on est entre soi. Non, ce qu’il faut, c’est apporter de la valeur. Qu’est ce que vous allez publier qui va apporter de la valeur à votre interlocuteur ? Comment vous allez le faire apprendre quelque chose ? Le faire progresser ? Le faire réfléchir et puis réfléchir ensemble par les commentaires qui vont interagir. Ne me parlez pas de vous, parlez moi de moi. Il n’y a que ça qui m’intéresse. C’est comme ça que tout le monde réagit. »

La bonne heure pour publier, c’est quand on sait qu’on peut être disponible dans les deux heures qui suivent.

Googlemaps

Dans un article précédent nous avons déjà parlé de l’expérience réalisée par Simon Weckert, un artiste allemand qui a « hacké » Google Maps pour lui faire croire à un bouchon dans une rue de Berlin. Les conséquences peuvent être importantes puisqu’en créant artificiellement un bouchon, il devient possible de détourner le trafic voiture et de favoriser / défavoriser certains commerces. McDonalds a d’ailleurs réalisé une expérience à plus grande échelle en Californie, qui mêlait publicité sur Waze et affichage traditionnel pour faire venir les clients dans ses points de vente.

En conclusion

Les algorithmes régissent nos vies. Impossible de se déplacer dans le monde digital sans être en contact avec un algorithme, en particulier un algorithme de recommandation. Qu’il s’agisse de faire un achat sur Amazon (35% des ventes) ou de regarder une vidéo sur Netflix (80% des vidéos regardées), les algorithmes nous conseillent et nous suivons (souvent aveuglément) leurs prescriptions. Les algorithmes peuvent donc nous manipuler.

Les concepteurs de ces programmes informatiques jurent leurs grands Dieux que les algorithmes sont objectifs. Sans doute le sont-ils dans une certaine mesure. Mais les techniques que nous avons vues dans cet article relèvent d’une tout autre manière de faire du hacking puisque ce sont des signaux erronés qui sont envoyés à l’algorithme afin de le tromper. L’algorithme ne montre donc aucun signe de dysfonctionnement mais réagit comme prévu aux stimuli qui lui sont envoyés. On se souviendra que l’algorithme de Google avait été « piraté » de la même manière par ceux qui créaient des « fermes de liens ». Cette « fraude à l’hyperlien » avait été détectée et l’algorithme amélioré mais les fraudeurs ont toujours un coup d’avance et il ne sera jamais possible de prévoir, à l’avance, tous les détournements possibles d’un algorithme.

Publié dans Data et IT.

Par Pierre-Nicolas Schwab Pierre-Nicolas est Docteur en Marketing et dirige l'agence d'études de marché IntoTheMinds. Ses domaines de prédilection sont le BigData l'e-commerce, le commerce de proximité, l'HoReCa et la logistique. Il est également chercheur en marketing à l'Université Libre de Bruxelles et sert de coach et formateur à plusieurs organisations et institutions publiques. Il peut être contacté par email, Linkedin ou par téléphone (+32 486 42 79 42)

Comment hacker les algorithmes de recommandation ?