Dans leur tentative de comprendre le fonctionnement de l’algorithme de Linkedin, les utilisateurs de ce réseau social débattent souvent de l‘heure idéale pour mettre son contenu en ligne. J’ai décidé de faire quelques analyses pour faire la part de vérité et de mythes dans cette histoire.
Si ce genre d’analyse vous intéresse et si vous souhaitez faire la même chose avec vos données, inscrivez-vous à notre newsletter (ci-dessous). Lorsque la procédure et les outils seront prêts à être diffusés pour réaliser ces analyses, vous serez les premiers informés.
Introduction
Dès 2016 Linkedin lui-même a publié un billet de blog qui donnait des indications sur la meilleure heure pour publier ses contenus. Il se faisait ainsi l’écho d’une infographie publiée par Hubspot (voir ci-contre) qui affirmait que les contenus sur Linkedin devaient être publiés les mardi, mercredi et jeudi :
- le matin entre 7h30 et 8h30
- à midi
- l’après-midi entre 17h et 18h
Dans un luxe de détails on apprenait même que le mardi il était préférable de publier entre 10h et 11h.
Ces affirmations ont été reprises en boucle et chaque « influenceur » y est allé de sa propre analyse.
Depuis lors on assiste à une floraison de prédictions chaque année, au gré des modifications de l’algorithme. Désormais certains font même des prédictions par secteur d’activité.
Même si les chiffres sont là, je ne pense pas qu’il y ait une vérité universelle. Alors j’ai décidé de m’atteler à la tâche et de regarder en détail à quoi ressemblait la performance de mes posts sur Linkedin.
C’est cette histoire que je vais vous raconter à coups de graphiques et de visualisation sous Tableau. Je précise d’emblée que ces analyses n’ont aucune visée commerciale et qu’elles s’inscrivent dans le programme de recherche que je mène avec ma collègue Laurence Rosier au sein du laboratoire LaDisco de l’Université Libre de Bruxelles.
Méthodologie
L’accès aux données Linkedin a été un vrai défi méthodologique. Linkedin a en effet une fâcheuse tendance à vous empêcher d’accéder à vos propres données. Il a donc fallu déployer des trésors de patience pour réconcilier des datasets disparates. Cela n’aura été rendu possible que grâce à Anatella, une solution d’ETL (Extract-Transform-Load) dont j’ai déjà parlé par ailleurs.
Grâce à Anatella j’ai pu reconstituer un dataset complet de 675 posts. Le processus de réconciliation est visible ci-dessous (cliquez sur l’image pour l’agrandir) et se base sur 3 jeux de données :
- un fichier archive de mes posts des 10 dernière années (ce fichier contient le moment précis de publication, ce que l’on appelle le « timestamp »)
- un fichier json qui permet de faire la correspondance entre les ID des posts (urn et shareUrn)
- un fichier xml qui permet de récupérer les likes, commentaires et le nombre de vues.
Je remercie le créateur d’Anatella, Frank Vanden Berghen, pour son aide précieuse dans l’extraction du fichier xml ainsi que mon ami Michael pour le support dans l’écriture du code permettant l’extraction du fichier json.
Résultats
Voilà la partie que vous attendez tous. Évitons de raconter du bullshit et analysons plutôt des données objectives.
L’analyse du nombre de réactions obtenues en fonction de l’heure de publication montre que le créneau 8h-9h est celui durant lequel j’ai obtenu le plus de réactions (Likes + commentaires). Comme le montre le graphique ci-contre, ce sont plus de 1000 réactions qui ont été récoltées ainsi.
Il faut toutefois faire attention à toute conclusion hâtive. En effet, si vous comparez le graphique du nombre de réactions obtenues (en orange) avec le nombre de posts publiés (en bleu), vous vous rendez compte qu’ils se superposent plutôt bien.
En d’autres termes, le nombre de réactions suit simplement vos habitudes de publication. Pour déterminer les créneaux de publication les plus adéquats il faut d’intéresser au nombre de réactions par publication. C’est mesure reste toutefois imparfaite car vos messages varient. Il ne s’agit donc que d’un indicateur un peu plus précis mais qui reste loin de donner une vue parfaite. Cette précaution méthodologique étant prise, voici ce que cela donne.
Après élimination des valeurs pour lesquelles il n’y a pas assez de données (à gauche ci-dessus), on obtient un graphique (à droite, ci-dessus) qui représente le nombre de réactions par publication Linkedin. On constate visuellement qu’une tendance « descendante » semble être d’application de 7h à 21h.
Une régression linéaire (loin d’être parfaite) permet d’objectiver cette tendance. On constate qu’en effet le nombre moyen de réactions par post semble décroître légèrement d’heure en heure.
Conclusion
L’analyse d’un jeu de données composé de 675 messages postés sur Linkedin permet d’objectiver les hypothèses portant sur la meilleure heure de publication sur Linkedin. Dans mon cas, le nombre moyen de réactions semble diminuer légèrement au cours de la journée. Cette diminution reste toutefois très relative et on peut donc difficilement conclure à la supériorité d’un créneau horaire de publication.
Publié dans Data et IT.