Dans leur tentative de comprendre le fonctionnement de l’algorithme de Linkedin, les utilisateurs de ce réseau social débattent souvent de l‘heure idéale pour mettre son contenu en ligne. J’ai décidé de faire quelques analyses pour faire la part de vérité et de mythes dans cette histoire.
Si ce genre d’analyse vous intéresse et si vous souhaitez faire la même chose avec vos données, inscrivez-vous à notre newsletter (ci-dessous). Lorsque la procédure et les outils seront prêts à être diffusés pour réaliser ces analyses, vous serez les premiers informés.
Introduction

- le matin entre 7h30 et 8h30
- à midi
- l’après-midi entre 17h et 18h
Dans un luxe de détails on apprenait même que le mardi il était préférable de publier entre 10h et 11h.
Ces affirmations ont été reprises en boucle et chaque « influenceur » y est allé de sa propre analyse.
Depuis lors on assiste à une floraison de prédictions chaque année, au gré des modifications de l’algorithme. Désormais certains font même des prédictions par secteur d’activité.
Même si les chiffres sont là, je ne pense pas qu’il y ait une vérité universelle. Alors j’ai décidé de m’atteler à la tâche et de regarder en détail à quoi ressemblait la performance de mes posts sur Linkedin.
C’est cette histoire que je vais vous raconter à coups de graphiques et de visualisation sous Tableau. Je précise d’emblée que ces analyses n’ont aucune visée commerciale et qu’elles s’inscrivent dans le programme de recherche que je mène avec ma collègue Laurence Rosier au sein du laboratoire LaDisco de l’Université Libre de Bruxelles.
Méthodologie
L’accès aux données Linkedin a été un vrai défi méthodologique. Linkedin a en effet une fâcheuse tendance à vous empêcher d’accéder à vos propres données. Il a donc fallu déployer des trésors de patience pour réconcilier des datasets disparates. Cela n’aura été rendu possible que grâce à Anatella, une solution d’ETL (Extract-Transform-Load) dont j’ai déjà parlé par ailleurs.
Grâce à Anatella j’ai pu reconstituer un dataset complet de 675 posts. Le processus de réconciliation est visible ci-dessous (cliquez sur l’image pour l’agrandir) et se base sur 3 jeux de données :
- un fichier archive de mes posts des 10 dernière années (ce fichier contient le moment précis de publication, ce que l’on appelle le « timestamp »)
- un fichier json qui permet de faire la correspondance entre les ID des posts (urn et shareUrn)
- un fichier xml qui permet de récupérer les likes, commentaires et le nombre de vues.
Je remercie le créateur d’Anatella, Frank Vanden Berghen, pour son aide précieuse dans l’extraction du fichier xml ainsi que mon ami Michael pour le support dans l’écriture du code permettant l’extraction du fichier json.
Résultats
Voilà la partie que vous attendez tous. Évitons de raconter du bullshit et analysons plutôt des données objectives.

Il faut toutefois faire attention à toute conclusion hâtive. En effet, si vous comparez le graphique du nombre de réactions obtenues (en orange) avec le nombre de posts publiés (en bleu), vous vous rendez compte qu’ils se superposent plutôt bien.


Une régression linéaire (loin d’être parfaite) permet d’objectiver cette tendance. On constate qu’en effet le nombre moyen de réactions par post semble décroître légèrement d’heure en heure.
Conclusion
L’analyse d’un jeu de données composé de 675 messages postés sur Linkedin permet d’objectiver les hypothèses portant sur la meilleure heure de publication sur Linkedin. Dans mon cas, le nombre moyen de réactions semble diminuer légèrement au cours de la journée. Cette diminution reste toutefois très relative et on peut donc difficilement conclure à la supériorité d’un créneau horaire de publication.











