Après avoir analysé mes meilleures heures de publication sur Linkedin, je me suis attaqué à un problème autrement plus difficile : déterminer les sujets qui me rapportaient le plus de vues et d’engagement sur Linkedin. Dans le billet d’aujourd’hui je vais vous montrer les résultats que j’ai pu obtenir en utilisant 2 outils spécifiques : Anatella pour l’extraction et la préparation des données d’une part, et Tableau pour l’exploration et la visualisation des résultats d’autre part. Si vous êtes intéressé(e) par ce type d’analyse et souhaitez obtenir une étude personnalisée, merci de me contacter par email ou … via Linkedin 🙂
Si vous n’avez que 30 secondes
- J’ai développé une méthode qui permet d’analyser de manière automatique les sujets dont vous avez parlé sur Linkedin.
- Les sujets dont vous parlez le plus souvent sur Linkedin ne sont pas forcément ceux qui vous rapportent le plus de likes et de commentaires
- Le « sujet » d’un post Linkedin semble être corrélé au nombre de commentaires et de likes que vous recevez.
Sommaire
- Introduction
- Méthodologie
- Evolution des thématiques traitées sur Linkedin par année
- Corrélation entre sujet traité sur Linkedin et nombre de vues
- Corrélation entre sujet traité et nombre de réactions
- Conclusion
- Remerciements
Introduction
De quoi faut-il parler sur Linkedin pour engager son réseau ? C’est la question de recherche que je me suis posée dans le cadre de mon programme de recherche au sein du laboratoire LaDisco (Université Libre de Bruxelles). Dans un premier temps j’ai réalisé une analyse de type NLP (Natural Language Processing) de chacun de mes +/- 4000 messages postés sur le réseau social depuis 10 ans. J’ai ensuite relié les thématiques abordées dans chaque post au nombre de vues, de commentaires et de likes reçus. Ce type d’analyse permet donc de répondre à plusieurs questions :
- comment vos centres d’intérêt ont-ils évolué au cours du temps
- quels sont les sujets qui vont ont rapporté le plus de vues
- quels sont les sujets qui vous ont rapporté le plus de likes et de commentaires
Méthodologie
Pour extraire les données de Linkedin j’ai utilisé une méthode dérivée de celle que j’ai exposée dans un billet précédent. Deux jeux de données ont été utilisés :
- Les archives de Linkedin sur 10 ans qui permettent grâce à l’horodatage une analyse longitudinale des sujets traités
- Une multitude de fichiers json extraits des pages de Linkedin qui permettent une reconstitution précise du nombre de vues, commentaires, likes et autres réactions sur les 1000 derniers messages publics
Le contenu de chaque message a ensuite été analysé grâce à un algorithme de NLP (Natural Language Processing) qui m’a permis d’extraire les thématiques traitées. Plusieurs thématiques sont affectées à chaque message et un coefficient est affecté pour représenter la confiance de l’algorithme dans l’identification du sujet. Après une rapide vérification, j’ai décidé de ne garder que les sujets dont le coefficient de confiance était supérieur à 0,75. Cela permet d’éliminer la majorité des faux positifs. J’aurais pu être encore plus restrictif, mais il y aurait moins de corrélations à analyser et surtout j’aurais éliminé des vrais positifs.
Note méthodologique : suite à un échange avec Bruno Fridlansky, un expert français du réseau Linkedin, ce dernier m’a demandé pourquoi je n’utilisais pas le fichier « reactions.csv » présent dans le fichier archives. La raison en est que le fichier « reactions.csv » est très incomplet. La méthode mise au point sur la base de l’extraction des fichiers json permet de retracer environ 5000 réactions sur 3 ans alors que le fichier fourni par Linkedin n’en compte que 1500 sur une période de 10 ans.
Passons maintenant aux résultats.
Plutôt que de parler de tout et n’importe quoi sur Linkedin, pourquoi ne pas en effet vous concentrer sur ce qui vous rapporte le plus de vues ?
De quoi ai-je parlé sur Linkedin ces dernières années ?
La visualisation ci-dessous vous montre, année après année, les thématiques que j’ai abordées sur mon profil Linkedin (cliquez sur l’image pour l’agrandir).
Comme vous pouvez le constater mes sujets de prédilection ne sont pas restés les mêmes, et reflètent plutôt fidèlement les projets sur lesquels je travaillais ainsi que les centres d’intérêts que j’ai développés. J’ai été étonné de constater qu’en 2019 mes publications ont été dominées par 2 sujets (business et marketing) et que les aspects technologiques qui prédominaient les années précédentes se sont effacés cette année-là. L’équilibre semble être retrouvé en 2020.
Plutôt que de parler de tout et n’importe quoi sur Linkedin, pourquoi ne pas en effet vous concentrer sur ce qui vous rapporte le plus de vues ?
Quels sont les sujets qui m’ont rapporté le plus de vues sur Linkedin ?
Voici une question que tout le monde devrait se poser. En effet, tous les sujets ne sont pas forcément bons à traiter sur Linkedin. Votre réseau pourrait être sensible à certaines thématiques particulières qu’il vous faut avoir identifiées. Plutôt que de parler de tout et n’importe quoi sur Linkedin, pourquoi ne pas en effet vous concentrer sur ce qui vous rapporte le plus de vues ? C’est exactement ce que j’ai cherché à savoir en représentant les sujets traités au fil des années sous forme de « treemap » d’une part, puis en ajoutant un indicateur de couleur afin d’identifier les sujets les plus porteurs.
Quels sont les sujets qui ont créé le plus d’engagement sur Linkedin ?
Pour finir, la dernière question est celle de l’engagement de votre réseau. Là aussi, il s’agit d’un thème souvent abordé par les experts de Linkedin : « il faut parler de ceci ou de cela pour susciter des réactions de son réseau ». Pour en avoir le cœur net j’ai donc voulu en savoir plus. J’ai représenté d’une part les sujets traités sous forme d’histogramme, et d’autre part le nombre de commentaires et de likes reçus.
Comme vous le voyez, les thématiques « business » et « marketing » sont celles qui concentrent le plus de réactions. Pour y voir plus clair, j’ai donc exclu temporairement de l’analyse ces sujets pour éviter qu’ils « n’écrasent » les autres.
Vous constaterez d’abord que la courbe des « likes » et celle des « commentaires » se « suivent’ assez bien lorsqu’on les analyse à l’aune de la thématique traitée (voir graphe ci-dessous). Il y a donc bien une corrélation entre le nombre de likes et le nombre de commentaires reçus sur un post Linkedin.
Par contre, cette corrélation n’apparaît pas de manière aussi évidente avec un scatter plot traditionnel (voir ci-dessous). On peut donc suspecter que la variable « sujet du post Linkedin » est une variable modératrice.
Pour que les résultats apparaissent encore plus clairement, j’ai réutilisé le « treemap » et ai ajouté une couleur pour identifier le nombre de réactions (likes + commentaires) reçues. Comme vous pouvez le voir, les sujets que j’ai traités le plus souvent ne sont pas forcément ceux qui ont provoqué l’engagement le plus important.
Conclusions
Cette étude préliminaire permet de valider une méthodologie 1) d’extraction des thématiques à partir des messages publics postés sur Linkedin, et 2) de lier ces thématiques au nombre de vues, de commentaires et de likes. Les données ainsi extraites permettent de visualiser l’évolution des centres d’intérêt d’une personne à travers le temps d’une part, et d’identifier les sujets les plus porteurs d’autre part. Ce travail n’est qu’une étape préliminaire dans une approche plus globale de la compréhension de la dynamique du réseau Linkedin. Des variables de contrôle telles que la taille du réseau et le moment de publication ne sont ici pas prises en compte.
Remerciements
Au terme de ce premier jalon de mon travail j’aimerais remercier Frank Vanden Berghen, Raphaël Vander Marcken et Michael Silvestre pour leur concours précieux dans la réalisation de cette analyse. Merci également à Frank et Raphael pour les adaptations d’Anatella dans le cadre de cette étude.
Publié dans Data et IT.