Tout le monde s’accorde pour dire que le contenu des posts Linkedin est déterminant dans la probabilité qu’ils deviennent viraux. Aujourd’hui je ne vais pas répondre à la question « De quoi faut-il parler sur Linkedin ? » mais plutôt « Comment faut-il en parler ?« . J’ai utilisé un corpus de 4 millions de posts Linkedin pour mesurer les sentiments exprimés et analyser la corrélation avec leur viralité.
Cette analyse fait suite à celle que j’ai publiée ici sur un ensemble de 4,6 millions de posts et dans laquelle j’avais mis en évidence le rôle du réseau, du nombre de mots et du nombre d’émojis dans la viralité d’un post Linkedin.
Si vous voulez en savoir plus sur Linkedin et recevoir mes analyses exclusives par email, il faut suffit de vous abonner à ma newsletter (ci-dessous). Veillez à bien valider le lien d’abonnement qui vous sera envoyé par email !
Sommaire
- Méthodologie
- Résultats détaillés
- Analyse de sentiments : comment ça marche ?
- Différences de sentiments exprimés en fonction de la langue
- 3 analyses détaillées de sentiments
- Analyse de sentiments des posts viraux sur Linkedin
- Modèle de prédiction : effet de la subjectivité sur la viralité des posts Linkedin
Les résultats en bref
- Seulement 0,21% des posts récoltent plus de 1000 réactions
- Entre 82 et 89% des posts publiés Linkedin peuvent être qualifiés de « subjectifs »
- Entre 71% et 77% des posts sur Linkedin expriment des émotions positifs.
- Pas besoin de faire forcément dans les émotions positives pour connaître le succès sur Linkedin.
- Le post le plus viral de dataset (817355 réactions au moment d’écrire ce billet) exprimait des émotions négatives.
- Des différences notables en matière d’émotions et d’objectivité/subjectivité sont relevées en fonction de la langue
- Les émotions exprimées dans un post Linkedin n’ont pas d’influence statistique sur sa probabilité de devenir viral.
- Une subjectivité moyenne de 0,5 permet de faire passer la probabilité de viralité de 3,59% à 5,2%
Méthodologie
- Un dataset de 4,6 millions de posts Linkedin a été utilisé. Les données ont été préparées avec Anatella (société Timi) pour :
- détecter la langue du post (algorithme CLD2)
- mesurer le sentiment des posts en Français, Anglais et en Néerlandais
- Les données ont ensuite été visualisées et explorées sous Tableau puis un modèle prédictif été mis au point avec Modeler (société Timi).
- Le nombre de posts analysés est le suivant :
- Anglais : 2,556 millions
- Français : 1,108 million
- Néerlandais : 68876
Résultats détaillés
- Entre 72% et 77% des posts sur Linkedin expriment des émotions positives.
- Entre 23% et 28% des posts sur Linkedin expriment des émotions négatives.
- Les posts Linkedin en Français sont en moyenne plus positifs que les messages en anglais et en néerlandais
- Les émotions exprimées n’influencent que marginalement la viralité d’un post Linkedin (4,6%)
- La viralité du post est en majorité influencé par la subjectivité (31,7%)
- La viralité maximale est atteinte pour les posts avec
- une subjectivité de 0,5 à 5,55
- une polarité de 0,24 à 0,35
L’analyse de sentiments, comment ça marche ?
L’avènement du NLP (Natural Language Processing) a permis de mettre une palette de nouveaux outils à disposition. Dans mon logiciel d’ETL préféré (Anatella), un module est ainsi dédié depuis peu à l’analyse des sentiments. L’analyse des sentiments se base sur 2 variables :
- la subjectivité
- la polarité
La subjectivité est mesurée sur une échelle qui va généralement de -1 à 1 ou de 0 à 1. Dans le cas de l’algorithme utilisé dans Anatella, c’est [-1;1]. Un post subjectif est évolue de 0 à 1, et un post objectif de 0 à -1.
La polarité correspond à une évaluation des émotions contenues dans le texte. Là encore elle est mesurée sur une échelle de de -1 à 1. Les émotions négatives se trouvent entre -1 et 0; les émotions positives entre 0 et 1.
Si vous voulez en savoir plus je vous conseille cette discussion sur Quora.
Des différences notables dans le « ton » des posts Linkedin en fonction de la langue
Dans cette première visualisation j’ai divisé les posts en 4 catégories en fonction de la subjectivité (négative/positive) et de la polarité (négative/positive).
Comme une subjectivité négative correspond à l’objectivité j’ai utilisé ce terme. Le terme de « polarité » renvoyant aux émotions, j’ai donc choisi d’utiliser ce terme pour une meilleure compréhension.
On retrouve donc avec 4 « quadrants » qui permettent de répartir les posts Linkedin en fonction de leur objectivité/subjectivité et des émotions positives/négatives. Comme vous pouvez le voir des différences notables existent entre les différentes langues (n’hésitez pas à cliquer sur l’image pour l’agrandir).
Les posts Linkedin sont quasiment toujours subjectifs … sauf en français
Le graphique ci-dessous montre les sentiments exprimés dans les 99,79% de posts ayant recueillis moins de 1000 réactions. Vous voyez que la grande majorité d’entre eux se situe dans la partie supérieure du diagramme, c’est-à-dire dans la partie « subjective ». Seuls les posts en français font un peu exception à cette règle.
Les posts Linkedin viraux sont en en grande majorité subjectifs et expriment des émotions positives
Le graphique ci-dessous permet de visualiser les posts Linkedin qui ont généré plus de 1000 réactions (likes + commentaires). La majorité se situe, comme les posts non viraux, dans le quart supérieur droit (voir cadre en pointillés). Il s’agit donc de posts subjectifs dont les émotions exprimées sont positives. On note toutefois pour la langue anglaise un nombre non négligeable de posts dans le quadrant supérieur gauche, c’est-à-dire celui des posts dont les émotions exprimées sont négatives. Le post le plus viral de tout le dataset s’y trouve d’ailleurs.
Le post le plus viral du dataset est l’œuvre de cette personne. Il est classé comme un post légèrement négatif en termes d’émotions et moyenne subjectif. Je vous laisse décider si l’algorithme a fait du bon boulot. Comme vous pouvez le voir, depuis que le dataset m’a été fourni, ce post a continué de recevoir des likes et des commentaires. Le nombre cumulé de réactions est désormais de 817355.
La subjectivité a la plus grande influence sur la viralité du post Linkedin
La dernière partie de cette analyse consistait à savoir quel était l’effet des variables « subjectivité » et « polarité » sur la probabilité d’un post linkedin de devenir viral.
Le modèle de prédiction a été réalisé en utilisant « Modeler » de la société Timi. J’ai suivi la même méthodologie que dans mon étude précédente. J’ai modélisé la probabilité de récolter 100 réactions sur un post linkedin. Les « réactions » sont définies comme la somme des likes et des commentaires.
Le modèle Timi montre que la subjectivité contribue à hauteur de 31,7% dans l’atteinte de l’objectif; la contribution de la variable « polarité » (c’est-à-dire les émotions exprimées) n’est que de 4,6% En d’autres termes les émotions exprimées dans le post n’ont guère d’effet sur la probabilité d’un post de devenir viral.
La probabilité « naturelle » d’atteindre les 100 réactions est de 3,59%. Lorsque la subjectivité du post est de 0,5 environ, cette probabilité passe à 5,2%.
Remerciements
Merci à Tableau Software pour son soutien dans mes recherches.
Merci à Frank Vanden Berghen et à Timi pour leur aide en mettant à disposition Anatella et Modeler.
Publié dans Data et IT.