La première journée de la conférence RecSys 2018 a été dédiée aux tutoriels. L’un d’entre eux était consacrée aux méthodes mixtes d’évaluation de la satisfaction des utilisateurs. Il était organisé par une équipe de chercheurs de Spotify (Jean Garcia-Gathright, Christine Hosey, Brian St. Thomas, Ben Carterette) et Fernando Diaz de Microsoft Research (Canada). Les aspects abordés portaient sur des méthodes de recherche qualitative, de recherche quantitative et de l’analyse de données ; une combinaison de techniques qui ressemble en fait beaucoup à ce qui est pratiqué dans le cadre d’études de marché.

Les systèmes de recommandation sont évalués à l’aide de mesures orientées système.

C’est le point de départ de ce tutoriel et sa justification. La plupart des métriques utilisées pour évaluer les algorithmes de recommandation sont en fait orientées « système » : elles mesurent principalement les erreurs de ce dernier. Un excellent aperçu de ces métriques a d’ailleurs été proposé après RecSys 2017 par Marco Creatura. Son analyse montre à quel point ces métriques dominaient les travaux de recherche présentés lors de l’édition 2017

MSE : erreurs quadratiques moyennes
mesure F1
MAE : erreur absolue moyenne
RMSE : erreur quadratique moyenne
MAP : moyenne de la précision moyenne
Précision et rappel : Le rappel est la fraction de positifs qui sont correctement étiquetés (Rappel = vrais positifs /(vrais positifs +faux négatifs)) ; la précision est la fraction d’exemples classés comme positifs qui sont vraiment positifs (Précision = vrais positifs /(vrais positifs + faux positifs))
nDCG : net discounted cumulative gain
AUC (aire sous la courbe)
MRR ou « Mean Reciprocal Rank » : Il s’agit du rang de la première bonne réponse d’un système.

Pour en savoir plus sur Précision, Rappel et le lien avec la courbe ROC, rendez-vous sur cet article.

L’analyse de Marco Creatura sur les métriques utilisées pour évaluer les systèmes de recommandations présentés lors de RecSys2017

Pour mesurer la satisfaction, il faut combiner plusieurs techniques

En plus des métriques orientées système, des études quantitatives orientées utilisateurs sont également utilisées (plus rarement cependant). Toutefois ces deux méthodologies sont rarement combinées.

Priorité à la satisfaction : utilisez d’abord une méthodologie qualitative puis quantitative

Les intervenant ont décrit la méthodologie idéale comment étant mixte. Elle commence d’abord par des techniques de recherche qualitative afin de comprendre les facteurs comportementaux qui entrent en jeu et proposer un modèle comportemental global. Les techniques quantitatives (enquêtes d’une part, données enregistrées sur les comportements des utilisateurs d’autre part) permettent ensuite de vérifier le modèle et de quantifier les différents facteurs affectant le comportement.
Nous n’entrerons pas dans les détails de la partie qualitative (nous avons un livre blanc sur les techniques d’étude de marché qui contient une section détaillée sur les études qualitatives) et nous concentrerons plutôt sur l’enregistrement des comportements en ligne.

Interprétation de la performance des algorithmes : quels comportements faut-il enregistrer ?

La question de savoir quelles informations collecter pour mesurer la performance des algorithmes est cruciale mais traitée souvent de manière superficielle. La plupart des mesures (y compris celles ci-dessus) sont basées sur une mesure clics. Ceci est cependant très insuffisant pour appréhender un construit aussi complexe que la satisfaction des utilisateurs face à une recommandation algorithmique.
Les organisateurs de l’atelier ont proposé d’aborder ce problème en se concentrant sur 4 axes :

attention
interaction
réussite de la tâche effectuée
rétention / fidélisation

Ce qui m’a beaucoup plus c’est leur capacité à proposer des définitions simples pour chacun de ces 4 axes. Par exemple, quelle peut être l’utilité d’une recommandation si l’utilisateur ne la voit pas ( » attention « ) et qu’est-ce que l’utilisateur veut réaliser lorsqu’il/elle reçoit une recommandation ?
Il s’agit là de questions fondamentales mais souvent complètement ignorées (j’en ai fait l’expérience).

Les comportements online courants des utilisateurs et comment les enregistrer

Rentrons maintenant dans le détail de ces 4 axes.

attention

Il est ici question de savoir si l’utilisateur a vu la décision du système, en d’autres termes si l’utilisateur a vu ou non la recommandation algorithmique. Le fait de ne pas le voir conduit évidemment à l’inaction, un comportement que nous avons abordé dans un autre article.
Mesurer l’attention, qui est un concept plus large que le simple fait d' »avoir vu », nécessite de consigner et d’analyser :

chargement des pages : un long temps de chargement des pages peut faire en sorte que les recommandations ne soient pas visibles.
défilement de la page (scroll) : en faisant défiler la page l’utilisateur passe-t-il au-dessus des recommandations sans les voir ? Le temps de défilement vous permet-il de déduire s’il a eu le temps de voir réellement les recommandations ?
suivi du curseur : le suivi du curseur peut vous aider à déduire si l’utilisateur a vu les recommandations. Il existe en effet des études qui établissent les corrélations entre les mouvements des yeux et les mouvements du curseur, ce qui permet de déduire si une recommandation s’est retrouvée dans le champ de vision de l’utilisateur.
aspects tactiles pour les appareils mobiles : un zoom sur une recommandation est un moyen évident d’inférer l’attention de l’utilisateur
oculométrie : c’est la méthode idéale pour suivre le regard des utilisateurs et en déduire avec certitude leur attention. Cette méthode vous renseigne à la fois sur les mouvements des yeux (la trajectoire des yeux lors de la navigation sur une page) et sur le temps passé sur les différents éléments.

interaction avec les recommandations

L’interaction avec les recommandations est évidemment très importante et englobe une série de signaux qu’il est intéressant de suivre.
En voici quelques-uns :

clics
le temps de consommation : aussi évident que cela puisse paraître, le temps de consommation est interprété différemment selon la plate-forme. Consommer plus de 3 secondes d’une vidéo sur Facebook est considéré comme une vue. Sur YouTube, c’est 30 secondes. Le seuil est extrêmement important et aura un impact important sur la façon dont vous analyserez vos données.
enregistrer un élément dans une liste de lecture (playlist) est aussi un signal fort qui indique à quel point vous aimez la recommandation
partager un article sur les médias sociaux peut être considéré comme du bouche-à-oreille et est un signal fort que l’utilisateur ressent quelque chose de particulier. Soyez toutefois prudent. Cela ne veut pas nécessairement dire que le sentiment de l’utilisateur est positif. Le bouche-à-oreille peut également généré par un sentiment négatif.
les commentaires laissés en dessous d’une recommandation sont également un signal fort que l’utilisateur ressent quelque chose (encore une fois positif ou négatif)
un mécanisme de feedback explicite lié aux émotions est extrêmement utile pour mieux comprendre le comportement de l’utilisateur avec votre interface. Les émoticônes de Facebook sont un excellent exemple de la façon de faire la différence entre les différents sentiments qu’un utilisateur peut ressentir lorsqu’il interagit avec votre contenu.
la re-consommation (excusez le néologisme) d’un article est un signal extrêmement fort. Comme dans le cas du « partage » ce comportement n’est pas nécessairement lié à un sentiment positif. Vous pouvez détester un contenu à tel point que vous souhaitez le consommer à nouveau, mais la probabilité reste quand même faible. La re-consommation est généralement le signe d’une forte affinité.
l’approfondissement : c’est un comportement très intéressant que l’on oublie souvent de suivre. Dans l’interface de Spotify par exemple, vous pouvez cliquer sur le nom de l’artiste pour obtenir plus d’informations à son sujet

Succès de la tâche

La question principale à laquelle vous essayez de répondre ici est « L’utilisateur a-t-il grâce à la recommandation atteint son objectif ? ». En d’autres termes, est-il satisfait de la recommandation algorithmique ?
Inférer le succès d’une tâche exige que vous compreniez parfaitement ce que l’utilisateur cherche à atteindre. Le succès se mesure en fonction de l’objectif de l’utilisateur. Si vous fournissez une recommandation ou une série de recommandations (une playlist par exemple), une consommation complète est un bon signal que l’utilisateur est satisfait de la recommandation.
Les organisateurs de l’atelier ont à ce sujet attiré l’attention des participants sur une étude très intéressante de Mehrotra et al (2017). Cet article montre que le contexte détermine comment certains signaux doivent être interprétés.

« Une requête n’est rien d’autre qu’une supposition faite sur les attributs que le document désiré doit avoir »

Rétention / Fidélisation

Si les recommandations algorithmiques sont perçues comme utiles par l’utilisateur, vous pouvez vous attendre à ce que ce dernier revienne et consomme plus. En conséquence, l’utilisateur peut, s’il apprécie les recommandations :

revenir plus souvent (fréquence de consommation)
consommer plus (volume de consommation)
changer son comportement (rechercher de nouveaux sujets par exemple)
explorer davantage et » s’aventurer » dans des catégories qu’il n’avait pas l’habitude de parcourir auparavant

La rétention / fidélisation peut prendre plusieurs formes. Il ne s’agit pas seulement du classique indicateur « pages vues par visite ». Vous devez choisir minutieusement en fonction du contexte et de votre compréhension de ce que l’utilisateur veut réaliser.

Conclusions

En conclusion, j’ai trouvé cet atelier extrêmement utile. Cela m’a aidé à réfléchir à la façon dont nous collectons et analysons les données pour nos clients. Je me rends compte qu’il est parfois nécessaire de revenir à l’essentiel et de vraiment essayer de comprendre ce que signifie la satisfaction du client. Ironiquement, en tant qu’expert de la satisfaction client je ne peux pas m’expliquer comment j’ai perdu de vue l’importance de la recherche qualitative et l’impérieuse nécessité de bâtir un modèle comportemental dans un contexte de recommandation algorithmique. C’est probablement le signe que lorsque vous faites quelque chose pendant trop longtemps, vous avez tendance à perdre votre esprit critique.

Référence : R. Mehrotra, A. Hassan Awadallah, M. Shokouhi, E. Yilmaz, I. Zitouni, A. El Kholy, M. Khabsa. Deep sequential models for task satisfaction prediction. CIKM 2017

Publié dans Recherche.

Par Pierre-Nicolas Schwab Pierre-Nicolas est Docteur en Marketing et dirige l'agence d'études de marché IntoTheMinds. Ses domaines de prédilection sont le BigData l'e-commerce, le commerce de proximité, l'HoReCa et la logistique. Il est également chercheur en marketing à l'Université Libre de Bruxelles et sert de coach et formateur à plusieurs organisations et institutions publiques. Il peut être contacté par email, Linkedin ou par téléphone (+32 486 42 79 42)

Analyse des algorithmes de recommandation : l’intérêt des méthodes mixtes