4 août 2020 1183 mots, 5 min. de lecture Dernière mise à jour : 15 mars 2022

Tableau Iron Viz 2020 : réflexions sur ma première participation

Par Pierre-Nicolas Schwab Docteur en marketing, directeur de IntoTheMinds
L’Iron Viz est le « championnat du monde » qui couronne les 3 meilleurs développeurs Tableau, un logiciel qui permet de visualiser les données. Cette année j’ai décidé d’y participer également (accéder à ma contribution ici). Dans cet article je reviens sur […]

L’Iron Viz est le « championnat du monde » qui couronne les 3 meilleurs développeurs Tableau, un logiciel qui permet de visualiser les données. Cette année j’ai décidé d’y participer également (accéder à ma contribution ici). Dans cet article je reviens sur mon expérience, ce que la préparation du concours m’a appris et sur les difficultés que j’ai rencontrées.

6 conseils pour une bonne #Dataviz

  1. Passez du temps à choisir une source de données principale de qualité et riche plutôt que réaliser de multiples jointures
  2. Enrichissez votre source de données en amont avec un ETL puissant (j’ai opté pour Anatella dont j’ai déjà parlé sur ce blog)
  3. Limitez-vous à 2 jointures
  4. N’utilisez pas plusieurs sources de données séparées : cela empêche de raconter une histoire complète
  5. Privilégiez le fond noir pour un rendu visuel plus impactant
  6. Définissez un nombre fini de scenarii à partir desquels l’utilisateur pourra choisir

Quelques mots sur ma contribution à l’IronViz

Ma visualisation s’intéresse au problème de l’obésité aux Etats-Unis et se divise en 2 parties :

  • Partie A : l’obésité aux États-Unis au travers de 2 visualisations : présentant les statistiques par Etat sous forme d’une hexmap isométrique , et un joyplot montrer les foyers d’obésité au niveau des comtés américains (plus de 3000)
  • Partie B : une perspective permettant de replacer les États-Unis à une échelle plus globale et de suivre l’évolution de l’obésité sur les 30 dernières années
Contribution Iron Viz 2020

Ma contribution à l’Iron Viz 2020


Trouver la bonne idée : le challenge principal

La thématique de cette année était « santé et bien-être », un thème « dans l’air du temps » avec l’épidémie du Covid-19. L’avantage était donc qu’il pouvait être traité d’un nombre infini de manières; l’inconvénient était qu’il pouvait être traité d’un nombre infini de manières. Trop de choix tue le choix et c’est justement le problème que j’ai rencontré. Où trouver une idée intéressante à traiter ? Quelles données pourraient se révéler intéressantes à exploiter ?

J’ai très tôt était inspiré par la mise en relation des deux termes constituant le titre : « santé » d’une part, « bien-être » d’autre part. Mon idée initiale était d’utiliser la mesure du bonheur comme indicateur de bien-être et de le mettre en opposition d’un autre indicateur.

C’est à la faveur de longues heures d’errance sur les sites d’open data que j’ai finalement jeté mon dévolu sur la thématique de l’obésité. Restait juste à trouver quoi raconter avec ces données.


Technique ou story telling ?

Le site Tableau Public regorge d’exemples merveilleux de visualisations. Certaines sont étonnamment simples, d’autres incluent des visualisations particulièrement complexes qui requièrent des développements compliqués. Les meilleurs développeurs se plaisent en effet à détourner les possibilités de Tableau pour créer de nouveaux types de visualisations : diagrammes à corde (voir le merveilleux exemple de Marc Reid ici), diagrammes Sankey.

Le choix cornélien qui se posera si vous décidez de participer à l’Iron Viz et le suivant : faut-il privilégier l’histoire que racontent les données (le storytelling) ou faire une démonstration de technique ?
En ce qui me concerne j’ai choisi la 2ème option et a posteriori je ne pense pas que c’est la meilleure chose que j’ai faite. Mon envie de réaliser un joy plot a en effet précédé celle de raconter une histoire, si bien que j’ai construit ma contribution à l’IronViz d’abord autour du joyplot avant de penser au storytelling.


Privilégiez un nombre fini de scenarii

Diagramme de Sankey par Praveen Jose

Diagramme de Sankey par Praveen Jose

C’est en voyant la contribution d’un autre participant que je me suis rendu compte d’une erreur que j’avais faite. Si mes visualisations racontaient bien une histoire, les actions sur l’une d’elles n’entraînaient pas de modifications sur les autres. Or il me semble que le succès d’une visualisation tient à la capacité à rendre l’utilisateur curieux. Pour ce faire il faut rendre les changements visibles.

Je pense qu’il est donc important, dans ce genre d’exercice, de définir un nombre limité de scenarii. Chaque scenario doit correspondre à un cas intéressant, sélectionné en amont. La sélection de ce cas permet de mettre visualiser des différences notables et intéressantes.
Le diagramme de Sankey est particulièrement adapté à cet usage :

  • les différences se visualisent sous forme de « chemins » que l’utilisateur peut suivre dans le sens du dashboard
  • les autres « chemins » restent visibles en filigrane ce qui permet de voir les différence

Style : le noir c’est plus facile

La puissance visuelle des visualisations sur fond noir est indéniable. J’en est déjà fait l’expérience avec ma visualisation sur les migrations vers l’Union Européenne (voir ci-dessous). Cette fois-ci j’ai voulu me risquer à une visualisation sur fond clair ce qui n’a pas été sans poser des challenges. En effet le fond noir donne une homogénéité à l’ensemble du dashboard que je retrouve pas dans la version sur fond blanc.


La préparation des données

On entend souvent que 90% du temps d’un data scientist est passée sur la préparation des données. Dans mon cas je dirais que c’était plutôt 50% car les données étaient déjà très propres. Ce qui a pris le plus de temps a été la réconciliation des données géographiques, notamment la détermination des centroïdes pour la représentation par comtés. J’ai aussi passé beaucoup de temps pour préparer le maillage qui se cache derrière le joy plot. Tableau Prep Builder ne m’a été d’aucune aide car j’avais conçu un maillage trop fin qui consommait trop de ressources.
Au final j’ai utilisé pas moins d’une dizaine de sources de données pour ma contribution à l’Iron Viz et cela a été une erreur.  Si c’était à refaire, je passerais plus de temps à choisir une source de données principale complète et de qualité, et n’excéderait pas 2 jointures avec des sources externes.

Les côtés positifs de ma participation à l’Iron Viz

Quelque soit le résultat de l’Iron Viz, le grand gagnant c’est moi. Les heures passées sur ce challenge m’ont permis d’apprendre une multitude de nouvelles techniques et d’innover avec un nouveau type d visualisation : une hexmap isométrique (voir ci-dessous).

hexmap isométrique

L’innovation que j’ai proposée dans le cadre de l’Iron Viz 2020 : une hexmap isométrique

Les dizaines d’heures passées à préparer l’Iron Viz m’ont également donné de nouvelles idées que j’expérimenterais ces prochains mois en vue d’alimenter mon profil sur Tableau Public.
Vous avez vous aussi participé à l’Iron Viz ? Partagez votre expérience dans les commentaires.



Publié dans Data et IT.

Donnez votre avis

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *