Gagnez de l’argent en répondant à nos enquêtes

Inscrivez-vous dès maintenant !
Le blog de la société IntoTheMinds
Conseils en Data & IT

Data preparation : comment gagner 85% de temps de traitement

Gagnez jusqu’à 50€ en participant à une de nos études de marché rémunérées.

Inscrivez-vous dès maintenant !

Dans un article précédent j’avais réalisé un benchmark de 4 solutions ETL pour le traitement d’un fichier d’un milliard de lignes. Aujourd’hui je teste l’effet du SSD et des formats de fichiers propriétaires sur la vitesse de traitement dans Alteryx, Tableau Prep, Talend et Anatella. Les résultats sont assez inattendus.

Introduction et rappel

Dans mon analyse précédente j’avais comparé la vitesse de traitement de 4 solutions de data preparation : Alteryx, Talend, Tableau Prep et Anatella.

Après sa publication sur les réseaux sociaux, plusieurs voix s’étaient élevées pour critiquer le fond (pourquoi tester la vitesse de traitement ?) et la forme (pourquoi ne pas optimiser la configuration en plaçant le fichier à traiter sur un SSD ?).

J’ai défendu mes choix sur le test de la vitesse en expliquant mes frustrations devant la lenteur de certaines solutions d’une part, et en rappelant d’autre part que le temps de traitement coûte cher :

  • en minutes passées à attendre devant sa machine d’une part
  • en coûts de processing dans le cloud ensuite.

Rappelez-vous en effet que votre facture « cloud » est avant tout constituée de frais pour la location des CPU’s. Le stockage est devenu une commodité très abordable.

Si vous choisissez une solution ETL « no code », vous avez donc tout intérêt à en choisir une qui est rapide, surtout si vous travaillez dans le cloud et que vous l’utilisez souvent.


ETL’s : Alteryx vs. Tableau Prep vs. Talend vs. Anatella

Le choix des ETL’s à comparer est tout à fait arbitraire. Il s’agit simplement de ceux auxquels j’ai accès :

  • Talend Open Studio v7.3.1
  • Tableau Prep 2020.2.1
  • Alteryx 2020.1
  • Anatella v2.35

La première n’est pas un outil de « data preparation » per se. La dernière est une solution très bien classée dans le benchmark G2 (catégorie « high performer). Je la pratique depuis des années.

Venons-en maintenant aux résultats. Combien de temps prend le traitement d’un dataset d’un milliard de lignes stockée sur un SSD ?


Résultats : effet d’un SSD sur le temps de traitement des ETL’s

Avant toute chose je rappelle que je suis parti d’un fichier csv de 43,6 Go (c’est gros !) et que j’ai effectué 2 opérations simples (un tri et un « group by »). Je vous renvoie à l’article initial pour toutes les schémas des filières de traitement des données.  Initialement le traitement a tourné sur un HDD avec une vitesse de pointe de 7200 tours/minutes.

Pour ce nouveau test j’ai déplacé les fichiers sur mon SSD et ai fait tourner à 3 fois chaque requête. J’ai pris la valeur la moins élevée des 3 (moins de 1% de différence a été constaté entre les 3 mesures).

sans SSD avec SSD différence
Alteryx 2290 1609 -30,1%
Anatella 730 679 -6,9%
Tableau Prep 2526 2691 +6,5%
Talend 13954 14340 +2,7%

Les résultats sont interpellant. Alors que j’escomptais un effet de l’utilisation su SSD, au final il n’y en a quasiment pas, sauf dans le cas d’Anatella où on constate une diminution du temps de traitement de 6,9% et avec Alteryx où la baisse est de 30,1%. Le traitement sous Talend dure toujours une éternité, et sous Tableau Prep il y a une légère augmentation.

Heureusement j’avais encore une carte à jouer … et cella-là va se révéler payante.

Résultats : effet du format propriétaire de données sur le temps de traitement

L’autre piste que j’ai souhaité investiguer est celle du format de fichier. Alteryx et Anatella proposent des formats de fichiers propriétaires qui sont censés améliorer les performances. Il s’agit respectivement de .yxdb, et .gel
J’ai donc remplacé le fichier csv de 50 Go par un fichier aux formats propriétaires respectifs. Et comme vous pouvez le voir le résultat est spectaculaire.

SSD + fichier csv SSD + format de fichier propriétaire Différence
Alteryx 1609 1116 -30,6%
Anatella 679 96 -85,8%

 


Conclusions

La première conclusion que je tire est que le SSD n’apporte pas forcément un gain en termes de temps de traitement. Tout dépend de la solution utilisée.

Si une accélération est perceptible avec Alteryx et Anatella, le gain le plus notable est atteint lorsque le format de fichier propriétaire est utilisé. Avec Anatella en particulier le temps de traitement est optimisé à l’extrême et passe à 96 secondes.

 

 

Étiquettes :

Author: Pierre-Nicolas Schwab

Pierre-Nicolas est Docteur en Marketing et dirige l'agence d'études de marché IntoTheMinds. Ses domaines de prédilection sont le BigData l'e-commerce, le commerce de proximité, l'HoReCa et la logistique. Il est également chercheur en marketing à l'Université Libre de Bruxelles et sert de coach et formateur à plusieurs organisations et institutions publiques. Il peut être contacté par email, Linkedin ou par téléphone (+32 486 42 79 42)

Share This Post On

Submit a Comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *