2 juni 2021 583 woorden, 3 min. gelezen Laatste update : 10 juni 2021

Data preparation: hoe 85% besparen op verwerkingstijd

Door Pierre-Nicolas Schwab Gepromoveerd in marketing, directeur van IntoTheMinds
In een eerder artikel vergeleek ik 4 ETL-oplossingen voor het verwerken van een bestand van een miljard rijen. Vandaag test ik het effect van SSD en proprietary-bestandsformaten op de verwerkingssnelheid in Alteryx, Tableau Prep, Talend en Anatella. De resultaten zijn […]

In een eerder artikel vergeleek ik 4 ETL-oplossingen voor het verwerken van een bestand van een miljard rijen. Vandaag test ik het effect van SSD en proprietary-bestandsformaten op de verwerkingssnelheid in Alteryx, Tableau Prep, Talend en Anatella. De resultaten zijn redelijk onverwacht.

Inleiding en opfrissing

In mijn vorige analyse vergeleek ik de verwerkingssnelheid van 4 datavoorbereidingsoplossingen: Alteryx, Talend, Tableau Prep en Anatella.

Na de publicatie op sociale netwerken gingen er verschillende stemmen op om de inhoud (waarom de verwerkingssnelheid testen?) en de vorm (waarom de configuratie niet optimaliseren door het te verwerken bestand op een SSD te plaatsen?) te becommentariëren.

Ik heb mijn keuzes voor de snelheidstest verdedigd door enerzijds mijn frustraties over de traagheid van sommige oplossingen uit te leggen, en anderzijds door ons eraan te herinneren dat verwerkingstijd duur is:

  • enerzijds door minutenlang te moeten wachten kant
  • anderzijds door de verwerkingskosten in de cloud.

Vergeet niet dat uw cloudaccount voornamelijk bestaat uit CPU-huurkosten. Opslag is een zeer betaalbaar goed geworden.

Als u een “no code” ETL-oplossing kiest, kunt u er maar beter een kiezen die snel is, vooral als u in de cloud werkt en er vaak gebruik van maakt.


ETL’s: Alteryx vs. Tableau Prep vs. Talend vs. Anatella

De keuze van de te vergelijken ETL’s is tamelijk willekeurig. Het zijn gewoon degenen waar ik toegang tot heb:

  • Talend Open Studio v7.3.1
  • Tableau Prep 2020.2.1
  • Alteryx 2020.1
  • Anatella v2.35

De eerste drie zijn welbekend, de laatste is een oplossing die zeer goed scoort in de G2-benchmark (Engelse site). Ik gebruik het al jaren.

Laten we de resultaten bekijken. Hoe lang duurt het om een dataset van een miljard rijen op een SSD te verwerken?


Resultaten: effect van een SSD op ETL-verwerkingstijd

Allereerst herinner ik u eraan dat ik begonnen ben met een csv-bestand van 43,6 GB (dat is groot!) en dat ik 2 eenvoudige bewerkingen heb uitgevoerd (een sortering en een “group by”). Ik verwijs u naar het oorspronkelijke artikel voor alle schema’s van de gegevensverwerking.  Aanvankelijk werd de verwerking uitgevoerd op een HDD met een pieksnelheid van 7200 rpm.
Voor deze nieuwe test heb ik de bestanden naar mijn SSD verplaatst en elke query 3 keer uitgevoerd. Ik nam de laagste waarde van de 3.

zonder SSD met SSD verschil
Alteryx 2290 1609 -30,1%
Anatella 730 679 -6,9%
Tableau Prep 2526 2691 +6,5%
Talend 13954 14340 +2,7%

De resultaten zijn verrassend. Hoewel ik een effect verwachtte van het gebruik van SSD’s, is er uiteindelijk bijna geen, behalve in het geval van Anatella waar er een daling is in de verwerkingstijd van 6,9% en bij Alteryx waar de daling 30,1% is. Verwerken met Talend duurt nog altijd een eeuwigheid, en met Tableau Prep is er een lichte toename.

Gelukkig had ik nog een troef om uit te spelen… en die bleek te lonen.

Resultaten: effect van het proprietary-formaat op de verwerkingstijd

Het andere spoor dat ik wilde onderzoeken is het bestandsformaat. Alteryx en Anatella bieden eigen bestandsformaten aan die de prestaties zouden moeten verbeteren. Het zijn respectievelijk .yxdb, en .gel
Ik heb het 50 GB grote csv-bestand vervangen door een bestand met de respectieve eigen formaten. En zoals u merkt, is het resultaat spectaculair.

SSD + csv-bestand SSD + eigen bestandsformaat Verschil
Alteryx 1609 1116 -30,6%
Anatella 679 96 -85,8%

 


Conclusie

De eerste conclusie die ik zou trekken is dat SSD’s niet noodzakelijk een winst opleveren in termen van verwerkingstijd. Het hangt allemaal af van de gebruikte oplossing.
Als een versnelling merkbaar is met Alteryx en Anatella, wordt de meest merkbare winst behaald wanneer het eigen bestandsformaat wordt gebruikt. Vooral bij Anatella is de verwerkingstijd tot het uiterste geoptimaliseerd en teruggebracht tot 96 seconden.

 

 



Posted in Data en IT.

Plaats uw mening

Je e-mailadres zal niet getoond worden. Vereiste velden zijn gemarkeerd met *