In un articolo precedente, ho utilizzato un benchmark di 4 soluzioni ETL per elaborare un file di un miliardo di linee. Oggi provo l’effetto del SSD e formati di file proprietari sulla velocità di elaborazione di Alteryx, Tableau Prep, Talend e Anatella. I risultati sono piuttosto inaspettati.
Introduzione e revisione
Nella mia precedente analisi, ho confrontato la velocità di elaborazione di 4 soluzioni di preparazione dei dati: Alteryx, Talend, Tableau Prep e Anatella.
La pubblicazione sui social network sollevò diverse critiche del contenuto (perché testare la velocità di elaborazione?) e della forma (perché non ottimizzare la configurazione mettendo il file da elaborare su un SSD?)
Ho difeso le mie scelte sul test della velocità in quanto mi infastidisce la lentezza di alcune soluzioni, da un lato e, inoltre, ho ricordato alle persone che il tempo di elaborazione è costoso:
- minuti sprecati in attesa davanti al computer
- costi di elaborazione nel cloud
Ricordate che il vostro conto “cloud” è costituito prima di tutto dai costi di noleggio della CPU. Lo storage è diventato una merce molto conveniente.
Se decidete di usare una soluzione ETL “no-code”, vi conviene sceglierne una veloce, soprattutto se lavorate nel cloud e lo usate spesso.
ETL’s : Alteryx vs. Tableau Prep vs. Talend vs. Anatella
La scelta degli ETL per il confronto è del tutto arbitraria. Sono semplicemente quelli a cui ho accesso:
- Talend Open Studio v7.3.1
- Tableau Prep 2020.2.1
- Alteryx 2020.1
- Anatella v2.35
I primi tre sono ben noti; l’ultimo è una soluzione classificata nel benchmark G2. La uso da anni.
Ora passiamo ai risultati. Quanto tempo ci vuole per elaborare un set di dati di un miliardo di righe memorizzato su un SSD?
Risultati: Effetto di un SSD sul tempo di elaborazione degli ETL
Prima di tutto, vi ricordo che sono partito da un file CSV di 43,6 GB (è significativo!) e che ho eseguito 2 semplici operazioni (un ordinamento e un “group by”). Vi rimando all’articolo iniziale per tutti i diagrammi dei canali di elaborazione dei dati. Inizialmente, l’elaborazione girava su un HDD con una velocità di punta di 7200 rpm. Per questo nuovo test, ho spostato i file sul mio SSD e ho eseguito ogni query per ben 3 volte. Ho preso il valore più basso dei 3.
senza SSD | con SSD | Differenza | |
Alteryx | 2290 | 1609 | -30,1% |
Anatella | 730 | 679 | -6,9% |
Tableau Prep | 2526 | 2691 | +6,5% |
Talend | 13954 | 14340 | +2,7% |
I risultati sono sorprendenti. Credevo che l’uso degli SSD avrebbe avuto qualche effetto e, invece, non ce n’è quasi nessuno, tranne nel caso di Anatella, dove si verifica una diminuzione del tempo di elaborazione del 6,9% e con Alteryx, dove la riduzione è del 30,1%. L’elaborazione con Talend richiede ancora molto tempo e, usando Tableau Prep, c’è un leggero aumento.
Fortunatamente, avevo ancora una carta da giocare… e darà i suoi frutti.
Risultati: L’effetto del formato dati proprietario sul tempo di elaborazione
L’altro aspetto sul quale volevo indagare era il formato dei file. Alteryx e Anatella propongono formati di file proprietari che dovrebbero migliorare le prestazioni. Sono rispettivamente .yxdb e .gel Così, ho sostituito il file CSV da 50 GB con un file nei rispettivi formati proprietari. Come potete vedere, il risultato è spettacolare.
SSD + CSV file | SSD + formato file proprietario | Differenza | |
Alteryx | 1609 | 1116 | -30,6% |
Anatella | 679 | 96 | -85,8% |
Conclusioni
La prima conclusione che traggo da questo studio è che gli SSD non portano necessariamente un miglioramento del tempo di elaborazione. Tutto dipende dalla soluzione utilizzata. Mentre si nota un’accelerazione con Alteryx e Anatella, il guadagno più evidente si ottiene quando si usa il formato file proprietario. In particolare, con Anatella, il tempo di elaborazione è ottimizzato all’estremo e scende a 96 secondi.
Pubblicato in Data e IT.