22 Marzo 2021 1169 parole, 5 lettura minima Ultimo aggiornamento : 25 Settembre 2021

Preparazione dei dati: come scegliere la soluzione giusta per le vostre esigenze?

Di Pierre-Nicolas Schwab Dottorato di ricerca in marketing, direttore di IntoTheMinds
Uso regolarmente 4 soluzioni per la preparazione dei dati: Alteryx, Tableau Prep, Talend e Anatella. Il benchmark G2 ne elenca ben 40. In questo articolo spiego perché il benchmark G2 non è necessariamente rilevante, e quali criteri utilizzare per confrontare […]

Uso regolarmente 4 soluzioni per la preparazione dei dati: Alteryx, Tableau Prep, Talend e Anatella. Il benchmark G2 ne elenca ben 40. In questo articolo spiego perché il benchmark G2 non è necessariamente rilevante, e quali criteri utilizzare per confrontare le soluzioni ETL (Extract – Transform – Load) più adatte alle vostre esigenze.

Sommario


crédits : Shutterstock

Introduzione: Che cos’è un ETL?

Se state leggendo questo articolo, è probabile che sappiate cosa sia un ETL. Mi limiterò quindi a un breve richiamo. Un ETL (o Estrai – Trasforma – Carica in inglese) è una soluzione per la preparazione dei dati. Con questo tipo di software si può

  • importare dati (Estrai) da diversi ambienti
  • lavorare su di essi (Transform) per renderli più qualitativi, per arricchirli, ecc…
  • e “inviarli” (Carica) in un nuovo ambiente dopo averli preparati

L’ETL non è di per sé uno strumento per specialisti. La maggior parte degli ETL opera secondo il principio No-CODE, utilizzando “scatole” che corrispondono a una particolare funzionalità e collegandole tra loro per formare una “pipeline”. È molto semplice e molto potente.

pipeline Tableau Prep

Una pipeline di preparazione dei dati con Tableau Prep



pipeline ETL Anatella

Preparazione dati ad Anatella


pipeline Talend ETL

Una pipeline di preparazione dei dati in Talend


ETL pipeline Alteryx

Preparazione dei dati in Alteryx


Ecco alcuni esempi di queste pipeline sopra in 4 soluzioni: Talend, Anatella, Alteryx, Tableau Prep. Come si può vedere, sembrano tutti uguali.

Quindi, la mia definizione di ETL include la dimensione “trasformazione dei dati”.


crédits : Shutterstock

I criteri di riferimento G2

Veniamo ora al benchmark ETL proposto da G2. Per chi non ha familiarità con G2, questo è un marketplace che raccoglie recensioni di utenti professionali su ogni tipo di software che si possa immaginare. Penso che il loro slogan abbia molto senso:

Perché è più facile ottenere informazioni imparziali su una camera d’albergo da $ 100 che un software da $ 100.000?

E in effetti, penso che sia fondamentale avere informazioni di qualità, se possibile, oggettive quando si acquista un software. Troppo spesso l’acquirente è impotente di fronte alla pletora di soluzioni per la stessa esigenza.

G2 ha una categoria riservata agli ETL (118 al momento della stesura di questo articolo) e un’altra per le soluzioni di preparazione dei dati (circa 40). Il benchmark ha 2 assi:

  • presenza sul mercato
  • soddisfazione

La mappa è suddivisa in 4 quadranti che vi ricorderanno i benchmark proposti da Gartner (i famosi “quadranti magici”):

  • Leader
  • Contendenti
  • Nicchia
  • Ad alte prestazioni
Benchmark data preparation G2

Il confronto degli strumenti di preparazione dei dati proposti da G2

Francamente mi piace il principio di G2 ma mi chiedo se questa carta sia davvero utile.

Innanzitutto c’è un problema di terminologia. I 118 strumenti elencati nella categoria ETL sono più simili a “EL”. Consentono solo di passare da un formato di file a un altro. Gli ETL “reali” che consentono la trasformazione dei dati sono nella categoria “preparazione dati”. Trovo che questo porti molta confusione.

In secondo luogo, la segmentazione proposta non ha molto senso per l’utente ETL. Una mappa dovrebbe essere uno strumento decisionale. Dovrebbe permettere di identificare immediatamente la/le soluzione/i più adatta al suo utilizzo. Tuttavia, qui viene proposta una visione di “marketing” che non è di reale utilità per chi cerca una soluzione tecnica a un problema particolare.

La questione è quindi sapere quali caratteristiche di un ETL si stanno differenziando. Questo è ciò che tratterò nella prossima sezione.


crédits : Shutterstock

ETL: i criteri più importanti da scegliere

Prima di tutto, vorrei sottolineare che non pretendo di avere la verità assoluta. Come ho detto nell’introduzione, ci sono 118 strumenti elencati nel benchmark G2 ETL. Nessuno li conosce tutti, e quindi un confronto è necessariamente soggettivo.

Nei paragrafi seguenti svilupperò gli aspetti di un ETL che considero differenzianti.

Criterio n°1: elaborazione dati disponibile nell’ETL

Seriamente, questo è il criterio numero 1 che prenderei in considerazione se dovessi acquistare un ETL. Più funzioni di elaborazione si hanno a disposizione (pulizia, trasformazione, ecc.), meno si faticherà a preparare i dati. Perché se le funzionalità di cui si ha bisogno non sono disponibili in modo nativo, si dovrà programmarle da soli. E per quanto mi riguarda, preferisco usare No-Code piuttosto che dovermi preoccupare della programmazione. Un esempio concreto di una funzionalità super utile è quella della corrispondenza fuzzy. Ho confrontato diversi algoritmi e approcci di corrispondenza fuzzy in diversi ETL e alcuni sono chiaramente migliori di altri. Avere tali caratteristiche “native” è chiaramente un grande vantaggio.

functionalities Tableau Prep

Le funzionalità disponibili in Tableau Prep sono piuttosto limitate ma coprono le esigenze più comuni.

Criterio n°2: velocità

Penso che l’importanza della velocità di elaborazione sia sottovalutata. Tuttavia, come ho mostrato in questo articolo, le differenze possono essere sostanziali anche su operazioni banali come l’ordinamento. Quando si gestiscono file di grandi dimensioni, un pessimo ETL può diventare rapidamente un ostacolo. Per me la velocità è essenziale perché spesso eseguo e riconcilia file di grandi dimensioni e… perché odio aspettare.

Criterio n°3: numero di connettori in e out

Sempre più connettori sono incorporati nativamente negli ETL per soddisfare le esigenze più diverse. Faccio particolare attenzione ai connettori di uscita perché, nella maggior parte dei casi, reinietto i dati in una soluzione di visualizzazione dei dati. Per Tableau, l’esportazione in un file .hyper è particolarmente utile e per questo motivo apprezzo particolarmente Anatella per l’elaborazione complessa e Tableau Prep per l’elaborazione più leggera.

connectors Talend

Talend propone 16 modi per connettersi ai dati

Anatella connectors

Anatella propone 38 connettori differenti.

inout connectors Alteryx

Alteryx propone 32 diversi connettori dati.

Criterio n°4: funzioni di visualizzazione

Può sembrare del tutto inappropriato voler eseguire la visualizzazione dei dati in un ETL, ma è conveniente. Quando si esegue il data mining, essere in grado di visualizzare i dati è essenziale. E se si deve esportare il proprio set di dati ogni volta e aprire Tableau o Power BI, ci vuole tanta fortuna. Nella pipeline di seguito (creata con Anatella) vedete che ho una casella che mi permette di chiamare un grafico in R. Questo è molto utile perché mi permette di vedere direttamente quali risultati posso aspettarmi.

pipeline ETL anatella

Pipeline realizzata con Anatella nella quale ho inserito un box di visualizzazione per verificare velocemente il risultato.


Conclusione

Alla fine, penso che la scelta di un ETL debba basarsi su basi oggettive, dettate dalle esigenze degli utenti finali. Ogni contesto aziendale è diverso, così come i requisiti.

Il mio consiglio sarebbe di procedere come segue:

  1. Definire le funzionalità che consentiranno agli utenti di essere più efficienti
  2. Scegliere una serie di strumenti e testarli in un mondo “da laboratorio” per un periodo sufficientemente lungo
  3. Valutare ogni soluzione in base ai suoi criteri
  4. Fare la tua scelta

Questo approccio sembra essere molto più valido che affidarsi a un benchmark generale.

Sentitevi liberi di commentare e indicare i vostri criteri di scelta! Grazie.



Posted in Data e IT.

Pubblica la tua opinione

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *