29 Marzo 2021 1127 parole, 5 lettura minima Ultimo aggiornamento : 31 Agosto 2021

Data Wrangling: definizione, passaggi, strumenti [guida 2021]

Di Pierre-Nicolas Schwab Dottorato di ricerca in marketing, direttore di IntoTheMinds
‘Data wrangling’ potrebbe sembrare un termine tecnico piuttosto intimidatorio, ma chiunque può sviluppare una comprensione di questo processo con un po’ di tempo e impegno. Il data wrangling, noto anche come data munging, fa parte del più ampio processo di […]

‘Data wrangling’ potrebbe sembrare un termine tecnico piuttosto intimidatorio, ma chiunque può sviluppare una comprensione di questo processo con un po’ di tempo e impegno. Il data wrangling, noto anche come data munging, fa parte del più ampio processo dipreparazione dei dati“.  Il data wrangling è il processo eseguito per raccogliere, selezionare, ristrutturare, arricchire e infine trasformare le informazioni con l’obiettivo di rispondere a una domanda specifica. Questa domanda generale è di solito altamente analitica.

Il Data wrangling richiede una notevole quantità di tempo. Ad esempio, è risaputo che i data scientist trascorrono gran parte del loro tempo in attività di preparazione dei dati (più dell’80% del loro tempo, in realtà) e gran parte di queste attività di preparazione dei dati è focalizzata sulla “Disputa dei Dati”.


Sommario

data wrangling

Una breve spiegazione del data wrangling

Il Data Wrangling è l’insieme di operazioni che convertono i dati grezzi al fine di prepararli per l’analisi successiva da parte dei Data Wrangler, chiamati anche munger. Ciò significa cheil wrangling dei dati è il lavoro svolto sui dati prima che vengano scomposti da un’analisi approfondita. Il wrangling dei dati  comporta la valutazione della qualità dei dati rispetto al contesto e la loro conversione nel formato necessario per ulteriori analisi.


Se ti stai chiedendo se ne valga la pena, prova a pensare a questo processo come simile alle fondamenta necessarie per sostenere una casa.



Perchè il Data Wrangling è così importante

Il wrangling genera informazioni strutturate che possono essere utilizzate per impegnarsi in attività analitiche: creare una tabella di base analitica (o ABT in breve), eseguire analisi di serie temporali, creare KPI, creare dashboard di BI, creare modelli predittivi, ecc. La generazione di tali set di dati strutturati è intrinsecamente impegnativo. Tuttavia, se viene investito il tempo necessario per una gestione dei dati accurata e completa, si creano le solide basi necessarie per eseguire attività analitiche significative.

I passaggi del Data Wrangling

L’elaborazione dei dati a monte rende l’analisi (a valle) più veloce ed efficiente. Sebbene l’elaborazione dei dati sia un po’ noiosa, ne vale la pena.

L’elaborazione dei dati inizia con una fase di scoperta, che consente di acquisire familiarità con i dati. La strutturazione dei dati segue ovviamente la raccolta dei dati grezzi. Sebbene questi dati manchino di struttura, devono essere ristrutturati secondo il modello analitico scelto dall’azienda.

Il passaggio successivo è la pulizia dei dati, che comporta la “correzione” dei dati grezzi prima del passaggio successivo. La pulizia si concentra sulla gestione dei valori anomali, sulla correzione e sull’eliminazione dei dati errati.

L’arricchimento dei dati è il prossimo step. Questa è un’opportunità per aumentare i dati o integrarli al fine di servire le esigenze del business.

Una volta che i dati sono stati arricchiti, è il momento di convalidarli. La convalida dei dati aiuta a evidenziare potenziali problemi di qualità in modo che possano essere affrontati e trasformati se necessario. Il modo più semplice e veloce per convalidare i dati è utilizzare uno strumento di modellazione automatica: infatti, durante quasi tutte le attività di modellazione predittiva, tutte le incongruenze nei dati vengono direttamente a galla ed è quindi facile e immediato correggerle a monte. Con uno strumento di auto-ml, con pochi clic del mouse, si possono convalidare tutti gli ABT.


Le sfide del data wrangling

Quando vi impegnate in attività di gestione dei dati, manipolate i vostri dati con l’obiettivo principale di rispondere a una domanda specifica relativa alla vostra attività. Ciò significa che la trasformazione applicata ai dati sarà guidata dalla natura stessa delle domande aziendali che state cercando di risolvere. Significa anche che per impegnarsi in attività di data mining significative, è necessaria una buona comprensione del processo aziendale analizzato. Quindi, il più delle volte, scoprirete che gli “analisti di business” sono i profili più qualificati per svolgere attività di data wrangling perché sono quelli che “conoscevano meglio la vostra azienda” e sono quelli che “conoscevano perfettamente tutte le piccole sottigliezze delle fonti di dati”.

Se i “business analyst” sono i profili migliori per ottenere i migliori risultati dei dati, purtroppo spesso sono resistenti al codice. La gestione di dati complessi può quindi diventare rapidamente una sfida che avrà conseguenze in termini di efficienza. Così spesso la vera sfida per i data wrangler è semplicemente l’uso di codice barbaro e procedure incomprensibili che i data wrangler devono scrivere per ottenere i dati nella “forma corretta”. Se avete mai dovuto scrivere comandi SQL alti 3 schermi, sapete di cosa sto parlando…

Fortunatamente, esistono strumenti specializzati nell’elaborazione dei dati che consentono di creare qualsiasi trasformazione dei dati, non importa quanto complessa sia, non bisognerà scrivere neppure una sola riga di codice. Il “No Code” segnala il rilascio degli analisti aziendali. Questi strumenti sono gli ETL. In questo articolo ho delineato le funzionalità ETL che ritenevo le più importanti, e ho confrontato 4 soluzioni sul mercato.

Non è esagerato affermare che con i moderni strumenti No-Code, l’elaborazione dei dati diventa quasi un gioco.


Tecniche e strumenti per il Data Wrangling

Gli addetti ai lavori insistono sul fatto che la stragrande maggioranza degli analisti trascorre la maggior parte delle ore lavorative a manipolare i dati invece di analizzarli effettivamente. Storicamente, coloro che eseguivano il wrangling dei dati erano professionisti altamente tecnici esperti in linguaggi statistici come Python e R.

Il data wrangling viene effettuato utilizzando tecniche e strumenti specifici. Esempi di strumenti generici che possono essere utilizzati per la gestione dei dati includono il codice VBA del foglio di calcolo di Microsoft Excel, il codice R, il codice Python e il codice Perl. Viene utilizzato anche OpenRefine, una versione più avanzata di Microsoft Excel. In generale, quando si utilizza R, si utilizzeranno queste librerie: JSOnline (utile per l’analisi), Purrr (aiuta con le operazioni delle funzioni di elenco), DPlyr (strumento di framing per la manipolazione dei dati). Oggi esistono strumenti specializzati che si concentrano quasi interamente sulla manipolazione dei dati: Anatella (che fa parte della suite TIMi), Alteryx, Altair Monarch, ecc.


Il data wrangling ne vale davvero la pena?

Se vi state chiedendo se la gestione dei dati sia davvero necessaria, immaginate questo processo come gettare le fondamenta di una casa. La vostra casa non reggerà se le sue fondamenta non sono solide. Per analogia, i “prodotti” analitici (kpi, modelli, ecc.) saranno rilevanti solo se si basano su dati che hanno attraversato un solido processo di preparazione.

Investire tempo nella gestione dei dati (raccolta, pulizia, arricchimento, strutturazione delle informazioni da diverse fonti) aiuta a supportare il processo decisionale.

Sebbene il trattamento dei dati non sia facile, a mio avviso è fondamentale perché è alla base di tutte le iniziative “dati”.

 



Posted in Data e IT.

Pubblica la tua opinione

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *