Data wrangling: definitie, stappen, tools [gids 2021]

Data wrangling: definitie, stappen, tools [gids 2021]

De technische term “Data wrangling”, ook wel “Data munging” genoemd, lijkt op het eerste gezicht intimiderend. De bedoeling van dit artikel is om het woord te demystifiëren.

Data wrangling wordt gedefinieerd als een belangrijk onderdeel van een groter proces dat “gegevensvoorbereiding” heet. Het verwerken van gegevens is het proces van verzamelen, selecteren, structureren, verrijken en tenslotte transformeren van informatie om een specifieke vraag te beantwoorden. Deze overkoepelende vraag is gewoonlijk zeer analytisch. De verwerking van gegevens neemt veel tijd in beslag. Het is bijvoorbeeld bekend dat gegevenswetenschappers een groot deel van hun tijd (meer dan 80%) besteden aan gegevensvoorbereiding en dat een groot deel daarvan gaat naar “data wrangling”.


Samenvatting

data wrangling

Data wrangling in het kort

Data wrangling is het proces waarbij ruwe gegevens worden omgezet om ze klaar te maken voor verdere analyse door data wranglers, ook wel mungers genoemd. Dit betekent dat gegevensverwerking het werk is dat op de gegevens wordt verricht voordat zij via verdere analyse worden uitgesplitst. De gegevensverwerking houdt in dat de kwaliteit van de gegevens wordt beoordeeld op basis van de context en dat de gegevens worden omgezet in het formaat dat nodig is voor verdere analyse.


Als u zich afvraagt of het data wrangling echt nodig is, beschouw het proces dan als het leggen van de fundering voor een huis.



Waarom is gegevensverwerking zo belangrijk?

Gegevensverwerking genereert gestructureerde informatie die gebruikt kan worden bij analytische activiteiten:

  • Maken van een analytische basistabel (ABT)
  • Analyse van chronologische reeksen
  • Opstellen van kritieke prestatie-indicatoren (KPI’s)
  • Creatie van dashboards (Business Intelligence)
  • Creatie van voorspellende modellen

Het genereren van dergelijke gestructureerde gegevensreeksen is een uitdaging op zich. Maar door de nodige tijd te investeren in een nauwgezette en volledige gegevensverwerking wordt de solide basis gelegd die nodig is om zinvolle analytische taken uit te voeren.

Stappen in data wrangling

Door de gegevens stroomopwaarts te verwerken verloopt de analyse (stroomafwaarts) sneller en efficiënter. Hoewel de verwerking van de gegevens vervelend is, is het zeker de moeite waard.

De gegevensverwerking begint met een ontdekkingsfase, waarin u zich vertrouwd kunt maken met de gegevens. Het structureren van de gegevens volgt uiteraard op het verzamelen van de ruwe gegevens. Omdat er bij deze gegevens structuur ontbreekt, moeten zij geherstructureerd worden volgens het door het bedrijf gekozen analytische model.

De volgende stap is het opschonen van de gegevens, wat bestaat uit het “corrigeren” van de ruwe gegevens voordat ze naar de volgende stap gaan. Bij het opschonen ligt de nadruk op het verwerken van uitschieters, correcties en het verwijderen van slechte gegevens.

Vervolgens komt de verrijking van de gegevens. Dit is de gelegenheid om de gegevens te “vergroten”, ze aan te vullen om aan de behoeften van het bedrijf te voldoen

Zodra de gegevens verrijkt zijn, is het tijd om ze te valideren. Door de gegevens te valideren kunnen potentiële kwaliteitsproblemen aan het licht worden gebracht, zodat ze zo nodig kunnen worden aangepakt en behandeld. De gemakkelijkste en snelste manier om uw gegevens te valideren is het gebruik van een tool voor automatische modellering: tijdens bijna alle activiteiten op het gebied van voorspellende modellen komen eventuele inconsistenties in de gegevens immers direct aan de oppervlakte, en het is dan gemakkelijk en ongecompliceerd om ze stroomopwaarts te corrigeren. Met een tool voor automatische modellering kunt u al uw TBA’s valideren met een paar muisklikken.


De uitdagingen van data wrangling

Wanneer u aan data wrangling doet, manipuleert u uw gegevens met als hoofddoel een specifieke vraag in verband met uw bedrijf te beantwoorden. Dit betekent dat de transformatie die op uw gegevens wordt toegepast, zal worden bepaald door de aard van de bedrijfsvragen waar u een antwoord op zoekt. Om zinvolle dataminingactiviteiten te kunnen verrichten, betekent dit ook dat een goed begrip nodig is van het bedrijfsproces dat geanalyseerd wordt. Meestal zult u dus merken dat “bedrijfsanalisten” de meest gekwalificeerde profielen zijn om aan gegevensbewerking te doen, omdat zij degenen zijn die “uw bedrijf en “alle kleine bijzonderheden van uw gegevensbronnen perfect kennen”.

Hoewel bedrijfsanalisten de beste profielen zijn om uw gegevens te laten praten, zijn zij helaas vaak leken op het vlak van codes. Het verwerken van complexe gegevens kan dus al snel een uitdaging worden, die gevolgen zal hebben voor de efficiëntie. De echte uitdaging voor data wranglers is dus vaak gewoon en ruwe code en onbegrijpelijke procedures schrijven om de gegevens in de “juiste vorm” te krijgen. Als u ooit SQL-commando’s van 3 schermen hoog hebt moeten schrijven, weet u wat ik bedoel…

Gelukkig zijn er gespecialiseerde gegevensverwerkingsprogramma’s die elke gegevenstransformatie, hoe ingewikkeld ook, kunnen maken zonder ook maar één regel code te schrijven. De “No Code” klinkt als de bevrijding van de bedrijfsanalisten. Deze hulpmiddelen zijn ETL’s. In dit artikel heb ik de ETL eigenschappen beschreven die ik het belangrijkst vond, en in dit andere artikel heb ik 4 oplossingen op de markt vergeleken.

Het is niet overdreven te zeggen dat met de moderne No-Code hulpmiddelen, gegevensverwerking bijna een spel wordt.


Technieken en hulpmiddelen voor gegevensverwerking

Insiders beweren dat de overgrote meerderheid van de analisten het grootste deel van hun werktijd besteden aan het manipuleren van gegevens in plaats van ze werkelijk te analyseren. Historisch gezien waren gegevensverwerkers hoogopgeleide professionals die talen als Python en R beheersten. Het waren dus in de eerste plaats ontwikkelaars. De generatie van “No-Code” ETL’s heeft daar verandering in gebracht.

Data wrangling gebeurt met specifieke technieken en hulpmiddelen. Voorbeelden van generiek te gebruiken hulpmiddelen data wrangling zijn Microsoft Excel spreadsheet VBA code, R code, Python code en Perl code. Ook OpenRefine, een meer geavanceerde versie van Microsoft Excel, wordt gebruikt. In het algemeen zult u, wanneer u R gebruikt, deze bibliotheken gebruiken: JSOnline (nuttig bij parsing), Purrr (hulp bij lijstfunctie-bewerkingen), DPlyr (tool voor gegevensmanipulatie). Tegenwoordig zijn er gespecialiseerde hulpmiddelen die zich bijna volledig richten op gegevensmanipulatie: Anatella (deel van de TIMi Suite), Alteryx, Altair Monarch, enz.


Data wrangling: is het de moeite waard?

Als u zich afvraagt of het data wrangling echt nodig is, beschouw het proces dan als het leggen van de fundering voor een huis. Uw huis zal niet blijven staan zonder stevige fundering. Naar analogie zullen uw analytische “producten” (kpi’s, modellen, enz.) alleen relevant zijn als ze gebaseerd zijn op gegevens die een degelijk voorbereidingsproces hebben doorlopen.

Tijd investeren in data wrangling (verzamelen, opschonen, verrijken, structureren van informatie uit meerdere bronnen), ondersteunt uw besluitvormingsproces.

Hoewel data wrangling niet gemakkelijk is, is het naar mijn mening onmisbaar, omdat het de basis is van al uw activiteiten met betrekking tot data.


Geplaatst in Data en IT.