Wanneer we het over data preparation hebben, is er wellicht geen betere manier dan te beginnen met een vaststelling. In de wereld van de data is er een regel die iedereen kent: 80% van de tijd van een datawetenschapper gaat naar het voorbereiden van zijn data; slechts 20% gaat naar het werken eraan, vooral het visualiseren ervan. In dit artikel zoomen we in op data preparation: de meest voorkomende problemen, tools en trends. Op weg naar een nieuw datavontuur!
Samenvatting
- Inleiding
- Voorbereiding van de gegevens: definitie
- De 5 stappen van data preparation
- Tools voor data preparation
- Weerkerende problemen bij data preparation
Inleiding
Het is u ongetwijfeld opgevallen dat gegevens tegenwoordig alomtegenwoordig en de drijvende kracht achter de digitale innovatie zijn. De verveelvoudiging van toepassingen, de groeiende impact van het internet in ons leven, de opkomst van het internet van de dingen, … Het zijn allemaal factoren die verklaren waarom er zich specifieke activiteiten ontwikkelen rond data. Er zijn dus ook nieuwe functies opgedoken in de IT-dienstverlening: data-engineer (Engelse site) datavisualisatiespecialist, datawetenschapper. Elk van hen is betrokken bij verschillende stadia van het gegevensvalorisatieproces. Maar ze hebben allemaal een gemeenschappelijke behoefte, namelijk kwaliteitsvolle gegevens. En het is daar dat data preparation een rol speelt.
3 tips om een tool voor data preparation te kiezen (ETL)
- Kies een tool met veel invoeraansluitingen
- Het is belangrijk om veel functionaliteiten te hebben om de gegevens te transformeren. ETL’s werken vaak met “boxen” die met elkaar verbonden worden. Zorg er dus voor dat de ETL die u kiest zeer compleet is voor deze dozen.
- Koppelingen zijn bijzonder belangrijk. Kies een tool die verschillende soorten koppelingen heeft. Een koppeling met fuzzy matching is vaak erg nuttig en zou deel moeten uitmaken van de aangeboden functies.
Data preparation: definitie
De term “data preparation” verwijst naar bewerkingen die worden uitgevoerd op ruwe gegevens om deze analyseerbaar te maken.
Data preparation is vaak vervelend en omvat het importeren van gegevens, het controleren van de consistentie ervan, het corrigeren van kwaliteitsproblemen en, indien nodig, het toevoegen van andere datasets. Elke stap is belangrijk en vereist het gebruik van specifieke functionaliteiten, vooral op het moment van de gegevenstransformatie.
Data preparation = de bewerkingen die op ruwe gegevens worden uitgevoerd om deze analyseerbaar te maken
De 5 stappen van data preparation
Laten we eerlijk zijn, er is geen unieke “workflow” en ik pretendeer niet de absolute waarheid te vertellen over data preparation. Op basis van mijn ervaringen heb ik gewoonweg geprobeerd om weerkerende taken te groeperen in logische stappen. Of er 5, 6 of 7 zijn is uiteindelijk van weinig belang. Waar het om gaat, is dat u de inhoud van elke actie begrijpt.
Importeren of verwerven van gegevens
De eerste stap is het “verwerven” van de gegevens die nodig zijn voor het werk. Deze gegevens kunnen van verschillende plaatsen komen, verschillende formaten hebben. Het is daarom belangrijk om een instrument met meerdere koppelingen te gebruiken, zodat u niet vast komt te zitten. Hoewel platte bestanden een van de meest voorkomende formaten zijn, mogen we zeker niet voorbijgaan aan meer exotische formaten. In dit voorbeeld van data preparation uit bestanden die zijn geëxtraheerd uit LinkedIn, moesten naast .har- en json-bestanden ook platte bestanden (in csv-formaat) worden voorbereid. Als het gaat om het importeren van gegevens, moet u voorbereid zijn op alle eventualiteiten!
Ontdekking
De tweede fase is behoorlijk boeiend. Het gaat om het ontdekken van de gegevens, het verkennen ervan. Het doel in dit stadium is niet om de correlaties te analyseren, maar eerder om te zoeken naar fouten die hier en daar zijn binnengeslopen. Het is belangrijk om de lege velden, de gegevensformaten te identificeren. Een snelle visualisatie is hiervoor nuttig, omdat u dan meteen kunt zien of het gegevensformaat goed is (probeer een grafiek te maken als uw gegevens in tekst zijn opgeslagen). Als ik Anatella gebruik, vind ik het handig dat ik met één klik beschrijvende statistieken van de gegevens kan krijgen. Daardoor kan ik direct verkeerde categorieën, uitschieters en vooral “Null” opsporen. Maak gebruik van deze ontdekkingsstap om een paar eenvoudige tests uit te voeren om minder voor de hand liggende problemen op te sporen om in de volgende stap te corrigeren. Gebruik bijvoorbeeld sorteerfuncties om duplicaten op te sporen.
Schoonmaken van gegevens
In de 3e stap van de data preparation (ook wel “data prep” genoemd om professioneel over te komen) moeten de gegevens worden georganiseerd en opgeschoond. Wat ik in dit stadium doe, is de kolommen reorganiseren en hernoemen en zo nodig overbodige kolommen verwijderen. Zo heeft u de beschikking over een datamodel en de eerste steen van uw UML-diagram. Dan is het tijd om meer in detail te gaan. Tijdens de ontdekkingsfase heeft u al de meest voor de hand liggende formaatproblemen kunnen corrigeren. Nu is het tijd om de minder voor de hand liggende problemen naar voren te brengen. Ik denk hierbij bijvoorbeeld aan problemen met duplicaten (ontdubbeling), datascheiding. Het opschonen van gegevens kan ook een “transformatie”-onderdeel bevatten. U kunt bijvoorbeeld een categorie gegevens opsporen die moet worden aangepast om bruikbaar te zijn). Als uw dataset uitschieters bevat, zijn transformaties nuttig om toch uw waardevolle gegevens te kunnen exploiteren.
Verrijking
Dataverrijking (steeds meer “data wrangling” of “data munging” genoemd) bestaat uit het “augmenteren” van uw dataset met externe gegevens. Om dit te doen, moet u een koppeling maken. Er zijn verschillende soorten koppelingen. Wat ik handig vind aan een tool als Anatella is de mogelijkheid om te kiezen tussen verschillende soorten koppelingen. Een ervan is bijzonder uniek omdat het een koppeling van het type “fuzzy matching” is. Deze functie is zo uniek dat ik zelfs een artikel heb geschreven waarin ik de processen tussen Anatella, Alteryx en Tableau Prep met elkaar vergelijk. Eenvoudige koppelingen (wanneer alle data zijn opgeschoond) kunnen direct in uw datavisualisatie-oplossing worden gedaan (bekijk hier onze dataviz-handleiding). Er zijn voor- en nadelen aan een dergelijke praktijk. Wat mij betreft bereid ik mijn gegevens het liefst voor in één softwarepakket, en als het proces is afgerond, start ik met het analysewerk.
Publicatie
Als alles eenmaal goed georganiseerd, opgeruimd en verrijkt is, hoeft alleen nog maar de laatste dataset te worden gepubliceerd. Meestal worden de gegevens gewoon “gepushed” naar de Cloud of geëxporteerd. Afhankelijk van hoe u de gegevens na de data preparation gaat gebruiken, kan het nuttig zijn om te kiezen voor een export in een geoptimaliseerd gegevensformaat. Als u bijvoorbeeld zoals ik met Tableau werkt, is het aan te raden om de bestanden te exporteren in .hyper-formaat. De ETL die ik gebruik (Anatella) was de eerste ETL waarvan ik weet dat ze over een uitvoer in dit formaat beschikt.
Data preparation: tools
Hoewel sommige hardcore ontwikkelaars nog altijd liever alles met de hand doen met coderegels, heb ik allang gekozen voor “no code”-oplossingen die veel efficiënter zijn. Wat mij betreft, kies ik voor Tableau Prep, Alteryx en Anatella. Maar sommige mensen zweren bij Talend, Azure Data Factory, Informatica Power Center. Zoals u kunt zien, zijn de instrumenten legio en dat kan het probleem zijn. Er zijn er zoveel dat de keuze moeilijk wordt.
Als u op zoek bent naar een gratis oplossing, adviseer ik u Anatella, op de markt gebracht door het bedrijf Timi. Ik ben fan en ik leer ook mijn 11-jarige zoon om het te gebruiken. Hij maakt enkele demo’s in video’s over verschillende dataproblemen (datascheiding, ontdubbeling, (Franse video’s)).
Voor sommige specifieke punten van de gegevensvoorbereiding bestaan er alternatieve oplossingen. Een koppeling kan bijvoorbeeld worden uitgevoerd in een ETL of direct in de meeste datavisualisatie-oplossingen. De keuze is aan u. Zie onderstaande tabel om de nadelen van beide benaderingen te zien.
Voordelen | Nadelen | |
Koppeling in een software voor data preparation (ETL) | U kunt alle aspecten van de gegevensvoorbereiding op één plaats beheren. Vooral het opschonen van gegevens is niet altijd mogelijk in datavisualisatiesoftware. Alleen de eenvoudigste bewerkingen zijn mogelijk in een dataviz-software. | Als u een fout heeft gemaakt (ontdekt in de visualisatiesoftware), moet u uw ETL opnieuw openen en de gegevens opnieuw exporteren. |
Koppeling in datavisualisatiesoftware | Het gemak: u maakt de koppeling en u kunt het resultaat direct zien. Het is niet nodig, zoals bij ETL-software, om gegevens in een tussenformaat te exporteren | Onmogelijk om complexe transformaties op de gegevens uit te voeren. In PowerBI of Tableau kunt u dataformaten wijzigen, data scheiden die in dezelfde kolom staan, maar dat is het dan ook. |
Wat is ETL (Extract – Transform – Load)?
ETL-software, of Extract-Transform-Load, wordt gebruikt om alle aspecten van de data preparation te kunnen beheren:
Extract: gegevens uit een bestand halen, ongeacht het formaat Transform: gegevens opschonen en transformeren om ze bruikbaar te maken Load: gegevens exporteren en laden in een omgeving waar ze beschikbaar zijn voor de volgende stap van de valorisatie
Data preparation: weerkerende problemen
Ik heb geprobeerd om hieronder een aantal van de meest voorkomende problemen op te lijsten, die u kunt tegenkomen bij data preparation.
Probleem | Beschrijving | Oplossing |
Dubbels | De gegevens worden in de dataset herhaald, wat tot analysefouten kan leiden | ontdubbeling van gegevens op een of meer velden (zie deze video (Frans)) |
Koppeling | Koppeling van 2 of meer datasets door middel van een verbindingssleutel. | ETL’s hebben over het algemeen verschillende soorten koppelingen. Anatella biedt bijvoorbeeld 6 soorten koppelingen, waarvan één een erg handige fuzzy matching is. |
Spellingsverschillen | Gebruikers hebben de gegevens (naam, voornaam, stad) op verschillende manieren ingevoerd, wat analyse onmogelijk maakt. | Correctie op basis van woordenboek of fuzzy matching (zie dit artikel voor meer informatie over fuzzy matching) |
Formaatverschillen | Het meest voorkomende probleem is het gebruik van een punt in plaats van een komma bij decimalen in de Angelsaksische wereld | Aanpassing van regionale formaten op het moment van gegevensinvoer of aanpassing achteraf. In BI-tools is het mogelijk om het regionale formaat te specificeren wanneer gegevens worden geïmporteerd. |
Cijfers opgeslagen als tekst | Fout die vaak voorkomt door de aanwezigheid van spaties of andere tekens die formaatherkenning verhinderen. | Elimineer de tekens die het veld (al dan niet zichtbaar) “vervuilen” en wijzig vervolgens het formaat. In BI-tools kunt u het commando “splitsen” (uitpakken in PowerBI) gebruiken. In ETL’s zoals Anatella is de operatie nog eenvoudiger omdat onnodige karakters kunnen worden verwijderd op het moment dat de gegevens worden geïmporteerd. |
Codeerverschil | “Text encoding” die verandert tussen 2 bestanden die in hetzelfde proces moeten worden verwerkt (bijvoorbeeld Latin1/iso8859 en utf-8). | Specificatie van de coderingsmethode bij de invoer van de gegevens |
Spaties in cellen | Zeer vaak voorkomend probleem, maar moeilijk op te sporen omdat de ruimte niet altijd in alle cellen aanwezig is. | Verwijdering van ongewenste spaties bij het importeren van gegevens. Gebruik in Anatella de optie “Trim”. |
Geplaatst in Diverse.